| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- I'm Sorry
- 데이터분석
- 컴퓨터비전
- 파이썬
- 웹개발
- 소프트웨어공학
- 데이터과학
- 빅데이터
- 클라우드컴퓨팅
- 데이터구조
- 보안
- 컴퓨터공학
- 알고리즘
- 디자인패턴
- 네트워크보안
- 자료구조
- springboot
- 인공지능
- Yes
- 머신러닝
- 자바스크립트
- 소프트웨어
- 네트워크
- 데이터베이스
- 컴퓨터과학
- 딥러닝
- 프로그래밍
- 프로그래밍언어
- 버전관리
- 사이버보안
- Today
- Total
목록2023/11 (336)
스택큐힙리스트
저는 Apache Spark 클러스터를 구성하고 있습니다. 1개의 마스터와 3개의 슬레이브로 클러스터를 실행할 때, 마스터 모니터 페이지에서 다음과 같이 표시됩니다: 메모리 2.0 GB (512.0 MB 사용 중) 2.0 GB (512.0 MB 사용 중) 6.0 GB (512.0 MB 사용 중) 저는 작업자들의 사용 중인 메모리를 늘리고 싶지만, 이에 대한 올바른 설정을 찾지 못했습니다. 다음과 같이 spark-env.sh를 변경했습니다: export SPARK_WORKER_MEMORY=6g export SPARK_MEM=6g export SPARK_DAEMON_MEMORY=6g export SPARK_JAVA_OPTS=-Dspark.executor.memory=6g export JAVA_OPTS=-Xm..
나는 hdfs 위치에서 여러 개의 텍스트 파일을 읽고 spark를 사용하여 반복적으로 매핑하고 싶습니다. JavaRDD records = ctx.textFile(args[1], 1);은 한 번에 하나의 파일만 읽을 수 있습니다. 나는 두 개 이상의 파일을 읽고 하나의 RDD로 처리하려고 합니다. 어떻게 해야 할까요?답변 1전체 디렉토리를 지정하거나, 와일드카드를 사용하거나, 디렉토리와 와일드카드의 CSV를 사용할 수 있습니다. 예를 들면: sc.textFile(/내/디렉토리1,/내/경로/파트-00[0-5]*,/다른/디렉토리,/특정/파일) Nick Chammas가 가리키는 바에 따르면 이것은 Hadoop의 FileInputFormat의 노출이므로 Hadoop (및 Scalding)에서도 작동합니다.답변 2..
Reading Spark method sortByKey : sortByKey([ascending], [numTasks]) K를 Ordered를 구현한 (K, V) 쌍 데이터셋에 대해서 호출될 때, boolean ascending 인수에 지정한 대로 키를 오름차순 또는 내림차순으로 정렬된 (K, V) 쌍 데이터셋을 반환합니다. 결과를 N개만 반환하는 것이 가능한가요? 모든 결과를 반환하는 대신, 상위 10개만 반환하도록 할 수 있을까요? 정렬된 컬렉션을 배열로 변환하고 take 메소드를 사용할 수 있지만, 이는 O(N) 연산이기 때문에 더 효율적인 방법이 있을까요?답변 1만약 상위 10개만 필요하다면 rdd.top(10)을 사용하세요. 정렬을 피하기 때문에 더 빠릅니다. rdd.top은 데이터를 병렬로 하..
이것은 다른 포럼에서 답변을 받지 못한 남의 질문의 사본입니다. 그래서 같은 문제를 가지고 있다고 여기에서 다시 물어보려고 생각했습니다. (http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 참조) 제 컴퓨터에는 Spark가 올바르게 설치되어 있으며, ./bin/pyspark를 Python 인터프리터로 사용하여 pyspark 모듈을 사용하여 파이썬 프로그램을 오류 없이 실행할 수 있습니다. 그러나 보통의 Python 쉘을 실행하려고 할 때, pyspark 모듈을 가져오려고하면 다음과 같은 오류가 발생합니다: from pyspark import SparkContext 그리고 다음과 같이 나옵니다 No module named pyspark. 이것을 어떻게..