일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 2
- 컴퓨터공학
- 웹개발
- 소프트웨어공학
- 데이터구조
- Yes
- 사이버보안
- 버전관리
- 데이터과학
- 코딩
- 인공지능
- 컴퓨터비전
- 빅데이터
- 알고리즘
- I'm Sorry
- 자료구조
- 클라우드컴퓨팅
- 컴퓨터과학
- 보안
- 머신러닝
- 데이터분석
- 프로그래밍
- 프로그래밍언어
- 소프트웨어
- 딥러닝
- 데이터베이스
- 네트워크보안
- 파이썬
- 자바스크립트
- 네트워크
- Today
- Total
목록분산처리 (2)
스택큐힙리스트
Spark는 리듀스 작업의 수를 계산하기 위해 어떤 공식을 사용하나요? 저는 몇 개의 Spark-sql 쿼리를 실행하고 있는데, 리듀스 작업의 수는 항상 200입니다. 이러한 쿼리의 맵 작업 수는 154입니다. 저는 Spark 1.4.1을 사용하고 있습니다. 이것은 기본적으로 200으로 설정된 spark.shuffle.sort.bypassMergeThreshold와 관련이 있나요?답변 1당신이 원하는 것은 spark.sql.shuffle.partitions 입니다. Spark SQL 성능 튜닝 가이드에 따르면: | 속성 이름 | 기본값 | 의미 | +-----------------------------+-------+----------------------------------------------+ |..
학습 스파크에 따르면 데이터를 다시 파티션하는 것은 비용이 많이 드는 작업임을 염두에 두어야합니다. Spark는 데이터 이동을 피할 수있는 repartition()라는 최적화 된 버전인 coalesce()도 갖고 있지만, RDD 파티션 수를 감소시킬 때만 사용할 수 있습니다. 하나의 차이점은 repartition()을 사용하여 파티션 수를 늘리거나 줄일 수 있지만, coalesce()는 파티션 수를 감소시킬 수만 있습니다. 파티션이 여러 대의 기계에 분산되어 있고 coalesce()가 실행되는 경우 데이터 이동을 어떻게 피할 수 있습니까?답변 1전체 셔플을 피합니다. 숫자가 감소하고 있다는 것을 알고 있다면 Executor는 데이터를 최소한의 파티션에 유지하고, 남은 노드에서 데이터를 이동해서 유지합니다..