반응형
Notice
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 소프트웨어공학
- 데이터과학
- 네트워크
- 데이터분석
- 인공지능
- 프로그래밍언어
- 컴퓨터비전
- 프로그래밍
- 빅데이터
- I'm Sorry
- Yes
- 사이버보안
- 클라우드컴퓨팅
- 파이썬
- 머신러닝
- 자바스크립트
- 2
- 컴퓨터공학
- 데이터구조
- 소프트웨어
- 자료구조
- 알고리즘
- 네트워크보안
- 웹개발
- 컴퓨터과학
- 버전관리
- 보안
- 코딩
- 딥러닝
- 데이터베이스
Archives
- Today
- Total
목록리파티션 (1)
스택큐힙리스트
Spark - repartition() vs coalesce()스파크 - repartition() 대 coalesce()
학습 스파크에 따르면 데이터를 다시 파티션하는 것은 비용이 많이 드는 작업임을 염두에 두어야합니다. Spark는 데이터 이동을 피할 수있는 repartition()라는 최적화 된 버전인 coalesce()도 갖고 있지만, RDD 파티션 수를 감소시킬 때만 사용할 수 있습니다. 하나의 차이점은 repartition()을 사용하여 파티션 수를 늘리거나 줄일 수 있지만, coalesce()는 파티션 수를 감소시킬 수만 있습니다. 파티션이 여러 대의 기계에 분산되어 있고 coalesce()가 실행되는 경우 데이터 이동을 어떻게 피할 수 있습니까?답변 1전체 셔플을 피합니다. 숫자가 감소하고 있다는 것을 알고 있다면 Executor는 데이터를 최소한의 파티션에 유지하고, 남은 노드에서 데이터를 이동해서 유지합니다..
카테고리 없음
2023. 11. 30. 00:26