반응형
Notice
Link
목록고장허용성 (1)
스택큐힙리스트
(왜) 우리는 RDD에 대해 캐시(cache) 또는 지속성(persist)을 호출해야 할까요?
강건한 분산 데이터 세트 (RDD)가 텍스트 파일이나 컬렉션 (또는 다른 RDD)으로부터 생성될 때 RDD 데이터를 메모리에 저장하기 위해 명시적으로 cache 또는 persist를 호출해야 할까요? 아니면 RDD 데이터는 기본적으로 분산 방식으로 메모리에 저장되나요? val textFile = sc.textFile(/user/emp.txt) 내가 이해한대로 위 단계 이후에 textFile은 RDD이며 모든/일부 노드의 메모리에서 사용 가능합니다. 그렇다면 왜 cache 또는 persist를 textFile RDD에 호출해야 할까요?답변 1RDD의 대부분의 작업은 지연됩니다. RDD를 작업들의 설명으로 생각해보세요. RDD는 데이터가 아닙니다. 그래서 이 라인: val textFile = sc.textF..
카테고리 없음
2023. 11. 30. 00:26