반응형
Notice
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 딥러닝
- 네트워크보안
- 파이썬
- Yes
- 컴퓨터공학
- 소프트웨어공학
- 자료구조
- 컴퓨터비전
- 컴퓨터과학
- 데이터분석
- 버전관리
- 자바스크립트
- 네트워크
- 빅데이터
- 코딩
- 프로그래밍
- 데이터구조
- 머신러닝
- I'm Sorry
- 인공지능
- 보안
- 2
- 웹개발
- 알고리즘
- 사이버보안
- 소프트웨어
- 데이터과학
- 데이터베이스
- 클라우드컴퓨팅
- 프로그래밍언어
Archives
- Today
- Total
스택큐힙리스트
스파크-CSV를 사용하여 단일 CSV 파일을 작성합니다. 본문
반응형
나는 https://github.com/databricks/spark-csv를 사용하고 있습니다. 단일 CSV를 작성하려고 시도하고 있지만, 폴더를 만들고 있습니다.
경로와 파일 이름과 같은 매개변수를 받아 해당 CSV 파일을 작성하는 스칼라 함수가 필요합니다.
답변 1
파일을 만드는 중입니다. 각 파티션은 개별적으로 저장되기 때문에 여러 파일이 들어있는 폴더가 생성됩니다. 하나의 출력 파일 (여전히 폴더 안에 있는)이 필요한 경우 repartition
을 사용할 수 있습니다(상위 스트림 데이터가 큰 경우에 권장되며 셔플이 필요합니다):
df
.repartition(1)
.write.format(com.databricks.spark.csv)
.option(header, true)
.save(mydata.csv)
또는 coalesce
를 사용할 수 있습니다:
df
.coalesce(1)
.write.format(com.databricks.spark.csv)
.option(header, true)
.save(mydata.csv)
저장하기 전의 데이터 프레임:
모든 데이터가 mydata.csv/part-00000
에 작성됩니다. 이 옵션을 사용하기 전에 모든 데이터를 단일 워커로 전송하는 과정과 비용을 이해해야합니다. 복제가있는 분산 파일 시스템을 사용하는 경우 데이터는 여러 번 전송됩니다-먼저 단일 워커로 가져온 다음 저장 노드에 분산됩니다.
또는 코드를 변경하지 않고 일반적인 도구인 cat
이나 HDFS getmerge
와 같은 도구를 사용하여 나중에 모든 부분을 간단히 병합할 수도 있습니다.
답변 2
제목: 스파크-csv를 이용한 단일 CSV 파일 작성하기SEO를 고려한 키워드: 스파크-csv, 한국어, 단일 CSV 파일, 작성하기
안녕하세요! 오늘은 스파크-csv를 이용하여 한 개의 단일 CSV 파일을 작성하는 방법에 대해 알아보려고 합니다. 스파크-csv는 스파크 기반의 데이터 프로세싱 및 분석 도구로서, CSV 파일 형식을 다룰 때 유용하게 이용됩니다.
먼저, 스파크-csv를 사용하기 위해서는 우선 스파크 환경을 설정해야 합니다. 스파크는 대량의 데이터를 다루는 빅데이터 처리에 최적화된 오픈 소스 프레임워크로서, 한글을 포함한 다양한 언어를 지원합니다.
스파크-csv를 사용하여 단일 CSV 파일을 작성하기 위해서는 데이터프레임(DataFrame)을 생성한 후, 이를 CSV 파일로 저장하는 과정을 거쳐야 합니다. 데이터프레임은 테이블 형태로 구성된 스파크의 기본 데이터 구조로서, 다양한 작업의 편리성을 제공합니다.
다음은 스파크-csv를 이용하여 단일 CSV 파일을 작성하는 예시 코드입니다.
```scala
// 스파크-csv 라이브러리를 import합니다.
import com.databricks.spark.csv._
// CSV 파일로 저장할 데이터프레임을 생성합니다.
val data = Seq((사과, 1000원), (바나나, 2000원), (딸기, 3000원)).toDF(과일, 가격)
// 데이터프레임을 CSV 파일로 저장합니다.
data.write.format(csv).option(header, true).save(경로/파일명.csv)
```
이 예제에서는 데이터프레임을 생성하여 과일과 가격이라는 두 개의 컬럼을 가지도록 설정하였습니다. 그리고 해당 데이터프레임을 CSV 파일로 저장하고자 할 경우, write 메서드를 이용하여 csv 포맷으로 지정한 뒤, header 옵션을 통해 컬럼명을 포함할지 결정하고, save 메서드를 통해 CSV 파일을 저장하는 것을 확인할 수 있습니다. 파일 경로와 파일명은 실제 사용 시에 맞게 변경하여 사용하시기 바랍니다.
스파크-csv를 사용하여 단일 CSV 파일을 작성하는 방법에 대해 알아보았습니다. 스파크-csv는 빅데이터 처리에서 많이 이용되는 도구로서, 한국어와 같은 다국어 데이터를 다룰 때도 효과적입니다. 이러한 기능을 활용하여 데이터 분석 및 처리 작업을 할 때 유용하게 활용해 보세요.
반응형
Comments