카테고리 없음

PySpark로 CSV 파일을 로드하세요.

스택큐힙리스트 2023. 11. 29. 00:02
반응형

저는 Spark에 새로 온 초보자이고 Spark에서 CSV 데이터를 파일로부터 읽으려고 시도하고 있습니다.
다음과 같이하고 있습니다 :


sc.textFile('file.csv')
.map(lambda line: (line.split(',')[0], line.split(',')[1]))
.collect()

이 호출로 파일의 처음 두 열의 목록을 제공받을 것으로 기대하지만 다음과 같은 오류가 발생합니다 :



File , line 1, in
IndexError: list index out of range



하지만 내 CSV 파일에는 한개 이상의 열이 있습니다.

답변 1

df = (
sqlContext
.read.format(com.databricks.spark.csv)
.option(header, true)
.option(inferschema, true)
.option(mode, DROPMALFORMED)
.load(some_input_file.csv)
)

이 코드는 로딩, 스키마 추론, 잘못된 줄 삭제 등을 처리할 수 있으며, Python에서 JVM으로 데이터를 전달하는 것이 필요하지 않습니다.


참고:


만약 스키마를 알고 있다면 스키마 추론을 피하고 DataFrameReader에 전달하는 것이 더 좋습니다. 예를 들어 세 개의 컬럼 - 정수, 실수, 문자열이 있다고 가정해봅시다:

from pyspark.sql.types import StructType, StructField
from pyspark.sql.types import DoubleType, IntegerType, StringType
스키마 = StructType([
StructField(A, IntegerType()),
StructField(B, DoubleType()),
StructField(C, StringType())
])
(
sqlContext
.read
.format(com.databricks.spark.csv)
.schema(스키마)
.option(header, true)
.option(mode, DROPMALFORMED)
.load(some_input_file.csv)
)

답변 2

파이스파크(Python + Spark)를 사용하여 CSV 파일을 로드하는 방법에 대해 알아보겠습니다.
CSV(Comma Separated Value) 파일은 텍스트 형식으로 데이터를 저장하는데 널리 사용되는 형식입니다. 파이스파크는 대량의 데이터를 처리하는 빅데이터 애플리케이션을 구축하는 데 사용되는 도구입니다. 따라서 파이스파크를 사용하여 CSV 파일을 로드하는 것은 데이터 처리 및 분석을 위해 중요한 첫 단계입니다.
파이스파크에서 CSV 파일을 로드하려면 다음 단계를 따릅니다:
1. 스파크 라이브러리를 임포트합니다.
```python
from pyspark.sql import SparkSession
```
2. 스파크 세션을 생성하고 애플리케이션 이름을 지정합니다.
```python
spark = SparkSession.builder.appName(CSV_Load).getOrCreate()
```
3. CSV 파일의 경로를 지정하고 DataFrame으로 로드합니다.
```python
data_frame = spark.read.csv(file_path.csv, header=True, inferSchema=True)
```
여기서 file_path.csv는 로드하려는 CSV 파일의 경로입니다. header=True는 첫 번째 줄을 열 이름으로 사용하고 inferSchema=True는 스파크가 열 유형을 자동으로 감지하도록 합니다.
4. 로드한 데이터를 확인합니다.
```python
data_frame.show()
```
이제 파이스파크를 사용하여 CSV 파일을 성공적으로 로드했습니다. 이로써 데이터를 처리하고 분석하는 다양한 스파크 기능을 활용할 수 있습니다. 대량의 데이터를 처리하거나 복잡한 분석을 수행하는 데 파이스파크를 사용하는 것은 데이터 과학자나 엔지니어에게 매우 유용한 도구입니다.
이러한 방법을 사용하여 파이스파크를 통해 CSV 파일을 로드하는 방법에 대해 알아보았습니다. 파이스파크를 사용하여 데이터 처리 및 분석 작업을 수행할 때 유용하게 활용할 수 있습니다.

반응형