카테고리 없음

파이썬에서 큰 파일을 읽는 자Lazy한 방법은 무엇인가요?

스택큐힙리스트 2023. 4. 19. 10:24
반응형

저는 매우 큰 4GB 파일이 있고, 이를 읽으려고 하면 컴퓨터가 멈춥니다. 그래서 저는 일부분씩 읽고 각각의 작업이 끝난 후 처리된 부분을 다른 파일에 저장하고 다음 부분을 읽으려 합니다.

이 조각들을 yield 시키는 방법이 있나요?

저는 게으르게 하는 방법을 좋아합니다.

답변 1

게으른 함수를 작성하려면, yield를 사용하십시오.

def read_in_chunks(file_object, chunk_size=1024):

Lazy function (generator) to read a file piece by piece.

Default chunk size: 1k.

while True:

data = file_object.read(chunk_size)

if not data:

break

yield data

with open('really_big_file.dat') as f:

for piece in read_in_chunks(f):

process_data(piece)

다른 선택사항은 iter과 도우미 함수를 사용하는 것입니다.

f = open('really_big_file.dat')

def read1k():

return f.read(1024)

for piece in iter(read1k, ''):

process_data(piece)

파일이 줄 기반인 경우 파일 객체는 이미 줄의 게으른 생성기입니다.

for line in open('really_big_file.dat'):

process_data(line)

답변 2

파이썬에서 대용량 파일을 처리하는 방법 중 하나는 'Lazy Method'를 사용하는 것입니다. 이 방법은 파일을 한 번에 모두 로드하지 않고 필요에 따라 일부분만 로드하는 것입니다. 이렇게 하면 메모리 사용량을 줄이면서도 대용량 파일을 처리할 수 있습니다.

이 방법을 사용하려면, 'yield'라는 코드 구문을 사용하여 파일을 불러와 처리하는 함수를 정의해야 합니다. 함수가 호출될 때마다 파일을 조금씩 읽어오며, 필요한 양만큼 읽은 후에는 함수가 종료됩니다. 이 방법으로 파일의 전체 크기와 상관없이 파일 내용을 처리할 수 있습니다.

'unzip'이라는 예시 함수를 사용해보겠습니다.

```python

import zipfile

def unzip(file_path):

with zipfile.ZipFile(file_path, 'r') as archive:

for name in archive.namelist():

with archive.open(name) as file:

yield file.read()

```

위의 함수는 파일 경로를 인자로 받아 압축 파일을 열어서 파일 이름 목록을 반환합니다. 그리고 각 파일을 읽어서 'yield'를 통해 순서대로 반환합니다. 이 함수는 메모리 사용량을 최소화하면서도 대용량 파일을 처리할 수 있습니다.

여기서 주의할 점은, 'yield'를 사용하면 함수의 리턴 값이 제너레이터(generator)가 되므로, 함수가 호출될 때마다 작업이 시작되고 일시 중단되며, 다음 작업으로 진행됩니다. 따라서 파일 내용을 한 번에 모두 읽어와야 하는 작업이나, 순서상 읽어와야 하는 작업이 있다면 이 방법이 적합하지 않을 수 있습니다.

이처럼 'Lazy Method'를 사용하면 대용량 파일을 처리할 때 메모리 사용량을 최소화하면서도 작업을 수행할 수 있습니다. 이 방법을 사용하면, 파일 처리에 대한 성능과 메모리 사용량을 최적화하여 어려운 작업을 보다 쉽게 수행할 수 있습니다.

반응형