일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 프로그래밍언어
- 프로그래밍
- 컴퓨터공학
- Yes
- 사이버보안
- 자료구조
- 보안
- 소프트웨어
- 컴퓨터과학
- 웹개발
- 코딩
- 파이썬
- I'm Sorry
- 데이터구조
- 빅데이터
- 알고리즘
- 딥러닝
- 네트워크
- 머신러닝
- 클라우드컴퓨팅
- 2
- 소프트웨어공학
- 데이터분석
- 버전관리
- 자바스크립트
- 컴퓨터비전
- 데이터과학
- 데이터베이스
- 네트워크보안
- 인공지능
- Today
- Total
스택큐힙리스트
파이썬 공유 메모리 딕셔너리 - 대용량 데이터 매핑 본문
Python 프로그램 내에서 사전을 전역 변수로 저장하고 약 32개의 작업자 프로세스를 분기합니다. 이론적으로는 이 방법이 작동할 수 있습니다. 왜냐하면 사전이 수정되지 않기 때문에 Linux에서의
fork
에 대한 COW 메커니즘은 데이터 구조가 프로세스 간에 복사되지 않고 공유되는 것을 의미합니다. 그러나 이를 시도 할 때multiprocessing.Pool.map
내의os.fork()
에서 프로그램이OSError: [Errno 12] Cannot allocate memory
와 함께 충돌합니다. 나는 이것이 커널이 메모리를 과도하게 할당하지 않도록 구성되어있기 때문이라고 확신합니다 (/proc/sys/vm/overcommit_memory
가2
로 설정되어 있으며 루트 액세스가 없는 기계에서이 설정을 구성 할 수 없습니다).multiprocessing.Manager.dict
을 사용하여 공유 메모리 사전에 사전을로드합니다. 이 접근 방식으로 32개의 작업자 프로세스를 분기 할 때 충돌없이 작동하지만 후속 데이터 처리는 사전이없는 작업의 순위에 비해 몇 가지 차수 느립니다 (차이점은 사전 참조가없는 것뿐입니다). 나는이것이 각 작업자 프로세스간에 필요한 매번 사전 조회를위한 매우 많은 교차 프로세스 통신 때문이라고 이론화합니다. 사전은 수정되지 않지만 많은 프로세스에 의해 동시에 많은 번 호출됩니다.사전을 C++
std::map
에 복사하고 Linux의 COW 메커니즘을 의지하여 복사되지 않도록합니다 (사전을 C++로 이식 한 경우와 동일한 방식 #1). 이 접근 방식으로는 사전을std::map
으로로드하는 데 오랜 시간이 걸리고os.fork()
에서ENOMEM
오류가 발생하여 같은 방식으로 충돌했습니다.pyshmht
에 사전을 복사합니다. 사전을pyshmht
로 복사하는 데 시간이 너무 오래 걸립니다.SNAP
의 HashTable을 사용해보십시오. C++에서의 기저 구현은 공유 메모리에서 만들고 사용할 수 있도록합니다. 그러나 Python API는이 기능을 제공하지 않습니다.PyPy를 사용하십시오. 여전히 #1에서 발생한 대로 충돌이 발생했습니다.
multiprocessing.Array
위에 Python에서 직접 공유 메모리 해시 테이블을 구현하십시오. 이 접근 방식은 여전히 #1에서 발생한 메모리 부족 오류로 이어집니다.사전을
dbm
으로 덤프하십시오. 사전을dbm
데이터베이스에 덤프하는 동안 4 일 동안 시도하고 33 일의 예상 소요 시간을 확인 한 후 이 방법을 포기했습니다.사전을 Redis로 덤프하십시오. 86GB의 사전을 (1024 개의 작은 사전에서로드 된) Redis에
redis.mset
를 사용하여 덤프하려고하면 동료가 연결을 재설정합니다. 루프를 사용하여 키-값 쌍을 덤프하려고하면 매우 오래 걸립니다.
이러한 딕셔너리에서 값을 조회하기 위해 프로세스간 통신을 필요로하지 않고 병렬로 이 데이터 세트를 효율적으로 처리하는 방법이 있을까요? 이 문제를 해결하기 위한 어떠한 제안도 환영합니다!
저는 1TB의 RAM이 장착된 Ubuntu에서 Anaconda의 Python 3.6.3을 사용하고 있습니다.
편집: 마침내 동작하는 것:
Redis를 사용하여이 작업을 완료 할 수있었습니다. #9에서 발생한 문제를 해결하기 위해 대량의 키-값 삽입 및 조회 쿼리를 가벼운 작은 덩어리로 나누어 처리하여 여전히 일괄 처리로 작동하지만, 쿼리가 너무 크면 시간 초과되지 않도록했습니다. 이렇게하면 128 개의 스레드와 일부 로드 밸런싱으로 86GB 크기의 딕셔너리 삽입을 45 분 안에 수행하고, 이어지는 처리는 Redis 조회 쿼리에 의해 성능에 영향을받지 않았습니다 (2 일 내에 완료 됨).
도움과 제안해 주신 모든 분께 감사드립니다.
답변 1
아마도 데이터를 여러 다른 프로세스와 공유하는 데에 적합한 시스템인 데이터베이스를 사용하는 것이 좋습니다.
거대한 데이터 집합을 가져와서 그에 대한 스키마를 만들고 데이터베이스에 덤프하세요. 심지어 별도의 기계에도 넣을 수 있습니다.
그런 다음 병렬로 데이터를 처리하기 위해 원하는 만큼의 프로세스를 여러 호스트에서 시작하세요. 현대의 거의 모든 데이터베이스는 부담을 처리하는 데 충분히 능력이 있을 것입니다.
답변 2
파이썬은 데이터 처리 및 분석을 위한 많은 기능을 제공하는 인기있는 프로그래밍 언어입니다. 특히 공유 메모리 사전은 대용량 데이터를 매핑하기 위한 파이썬에서의 중요한 개념입니다. 이 데이터 구조는 효율적인 데이터 관리 및 고속 처리를 돕고, 대량 처리를 위한 이상적인 솔루션입니다. 이번 글에서는 파이썬 공유 메모리 사전을 활용하여 대용량 데이터를 매핑하는 방법과 그 이점에 대해 자세히 알아보도록 하겠습니다.먼저, 공유 메모리 사전은 여러 프로세스 간에 데이터를 공유하고 동시에 액세스할 수 있는 데이터 구조입니다. 이를 통해 다중 프로세싱 환경에서 데이터를 효율적으로 관리할 수 있습니다. 파이썬에서는 multiprocessing이라는 모듈을 통해 공유 메모리 사전을 쉽게 구현할 수 있습니다. 이 모듈은 파이썬 내장 기능으로 많이 사용되며, 고성능 및 병렬 처리를 위한 도구로 알려져 있습니다.
공유 메모리 사전을 사용하는 가장 일반적인 시나리오 중 하나는 대용량 데이터를 메모리에 로드하고 이 데이터에 대한 매핑을 수행하는 것입니다. 이를 통해 데이터 처리 속도가 향상되며, 많은 양의 데이터를 빠르게 분석할 수 있습니다. 예를 들어, 대규모 로그 파일이나 센서 데이터와 같은 비정형 데이터를 처리하는 경우, 공유 메모리 사전은 이 데이터를 메인 메모리에 로드하고 필요한 처리를 동시에 수행하는데 매우 유용합니다. 이는 데이터 처리 및 분석에 있어 시간적 효율성을 극대화하는 도구로 작용합니다.
또한, 공유 메모리 사전은 데이터 일관성과 동기화를 보장하는 장점을 가지고 있습니다. 다중 프로세스 환경에서 여러 프로세스가 동시에 데이터를 수정할 때 발생할 수 있는 문제를 방지하기 위해 필요한 보호 메커니즘을 제공합니다. 이를 통해 데이터 충돌이나 손상을 방지하고, 분산 데이터처리 시스템에서 안정성을 제공합니다.
뿐만 아니라, 공유 메모리 사전은 다른 프로세스 간의 효율적인 통신을 가능하게 합니다. 한 프로세스가 다른 프로세스로부터 데이터를 받아오거나, 다른 프로세스와의 결과를 공유하는 등의 다양한 커뮤니케이션 시나리오에서 유용하게 활용됩니다. 이는 프로세스 간의 협업을 간편하게 만들어주어, 병렬 컴퓨팅 환경에서 뛰어난 성능과 확장성을 가능케 합니다.
이러한 이점들을 감안할 때, 파이썬 공유 메모리 사전은 대용량 데이터 매핑을 위한 최적의 도구입니다. 데이터 처리와 분석의 효율을 극대화하고, 다중 프로세싱 환경에서 안정성과 성능을 제공합니다. 특히 한국에서는 데이터 기반 비즈니스가 급속히 성장하고 있기 때문에, 파이썬 공유 메모리 사전은 이러한 업계에서 필수적인 기술로 간주될 수 있습니다.
파이썬 공유 메모리 사전은 대용량 데이터 매핑을 위한 핵심 도구로서, 데이터 처리 및 분석 작업을 향상시키는 많은 이점을 제공합니다. 다양한 사례에서 쉽게 적용할 수 있기 때문에, 이를 통해 데이터 기반 비즈니스의 성공을 이끌어 나갈 수 있을 것입니다. 파이썬을 활용하여 공유 메모리 사전을 이용해 대용량 데이터를 매핑하는 방법에 대한 이 글은 데이터 엔지니어 및 분석가들에게 꼭 필요한 정보일 것입니다.