목록알고리즘 (624)
스택큐힙리스트
나는 데이터 프레임에서 금융 데이터에 대해 복잡한 연산을 순차적으로 수행하고 싶습니다. 예를 들어 다음과 같은 MSFT CSV 파일을 사용하고 있습니다. Yahoo Finance에서 가져온 것입니다: 날짜,시가,고가,저가,종가,거래량,수정 종가 2011-10-19,27.37,27.47,27.01,27.13,42880000,27.13 2011-10-18,26.94,27.40,26.80,27.31,52487900,27.31 2011-10-17,27.11,27.42,26.85,26.98,39433400,26.98 2011-10-14,27.31,27.50,27.02,27.27,50947700,27.27 .... 그런 다음 다음을 수행합니다: #!/usr/bin/env python from pandas impor..
저는 큰 입력 파일에 작용하는 파이썬 프로그램을 작성했어요. 이 프로그램은 수백만 개의 삼각형 객체를 만들어냅니다. 알고리즘은 다음과 같아요: 입력 파일 읽기 파일을 처리하고, 정점으로 표현된 삼각형 목록 생성 정점 목록 다음에 삼각형 목록을 나열하는 OFF 형식으로 정점 출력 OFF의 요구 사항으로 인해 정점 목록을 출력하기 전에 삼각형 목록을 메모리에 보관해야 하므로, 목록의 크기 때문에 메모리 오류가 발생합니다. Python에게 데이터가 더 이상 필요하지 않고 해제될 수 있다고 알리는 가장 좋은 방법은 무엇일까요?답변 1Python 공식 문서에 따르면, Garbage Collector를 명시적으로 호출하여 미참조된 메모리를 해제할 수 있습니다. 예시: import gc gc.collect() del..
저는 380만 개의 행과 한 개의 열이있는 판다스 데이터프레임을 가지고 있으며, 이들을 인덱스별로 그룹화하려고합니다. 인덱스는 고객 ID입니다. 인덱스별로 qty_liter를 그룹화하려고합니다: df = df.groupby(df.index).sum() 그러나 연산을 완료하는 데에 시간이 오래 걸립니다. 매우 큰 데이터 세트를 다루는 대체 방법이 있나요? 다음은 df.info()입니다: Index: 3842595 entries, -2147153165 to \N Data columns (total 1 columns): qty_liter object dtypes: object(1) memory usage: 58.6+ MB 데이터는 다음과 같습니다: 답변 1문제는 데이터가 숫자가 아니기 때문입니다. 문자열을 처..
질문:: >>> oe = OneHotEncoder(inputCol=c_idx,outputCol=c_idx_vec) >>> fe = oe.transform(ff) >>> fe.show() +----+---+-----+-------------+ | x| c|c_idx| c_idx_vec| +----+---+-----+-------------+ | 1.0| a| 0.0|(2,[0],[1.0])| | 1.5| a| 0.0|(2,[0],[1.0])| |10.0| b| 1.0|(2,[1],[1.0])| | 3.2| c| 2.0| (2,[],[])| +----+---+-----+-------------+ 물론, 이 동작은 변경될 수 있습니다: >>> oe.setDropLast(False) >>> fl = oe.tra..