목록판다스 (9)
스택큐힙리스트
제가 가진 판다스 데이터 프레임에는 몇 개의 열이 있습니다.이제 나는 특정 열 값에 따라 특정 행이 이상치임을 알고 있습니다.예를 들면'Vol' 열에는 모두 12xx 주변의 값이 있으며 하나의 값은 4000 (이상치)입니다.지금 Vol 열이 있는 행들을 제외하고 싶습니다.그래서, 기본적으로 데이터 프레임에 필터를 적용하여 특정 열의 값이 평균에서 3 표준 편차 내에 있는 경우 모든 행을 선택해야합니다.이것을 우아하게 달성하는 방법은 무엇인가요?답변 1최소한 하나의 열에서 이상치가 있는 모든 행 제거데이터프레임에 여러 열이 있고, 적어도 한 열에 이상치가 있는 모든 행을 제거하려면, 다음 표현식을 사용하여 한 번에 수행할 수 있습니다: import pandas as pdimport numpy as npfr..
데이터의 날짜를 파싱하기 위해 pandas.to_datetime를 사용합니다. Pandas는 기본적으로 일일 데이터인데도 불구하고 datetime64[ns]를 사용하여 날짜를 나타냅니다. CSV에 데이터를 작성할 때 날짜가 00:00:00로 추가되지 않도록 날짜를 datetime.date 또는 datetime64[D]로 변환하는 우아하고 똑똑한 방법이 있는지 궁금합니다. 수동으로 요소별로 유형을 변환할 수 있음을 알고 있지만요. [dt.to_datetime().date() for dt in df.dates]하지만 저는 많은 행이 있기 때문에 이것은 정말 느리고, pandas.to_datetime 를 사용하는 것의 의미를 제대로 발휘하지 못합니다. 한 번에 전체 열의 f the entire 를 변환하는 방..
저는 데이터프레임을 사용하여 금융 데이터에서 복잡한 작업을 순차적으로 수행하고 싶습니다.예를 들어 저는 Yahoo Finance에서 가져온 다음 MSFT CSV 파일을 사용하고 있습니다. Date,Open,High,Low,Close,Volume,Adj Close2011-10-19,27.37,27.47,27.01,27.13,42880000,27.132011-10-18,26.94,27.40,26.80,27.31,52487900,27.312011-10-17,27.11,27.42,26.85,26.98,39433400,26.982011-10-14,27.31,27.50,27.02,27.27,50947700,27.27....그럼 저는 다음을 합니다: #!/usr/bin/env pythonfrom pandas impo..
판다스 to_csv() 함수를 사용하여 기존 csv 파일에 데이터프레임을 추가할 수 있는지 알고 싶습니다. csv 파일은 로드된 데이터와 동일한 구조를 가지고 있습니다.답변 1판다스 to_csv 함수에서 파이썬 쓰기 모드를 지정할 수 있습니다. 추가 모드는 'a'입니다.당신의 경우에는: df.to_csv('my_csv.csv', mode='a', header=False)기본 모드는 'w'입니다.파일이 처음에 누락될 수 있다면, 이러한 변형을 사용하여 첫 번째 쓰기에서 헤더가 인쇄되도록 할 수 있습니다. output_path='my_csv.csv'df.to_csv(output_path, mode='a', header=not os.path.exists(output_path))답변 2CSV 파일에 pandas..