일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 코딩
- 2
- 빅데이터
- 컴퓨터비전
- 보안
- 데이터과학
- 딥러닝
- 알고리즘
- 버전관리
- 소프트웨어공학
- 데이터분석
- 자바스크립트
- 프로그래밍
- 네트워크
- 소프트웨어
- 네트워크보안
- 데이터구조
- I'm Sorry
- 자료구조
- 파이썬
- 클라우드컴퓨팅
- Yes
- 데이터베이스
- 사이버보안
- 프로그래밍언어
- 컴퓨터공학
- 웹개발
- 인공지능
- 컴퓨터과학
- 머신러닝
- Today
- Total
목록데이터프레임 (7)
스택큐힙리스트
다른 쇼핑 항목을 갖는 고객 목록 사이의 관련성을 계산하기 위해 멀티스레딩을 사용하는 데 어려움을 겪고 있습니다. 1,000 명의 고객으로 구성된 판다 데이터 프레임이 있으므로 100 만 번의 관련성을 계산해야 하며, 이 작업은 너무 오래 걸립니다. 데이터 프레임의 예는 다음과 같습니다: ID 항목 1 바나나 1 사과 2 오렌지 2 바나나 2 토마토 3 사과 3 토마토 3 오렌지 다음은 코드의 간소화된 버전입니다:import pandas as pd def relatedness (customer1, customer2): # 고객간의 관련성을 측정하기 위한 계산 수행 data= pd.read_csv(data_file) customers_list= list (set(data['ID'])) relatedness..
저는 부울 값이 포함된 판다스 객체를 가지고 있습니다. 각 값을 논리적으로 연산한 결과를 시리즈로 어떻게 얻을 수 있을까요?예를 들어, 다음과 같은 시리즈를 고려해보십시오: TrueTrueTrueFalse저는 얻고 싶은 시리즈는 다음을 포함해야 합니다 : FalseFalseFalseTrue이건 관대하고 쉽게 보이지만, 내 모조랑은 어디 죽었는지 몰라서 그런가봅니다 =(답변 1부울 시리즈를 반전시키려면 use ~s : In [7]: s = pd.Series([True, True, False, True])In [8]: ~sOut[8]: 0 False1 False2 True3 Falsedtype: bool파이썬2.7, NumPy 1.8.0, Pandas 0.13.1을 사용하여: In [119]: s = pd...
저는 두 개의 열을 사용하여 두 판다 데이터프레임을 결합하려고 합니다. new_df = pd.merge(A_df, B_df, how='left', left_on='[A_c1,c2]', right_on = '[B_c1,c2]')하지만 다음 오류가 발생하였습니다: pandas/index.pyx in pandas.index.IndexEngine.get_loc (pandas/index.c:4164)()pandas/index.pyx in pandas.index.IndexEngine.get_loc (pandas/index.c:4028)()pandas/src/hashtable_class_helper.pxi in pandas.hashtable.PyObjectHashTable.get_item (pandas/hashtab..
제가 가진 판다스 데이터 프레임에는 몇 개의 열이 있습니다.이제 나는 특정 열 값에 따라 특정 행이 이상치임을 알고 있습니다.예를 들면'Vol' 열에는 모두 12xx 주변의 값이 있으며 하나의 값은 4000 (이상치)입니다.지금 Vol 열이 있는 행들을 제외하고 싶습니다.그래서, 기본적으로 데이터 프레임에 필터를 적용하여 특정 열의 값이 평균에서 3 표준 편차 내에 있는 경우 모든 행을 선택해야합니다.이것을 우아하게 달성하는 방법은 무엇인가요?답변 1최소한 하나의 열에서 이상치가 있는 모든 행 제거데이터프레임에 여러 열이 있고, 적어도 한 열에 이상치가 있는 모든 행을 제거하려면, 다음 표현식을 사용하여 한 번에 수행할 수 있습니다: import pandas as pdimport numpy as npfr..