스택큐힙리스트

판다스로 그룹별 고유값을 카운트하기 [중복됨] 본문

카테고리 없음

판다스로 그룹별 고유값을 카운트하기 [중복됨]

스택큐힙리스트 2023. 4. 27. 07:22
반응형

이 질문은 이미 해결책이 있습니다 :

Pandas 'count(distinct)' equivalent

1. 안녕하세요.

2. 어떻게 지내세요?

3. 감사합니다.

4. 네, 알겠습니다.

5. 죄송합니다.

6. 여기서 영어로 말씀드리겠습니다.

7. 네, 이 제품은 사용하기 쉽습니다.

8. 어제는 바쁘고 오늘도 바쁩니다.

9. 저는 한국어를 배워야 합니다.

10. 좋은 아침입니다.

11. 작업을 완료했습니다.

4년 전에 종료되었습니다.

나는 모든 ID에서 고유한 값들을 카운트해야 합니다.

저는 데이터가 있습니다.

ID, domain

123, 'vk.com'

123, 'vk.com'

123, 'twitter.com'

456, 'vk.com'

456, 'facebook.com'

456, 'vk.com'

456, 'google.com'

789, 'twitter.com'

789, 'vk.com'

저는 노력합니다.

하지만 나는 얻고 싶어요.

domain, count

vk.com 3

twitter.com 2

facebook.com 1

google.com 1

답변 1

당신은 nunique 가 필요합니다.

df = df.groupby('domain')['ID'].nunique()

print (df)

domain

'facebook.com' 1

'google.com' 1

'twitter.com' 2

'vk.com' 3

Name: ID, dtype: int64

만약 당신이 strip ' 문자를 필요로 한다면:

df = df.ID.groupby([df.domain.str.strip(')]).nunique()

print (df)

domain

facebook.com 1

google.com 1

twitter.com 2

vk.com 3

Name: ID, dtype: int64

혹은 Jon Clements이(가) 언급한 대로:

df.groupby(df.domain.str.strip('))['ID'].nunique()

이렇게 컬럼 이름을 유지할 수 있습니다.

df = df.groupby(by='domain', as_index=False).agg({'ID': pd.Series.nunique})

print(df)

domain ID

0 fb 1

1 ggl 1

2 twitter 2

3 vk 3

차이점은 nunique() 는 시리즈를 반환하고 agg() 는 데이터프레임을 반환한다.

답변 2

Pandas를 사용하여 그룹별 고유 값의 수를 세는 방법

이번 주제는 Pandas를 사용하여 그룹별 고유 값의 수를 세는 방법 입니다. 이 기술은 데이터 과학자들이 일상적으로 사용하는 기술 중 하나로, 그룹 합계, 평균 등과 함께 가장 많이 사용되는 분석 중 하나입니다. 이 방법을 사용하면, 그룹 단위로 결합된 데이터의 세부 정보를 쉽게 파악할 수 있습니다.

Pandas는 파이썬에서 가장 인기있는 데이터 분석 라이브러리 중 하나입니다. Pandas는 데이터를 읽고 처리하는 데 사용할 수있는 다양한 기능을 제공하며, Pandas를 사용하면 데이터를 더 잘 이해하고 분석할 수 있습니다.

데이터 프레임의 열에는 일반적으로 두 가지 유형의 데이터가 있습니다. 범주 형 변수와 수치형 변수입니다. 범주형 변수는 명목상 또는 순서대로 구분 할 수 있으며, 수치형 변수는 정수 또는 실수와 같은 수치 값으로 구성됩니다. 이러한 데이터를 그룹 지어서 고유 값의 수를 셀 때마다, 그룹 단위로 고유한 수를 반환합니다.

Pandas의 groupby 함수를 사용하여 데이터를 그룹화하고 값을 카운트 할 수 있습니다. 다음은 groupby 함수를 사용하여 고유 값의 수를 세는 예입니다.

예를 들어, 두 열이있는 데이터 프레임에서 사용자 ID와 영화 장르가있는 경우이 데이터를 그룹화하면 각 사용자 ID에 대한 고유한 영화 장르의 수를 계산 할 수 있습니다. Groupby 메소드를 사용하여 사용자 ID별로 데이터 프레임을 그룹화 한 후 장르 열에서 unique () 함수를 호출하면 사용자 ID의 고유 한 장르 수가 반환됩니다.

실제 데이터 프레임에서는 다양한 열과 유형의 데이터가 더 많이 있지만, 위 예제를 기반으로하면 groupby() 함수를 사용하여 데이터 프레임을 그룹화하고 고유한 값의 수를 계산 할 수 있습니다.

이렇게 파이썬 Pandas 라이브러리를 사용하면 데이터 프레임의 그룹 단위로 고유 값의 수를 쉽게 계산할 수 있습니다. 이 기술은 데이터 분석 및 처리의 중요한 부분이며, 데이터 과학자들이 효율적으로 데이터를 처리하고 분석하는 데 큰 도움이됩니다. 따라서 이 방법을 잘 기억해 두고 데이터 분석 작업에 적극적으로 활용해 보시기 바랍니다.

반응형
Comments