스택큐힙리스트

판다스를 사용하여 상관 행렬 플롯 작성하기 본문

카테고리 없음

판다스를 사용하여 상관 행렬 플롯 작성하기

스택큐힙리스트 2023. 4. 27. 04:58
반응형

저는 많은 특성을 가진 데이터셋을 가지고 있어서 상관 행렬을 분석하는 것이 매우 어려워졌습니다. 판다스 라이브러리에서 제공하는 dataframe.corr() 함수를 사용하여 얻은 상관 행렬을 그래프로 그리고 싶습니다. 판다스 라이브러리에서 이러한 행렬을 그리기 위한 내장 함수가 있는지 확인할 수 있을까요?

답변 1

당신은 #$$#@^&**$&에서 pyplot.matshow()을 사용할 수 있습니다.

import matplotlib.pyplot as plt

plt.matshow(dataframe.corr())

plt.show()

편집하다:

댓글에는 축 눈금 라벨을 변경하는 방법에 대한 요청이 포함되어 있습니다. 이것은 데이터 프레임과 일치하는 축 레이블 및 색상 척도를 해석하는 컬러바 레전드가있는 큰 그림 크기에 그려진 디럭스 버전입니다.

라벨의 크기와 회전을 조정하는 방법을 포함하고 있으며, 컬러바와 주요 그림이 동일한 높이로 나오도록 이미지 비율을 사용하고 있습니다.

EDIT 2:

df.corr () 메소드는 숫자가 아닌 열을 무시하므로 x 및 y 레이블을 정의할 때 레이블의 원치 않는 이동을 피하기 위해 .select_dtypes(['number'])을 사용해야합니다 (아래 코드에 포함됨).

f = plt.figure(figsize=(19, 15))

plt.matshow(df.corr(), fignum=f.number)

plt.xticks(range(df.select_dtypes(['number']).shape[1]), df.select_dtypes(['number']).columns, fontsize=14, rotation=45)

plt.yticks(range(df.select_dtypes(['number']).shape[1]), df.select_dtypes(['number']).columns, fontsize=14)

cb = plt.colorbar()

cb.ax.tick_params(labelsize=14)

plt.title('Correlation Matrix', fontsize=16);

답변 2

펜더스(Pandas)를 사용하여 상관 행렬(Plot correlation matrix)을 작성하는 법

펜더스(Pandas)는 파이썬(Python)을 사용하는 데이터 분석과 처리를 위한 라이브러리로, 데이터 조작, 처리, 분석과 관련된 다양한 기능을 제공합니다. 펜더스의 중요한 기능 중 하나는 데이터프레임(DataFrame)입니다. 데이터프레임은 표 같은 형태의 데이터를 다루기 위한 편리한 객체입니다. 이번에는 펜더스를 사용하여 상관 행렬을 작성하는 방법을 알아보겠습니다.

상관 행렬(Correlation matrix)은 변수간의 상관관계를 행렬(matrix) 형태로 나타낸 것입니다. 예를 들어, 우리가 가지고 있는 데이터에서 키와 몸무게 변수가 있다면, 이 두 변수간의 상관관계를 나타낸 행렬을 만들 수 있습니다. 상관 행렬은 변수간의 관계를 살펴보고, 변수 선택이나 데이터 전처리 등의 작업에서 유용하게 사용할 수 있습니다.

이제 펜더스를 사용하여 상관 행렬을 작성해보겠습니다. 먼저, 펜더스를 불러오고, 데이터를 읽어옵니다.

```python

import pandas as pd

# 데이터 읽어오기

df = pd.read_csv('data.csv')

```

이제, `corr()` 함수를 사용하여 상관 행렬을 계산할 수 있습니다.

```python

# 상관 행렬 계산

corr_matrix = df.corr()

```

`corr()` 함수는 기본적으로 피어슨 상관계수(Pearson correlation coefficient)를 계산합니다. 다른 상관계수를 계산하고 싶다면, `method` 인자를 사용하면 됩니다. 예를 들어, `method='spearman'`으로 설정하면 스피어만 상관계수(Spearman rank correlation coefficient)를 계산합니다.

상관 행렬을 계산했다면, 이제 `heatmap()` 함수를 사용하여 시각화할 수 있습니다.

```python

import seaborn as sns

# heatmap 그리기

sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')

```

`annot=True`로 설정하면 각 셀에 상관계수 값을 표시합니다. `cmap` 인자는 heatmap의 색상을 설정하는데 사용됩니다.

이제, 펜더스를 사용하여 상관 행렬을 계산하고 시각화하는 방법에 대해 알아보았습니다. 상관 행렬은 변수 간의 관계를 파악할 때 유용한 도구이며, 펜더스의 `corr()`함수와 `heatmap()`함수를 사용하면 쉽게 만들 수 있습니다.

반응형
Comments