| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |
- 프로그래밍
- 파이썬
- 데이터구조
- I'm Sorry
- 웹개발
- Yes
- 자바스크립트
- springboot
- 프로그래밍언어
- 디자인패턴
- 클라우드컴퓨팅
- 데이터과학
- 소프트웨어공학
- 컴퓨터공학
- 네트워크
- 버전관리
- 인공지능
- 데이터분석
- 컴퓨터비전
- 자료구조
- 사이버보안
- 딥러닝
- 데이터베이스
- 빅데이터
- 컴퓨터과학
- 네트워크보안
- 보안
- 소프트웨어
- 알고리즘
- 머신러닝
- Today
- Total
스택큐힙리스트
판다스를 사용하여 상관 행렬 플롯 작성하기 본문
저는 많은 특성을 가진 데이터셋을 가지고 있어서 상관 행렬을 분석하는 것이 매우 어려워졌습니다. 판다스 라이브러리에서 제공하는 dataframe.corr() 함수를 사용하여 얻은 상관 행렬을 그래프로 그리고 싶습니다. 판다스 라이브러리에서 이러한 행렬을 그리기 위한 내장 함수가 있는지 확인할 수 있을까요?
답변 1
당신은 #$$#@^&**$&에서 pyplot.matshow()을 사용할 수 있습니다.
import matplotlib.pyplot as plt
plt.matshow(dataframe.corr())
plt.show()
편집하다:
댓글에는 축 눈금 라벨을 변경하는 방법에 대한 요청이 포함되어 있습니다. 이것은 데이터 프레임과 일치하는 축 레이블 및 색상 척도를 해석하는 컬러바 레전드가있는 큰 그림 크기에 그려진 디럭스 버전입니다.
라벨의 크기와 회전을 조정하는 방법을 포함하고 있으며, 컬러바와 주요 그림이 동일한 높이로 나오도록 이미지 비율을 사용하고 있습니다.
EDIT 2:
df.corr () 메소드는 숫자가 아닌 열을 무시하므로 x 및 y 레이블을 정의할 때 레이블의 원치 않는 이동을 피하기 위해 .select_dtypes(['number'])을 사용해야합니다 (아래 코드에 포함됨).
f = plt.figure(figsize=(19, 15))
plt.matshow(df.corr(), fignum=f.number)
plt.xticks(range(df.select_dtypes(['number']).shape[1]), df.select_dtypes(['number']).columns, fontsize=14, rotation=45)
plt.yticks(range(df.select_dtypes(['number']).shape[1]), df.select_dtypes(['number']).columns, fontsize=14)
cb = plt.colorbar()
cb.ax.tick_params(labelsize=14)
plt.title('Correlation Matrix', fontsize=16);

답변 2
펜더스(Pandas)를 사용하여 상관 행렬(Plot correlation matrix)을 작성하는 법펜더스(Pandas)는 파이썬(Python)을 사용하는 데이터 분석과 처리를 위한 라이브러리로, 데이터 조작, 처리, 분석과 관련된 다양한 기능을 제공합니다. 펜더스의 중요한 기능 중 하나는 데이터프레임(DataFrame)입니다. 데이터프레임은 표 같은 형태의 데이터를 다루기 위한 편리한 객체입니다. 이번에는 펜더스를 사용하여 상관 행렬을 작성하는 방법을 알아보겠습니다.
상관 행렬(Correlation matrix)은 변수간의 상관관계를 행렬(matrix) 형태로 나타낸 것입니다. 예를 들어, 우리가 가지고 있는 데이터에서 키와 몸무게 변수가 있다면, 이 두 변수간의 상관관계를 나타낸 행렬을 만들 수 있습니다. 상관 행렬은 변수간의 관계를 살펴보고, 변수 선택이나 데이터 전처리 등의 작업에서 유용하게 사용할 수 있습니다.
이제 펜더스를 사용하여 상관 행렬을 작성해보겠습니다. 먼저, 펜더스를 불러오고, 데이터를 읽어옵니다.
```python
import pandas as pd
# 데이터 읽어오기
df = pd.read_csv('data.csv')
```
이제, `corr()` 함수를 사용하여 상관 행렬을 계산할 수 있습니다.
```python
# 상관 행렬 계산
corr_matrix = df.corr()
```
`corr()` 함수는 기본적으로 피어슨 상관계수(Pearson correlation coefficient)를 계산합니다. 다른 상관계수를 계산하고 싶다면, `method` 인자를 사용하면 됩니다. 예를 들어, `method='spearman'`으로 설정하면 스피어만 상관계수(Spearman rank correlation coefficient)를 계산합니다.
상관 행렬을 계산했다면, 이제 `heatmap()` 함수를 사용하여 시각화할 수 있습니다.
```python
import seaborn as sns
# heatmap 그리기
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
```
`annot=True`로 설정하면 각 셀에 상관계수 값을 표시합니다. `cmap` 인자는 heatmap의 색상을 설정하는데 사용됩니다.
이제, 펜더스를 사용하여 상관 행렬을 계산하고 시각화하는 방법에 대해 알아보았습니다. 상관 행렬은 변수 간의 관계를 파악할 때 유용한 도구이며, 펜더스의 `corr()`함수와 `heatmap()`함수를 사용하면 쉽게 만들 수 있습니다.