科研工作中我们经常需要把每两个变量之间的关系计算，然后可以得到一个相关矩阵。如果两个变量的变化趋势一样，那么这个值就会大于零，表明连个变量正相关，值越大代表相关性越强。相反的话，如果两个变量的变化趋势相反，这个值就会小于零。我们经常需要关注这个值，是因为在许多机器学习算法中，强相关的变量会导致算法能力下降。

1.导入数据


%clear
%reset -f
# In[*]
# 加载Python库
import numpy as np
from numpy import loadtxt
import xgboost as xgb
from xgboost import XGBClassifier
from matplotlib import pyplot
import os
from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np
os.chdir("D:\\train")
# In[*]

from matplotlib import pyplot
from pandas import read_csv
filename = 'pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)

绘制相关关系图

correlations = data.corr()
# plot correlation matrix
fig = pyplot.figure()
ax = fig.add_subplot(111)
cax = ax.matshow(correlations, vmin=-1, vmax=1)
fig.colorbar(cax)
ticks = np.arange(0,9,1)
ax.set_xticks(ticks)
ax.set_yticks(ticks)
ax.set_xticklabels(names)
ax.set_yticklabels(names)
pyplot.show()

1. 密度图

data.plot(kind='density', subplots=True, layout=(3,3), sharex=False)
pyplot.show()

-4.散点图

from pandas.plotting import scatter_matrix
scatter_matrix(data)
pyplot.show()

今天看啥 - 高品质阅读平台
本文地址：http://www.jintiankansha.me/t/Bp3E5lzZzY

Python数据处理从零开始----第四章（可视化）①③多变量绘图

目录

Python数据处理从零开始----第四章（可视化）①Matplotlib包

Python数据处理从零开始----第四章（可视化）②图形和轴

Python数据处理从零开始----第四章（可视化）③散点图和误差棒

Python数据处理从零开始----第四章（可视化）④误差图

Python数据处理从零开始----第四章（可视化）⑤（韦恩图）

Python数据处理从零开始----第四章（可视化）⑥（画布设置）

Python数据处理从零开始----第四章（可视化）⑦（多图合并)

Python数据处理从零开始----第四章（可视化）⑧火山图

Python数据处理从零开始----第四章（可视化）⑨线性相关曲线

Python数据处理从零开始----第四章（可视化）⑩ROC曲线

Python数据处理从零开始----第四章（可视化）①①多分类ROC曲线

Python数据处理从零开始----第四章（可视化）①②堆积柱状图

Python数据处理从零开始----第四章（可视化）①③多变量绘图