数据运算
1、算术运算
import numpy as np
import pandas as pd
data = {'a':[10,50,60,80], 'b':[20,80,60,40]}
df= pd.DataFrame(data)
df
df['a']+df['b']
df['a']-df['b']
df['a']*df['b']
df['a']/df['b']
df['a']+10
df['a']-10
df['a']*10
df['a']/10
一列加减一个常数项,那这一项中所有的值都加进这个常数项。
2、列与列的比较运算
比较运算和python基础知识中讲到的比较运算一致,也是大于、等于、小于之类的
import numpy as np
import pandas as pd
data = {'a':[10,50,60,80], 'b':[20,80,60,40]}
df= pd.DataFrame(data)
df
df['a']>df['b']
df['a']<df['b']
df['a']!=df['b']
3、非空值计算
计算某一区间中非空数值的个数,在python中直接计算整个数据表调用count()函数。
4、sum求和操作
在python中直接在整个数据表上调用sum()函数进行求和操作
5、均值、最大值、最小值、方差、标准差、相关性操作
求均值是针对某一区域中所有的数据求算术平均值的运算,用mean()函数直接对整个数据表调用mean函数。
import numpy as np
import pandas as pd
data = {'a':[10,50,60,80], 'b':[20,80,60,40]}
df= pd.DataFrame(data)
df
df['a']>df['b']
df['a'
]<df['b']
df['a']!=df['b']
# 非空值计算
df.count()
df.count(axis=1)
df['a'].count()
# 求和
df.sum()
df.sum(axis=1)
df['a'].sum()
# 均值
df.mean()
df.mean(axis=1)
df['a'].mean()
# 最大值
df.max()
df.max(axis=1)
df['a'].max()
# 最小值
df.min()
df.min(axis=1)
df['a'].min()
# 中位数
df.median()
df.median(axis=1)
df['a'].median()
# 众数、方差、标准差
df.mode()
df.var()
df.std()
# 相关性
# 计算两列之间的相关系数
df['a'].corr(df['b'])
# 计算两两之间的相关系数
df.corr()