跟小白学Python数据分析——数据框

数据框（DataFrame）用于存储多行和多列的数据集合，就像Excel表格一样，在Pandas中进行数据处理与分析就是主要对数据框进行操作。

我们来看之前使用过的案例数据，输入以下代码：

1import pandas
2data = pandas.read_csv(
3'D:/D/data.csv',
4 engine='python',
5 encoding='utf8'
6)

执行后，在变量浏览窗口中就可以看到刚导入的data变量了，双击打开data变量，就可以得到下面这张表。注意看左上角提示，类型为DataFrame，所以导入的数据就是个数据框。

数据框中的不同列可以是不同的数据类型，同一列数据之间也可以是不同的数据类型。但是根据数据规范，进行数据分析时，一般都要求同一列数据是同一数据类型，这样才方便后续的数据处理、分析。

我们现在通过data.dtypes命令查看下data数据框中各个列的数据类型分别是什么。

data.dtypes

id           int64
reg_date    object
id_num      object
gender      object
birthday    object
age          int64
dtype: object

可以看到只有id跟age是int型，就是整数型，其他都是object型，这个object型在数据框中就是字符型，只是显示为object。

另外也可以通过data.info()查看data数据框中各个列的数据类型。

data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 59101 entries, 0 to 59100
Data columns (total 6 columns):
id          59101 non-null int64
reg_date    59101 non-null object
id_num      59101 non-null object
gender      59101 non-null object
birthday    59101


    
 non-null object
age         59101 non-null int64
dtypes: int64(2), object(4)
memory usage: 2.7+ MB