Py学习  »  DATABASE

如何用mysql实现数据清洗?

经管之家 • 2 年前 • 330 次点击  

MySQL是常用的开源DBMS,因为开源,扩展性好,被广泛使用。在数据分析等实际工作中,由于数据量过大、数据冗余等原因,我们要先对数据库进行清理。要注意的原则有:提前做好数据备份、尽量不动原表格(可以生成新的表格)。通常要从以下三个方面来考察、处理:缺失值、异常值、重复值。
1、缺失值
在数据采集和存储过程中,往往会出现缺失值的情况。对于缺失值,可以使用MySQL的IFNULL()函数来进行填充。填充方法有:
  • 用固定值填充
  • 用均值填充
  • 用众数填充
  • 用上下数据进行填充
  • 用插值法填充

2、异常值
数据分析过程中,数据异常情况经常出现。需要我们通过异常值检测来剔除这些异常数据。可以借助统计学知识和专业工具来自动检测、剔除异常值,也可以从最基础的观测相关字段的最大值、最小值来判断。对于那些超出预期范畴的数据,我们应该及时进行处理,以保证数据的准确性和可靠性。
3、重复值
数据中可能存在大量的重复数据。这些重复数据不但会浪费我们的存储空间,还会对我们的数据分析带来困难。MySQL提供了DISTINCT关键字来去除重复数据。比如新建表如下:
Create table newtable as Select distinct * from oldtable;
扫码添加老师微信,一起了解更多内容:

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/160016