Py学习  »  DATABASE

面试官:MySQL 空值字段应该保存 NULL 还是默认值?

脚本之家 • 2 天前 • 29 次点击  
脚本之家 设为“星标
第一时间收到文章更新
图片
来源 | 君哥聊技术(ID:gh_1f109b82d301)

使用 MySQL 数据库时,对于一个可以为空的字段,如果没有值,应该保存 NULL 还是给一个默认值呢?多数时候我们不太注意,有时候不赋值,直接保存 NULL,有时候赋值一个业务指定的默认值。今天来聊一聊这个话题。

1.行数据存储

MySQL 保存一行数据时,不仅仅会保存数据本身,还会保存数据相关的额外信息。InnoDB 存储引擎支持四种行格式,MySQL 5.7 版本之后,默认使用 Dynamic 行格式。看一下官网给出的 4 种格式说明:

行格式
紧凑的存储特性
增强的可变长度列存储
大索引键前缀支持
压缩支持
表空间类型支持
文件格式
REDUNDANT
No
No
No
No
system, file-per-table, general
Antelope or Barracuda
COMPACT
Yes
No
No
No
system, file-per-table, general
Antelope or Barracuda
DYNAMIC
Yes
Yes
Yes
No
system, file-per-table, general
Barracuda
COMPRESSED
Yes
Yes
Yes
Yes
file-per-table, general
Barracuda

DYNAMIC 和 COMPRESSED 这两种格式都是 COMPACT 的改进版,基本结构跟 COMPACT 类似,我们看一下 COMPACT 这种格式。如下图:

我们创建一张表:

CREATE TABLE`t_user` (
`id`bigint(20NOTNULL AUTO_INCREMENT,
`name`varchar(16DEFAULT NULL,
`email`varchar(32DEFAULTNULL,
`address`varchar(255DEFAULTNULL,
  PRIMARY KEY (`id`)
ENGINE=InnoDBDEFAULTCHARSET=latin1;

插入 2 行数据,

数据行保存格式如下图:

变长字段宽度列表保存变长字段非空值长度。从上图可以看到,变长字段宽度列表存放的列宽度顺序和数据表中的列顺序相反,也就是说变长字段宽度列表逆序存放列宽度。

如果表中所有列都是 NOT NULL 并且具有固定长度,则没有变长字段宽度列表这个部分

同样,NULL 值列表也是逆序保存,当该值是 NULL 时,用二进制 1 表记,否则就保存二进制 0。

如果表中所有列都是 NOT NULL,就没有 NULL 值列表这个部分。

记录头信息用 5 个字节保存,主要记录数据的一些信息,比如:

  • delete-flag:记录是否删除,我们知道,在 MySQL 中删除一条数据,并不会马上从磁盘上删除,而是打上删除标记,在空余时间再进行异步清理。
  • record_type:记录类型,比如普通记录、非叶子节点记录。
  • next_record:指向下一条记录的地址指针。
  • n_owned:记录该组数据的条数。

隐藏列

  • DB_TRX_ID:修改(插入、更新或删除)这一条数据的事务 id; 

  • DB_ROLL_PTR:回滚指针,指向修改前的历史版本,用于回滚操作;

  • DB_ROW_ID:当表中不定义主键时用作主键来自动生成聚簇索引。

2.NULL 处理

根据上面的分析和实际使用,如果我们把一个字段直接定义成 NOT NULL,有下面好处:

  • 节省存储空间:NULL 值虽然不会占用数据存储空间,但是需要额外 1~2 个字节保存 NULL 值列表。
  • 减少应用程序 NullPointerException 的可能性;
  • 减少统计问题:比如 count(字段)不会统计 NULL 值。
  • 对索引有好处,索引是不会保存 NULL 值的,定义成 NULL 会使索引效率下降。
  • 比较操作:字段定义成 NULL,只能使用 is null 和 is not null 进行判断,不能使用比较操作比如 =、!=、>、null) 。
  • 范围操作:字段定义成 NULL,使用 in、not in 语句时会返回空结果。

当然,设置为 NULL,并不是没有好处,比如:

  • 语义清晰‌:NULL 表示“无值”或“未知”,这在逻辑上更清晰准确;
  • 灵活性‌:NULL 值更容易筛选,比如在 WHERE 子句中使用 is null 进行筛选;
  • 兼容性‌:类似 JOIN 操作,NULL 跟任何值比较都会返回 NULL,这有助于保持数据的一致性和完整性。

在实际项目开发中,我们经常会在值是 NULL 的情况下给一个默认值,比如”-“、”“、”N/A“等,这一定程度上避免了空指针,但是往往带来一些额外的问题,比如上下游系统因为默认值的不一致导致业务处理受影响。

在表设计时,我们其实没有必要过多地考虑定义成 NULL 或默认值在存储空间上的影响,更多的应该考虑系统整体设计规范、保证各子系统在设计上的一致性,这样才能让处理逻辑更加健壮。

END

图片

  推荐阅读:
  1. 继 HTML/CSS/JS 之后,前端的第四门语言诞生?
  2. 90 年代的浏览器大战又回来了
  3. 惊掉下巴!物理博士靠 AI 写代码,一天烧掉公司 60 多万美金。同事:今年白干
  4. 手机涨价全怪内存?价格翻倍,比黄金还疯……

  5. 在全球范围里,有一个地址几乎无人不知,它就是:8.8.8.8

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/189407