【Git】从“用”到“懂”

很多人用 git 从头到尾就三板斧，add，commit，push，就完事儿了。入门 git 的第一天，我们的领路人肯定会说，先学会这三招，别的不会再查。

的确是在刚刚开始的时候，需要快速的进入和他人协同使用 git 的状态，没那么多时间慢慢研究细节，本文也不会去追求让你学到某一两个 git 的奇技淫巧。本文想要做到的是，让你彻彻底底的明白 git 是一个什么样子的东西，本质上是在做什么，打通对 git 的任督二脉，其它的命令你自然就会知其所以然了。

要阅读本文，你需要对 git 有基本的操作理解，至少得挥过上面提到的三板斧吧~

Git 的三区两步

首先很基础的一个东西就是 git 的三个区，工作区，暂存区，以及存储库（存储区）。我们的很多命令其实本质上就在这三个区域做交互的工作，所以需要彻底理解这三个区域的作用于内容。

工作区就是当前我们可以看到的，写代码的地方，当前正在进行改动的地方。

暂存区就是当你 git add 了以后的地方，将当前某些文件放进暂存区，就是通过 git add 来执行的。

而存储区（repository）其实就是真正 Git 保存了信息的地方，所有的改动都会记录下来，通过 git commit 命令就相当于将你的暂存区的所有改动放到了 git 的仓库中，至此你就完整的保存了所有的信息。

换一个更加形象的说法，来帮助大家理解这三个区的概念：就是你有一批货物，每个货物是一个文件，现在你要将这些货物存放到仓库中。货物在你手上时，相当于是在工作区，你可以对货物（文件）进行调整操作，然后你将整理好的货物搬到仓库门前的广场（这就是暂存区）。假如有了一小批货物是同样的用途，就可以一起放进仓库，并贴上一张关于这批货物的描述的便条（这里的便条就是 git commit 时的描述信息）。

有了这样的一个基础概念，我们就明白了为什么 git 要选择这样的三步走，因为你可以选择合适的 commit 时间，让一批改动有同一个描述信息。

Git 对象

为了加深对 git 的理解，我们可能需要知道什么是 Git 对象。在 Git 中主要有 4 种重要的对象：「Blob 对象，Tree 对象，Commit 对象」以及 「Tag 对象」。下面我们介绍这四种对象的概念，然后会进一步用例子（进入到 .git 文件中）来帮助大家更好的理解。

首先我们得了解每次 commit 以后得到的那个字符串是什么意思，是如何得来的。这是一种哈希算法，名字为 sha-1，对目标的 Git 对象进行计算，得到一个哈希值，目的是为了避免不同的文件得到相同的结果，从而在 Git 的记录中出现冲突。

「blob 对象」：接下来，了解一下什么是 blob 对象：binary large object，字面意思很容易理解，就是一个目标对象，其实在 Git 中，就是一个文件经过压缩后的内容。也就是说，在 Git 中，每个文件都是一个 blob 对象，也就是说，利用这个 blob 对象可以还原出原始的文件。

记住这一点，每次你 add 以后，git 就会对你修改了的文件生成一个 blob 对象，也就是说，不仅仅每个文件都是一个 blob 对象，文件的不同版本也会是一个 blob 对象。

「tree对象」：然后是 tree 对象。顾名思义，就是一个树形结构图。在 Git 中，不会保存每个文件夹（也可以理解为目录，虽然在 Git 中它们并没有上下级的关系），但是为了记录文件之间的关系，会用 tree 对象来表示这种关系。

这里的 tree 可以按照文件夹来理解（再强调下，tree 对象和 blob 对象并不是文件夹和文件的关系），但是它们的指向某种程度上表示了文件夹和文件的关系。

从上面的图可以看出来，tree 对象可以指向 blob 对象，也可以指向 tree 对象。

「commit 对象」：commit 这个命令我们一定很熟悉，但是它是什么呢？如何产生作用？奥秘来自于 commit 对象本身。每个 commit 对象本身包含了这些信息：

某个 tree 对象；
本次 commit 的时间；
本次 commit 的作者；
本次 commit 的信息。

本质上讲，每次 commit 意味着需要记录当前文件系统的一个状态，所以 commit 是需要包含一个 tree 对象（其实是指向一个 tree 对象）。像我们前面所讲，tree 对象其实类似于一个文件夹的作用，如果指向根文件，那么当前所有文件的状态就相当于都知道了。

这里我们可以提起一个概念（或许在很多 Git 教程中都提到了，但是你没有完全理解），「Git的工作原理是创建文件快照，而不是像其他VCS那样增加差异。」

其中的奥秘就在这个 commit 对象的内容，它指向的 tree 对象一般来说，就是一个根文件的状态，通过 tree 对象本身再指向其它 tree 对象或者 blob 对象，就保存了当前所有文件的状态。也就是通过一个 commit 对象，我们就保存了一份当前文件系统的快照。

此外，还需要了解到一个细节，除了第一个 commit 对象外，每个 commit 对象中本身还会指向前一个 commit 对象。

这里选择一个 git-scm 文档中的一个图片进行展示，三次 commit 分别如何指向这些文件，一目了然：

「tag 对象」：tag 对象就比较简单了，具体 git tag 的命令我们就不去介绍了，本质上就是对当前 commit 添加一些描述信息，所以我们也可以很容易的去理解它的原理，就是指向一个 commit 对象，此外再附加一些执行 git tag 命令时我们添加的那些备注信息，备注人，时间等等。

从 .git 文件说起

在介绍了前面的概念后，我们可能需要进行一些实际操作，才能更容易来理解具体的原理。这里我们一起来深入到 .git 文件中进行探索，下去大家可以自己试试，加深理解。

我们都知道以一个点开头的文件往往都是隐藏文件，.git 文件夹中其实就是我们使用 git 的全部奥秘，那么先简单的看一下这个文件中有些什么内容。

我们先从 objects 看起，这里保存了所有 Git 中的对象，我们前面介绍的几个对象就在这里放着。首先点开你的 objects 文件夹，里面一定是大量的其它文件夹，像我这样：

这里我们来介绍一下，每个文件夹的名字，其实是一个 sha-1 后的哈希值的前两位，以上面这幅图为例，0c 加上 3620f。。。就是一个 git 对象。之所以选择这种存储方式，是为了节省空间，要不然所有的对象都直接放在一起，太多啦~

接下来用 git cat-file 命令来查看这个对象的内容：（参数 -t 表示查看这个对象的类型，-p 表示查看里面的内容）

首先我们可以看到这个 0c3620f 的对象是一个 commit 对象，接着我们用 -p 参数来查看其中的内容，发现它指向一个 tree 对象，指向一个 parent 对象（这个 parent 就是当前 commit 对象的前一次 commit），此外还保存了 commit 的作者等信息。

我们继续进行挖掘，看一看所指向的这个 tree 对象，在查看之前，我们来验证一下它是否保存在这个 objects 文件夹中。按照前面的介绍，以这个对象的哈希值的前两位会作为一个文件夹保存在 objects 文件夹中，找一下是不是存在：

果然有一个叫 d0 的文件夹，其中有一个对象是 162099。。。那么我们继续用前面的命令来探索一下这个 tree 对象：

首先用 -t 参数看到的确是一个 tree 对象，然后看一下它有哪些内容，加上 -p 参数，可以看到，这个 tree 对象指向一个 blob 对象，和一个 tree 对象。

其中这个 blob 对象就是我们的 readme 文件，tree 对象指向了一个名为 Search 的文件夹。对一个 blob 对象，也可以用 git cat-file 对象加上 -p 参数来还原其中的内容。

是不是现在明白了前面说的为什么 Git 保存的是文件系统的快照，通过指向一个根目录文件，记录当前的文件系统状态。然后通过一连串的指向关系，可以知道所有当前 commit 的所有文件对象的内容。

「refs」：还有一个值得关注的点文件夹是 .git/refs，可以看到当前我的 refs 文件中还有三个文件夹，分别保存了 head 对象指向的位置，remotes 的信息，以及 tags 的信息。

简单介绍一下，head 中存放了分支信息，当前我们看到是只有一个 master 分支，如果我们再添加一些个新分支，可以看到多了一个 test1 分支，这个时候可以看到当前的 heads 文件夹中产生了变化：

remotes 当中还会有多个文件夹，如果没有连接多个远程的话，一般来说就是一个 origin 文件夹，里面的远程分支基本上与本地类似，同样也会指向某个 commit 对象。

这些内容大家都可以通过前面的命令来进行验证，这里就不一一进行例子展示了。

关于分支

之前工作遇到同学，不太喜欢切分支。假如稍微了解了一点关于的基础，知道 Git 是储存文件快照的，一想一个 commit 都要储存所有当前文件的状态，那一个分支又要保存这么多信息吗？

其实所谓的分支，就是一个只有 40 个字节的文件而已，我们看看前面的 refs/haeds 文件夹，master 和 test1 分支，都是一个 41 字节的文件。我们来看看这两个分支：

通过直接查看两个文件的内容，发现一模一样，是一个 sha-1 值，然后用 git 看了一下，发现是上一次 merge 的一个 commit。

现在明白了吧？每次创建一个分支其实就是保存了一个 commit 的值，40 个字节的开销，也太小了叭。所以大家在开发的时候，尽量每个功能都开一个分支，这样子在后续进行提交，回退，做某些修改的时候，都会很方便，不用担心影响到其它工作分支。

讲到这里，我们也来补充一下 .git 文件另外一个有意思的内容。Git 如何记录我们当前在哪个分支呢？在你的 .git 文件夹中还会有一个文件（HEAD），这个文件中是什么内容呢？来看看吧：

可以看到这个 HEAD 文件其实就保存了一个路径，这个路径指向我们前面提到的，放分支的 refs/heads 文件夹当中的某个分支（这个例子中是 master）。

此外还有一个 ORIG_HEAD 文件，当我们做了某个“危险”的操作时（比如 merge，rebase，reset 等），Git 就会把 HEAD 的状态存放在该文件中，让你随时可以调回危险动作之前的状态。

总结

不知不觉也啰嗦了几千字了，之前看了很多关于 Git 的进阶教程，最后发现大多数教程都是为大家介绍一些奇技淫巧，所以有了这么一篇文章，想要为大家深入了解 git 的基本原理提供一些帮助。

文章贯彻了我以前源码解析和 pytorch 教程的一贯风格，想要授人以渔，而不是教一两个炫酷的命令，所以希望大家可以带着通过本文的浅浅收获，进一步去 .git 文件中进行探索，来获得一个恍然大悟的快感。

如果大家喜欢这样的文章，可以给我留言，告诉我来进一步整理此类的文章。如果这篇文章对你带来了帮助，就分享下吧，谢谢~~

reference

#1 https://git-scm.com/

#2 Git从入门到精通【高见龙】

由于微信平台算法改版，公号内容将不再以时间排序展示，如果大家想第一时间看到我们的推送，强烈建议星标我们和给我们多点点【在看】。星标具体步骤为：

（1）点击页面最上方"AINLP"，进入公众号主页。

（2）点击右上角的小点点，在弹出页面点击“设为星标”，就可以啦。

感谢支持，比心。

欢迎加入AINLP技术交流群

进群请添加AINLP小助手微信 AINLPer（id: ainlper)，备注NLP技术交流

推荐阅读

这个NLP工具，玩得根本停不下来

征稿启示| 200元稿费+5000DBC（价值20个小时GPU算力）

完结撒花！李宏毅老师深度学习与人类语言处理课程视频及课件（附下载）

从数据到模型，你可能需要1篇详实的pytorch踩坑指南

如何让Bert在finetune小数据集时更“稳”一点

模型压缩实践系列之——bert-of-theseus，一个非常亲民的bert压缩方法

文本自动摘要任务的“不完全”心得总结番外篇——submodular函数优化

Node2Vec 论文+代码笔记

模型压缩实践收尾篇——模型蒸馏以及其他一些技巧实践小结

中文命名实体识别工具（NER）哪家强？

学自然语言处理，其实更应该学好英语

斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区，专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享，主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等，欢迎关注！加技术交流群请添加AINLPer(id：ainlper)，备注工作/研究方向+加群目的。

阅读至此了，分享、点赞、在看三选一吧🙏