Python 处理超大 JSON 文件，这个方法简单！

如果你需要在 Python 中处理一个大的 JSON 文件，会很容易出现耗尽内存的情况。即使原始数据大小小于内存容量，Python 也会进一步增加内存使用量。这意味着程序会在与磁盘交互时处理缓慢，或在内存不足时崩溃。

一种常见的解决方案是流解析，也就是惰性解析、迭代解析或分块处理。让我们看看如何将此技术应用于 JSON 处理。

问题：Python中加载JSON内存效率低

我们使用这个大小为24MB的JSON文件来举例，它在加载时会对内存产生明显的影响。这个JSON对象是在GitHub中，用户对存储库执行操作时的事件列表：

[{"id":"2489651045","type":"CreateEvent","actor":
{"id":665991,"login":"petroav","gravatar_id":"","url":"https://api.github.com/users/petroav","avatar_url":"https://avatars.githubusercontent.com/u/665991?"},"repo":
{"id":28688495,"name":"petroav/6.828","url":"https://api.github.com/repos/petroav/6.828"},"payload":
{"ref":"master","ref_type":"branch","master_branch":"master","description":"Solution to homework and assignments from MIT's 6.828 (Operating Systems Engineering). Done in my spare time.","pusher_type":"user"},"public":true,"created_at":"2015-01-01T15:00:00Z"},
...
]

我们的目标是找出给定用户在与哪些存储库进行交互。下面是一个简单的 Python 程序：

import json

with open("large-file.json", "r") as f:
    data = json.load(f)

user_to_repos = {}
for record in data:
    user = record["actor"]["login"]
    repo = record["repo"]["name"]
    if user not in user_to_repos:
        user_to_repos[user] = set()
    user_to_repos[user].add(repo)

输出结果是一个用户名映射到存储库名称的字典。我们使用 Fil 内存分析器运行它时，可以发现内存使用的峰值达到了124MB，还可以发现两个主要的内存分配来源：

读取文件
将生成的字节解码为 Unicode 字符串

但我们加载的原始文件是24MB。一旦我们将它加载到内存中并将其解码为文本 (Unicode)Python 字符串，它需要的空间远远超过 24MB。这是为什么？

扩展知识：Python字符串的内存表示

Python字符串在表示时会被更少使用内存的方法优化。每个字符串都有固定的开销，如果字符串可以表示为 ASCII，则每个字符只使用一个字节的内存。如果字符串使用更多扩展字符，则每个字符可能使用4个字节。我们可以使用 sys.getsizeof() 查看一个对象需要多少内存：

>>> import sys
>>> s = "a" * 1000
>>> len(s)
1000
>>> sys.getsizeof(s)
1049

>>> s2 = "❄" + "a" * 999
>>> len(s2)
1000
>>> sys.getsizeof(s2)
2074

>>> s3 = "💵" + "a" * 999
>>> len(s3)
1000
>>> sys.getsizeof(s3)
4076

在上面的例子中3个字符串都是 1000 个字符长，但它们使用的内存量取决于它们包含的字符。

在本例中我们的大JSON 文件里包含不适合ASCII编码的字符，正是因为它是作为一个巨大的字符串加载的，所以整个巨大的字符串会使用效率较低的内存表示。

流处理解决方案

很明显，将整个JSON文件直接加载到内存中是一种内存浪费。

对一个结构为对象列表的 JSON 文件，理论上我们可以一次解析一个块，而不是一次全部解析，以此来减少内存的使用量。目前有许多 Python 库支持这种 JSON 解析方式，下面我们使用 ijson 库来举例。

import ijson

user_to_repos = {}

with open("large-file.json", "r") as f:



    
    for record in ijson.items(f, "item"):
        user = record["actor"]["login"]
        repo = record["repo"]["name"]
        if user not in user_to_repos:
            user_to_repos[user] = set()
        user_to_repos[user].add(repo)

如果使用json标准库，数据一旦被加载文件就会被关闭。而使用ijson，文件必须保持打开状态，因为当我们遍历记录时，JSON 解析器正在按需读取文件。有关更多详细信息，请参阅 ijson 文档。

在内存分析器运行它时，可以发现内存使用的峰值降到了3.6MB，问题解决了！而且在此例子中，使用 ijson 的流式处理也会提升运行时的性能，当然这个性能取决于数据集或算法。

其他解决方法

Pandas：Pandas 具有读取 JSON 的能力，理论上它可以以更节省内存的方式读取。
SQLite：SQLite 数据库可以解析 JSON，将 JSON 存储在列中，以及查询 JSON数据。因此，可以将 JSON 加载到磁盘支持的数据库文件中，并对它运行查询来提取相关的数据子集。

最后，如果可以控制输出格式，则可以通过切换到更高效的表示来减少 JSON 处理的内存使用量。例如，从单个巨大的 JSON 对象列表切换到每行一条 JSON 记录，这意味着每条解码的 JSON 记录将只使用少量内存。

知识延伸

前段时间，Python开发者公号推荐了一款很‍实用的 JSON 工具‍，可以更轻松直观地查看 JSON。

参考原文：https://pythonspeed.com/articles/json-memory-streaming/

- EOF -

推荐阅读点击标题可跳转

1、8.5K Star! 检查 Python 代码内存分配的利器

2、用 Python 写了一个天天酷跑(附源码)

3、微软继续拆分 VS Code Python 扩展，再推三款独立扩展

↓推荐关注↓

「Python开发者」日常分享 Python 相关的技术文章、实用案例、工具资源、精选课程、热点资讯等

点赞和在看就是最大的支持❤️