我发现大家对于 ChatGPT 在文档对话支持方面的能力都普遍认-20240110151453

2024-01-10 15:14
本条微博链接

我发现大家对于 ChatGPT 在文档对话支持方面的能力都普遍认为比较差，这篇推文的分析相对比较靠谱：

1. OCR 能力不行，OCR 能力不行那从源头上的文字的输入就是有问题的，后续的召回和对话肯定好不了
2.上下文长度不够长，如果长度不够那么一次输入的信息就不够长，导致输出不够好
3. RAG 本身就是很复杂的技术，即使如 OpenAI 也不是那么多容易做好的

以下内容翻译自原推：
***

与 PDF 对话之难，及 ChatGPT 在此领域的不足 - 原因分析

目前最普遍的 GPT-4 应用之一是“文档/PDF 对话”功能。这被认为是 AI 聊天机器人的一项杀手级应用，因为要读懂内容繁多的文件是很烦人的事 —— 相比之下，直接让大语言模型帮你解析并总结内容显得更加简便。

然而，遗憾的是，当处理超过 10 页的 PDF 文件时，ChatGPT 的表现并不尽如人意。它所提供的总结往往过于简略且笼统，甚至在被要求提供更多细节时会直接拒绝。

造成这一问题的原因之一是，这不是一个简单的应用场景。

OCR - 有效的 OCR 技术是必需的，它需要能够精确解析表格和图像。但目前无论是免费的还是商业的 OCR 技术都难以做到这一点。大量商业和研究用的 PDF 文件中含有众多表格和图像。

上下文 - 尽管我们现在有 128K 上下文长度的大语言模型，但目前尚不清楚 ChatGPT 实际部署了哪种模型。如果你对一篇论文进行 OCR 处理后再输入其文本给 ChatGPT，它经常会出现错误。我怀疑 ChatGPT 服务的是一个上下文长度更小的模型。

快速 RAG - 实施一个简单的 RAG 处理流程，即将文档分块、嵌入、检索结果后再传递给大语言模型，可能是一个有效的解决方法。但目前的聊天机器人尚未具备这样的功能。

突出文档关键部分 - 理想的解决方案应当能够明确展示出答案来源于文档的哪些部分。这将极大地简化验证过程。

理想情况下，与 PDF 对话的功能应包含以上所有特点。似乎，如果一款独立的应用程序能够很好地实现这些功能，即使在应用商店中也能获得可观的收入。不过，我认为这并不适合作为一个获得风险投资支持的创业项目，更像是一个一两人小团队可以经营的小本生意，足以成为一种舒适的生活方式。

简言之，实现一个看似简单的“与 PDF 对话”功能，其实是一个复杂且难以做到极致的任务。

推文：

网页链接