Py学习  »  chatgpt

Talk2Arxiv:使用ChatGPT让您能与任何ArXiv论文进行对话

GitHubStore • 1 年前 • 463 次点击  

项目简介

Talk2Arxiv 是专为学术论文 PDF 构建的开源 RAG(检索增强生成)系统。由 talk2arxiv 服务器提供支持


安装

只需运行 yarn 然后运行  yarn run dev 。


特征

  • PDF 解析:利用 GROBID 从 PDF 中高效提取文本。

  • 分块算法:用于最佳文本分块的定制算法。按逻辑部分(简介、摘要、作者等)进行分块,并且还利用递归细分分块(块为 512 个字符,然后是 256 个字符,然后是 128 个字符......)

  • 文本嵌入:使用 Cohere 的 EmbedV3 模型进行准确的文本嵌入。

  • 矢量数据库集成:使用 Pinecone 来存储和查询嵌入。这也可以缓存研究论文,因此论文只需要嵌入一次。

  • 上下文相关性:采用重新排名过程来根据用户输入选择最相关的内容。


使用的技术

前端:使用 Typescript、ReactJS、TailwindCSS 和 NextJS 开发。后端:由 talk2arxiv-server 提供支持,它使用 Flask、Gunicorn 和 Nginx。


路线图

  • 改进的分块策略

  • 切换到提取源 LaTeX 代码以提高符号数学公式和非标准文本元素的检索效率

  • 也使用视觉理解 LLM 模型

  • 基于帐户的个性化


已知的问题

  • 后端并不是为了处理任何级别的规模而构建的,如果有大量并发请求,它会因为单线程处理而停止


项目链接

github.com/evanhu1/talk2arxiv

 关注「GitHubStore」公众号

扫一扫以下微信

1 加入技术交流群,备注开发语言-城市-昵称


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/166641
 
463 次点击