社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

Talk2Arxiv:使用ChatGPT让您能与任何ArXiv论文进行对话

GitHubStore • 1 年前 • 461 次点击  

项目简介

Talk2Arxiv 是专为学术论文 PDF 构建的开源 RAG(检索增强生成)系统。由 talk2arxiv 服务器提供支持


安装

只需运行 yarn 然后运行  yarn run dev 。


特征

  • PDF 解析:利用 GROBID 从 PDF 中高效提取文本。

  • 分块算法:用于最佳文本分块的定制算法。按逻辑部分(简介、摘要、作者等)进行分块,并且还利用递归细分分块(块为 512 个字符,然后是 256 个字符,然后是 128 个字符......)

  • 文本嵌入:使用 Cohere 的 EmbedV3 模型进行准确的文本嵌入。

  • 矢量数据库集成:使用 Pinecone 来存储和查询嵌入。这也可以缓存研究论文,因此论文只需要嵌入一次。

  • 上下文相关性:采用重新排名过程来根据用户输入选择最相关的内容。


使用的技术

前端:使用 Typescript、ReactJS、TailwindCSS 和 NextJS 开发。后端:由 talk2arxiv-server 提供支持,它使用 Flask、Gunicorn 和 Nginx。


路线图

  • 改进的分块策略

  • 切换到提取源 LaTeX 代码以提高符号数学公式和非标准文本元素的检索效率

  • 也使用视觉理解 LLM 模型

  • 基于帐户的个性化


已知的问题

  • 后端并不是为了处理任何级别的规模而构建的,如果有大量并发请求,它会因为单线程处理而停止


项目链接

github.com/evanhu1/talk2arxiv

 关注「GitHubStore」公众号

扫一扫以下微信

1 加入技术交流群,备注开发语言-城市-昵称


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/166641
 
461 次点击