项目简介
Talk2Arxiv 是专为学术论文 PDF 构建的开源 RAG(检索增强生成)系统。由 talk2arxiv 服务器提供支持

安装
只需运行 yarn 然后运行 yarn run dev 。
特征
PDF 解析:利用 GROBID 从 PDF 中高效提取文本。
分块算法:用于最佳文本分块的定制算法。按逻辑部分(简介、摘要、作者等)进行分块,并且还利用递归细分分块(块为 512 个字符,然后是 256 个字符,然后是 128 个字符......)
文本嵌入:使用 Cohere 的 EmbedV3 模型进行准确的文本嵌入。
矢量数据库集成:使用 Pinecone 来存储和查询嵌入。这也可以缓存研究论文,因此论文只需要嵌入一次。
上下文相关性:采用重新排名过程来根据用户输入选择最相关的内容。
使用的技术
前端:使用 Typescript、ReactJS、TailwindCSS 和 NextJS 开发。后端:由 talk2arxiv-server 提供支持,它使用 Flask、Gunicorn 和 Nginx。
路线图
已知的问题
github.com/evanhu1/talk2arxiv
关注「GitHubStore」公众号
扫一扫以下微信
1 加入技术交流群,备注「开发语言-城市-昵称」
