社区教程 Wiki

注册登录

创作新主题

社区所有版块导航

Python

python开源 Django Python DjangoApp pycharm

DATA

docker Elasticsearch

分享

问与答闲聊招聘翻译创业分享发现分享创造求职区块链支付之战

aigc

aigc chatgpt

WEB开发

linux MongoDB Redis DATABASE NGINX 其他Web框架 web工具 zookeeper tornado NoSql Bootstrap js peewee Git bottle IE MQ Jquery

机器学习

机器学习算法

Python88.com

反馈公告社区推广

产品

短视频

印度

印度

一周十大热门主题

D20访谈直播预约！阿里AIGC大会“云参与”

专访上海电气品牌公关总监张笛：从“人带人闯市场”到全球品牌，大国重器的出海进化论 | TopDigi...

项目从 MySQL 切换 PostgreSQL，踩了太多的坑！！！

豆瓣9.5，深度学习入门神作，“鱼书”系列第 5 部生成模型来了！

ChatGPT 4.5 国内直接用！

8 个 Python 库，再也不需要自己编写脚本了

ChatGPT们重塑了对话框，钉钉今天要重塑表格

量化前沿速递：机器学习[20250706]

Gitee Pipe：关键领域DevSecOps的核心引擎

CCF Computility 2025 | 郭得科、徐扬、王兴伟、过敏意、任丰原等教授邀您共话分布...

关注

Py学习 » chatgpt

Talk2Arxiv：使用ChatGPT让您能与任何ArXiv论文进行对话

GitHubStore • 1 年前 • 463 次点击

项目简介

Talk2Arxiv 是专为学术论文 PDF 构建的开源 RAG（检索增强生成）系统。由 talk2arxiv 服务器提供支持

Screenshot

安装

只需运行 yarn 然后运行 yarn run dev 。

特征

PDF 解析：利用 GROBID 从 PDF 中高效提取文本。
分块算法：用于最佳文本分块的定制算法。按逻辑部分（简介、摘要、作者等）进行分块，并且还利用递归细分分块（块为 512 个字符，然后是 256 个字符，然后是 128 个字符......）
文本嵌入：使用 Cohere 的 EmbedV3 模型进行准确的文本嵌入。
矢量数据库集成：使用 Pinecone 来存储和查询嵌入。这也可以缓存研究论文，因此论文只需要嵌入一次。
上下文相关性：采用重新排名过程来根据用户输入选择最相关的内容。

使用的技术

前端：使用 Typescript、ReactJS、TailwindCSS 和 NextJS 开发。后端：由 talk2arxiv-server 提供支持，它使用 Flask、Gunicorn 和 Nginx。

路线图

改进的分块策略
切换到提取源 LaTeX 代码以提高符号数学公式和非标准文本元素的检索效率
也使用视觉理解 LLM 模型
基于帐户的个性化

已知的问题

后端并不是为了处理任何级别的规模而构建的，如果有大量并发请求，它会因为单线程处理而停止

项目链接

github.com/evanhu1/talk2arxiv

关注「GitHubStore」公众号

扫一扫以下微信

1 加入技术交流群，备注「开发语言-城市-昵称」

Python社区是高质量的Python/Django开发社区
本文地址：http://www.python88.com/topic/166641

463 次点击

登录后回复

关于移动版

Py学习 - 专注于Python技术发展的社区(原Django社区)

沪ICP备11025650号