Py学习  »  chatgpt

ChatGPT发布一周年:开源大模型超越了吗?最新最热的Arxiv论文来啦!

AIforResearch • 1 年前 • 907 次点击  

前言:科研就像一场冒险,而看论文就是你的探险工具!只有通过深入阅读,才能找到宝藏,发现那些意想不到的科研奇遇哦!


1. ChatGPT一周年:开源大模型是否迎头赶上?

  标题:ChatGPT's One-year Anniversary: Are Open-Source Large Language Models  Catching up?

  机构:南洋理工大学、Salesforce研究院

  关键词:开源大语言模型、ChatGPT、任务相当性、模型进展

  作者:Hailin Chen, Fangkai Jiao, Xingxuan Li

  分析:ChatGPT发布于2022年底,给人工智能领域的研究和商业带来了巨大的变革。通过使用监督微调和人类反馈的强化学习来调整一个大语言模型,ChatGPT展示了模型能够回答人类问题并遵循广泛任务的指示。随着这一成功,对大语言模型的兴趣越来越浓厚,包括学术界和行业涌现了许多新的大语言模型,还有许多专注于大语言模型的初创公司。尽管封闭源大语言模型(如OpenAI的GPT、Anthropic的Claude)通常表现优于开源模型,但后者在一些任务上取得了快速进展,声称达到或甚至超过了ChatGPT的水平。这不仅对研究而言有重要意义,对商业也至关重要。在ChatGPT一周年之际,该论文对开源大语言模型在所有声称与ChatGPT相当或更好的任务上进行了全面概述。

  地址:https://arxiv.org/pdf/2311.16989


2. Beyond Hallucinations:通过幻觉意识的直接偏好优化提升LVLMs

  标题:Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware  Direct Preference Optimization

  机构:上海AI实验室

  关键词:幻觉意识、多模态模型、直接偏好优化、幻觉样本配对

  作者:Zhiyuan Zhao, Bin Wang, Linke Ouyang

  分析:这篇论文介绍了一种新的策略:幻觉意识的直接偏好优化(HA-DPO)。通过将幻觉问题视为一种独特的偏好选择问题,模型在面对同一图像的两个回答时训练为偏好非幻觉性回答。同时,论文还提出了一种有效的构建幻觉样本配对的方法,以确保高质量、风格一致的配对用于稳定的HA-DPO训练。将该策略应用于两种主流多模态模型,结果显示幻觉问题显著减少,模型的泛化能力提升。通过HA-DPO,MiniGPT-4模型的POPE准确度从51.13%提升至85.66%(绝对改善34.5%),MME分数从968.58提升至1365.76(相对改善41%)。代码、模型和数据集将公开可用。

  地址:https://arxiv.org/pdf/2311.16839


3. Falcon系列开放式语言模型

  标题:The Falcon Series of Open Language Models

  机构:阿布扎比科技创新研究所

  关键词:Falcon系列、大语言模型、预训练、开放生态系统

  作者:Ebtesam Almazrouei, Hamza Alobeidli, Abdulaziz Alshamsi

  分析:Falcon系列包括7B、40B和180B参数的因果解码器模型,主要在解决从网络数据中获取高质量文本的问题。最大的模型Falcon-180B是有史以来最大规模的预训练模型,使用了超过3.5万亿个文本标记进行训练。Falcon-180B在性能上显著超过了PaLM或Chinchilla等模型,并改进了同时开发的LLaMA 2或Inflection-1模型。它在降低预训练和推理成本的同时,接近PaLM-2-Large的性能,是该论文所知道的世界上三个最好的语言模型之一,与GPT-4和PaLM-2-Large齐名。该论文报告了详细的评估结果,以及预训练Falcon所使用的方法和定制工具。值得注意的是,该论文报告了该论文的定制分布式训练代码库,使该论文能够在云AWS基础设施上使用最多4096个A100进行高效的预训练。该论文提供了该论文的网络数据集的600B标记提取,并以自由许可证发布Falcon-7/40/180B模型,以促进开放科学,并加速大型语言模型的开放生态系统的发展。

  地址:https://arxiv.org/pdf/2311.16867


4. 基于大模型的中文对话AI角色个性化定制

  标题:CharacterGLM: Customizing Chinese Conversational AI Characters with  Large Language Models

  机构:清华大学、中国人民大学

  关键词:对话生成、角色个性化定制、大语言模型

  作者:Jinfeng Zhou, Zhuang Chen, Dazhen Wan

  分析:本文介绍了CharacterGLM,该系列模型基于ChatGLM构建,模型参数从6B到66B不等。该论文的CharacterGLM旨在生成基于角色的对话(CharacterDial),旨在为对话式AI系统提供角色个性化定制,以满足人们内在的社交欲望和情感需求。在CharacterGLM的基础上,该论文可以通过配置其属性(身份、兴趣、观点、经验、成就、社会关系等)和行为(语言特征、情感表达、互动模式等),来定制各种AI角色或社交代理。根据手动评估,该论文的模型在一致性、人类相似度和参与度等方面优于大多数主流闭源大语言模型,包括GPT系列。该论文将发布该论文的6B版本的CharacterGLM和一部分训练数据,以促进基于角色的对话生成的进一步研究发展。

  地址:https://arxiv.org/pdf/2311.16832


5. LLMGA: 基于大模型的多模态生成助手

  标题:LLMGA: Multimodal Large Language Model based Generation Assistant

  机构:字节跳动、香港中文大学

  关键词:多模态、语言模型、图像生成、可解释性

  作者:Bin Xia, Shiyin Wang, Yingfan Tao

  分析:本文介绍了一种基于大语言模型的多模态生成助手(LLMGA),利用大语言模型(LLMs)中的知识和推理、理解、响应能力来辅助用户进行图像生成和编辑。与现有方法不同,多模态大语言模型(MLLMs)生成固定大小的嵌入以控制稳定扩散(SD),该论文的LLMGA为精确控制SD提供了详细的语言生成提示。这不仅增加了LLM的上下文理解,还减少了生成提示中的噪声,产生了更复杂和精确内容的图像,提高了网络的可解释性。为此,该论文整理了一个全面的数据集,包括生成提示的精细化、类似图像生成、修复和扩展、视觉问答等方面。此外,该论文提出了一个两阶段的训练方案。在第一阶段,该论文训练MLLM掌握图像生成和编辑的属性,使其能够生成详细的提示。在第二阶段,该论文优化SD以与MLLM的生成提示对齐。此外,该论文还提出了一种基于参考的恢复网络,以减轻图像编辑期间生成区域与保留区域之间的纹理、亮度和对比度差异。广泛的结果表明,LLMGA具有有前途的生成能力,并可以以交互方式实现更广泛的应用。

  地址:https://arxiv.org/pdf/2311.16500


6. GPT4Video: 统一的多模态大模型,用于指令跟随理解和安全生成

  标题:GPT4Video: A Unified Multimodal Large Language Model for  lnstruction-Followed Understanding and Safety-Aware Generation

  机构:悉尼大学、腾讯AI实验室

  关键词:多模态、视频理解、视频生成

  作者:Zhanyu Wang, Longyue Wang, Zhen Zhao

  分析:这篇论文提出了GPT4Video,一个统一的多模态框架,通过集成稳定扩散生成模型和基于指令的方法,为大语言模型增加了视频理解和生成的能力。通过定性和定量实验证明,GPT4Video具有成为有效、安全和类人化视频助手的潜力,能够处理视频理解和生成场景。

  地址:https://arxiv.org/pdf/2311.16511


7. Bridging the Gap:一种用于时刻检索和精彩片段检测的统一视频理解框架

  标题:Bridging the Gap: A Unified Video Comprehension Framework for Moment  Retrieval and Highlight Detection

  机构:清华大学、卡内基梅隆大学

  关键词:视频时刻检索、精彩片段检测、统一视频理解框架、多模态

  作者:Yicheng Xiao, Zhuoyan Luo, Yong Liu

  分析:该论文通过提出统一视频理解框架(UVCOM),解决了视频时刻检索(MR)和精彩片段检测(HD)的问题。UVCOM通过对跨模态的内部和间模态进行逐步整合,实现了对视频的全面理解。此外,通过多方面对比学习,通过良好对准的多模态空间,巩固了局部关系建模和全局知识积累。在QVHighlights、Charades-STA、TACoS、YouTube Highlights和TVSum数据集上的大量实验证明了UVCOM的有效性和合理性,其优于现有方法。

  地址:https://arxiv.org/pdf/2311.16464


8. 大规模多模态模型的持续指令微调

  标题:Continual Instruction Tuning for Large Multimodal Models

  机构:鹏城实验室、中国科学院大学、武汉AI研究院

  关键词:大规模多模态模型、持续指令微调、灾难性遗忘、多任务联合指令微调

  作者:Jinghan He, Haiyun Guo, Ming Tang

  分析:这篇论文主要探讨大规模多模态模型(LMMs)的持续指令微调中存在的问题。通过建立第一个基准来揭示持续指令微调中的灾难性遗忘问题,并证明多任务联合指令微调可以促进模型的持续学习能力和减轻遗忘现象。同时,结合经典的持续学习方法,提出了数据回放和模型扩展策略,并针对视觉-语言任务对的相关性和遗忘动态,提出了基于任务相似度的正则化和模型扩展方法。该论文的实验结果表明,该论文的方法能够持续提升模型的性能。

  地址:https://arxiv.org/pdf/2311.16206


9. 预训练语言模型对自回归图文生成没有帮助

  标题:Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image  Generation

  机构:斯坦福大学、Apple

  关键词:预训练、语言模型、自回归、图文生成

  作者:Yuhui Zhang, Brandon McKinzie, Zhe Gan

  分析:本文探讨了预训练语言模型在自回归文本生成与图像生成中的应用,并发现预训练语言模型的帮助有限。研究发现图像令牌与文本令牌语义明显不同,预训练语言模型对图像令牌建模效果不如随机初始化模型。此外,图文数据集中的文本令牌相比常规语言模型的预训练数据过于简单,导致语言模型能力的灾难性下降。

  地址:https://arxiv.org/pdf/2311.16201


10. 通用基础模型是否能超越专用微调模型?以医学为例的案例研究

  标题:Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case  Study in Medicine

  机构:微软

  关键词:通用基础模型、提示工程、最先进结果

  作者:Harsha Nori, Yin Tat Lee, Sheng Zhang

  分析: 这篇论文主要研究通用基础模型在医学领域的表现。通过系统性地探索提示工程,论文展示了GPT-4可以轻松超越先前的医学基准结果。研究提出了Medprompt方法,并在MultiMedQA套件的九个基准数据集上取得了最先进的结果,同时大大减少了对模型的调用次数。Medprompt方法在MedQA数据集上将错误率降低27%,首次达到90%的分数。此外,论文还通过在其他领域的考试中研究,展示了Medprompt的广泛适用性。

  地址:https://arxiv.org/pdf/2311.16452


11. 可扩展式的(生产)语言模型中提取训练数据

   标题:Scalable Extraction of Training Data from (Production) Language Models

   机构:华盛顿大学、UC伯克利分校、苏黎世联邦理工学院

   关键词:提取训练数据、记忆化、语言模型、数据攻击

   作者:Milad Nasr, Nicholas Carlini, Jonathan Hayase

   分析:该论文研究了可提取的记忆化:即敌方可以通过查询机器学习模型有效提取训练数据,而无需事先了解训练数据集。该论文表明敌方可以从开源语言模型如Pythia或GPT-Neo、半开放模型如LLaMA或Falcon以及封闭模型如ChatGPT中提取出GB级的训练数据。现有文献中的技术足以攻击不对齐的模型;为了攻击对齐的ChatGPT,该论文开发了一种新的离差攻击,使得模型与其聊天机器人式生成不一致,并以比正常行为时高出150倍的速率发出训练数据。该论文的方法显示实际攻击可以恢复出比先前认为的远远更多的数据,并揭示了当前的对齐技术不能消除记忆化。

   地址:https://arxiv.org/pdf/2311.17035


12. TextDiffuser-2:释放语言模型在文本渲染中的力量

   标题:TextDiffuser-2: Unleashing the Power of Language Models for Text  Rendering

   机构:中山大学、微软研究院、香港科技大学

   关键词:文本渲染、语言模型、布局规划、多样性增强

   作者:Jingye Chen, Yupan Huang, Tengchao Lv

   分析:TextDiffuser-2旨在释放语言模型在文本渲染中的力量。首先,该论文对一个大型语言模型进行了细调以进行布局规划。这个大型语言模型能够自动生成文本渲染的关键词,并通过对话支持布局的修改。其次,该论文在扩散模型中利用语言模型对行级别的位置和文本进行编码。与以前在字符级别提供紧密指导的方法不同,这种方法生成了更多样化的文本图片。通过广泛的实验证明了TextDiffuser-2实现了更合理的文本布局和生成,并具有增强的多样性。

   地址:https://arxiv.org/pdf/2311.16465


13. CDEval: 一个用于衡量大模型文化维度的基准

   标题:CDEval: A Benchmark for Measuring the Cultural Dimensions of Large  Language Models

   机构:北京交通大学、微软亚洲研究院

   关键词:大语言模型、文化维度、对齐研究

   作者:Yuhang Wang, Yanxu Zhu, Chao Kong

   分析:该论文通过引入CDEval基准来评估大语言模型的文化维度。目前对于大语言模型的对齐问题主要关注普世价值,对于包含多元文化的方面关注还不足。CDEval基准通过GPT-4的自动生成和人工验证构建,涵盖了七个领域中的六个文化维度。综合实验揭示了主流大语言模型的文化特征,强调了不同维度和领域之间的一致性和差异性。研究结果凸显了文化因素在大语言模型开发中的重要性,特别是在多元文化环境中的应用。通过CDEval,该论文旨在通过包含文化维度来拓宽大语言模型的对齐研究,为未来的发展和评估提供更综合的框架。该基准为大语言模型的文化研究提供了宝贵的资源,为更具文化意识和敏感性的模型铺平了道路。

   地址:https://arxiv.org/pdf/2311.16421


14. 在移动设备上进行的亚秒级文本到图像生成的MobileDiffusion

   标题:MobileDiffusion: Subsecond Text-to-Image Generation on Mobile Devices

   机构:Google

   关键词:移动设备、文本到图像生成、模型优化、亚秒级速度

   作者:Yang Zhao, Yanwu Xu, Zhisheng Xiao

   分析:MobileDiffusion是一个高效的文本到图像扩散模型,该模型通过架构和采样技术的全面优化而获得。该论文对模型架构设计进行了全面的研究,以减少冗余,增强计算效率,并最小化模型的参数数量,同时保持图像生成质量。此外,该论文在MobileDiffusion上采用了精馏和扩散-GAN微调技术,分别实现8步和1步的推理。定量和定性实证研究证明了该论文所提出技术的有效性。MobileDiffusion在移动设备上生成512x512图像的推理速度达到了非凡的亚秒级,创造了一个新的技术水平。

   地址:https://arxiv.org/pdf/2311.16567


15. 对抗性扩散蒸馏

   标题:Adversarial Diffusion Distillation

   机构:Stability AI

   关键词:对抗性扩散蒸馏、图像合成、模型蒸馏

   作者:Axel Sauer, Dominik Lorenz, Andreas Blattmann

   分析:这篇论文介绍了一种名为Adversarial Diffusion Distillation(ADD)的新型训练方法,可以在仅1-4个步骤中高效采样大规模基础图像扩散模型,并保持高质量的图像。通过使用得分蒸馏来利用现成的大规模图像扩散模型作为教师信号,并结合对抗损失来确保在一个或两个采样步骤的低级别情况下保持高图像保真度。分析结果表明,该论文的模型在单步骤中明显优于现有的少步骤方法(GAN、潜变一致模型),并且在仅四个步骤中达到了最先进的扩散模型(SDXL)的性能水平。ADD是首个可以解锁基础模型下的单步骤实时图像合成的方法。

   地址:https://arxiv.org/pdf/2311.17042


16. RELIC: 使用自我一致性探究大模型的回应

   标题:RELIC: Investigating Large Language Model Responses using  Self-Consistency

   机构:斯坦福大学、IBM研究院、苏黎世联邦理工学院

   关键词:自我一致性、可靠性、交互式系统、生成文本

   作者:Furui Cheng, Vilém Zouhar, Simran Arora

   分析:该论文提出了一种交互式系统,帮助用户了解生成文本的可靠性。通过多个样本的自我一致性来研究同一大语言模型生成的文本的可靠性。设计了一个名为RELIC的交互式系统,使用户能够调查和验证多个长篇回应中的语义变化,从而识别生成文本中可能存在的不准确信息并进行必要的更正。通过对十名参与者进行用户研究,证明了该论文的方法有助于用户更好地验证生成文本的可靠性。总结了这项研究的设计启示和教训,以激发未来关于人-大语言模型交互的可靠性研究。

   地址:https://arxiv.org/pdf/2311.16842


17. ChartLlama:用于图表理解和生成的多模态大模型

   标题:ChartLlama: A Multimodal LLM for Chart Understanding and Generation

   机构:腾讯、东南大学、南洋理工大学

   关键词:多模态、图表理解、指令微调、数据集构建

   作者:Yucheng Han, Chi Zhang, Xin Chen

   分析:这篇论文介绍了一种基于多模态的大语言模型ChartLlama,该模型在图表问题回答、图表生成和图表提取等任务中取得了显著的改进。研究人员通过创建一个高质量的指令微调数据集,解决了现有多模态数据集对图表领域数据的理解能力不足的问题。同时,他们的方法具有灵活性,可以生成多样化的指令微调数据,同时保持资源消耗较低。此外,他们的数据集还包括了更多种类的图表和任务类型。ChartLlama的结果证实了他们提出的数据生成方法在提高图表理解方面的价值和巨大潜力。

   地址:https://arxiv.org/pdf/2311.16483


18. MMMU:一个用于专家AGI的大规模多学科多模态理解和推理基准

   标题:MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning  Benchmark for Expert AGI

   机构:滑铁卢大学、普林斯顿大学、俄亥俄州立大学

   关键词:大规模多学科多模态基准、多模态模型评估、领域特定知识

   作者:Xiang Yue, Yuansheng Ni, Kai Zhang

   分析:这篇论文介绍了MMMU,这是一个新的基准,旨在评估多模态模型在需要大学级主题知识和深思熟虑的大规模多学科任务上的表现。MMMU包括来自大学考试、测验和教科书的11.5K个细致收集的多模态问题,涵盖六个核心学科:艺术与设计、商业、科学、健康与医学、人文社会科学和技术与工程。这些问题涵盖了30个学科和183个子领域,包括30种高度异质的图像类型,如图表、图示、地图、表格、乐谱和化学结构。与现有的基准不同,MMMU聚焦于具有领域特定知识的高级感知和推理,挑战模型执行类似于专家面临的任务。对14个开源的LMM和专有的GPT-4V(ision)的评估凸显了MMMU带来的重大挑战。即使是先进的GPT-4V也只能达到56%的准确率,表明有很大的改进空间。该论文相信MMMU将激发社区构建面向专家人工智能的下一代多模态基础模型。

   地址:https://arxiv.org/pdf/2311.16502


19. Ranni: 驯服文本到图像扩散的精确指导

   标题:Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following

   机构:阿里巴巴集团

   关键词:文本到图像、语义面板、生成器、指令微调

   作者:Yutong Feng, Biao Gong, Di Chen

   分析:该论文通过引入语义面板作为解码文本到图像的中间件,支持生成器更好地遵循指令,并解决了现有文本到图像扩散模型在解释复杂提示(尤其是涉及数量、对象-属性绑定和多主体描述的提示)方面的困难。通过大型语言模型的帮助,该面板通过将从输入文本中解析的视觉概念排列,并作为详细控制信号注入到去噪网络中,以补充文本条件。为了便于文本到面板的学习,该论文提出了一个精心设计的语义格式化协议,并配备了一个完全自动的数据准备流程。通过这样的设计,该论文称之为Ranni的方法成功改进了预训练的T2I生成器在文本可控性方面。更重要的是,生成性中间件的引入带来了更便利的交互形式(即直接调整面板中的元素或使用语言指令),并进一步允许用户根据自己的需要对生成进行细致定制,该论文开发了一个实用系统,并展示了其在连续生成和基于对话的编辑中的潜力。

   地址:https://arxiv.org/pdf/2311.17002


20. CoSeR: 图像和语言的认知超分辨率

   标题:CoSeR: Bridging Image and Language for Cognitive Super-Resolution

   机构:清华大学、香港科技大学

   关键词:超分辨率、图像理解、语言理解

   作者:Haoze Sun, Wenbo Li, Jianzhuang Liu

   分析: 这篇论文介绍了一种名为Cognitive Super-Resolution (CoSeR)的框架,它通过结合图像外观和语言理解生成认知嵌入,从而为超分辨率模型赋予了理解低分辨率图像的能力。作者通过此方法成功地恢复了语义上正确和逼真的细节,在多个基准测试中展示了最先进的性能。

   地址:https://arxiv.org/pdf/2311.16512


21. HumanGaussian: 基于高斯喷洒的文本驱动3D人体生成

   标题:HumanGaussian: Text-Driven 3D Human Generation with Gaussian Splatting

   机构:腾讯AI实验室

   关键词:高斯喷洒、3D人体生成、细粒度几何、逼真外观

   地址:https://arxiv.org/pdf/2311.17061


22. RankingGPT: 文本排序中大模型的增强

   标题:RankingGPT: Empowering Large Language Models in Text Ranking with  Progressive Enhancement

   机构:阿里巴巴集团

   关键词:文本排序、大语言模型、渐进训练、候选文档

   地址:https://arxiv.org/pdf/2311.16720


23. MagicAnimate: 使用扩散模型实现时态一致的人体图像动画

   标题:MagicAnimate: Temporally Consistent Human Image Animation using  Diffusion Model

   机构:字节跳动、新加坡国立大学

   关键词:人体图像动画、时态一致性、参考身份保护、扩散模型

   地址:https://arxiv.org/pdf/2311.16498


24. MVBench: 一项全面的多模态视频理解基准测试

   标题:MVBench: A Comprehensive Multi-modal Video Understanding Benchmark

   机构:香港大学、南京大学、中国科学院大学

   关键词:多模态、视频理解、基准测试、时间理解

   地址:https://arxiv.org/pdf/2311.17005


25. 视觉对比解码来缓解大型视觉-语言模型中的对象幻觉

   标题:Mitigating Object Hallucinations in Large Vision-Language Models through  Visual Contrastive Decoding

   机构:南洋理工大学、阿里巴巴集团达摩院

   关键词:视觉对比解码、对象幻觉、大型视觉-语言模型

   地址:https://arxiv.org/pdf/2311.16922


26. Graph Prompt Learning:全面调查与未来展望

   标题:Graph Prompt Learning: A Comprehensive Survey and Beyond

   机构:复旦大学、香港科技大学

   关键词:图形提示学习、人工智能、图形数据、挑战与机遇

   地址:https://arxiv.org/pdf/2311.16534


27. LEDITS++: 无限制的图像编辑:基于文本到图像模型

   标题:LEDITS++: Limitless Image Editing using Text-to-Image Models

   机构:达姆斯塔特工业大学

   关键词:无监督反演、图像编辑、多功能技术

   地址:https://arxiv.org/pdf/2311.16711

   代码:https://leditsplusplus-project.static.hf.space


28. 利用域外数据进行多模态假新闻检测中的领域特定提示微调

   标题:Leveraging Out-of-Domain Data for Domain-Specific Prompt Tuning in  Multi-Modal Fake News Detection

   机构:印度科学院

   关键词:假新闻检测、多模态、领域特定提示微调

   地址:https://arxiv.org/pdf/2311.16496


29. MedGen: 医学文本处理的Python自然语言处理工具包

   标题:MedGen: A Python Natural Language Processing Toolkit for Medical Text  Processing

   机构:西北大学、新加坡国立大学、国家卫生研究院

   关键词:自然语言处理、医学文本处理、生成式功能、查询和搜索功能

   地址:https://arxiv.org/pdf/2311.16588


30. 关于Transformer的远程能力

   标题:On the Long Range Abilities of Transformers

   机构:特拉维夫大学

   关键词:Transformer、长程任务、模型结构改进

   地址:https://arxiv.org/pdf/2311.16620


31. AvatarGPT: 一体化运动理解、规划、生成及更多功能的框架

   标题:AvatarGPT: All-in-One Framework for Motion Understanding, Planning,  Generation and Beyond

   关键词:AvatarGPT、一体化框架、运动理解、运动生成

   地址:https://arxiv.org/pdf/2311.16468


32. 基于语言模型的对话系统演进综述

   标题:A Survey of the Evolution of Language Model-Based Dialogue Systems

   关键词:对话系统、语言模型、新兴话题

   地址:https://arxiv.org/pdf/2311.16789


33. 大模型遇见计算机视觉:简要概述

   标题:Large Language Models Meet Computer Vision: A Brief Survey

   关键词:大语言模型、计算机视觉、transformers、Vision Transformers

   地址:https://arxiv.org/pdf/2311.16673


34. 学习推理技能的长度概括条件

   标题:Conditions for Length Generalization in Learning Reasoning Skills

   关键词:长度概括、推理任务、理论研究、大语言模型

   地址:https://arxiv.org/pdf/2311.16173


35. 能源互联网的边缘人工智能:挑战与展望

   标题:Edge AI for Internet of Energy: Challenges and Perspectives

   关键词:能源互联网、边缘人工智能、5G网络、深度强化学习

   地址:https://arxiv.org/pdf/2311.16851


36. LLaMA-VID:大模型中一图顶2个令牌

   标题:LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models

   关键词:LLaMA-VID、图像理解、视频理解、双令牌策略

   地址:https://arxiv.org/pdf/2311.17043


37. 从平行TextWorld训练的LLM训练的具有身体感知任务的多模态Agent

   标题:Embodied Multi-Modal Agent trained by an LLM from a Parallel TextWorld

   机构:马里兰大学、悉尼科技大学

   关键词:多模态、平行训练、视觉世界

   地址:https://arxiv.org/pdf/2311.16714


38. 评估最佳参考翻译

   标题:Evaluating Optimal Reference Translations

   机构:查尔斯大学、苏黎世联邦理工学院

   关键词:参考翻译、质量提升、评估方法

   地址:https://arxiv.org/pdf/2311.16787


39. 大模型的自我消耗训练循环分析

   标题:Large Language Models Suffer From Their Own Output: An Analysis of the  Self-Consuming Training Loop

   关键词:大语言模型、自我消耗训练循环、生成输出的质量、多样性

   地址:https://arxiv.org/pdf/2311.16822


40. Egocentric Videos中的大型视觉语言模型中的高效上下文学习

   标题:Efficient In-Context Learning in Vision-Language Models for Egocentric  Videos

   机构:密歇根大学

   关键词:大型视觉语言模型、上下文学习、自我中心视频、EILEV

   地址:https://arxiv.org/pdf/2311.17041


41. 统一生成抓取 (UGG)

   标题:UGG: Unified Generative Grasping

   机构:德克萨斯大学

   关键词:统一生成抓取、全Transformer架构、接触点表示、灵巧抓取

   地址:https://arxiv.org/pdf/2311.16917


42. VLPrompt: 视觉语言提示对全景场景图生成的贡献

   标题:VLPrompt: Vision-Language Prompting for Panoptic Scene Graph Generation

   机构:伦敦国王学院

   关键词:全景场景图生成、视觉语言提示、稀有关系、大语言模型

   地址:https://arxiv.org/pdf/2311.16492


43. ChatTraffc: 通过扩散模型实现文本到交通生成

   标题:ChatTraffc: Text-to-Traffic Generation via Diffusion Model

   机构:中国科学院自动化研究所

   关键词:扩散模型、文本到交通生成、交通情况、数据集构建

   地址:https://arxiv.org/pdf/2311.16203


44. MotionZero:利用运动先验进行零样本文本到视频生成

   标题:MotionZero:Exploiting Motion Priors for Zero-shot Text-to-Video  Generation

   机构:电子科技大学

   关键词:零样本、文本到视频、运动先验、解耦合的运动控制

   地址:https://arxiv.org/pdf/2311.16635


45. DiffusionTalker: 个性化和加速的基于语音驱动的3D面部扩散方法

   标题:DiffusionTalker: Personalization and Acceleration for Speech-Driven 3D  Face Diffuser

   机构:清华大学、中国科学院大学

   关键词:个性化、语音驱动、3D动画

   地址:https://arxiv.org/pdf/2311.16565


46. Panacea: 自动驾驶场景下的全景与可控视频生成

   标题:Panacea: Panoramic and Controllable Video Generation for Autonomous  Driving

   机构:旷视科技、中国科学技术大学

   关键词:全景视图、自动驾驶、视频生成、多视角

   地址:https://arxiv.org/pdf/2311.16813


47. 快速高质量重建多个人类化身的可动画的3D高斯模型

   标题:Animatable 3D Gaussian: Fast and High-Quality Reconstruction of Multiple  Human Avatars

   机构:清华大学

   关键词:3D高斯模型、可动画化、人类化身、新视图合成

   地址:https://arxiv.org/pdf/2311.16482


48. 为Text-to-Video扩展稀疏控制: SparseCtrl

   标题:SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models

   机构:斯坦福大学、香港中文大学、上海AI实验室

   关键词:视频生成、稀疏控制、模型结构改进、多模态

   地址:https://arxiv.org/pdf/2311.16933


49. MobileCLIP: 多模态加强训练下的快速图像-文本模型

   标题:MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced  Training

   机构:Apple

   关键词:MobileCLIP、多模态、快速图像-文本模型、移动设备

   地址:https://arxiv.org/pdf/2311.17049


50. 可学习的区域实现基于文本的图像编辑

   标题:Text-Driven Image Editing via Learnable Regions

   机构:牛津大学、Google

   关键词:文本提示、图像编辑、预训练模型、区域编辑

   地址:https://arxiv.org/pdf/2311.16432


51. 双向反应式编程用于机器学习

   标题:Bidirectional Reactive Programming for Machine Learning

   机构:Google DeepMind

   关键词:反应式编程、机器学习、自动微分

   地址:https://arxiv.org/pdf/2311.16977


52. COLE:一个用于图形设计的分层生成框架

   标题:COLE: A Hierarchical Generation Framework for Graphic Design

   机构:北京大学、微软亚洲研究院

   关键词:图形设计、分层生成框架、指令微调、多模态

   地址:https://arxiv.org/pdf/2311.16974


53. CADTalk: CAD 程序的语义注释算法和基准测量

   标题:CADTalk: An Algorithm and Benchmark for Semantic Commenting of CAD  Programs

   机构:伦敦大学、微软亚洲研究院、Adobe Research

   关键词:CAD程序、语义注释、形状部分、基准测量

   地址:https://arxiv.org/pdf/2311.16703


54. 对照数据生成减少机器翻译中的性别偏见

   标题:Reducing Gender Bias in Machine Translation through Counterfactual Data  Generation

   机构:微软

   关键词:对照数据生成、性别偏见、神经机器翻译、数据集构建

   地址:https://arxiv.org/pdf/2311.16362


55. SemiVL: 带有视觉-语言引导的半监督语义分割

   标题:SemiVL: Semi-Supervised Semantic Segmentation with Vision-Language  Guidance

   机构:Google、慕尼黑工业大学、苏黎世联邦理工学院

   关键词:半监督语义分割、视觉-语言模型、先验知识、语言引导

   地址:https://arxiv.org/pdf/2311.16241


56. 识别几何感知语义对应关系

   标题:Telling Left from Right: Identifying Geometry-Aware Semantic  Correspondence

   机构:谷歌研究院、上海交通大学、Stability AI

   关键词:语义对应、几何感知、零-shot

   地址:https://arxiv.org/pdf/2311.17034


57. 自动诊断领域移动医学图像中的推荐失败修复

   标题:Rescuing referral failures during automated diagnosis of domain-shifted  medical images

   机构:印度科学院、谷歌研究院

   关键词:自动诊断、移动医学图像、选择性分类、协变量偏移

   地址:https://arxiv.org/pdf/2311.16766


58. Brain-ID:学习用于大脑成像的稳健特征表示

   标题:Brain-ID: Learning Robust Feature Representations for Brain Imaging

   机构:伦敦大学、麻省总医院、麻省理工学院

   关键词: 大脑成像、稳健特征表示、对比度、扩展性

   地址:https://arxiv.org/pdf/2311.16914


59. 图预训练和提示学习用于推荐

   标题:Graph Pre-training and Prompt Learning for Recommendation

   机构:腾讯、香港大学

   关键词:图预训练、提示学习、推荐系统、动态环境

   地址:https://arxiv.org/pdf/2311.16716


60. DiffuseBot: 通过物理增强的生成扩散模型繁衍软机器人

   标题:DiffuseBot: Breeding Soft Robots With Physics-Augmented Generative  Diffusion Models

   机构:清华大学、麻省理工学院

   关键词:物理增强、扩散模型、软机器人、协同设计

   地址:https://arxiv.org/pdf/2311.17053


61. AI部署的能耗问题:瓦特正在推动AI的成本?

   标题:Power Hungry Processing: Watts Driving the Cost of AI Deployment?

   机构:卡内基梅隆大学、艾伦AI研究所

   关键词:AI部署、统一方法、多用途模型

   地址:https://arxiv.org/pdf/2311.16863


62. 文本和图像引导的4D场景生成的统一方法

   标题:A Unified Approach for Text- and Image-guided 4D Scene Generation

   机构:英伟达、苏黎世联邦理工学院

   关键词:4D场景生成、文本转化、图像导引、动态变形

   地址:https://arxiv.org/pdf/2311.16854


63. TFMQ-DM: 时间特征维护量化用于扩散模型

   标题:TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models

   机构:哈佛大学、商汤研究院、莫纳什大学

   关键词:时间特征维护量化、扩散模型、推理时间、模型性能

   地址:https://arxiv.org/pdf/2311.16503


64. 大规模效率语言数据采样中的影响力评分

   标题:Influence Scores at Scale for Efficient Language Data Sampling

   机构:Amazon

   关键词:影响力评分、语言分类任务、梯度方差、数据采样

   地址:https://arxiv.org/pdf/2311.16298


65. Variational Exploration Module VEM:用于地理空间建模和AI工作流的云原生优化和验证工具

   标题:Variational Exploration Module VEM: A Cloud-Native Optimization and  Validation Tool for Geospatial Modeling and AI Workflows

   机构:IBM研究院

   关键词:地理空间建模、AI工作流、云原生、优化和验证

   地址:https://arxiv.org/pdf/2311.16196


66. DemoFusion: 用无需资本投资的方式实现高分辨率图像生成的民主化

   标题:DemoFusion: Democratising High-Resolution Image Generation With No

   机构:清华大学、爱丁堡大学、北京邮电大学

   关键词:高分辨率图像生成、民主化、演进机制、开源模型

   地址:https://arxiv.org/pdf/2311.16973


67. UC-NeRF: 无标定多视角相机自动驾驶中的神经辐射场

   标题:UC-NeRF: Neural Radiance Field for Under-Calibrated multi-view cameras  in autonomous driving

   机构:北京大学、上海科技大学、中国科学技术大学

   关键词:UC-NeRF、无标定多视角相机、新视角合成、深度估计

   地址:https://arxiv.org/pdf/2311.16945


68. 用稀疏输入对视频问答进行描述

   标题:Characterizing Video Question Answering with Sparsified Inputs

   机构:莱斯大学、哥伦比亚大学、Amazon

   关键词:视频问答、稀疏输入、可学习选择模块、数据效率

   地址:https://arxiv.org/pdf/2311.16311


69. 数据选择的熵和边缘得分度量的全面基准测试

   标题:Comprehensive Benchmarking of Entropy and Margin Based Scoring Metrics  for Data Selection

   机构:Amazon

   关键词:数据选择、熵得分度量、Error L2-Norm得分度量、数据集构建

   地址:https://arxiv.org/pdf/2311.16302


70. 学生掌握或AI欺骗?分析ChatGPT的评估能力和评估检测策略

   标题:Student Mastery or AI Deception? Analyzing ChatGPT's Assessment  Proficiency and Evaluating Detection Strategies

   机构:英属哥伦比亚大学

   关键词:学术诚信问题、评估能力、检测方法、生成型人工智能

   地址:https://arxiv.org/pdf/2311.16292


71. LLaFS: 当大模型遇见小样本分割

   标题:LLaFS: When Large-Language Models Meet Few-Shot Segmentation

   机构:浙江大学、阿里巴巴集团、新加坡科技与设计大学

   关键词:小样本分割、大语言模型、指令设计、数据扩增

   地址:https://arxiv.org/pdf/2311.16926


72. SARA: 带空间对齐和区域自适应归一化的可控妆容迁移

   标题:SARA: Controllable Makeup Transfer with Spatial Alignment and  Region-Adaptive Normalization

   机构:华南理工大学、南洋理工大学

   关键词:妆容迁移、空间对齐、区域自适应归一化、细节化结果

   地址:https://arxiv.org/pdf/2311.16828


73. PyTorch Geometric High Order: 一个用于高阶图神经网络的统一库

   标题:PyTorch Geometric High Order: A Unified Library for High Order Graph  Neural Network

   机构:北京大学

   关键词:PyTorch Geometric High Order、高阶图神经网络、HOGNNs、模型结构改进

   地址:https://arxiv.org/pdf/2311.16670


74. StyleCap:基于语音的自动说话风格标记方法

   标题:StyleCap: Automatic Speaking-Style Captioning from Speech Based on  Speech and Language Self-supervised Learning Models

   机构:东京大学

   关键词:自动说话风格标记、语音处理、LLM、自监督学习

   地址:https://arxiv.org/pdf/2311.16509


75. 用大模型增强人类说服力

   标题:Enhancing Human Persuasion With Large Language Models

   机构:东北大学、香港城市大学

   关键词:大型语言模型、人类交流、信息说服力、消费金融行业

   地址:https://arxiv.org/pdf/2311.16466


76. 参考引导的扩散生成单张图像到3D人体

   标题:HumanRef: Single Image to 3D Human Generation via Reference-Guided  Diffusion

   机构:香港城市大学、腾讯AI实验室

   关键词:3D人体生成、参考引导、纹理保持、几何推断

    地址:https://arxiv.org/pdf/2311.16961


77. RichDreamer:一种用于文本到3D的通用细节丰富化正常深度扩散模型

   标题:RichDreamer: A Generalizable Normal-Depth Diffusion Model for Detail  Richness in Text-to-3D

   机构:阿里巴巴集团

   关键词:几何信息、自动估计、散射率扩散模型、细节丰富度

   地址:https://arxiv.org/pdf/2311.16918


78. PISA: 基于点云的指导场景增强

   标题:PISA: Point-cloud-based Instructed Scene Augmentation

   机构:清华大学、南洋理工大学

   关键词:深度神经网络、对象生成、室内场景

   地址:https://arxiv.org/pdf/2311.16501


79. 利用视觉监督减轻视觉语言模型中的错觉

   标题:Mitigating Hallucination in Visual Language Models with Visual  Supervision

   机构:鹏城实验室、中国科学院大学、武汉AI研究院

   关键词:视觉语言模型、错觉减轻、多模态上下文、视觉注释

   地址:https://arxiv.org/pdf/2311.16479


80. 面向个体的零样本组合人员检索

   标题:Word for Person: Zero-shot Composed Person Retrieval

   机构:北京邮电大学

   关键词:组合人员检索、零样本学习、预训练、数据集构建

   地址:https://arxiv.org/pdf/2311.16515


81. 关于采样对深度顺序状态估计的影响

   标题:On the Impact of Sampling on Deep Sequential State Estimation

   机构:美国东北大学

   关键词:状态推断、参数学习、深度顺序模型、重要性采样

   地址:https://arxiv.org/pdf/2311.17006


82. ChatGPT扩展政治文本

   标题:Scaling Political Texts with ChatGPT

   关键词:GPT-4、政治文本

   地址:https://arxiv.org/pdf/2311.16639


83. 在GPU上实现快速的2位LLM: 内存对齐、稀疏异常值和异步去量化

   标题:Enabling Fast 2-bit LLM on GPUs: Memory Alignment, Sparse Outlier, and  Asynchronous Dequantization

   机构:清华大学、上海交通大学

   关键词:语言模型、内存对齐、异步去量化

   地址:https://arxiv.org/pdf/2311.16442


84. 从单张图像中提取材料调色板

   标题:Material Palette: Extraction of Materials from a Single Image

   机构:牛津大学

   关键词:材料提取、物理渲染、纹理图像、可复现性

   地址:https://arxiv.org/pdf/2311.17060


85. Diffusion 3D特征(Diff3F):用于未纹理形状的精简语义特征

   标题:Diffusion 3D Features (Diff3F): Decorating Untextured Shapes with  Distilled Semantic Features

   机构:伦敦大学、Adobe Research

   关键词:未纹理形状、扩散特征、条件图像合成、语义特征

   地址:https://arxiv.org/pdf/2311.17024


86. DGNR: 大型驾驶场景的密度导向神经点渲染

   标题:DGNR: Density-Guided Neural Point Rendering of Large Driving Scenes

   机构:浙江大学

   关键词:密度导向神经渲染、点渲染器、大型驾驶场景、长轨迹

   地址:https://arxiv.org/pdf/2311.16664


87. Text2Tree: 将文本表示与标签树层次对齐用于不平衡医学分类

   标题:Text2Tree: Aligning Text Representation to the Label Tree Hierarchy for  Imbalanced Medical Classification

   机构:浙江大学、圣母大学、伊利诺伊大学

   关键词:医学文本分类、层次感知、数据不平衡、深度学习

   地址:https://arxiv.org/pdf/2311.16650


88. Deceptive-Human:通过一致的3D合成图像将提示转换为3D NeRF人类生成

   标题:Deceptive-Human: Prompt-to-NeRF 3D Human Generation with 3D-Consistent  Synthetic Images

   机构:香港科技大学、达特茅斯学院

   关键词:渐进精炼技术、视图一致性、控制扩散模型、多视角合成

   地址:https://arxiv.org/pdf/2311.16499


89. 扮演一名人工智能科学家

   标题:Exo2EgoDVC: Dense Video Captioning of Egocentric Procedural Activities  Using Web Instructional Videos

   机构:东京大学

   关键词:密集视频字幕、视角转移、egocentric视频、跨视角转移

   地址:https://arxiv.org/pdf/2311.16444


90. MI-Gen: 基于吉普像素全尺寸切片图像的多实例生成病理报告

   标题:MI-Gen: Multiple Instance Generation of Pathology Reports for Gigapixel  Whole-Slide Images

   机构:浙江大学、西湖大学

   关键词:多实例生成模型、吉普像素全尺寸切片图像、病理报告、癌症诊断

   地址:https://arxiv.org/pdf/2311.16480


91. ControlRec:填补语言模型和个性化推荐之间的语义鸿沟

   标题:ControlRec: Bridging the Semantic Gap between Language Model and  Personalized Recommendation

   机构:中国科学院大学、中国科学院自动化研究所

   关键词:语言模型、推荐系统、对比度学习、模型性能

   地址:https://arxiv.org/pdf/2311.16441


92. 探索视频显著性和轨迹信息进行体积视频流的视口预测

   标题:Viewport Prediction for Volumetric Video Streaming by Exploring Video  Saliency and Trajectory Information

   机构:中国科学技术大学

   关键词:体积视频流、视口预测、视频显著性、轨迹信息

   地址:https://arxiv.org/pdf/2311.16462


93. 基于对比编码器预训练的异构数据聚类联邦学习

   标题:Contrastive encoder pre-training-based clustered federated learning for  heterogeneous data

   机构:韩国高丽大学

   关键词:对比预训练、异构数据、联邦学习

   地址:https://arxiv.org/pdf/2311.16535


94. Agent-Aware训练用于Agent-Agnostic Action Advising in Deep Reinforcement Learning

   标题:Agent-Aware Training for Agent-Agnostic Action Advising in Deep  Reinforcement Learning

   机构:浙江大学

   关键词:深度强化学习、代理不可知、样本效率

   地址:https://arxiv.org/pdf/2311.16807


95. 为6G网络的计算与网络融合优化联邦学习的通信效率

   标题:Communication Efficiency Optimization of Federated Learning for  Computing and Network Convergence of 6G Networks

   机构:北京邮电大学

   关键词:6G网络、计算与网络融合、联邦学习、通信效率

   地址:https://arxiv.org/pdf/2311.16540


96. 细粒度外观转换与扩散模型

   标题:Fine-grained Appearance Transfer with Diffusion Models

   机构:浙江大学

   关键词:细粒度转换、外观转换、语义匹配、潜空间差异

   地址:https://arxiv.org/pdf/2311.16513


97. 无源领域自适应中的冻结多模式基础模型

   标题:Source-Free Domain Adaptation with Frozen Multimodal Foundation Model

   机构:电子科技大学

   关键词:无源领域自适应、多模态、模型蒸馏、视觉-语言模型

   地址:https://arxiv.org/pdf/2311.16510


98. 面向自动驾驶中的多智能体全场景领域泛化鸟瞰图分割

   标题:Towards Full-scene Domain Generalization in Multi-agent Collaborative  Bird's Eye View Segmentation for Connected and Autonomous Driving

   机构:香港大学、香港城市大学

   关键词:协同感知、领域泛化、自动驾驶、鸟瞰图分割

   地址:https://arxiv.org/pdf/2311.16754


99. VehicleGAN: 车辆重识别的姿态导向图像合成

   标题:VehicleGAN: Pair-flexible Pose Guided Image Synthesis for Vehicle  Re-identification

   机构:西安交通大学、南卡罗来纳大学

   关键词:车辆重识别、姿态导向、图像合成

   地址:https://arxiv.org/pdf/2311.16278


100. 异步无线联邦学习与概率客户选择

   标题:Asynchronous Wireless Federated Learning with Probabilistic Client  Selection

   机构:华南理工大学、上海交通大学、西安电子科技大学

   关键词:异步联邦学习、概率客户选择、收敛速度、移动能量消耗

   地址:https://arxiv.org/pdf/2311.16741


101. SARDINE: 一个用于动态和交互环境下自动推荐的模拟器

    标题:SARDINE: A Simulator for Automated Recommendation in Dynamic and  Interactive Environments

    机构:阿姆斯特丹大学、韩国科学技术高等研究院

    关键词:推荐模拟器、交互推荐、数据驱动、可解释推荐

    地址:https://arxiv.org/pdf/2311.16586


102. 基于轮廓姿态表示的高效步态识别

    标题:GaitContour: Efficient Gait Recognition based on a Contour-Pose  Representation

    机构:约翰霍普金斯大学

    关键词:步态识别、轮廓姿态表示、局部-全局体系结构

    地址:https://arxiv.org/pdf/2311.16497


103. ArGue: 视觉语言模型的属性引导提示调优

    标题:ArGue: Attribute-Guided Prompt Tuning for Vision-Language Models

    机构:澳大利亚国立大学

    关键词:属性引导、提示调优、大模型、视觉语言

    地址:https://arxiv.org/pdf/2311.16494


104. RelVAE:few-shot视觉关系检测的生成预训练

    标题:RelVAE: Generative Pretraining for few-shot Visual Relationship  Detection

    关键词:few-shot、生成预训练、视觉关系检测、生成模型

    地址:https://arxiv.org/pdf/2311.16261


105. RandMSAugment: 有限数据场景下的混合样本增强

    标题:RandMSAugment: A Mixed-Sample Augmentation for Limited-Data Scenarios

    机构:Duke University

    关键词:数据增强、CNN训练、有限数据、性能提升

    地址:https://arxiv.org/pdf/2311.16508


106. 因果信息最小化来消除多模态模型的偏差

    标题:Debiasing Multimodal Models via Causal Information Minimization

    关键词:因果信息最小化、多模态模型、预训练、消除偏差

    地址:https://arxiv.org/pdf/2311.16941


107. 基于多个3D模型的增强现实(AR)组装指导

    标题:Multi-3D-Models Registration-Based Augmented Reality (AR) Instructions  for Assembly

    机构:德克萨斯农工大学

    关键词:增强现实、组装指导、3D模型、深度学习

    地址:https://arxiv.org/pdf/2311.16337


108. 从视觉-语言模型中剔除NSFW概念,用于文本到图像的检索和生成

    标题:Removing NSFW Concepts from Vision-and-Language Models for Text-to-Image  Retrieval and Generation

    机构:意大利比萨大学、IIT-CNR、摩德纳和雷焦埃米利亚大学

    关键词:视觉-语言模型、NSFW概念、文本到图像的检索、安全性

    地址:https://arxiv.org/pdf/2311.16254


109. LLMs用于科学: 用于代码生成和数据分析

    标题:LLMs for Science: Usage for Code Generation and Data Analysis

    机构:慕尼黑工业大学

    关键词:LLMs、科学研究、代码生成、数据分析

    地址:https://arxiv.org/pdf/2311.16733


110. D4AM:一个通用的降噪框架用于下游声学模型

    标题:D4AM: A General Denoising Framework for Downstream Acoustic Models

    关键词:声学模型、降噪框架、回归目标、通用预处理器

    地址:https://arxiv.org/pdf/2311.16595


111. 统一多模态、多部位人体运动合成框架

    标题:A Unified Framework for Multimodal, Multi-Part Human Motion Synthesis

    关键词:多模态、运动合成、逼真人体运动、创新方法

    地址:https://arxiv.org/pdf/2311.16471


112. 放射学感知的基于模型的报告生成评估指标

    标题:Radiology-Aware Model-Based Evaluation Metric for Report Generation

    关键词:放射学、自动化评估指标、机器报告、模型检查点

    地址:https://arxiv.org/pdf/2311.16764


113. 多通道跨模态检测合成人脸图像

    标题:Multi-Channel Cross Modal Detection of Synthetic Face Images

    关键词:合成人脸图像、多通道架构、跨模态焦点损失函数

    地址:https://arxiv.org/pdf/2311.16773


114. Agents meet OKR: 一个基于Hierarchical Self-Collaboration和Self-Evaluation的对象和关键结果驱动的代理系统

    标题: Agents meet OKR: An Object and Key Results Driven Agent System with  Hierarchical Self-Collaboration and Self-Evaluation

    关键词:代理系统、分层结构、任务解决、自我协作

    地址:https://arxiv.org/pdf/2311.16542


115. 利用多输入自回归模型进行轴承剩余寿命预测

    标题:Utilizing Multiple Inputs Autoregressive Models for Bearing Remaining  Useful Life Prediction

    关键词:剩余寿命预测、多输入自回归模型、健康指数、振动信号

    地址:https://arxiv.org/pdf/2311.16192


116. Claire法语对话数据集

    标题:The Claire French Dialogue Dataset

    关键词:法语对话、数据集构建、多语言模型

    地址:https://arxiv.org/pdf/2311.16840


117. 芬兰五六年级学生对人工智能的误解

    标题:Finnish 5th and 6th graders' misconceptions about Artificial  Intelligence

    关键词:人工智能

    地址:https://arxiv.org/pdf/2311.16644


118. 在深度学习分类器中,交叉熵是不必要的 - ISBE-错误就是你所需要的

    标题:Cross Entropy in Deep Learning of Classifiers Is Unnecessary -- ISBE  Error is All You Need

    关键词:ISBE、深度学习分类器、交叉熵、SoftMax

    地址:https://arxiv.org/pdf/2311.16357


你觉得今天分享的论文哪篇at到了你?欢迎留言分享哦。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/165004
 
907 次点击