本周Top热门大模型论文集，从chatGPT模型中提取GB级训练数据

前言：如果你想成为一只科学界的“独角兽”，那么看论文是必不可少的。只有掌握了最新的技术和理论，才能在这个竞争激烈的市场中脱颖而出，成为那只最闪亮的“独角兽”！

1. 从chatGPT模型中提取训练数据

标题：Scalable Extraction of Training Data from (Production) Language Models

机构：华盛顿大学、UC伯克利分校、苏黎世联邦理工学院

关键词：提取训练数据、记忆化、语言模型、数据攻击

作者：Milad Nasr, Nicholas Carlini, Jonathan Hayase

分析：该论文研究了可提取的记忆化：即攻击方可以通过查询机器学习模型有效提取训练数据，而无需事先了解训练数据集。该论文表明攻击方可以从开源语言模型如Pythia或GPT-Neo、半开放模型如LLaMA或Falcon以及封闭模型如ChatGPT中提取出GB级的训练数据。现有文献中的技术足以攻击不对齐的模型；为了攻击对齐的ChatGPT，该论文开发了一种新的离差攻击，使得模型与其聊天机器人式生成不一致，并以比正常行为时高出150倍的速率发出训练数据。该论文的方法显示实际攻击可以恢复出比先前认为的远远更多的数据，并揭示了当前的对齐技术不能消除记忆化。

地址：https://arxiv.org/pdf/2311.17035

2. 无需消耗计算成本的模型遗忘技术

标题：Unlearning via Sparse Representations

机构：普林斯顿大学、俄勒冈州立大学、Google DeepMind

关键词：零样本遗忘、稀疏表示、模型性能

作者：Vedant Shah, Frederik Träuble, Ashish Malik

分析：该论文提出了一种基于离散表示瓶颈的几乎无计算成本的零样本遗忘技术。该技术高效地遗忘了遗忘集，并对数据集的其余部分的模型性能几乎没有损害。论文通过在CIFAR-10、CIFAR-100和LACUNA-100数据集上对“类别遗忘”的问题进行评估，将该技术与知识蒸馏方法SCRUB进行了比较。在这三个数据集上，该技术的表现几乎与SCRUB一样好，而且几乎没有计算成本。

地址：https://arxiv.org/pdf/2311.15268

3. SODA: 基于瓶颈扩散模型的表示学习

标题：SODA: Bottleneck Diffusion Models for Representation Learning

机构：Google DeepMind

关键词：瓶颈扩散模型、自监督学习、图像生成、表示学习

作者：Drew A. Hudson, Daniel Zoran, Mateusz Malinowski

分析：SODA是一种自监督扩散模型，用于表示学习。模型包括一个图像编码器，将源视图转化为紧凑的表示，并引导生成相关的新视图。通过在编码器和去噪解码器之间设置紧密瓶颈，并利用新视图合成作为自监督目标，该论文可以使扩散模型成为有效的表示学习器，能够以无监督的方式捕捉视觉语义。据该论文所知，SODA是第一个在ImageNet线性探测分类上成功的扩散模型，并且在广泛的数据集上实现了重建、编辑和合成任务。进一步的研究揭示了其显现潜在空间的解缠结性质，作为一种有效的接口来控制和操作模型生成的图像。总而言之，该论文旨在揭示扩散模型的令人兴奋和有前景的潜力，不仅适用于图像生成，还适用于学习丰富和强健的表示。

地址：https://arxiv.org/pdf/2311.17901

4. 用大模型初始化小模型权重

标题：Initializing Models with Larger Ones

机构：宾夕法尼亚大学、UC伯克利分校、MBZUAI大学

关键词：权重选择、预训练模型、小模型、性能提升

作者：Zhiqiu Xu, Yanjie Chen, Kirill Vishniakov

分析：该论文介绍了一种在神经网络训练中起重要作用的权重初始化方法。文中提出了一种称为权重选择的方法，通过从预训练的大模型中选择一部分权重来初始化较小的模型，从而实现从先前训练的模型中传递知识。实验结果表明，权重选择可以显著提高小模型的性能并减少训练时间。此外，它还可以与知识蒸馏一起使用。权重选择提供了一种在资源受限环境下利用预训练模型的新方法，希望能成为大型模型时代中训练小模型的有用工具。

地址：https://arxiv.org/pdf/2311.18823

代码：https://github.com/OscarXZQ/weight-selection

5. Data Acquisition：数据驱动人工智能的新领域

标题：Data Acquisition: A New Frontier in Data-centric AI

机构：FAIR、斯坦福大学、哥伦比亚大学

关键词：数据获取、数据驱动、数据挑战、机器学习

作者：Lingjiao Chen, Bilge Acun, Newsha Ardalani

分析：该论文主要研究了数据采集的挑战，致力于解决数据获取的有效策略在机器学习中的重要性。

地址：https://arxiv.org/pdf/2311.13712

6. MAIRA-1: 一种专门用于放射学报告生成的大型多模态模型

标题：MAIRA-1: A specialised large multimodal model for radiology report generation

机构：微软、微软研究院

关键词：放射学报告生成、多模态、图像编码器、文本数据增强

作者：Stephanie L. Hyland, Shruthi Bannur, Kenza Bouzid

分析：该论文提出了一种针对从胸部X射线（CXR）生成放射学报告的放射学特定多模态模型。该模型利用了CXRs的特定图像编码器以及基于Vicuna-7B进行微调的大型语言模型，以及基于文本的数据增强，以生成具有最先进质量的报告。MAIRA-1在放射学家评估的RadCliQ指标和所有考虑的词汇指标上显著改进。通过对模型输出进行手动审查，展示了生成报告的流畅性和准确性，并揭示了现有评估实践未能捕捉到的故障模式。

地址：https://arxiv.org/pdf/2311.13668

7. 通用基础模型是否能超越专用微调模型？以医学为例的案例研究

标题：Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine

机构：微软

关键词：通用基础模型、提示工程、最先进结果

作者：Harsha Nori, Yin Tat Lee, Sheng Zhang

分析：这篇论文主要研究通用基础模型在医学领域的表现。通过系统性地探索提示工程，论文展示了GPT-4可以轻松超越先前的医学基准结果。研究提出了Medprompt方法，并在MultiMedQA套件的九个基准数据集上取得了最先进的结果，同时大大减少了对模型的调用次数。Medprompt方法在MedQA数据集上将错误率降低27%，首次达到90%的分数。此外，论文还通过在其他领域的考试中研究，展示了Medprompt的广泛适用性。

地址：https://arxiv.org/pdf/2311.16452

8. TextDiffuser-2：释放语言模型在文本渲染中的力量

标题：TextDiffuser-2: Unleashing the Power of Language Models for Text Rendering

机构：中山大学、微软研究院、香港科技大学

关键词：文本渲染、语言模型、布局规划、多样性增强

作者：Jingye Chen, Yupan Huang, Tengchao Lv

分析：TextDiffuser-2旨在释放语言模型在文本渲染中的力量。首先，该论文对一个大型语言模型进行了细调以进行布局规划。这个大型语言模型能够自动生成文本渲染的关键词，并通过对话支持布局的修改。其次，该论文在扩散模型中利用语言模型对行级别的位置和文本进行编码。与以前在字符级别提供紧密指导的方法不同，这种方法生成了更多样化的文本图片。通过广泛的实验证明了TextDiffuser-2实现了更合理的文本布局和生成，并具有增强的多样性。

地址：https://arxiv.org/pdf/2311.16465

9. VIDiff: 基于扩散模型的多模态指令翻译视频

标题：VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion Models

机构：复旦大学、微软亚洲研究院

关键词：扩散模型、多模态指令翻译、视频编辑、视频生成

作者：Zhen Xing, Qi Dai, Zihao Zhang

分析：这篇论文介绍了一个名为VIDiff的统一基础模型，用于解决视频编辑任务。该模型可以根据用户的指令在几秒钟内编辑和翻译视频。主要解决的问题是针对短视频剪辑的编辑和长视频处理的一致性。通过定性和定量的方法展示了多样的输入视频和文字指令的有说服力的生成结果。

地址：https://arxiv.org/pdf/2311.18837

代码：https://ChenHsing.github.io/VIDiff

10. MicroCinema: 一种文本到视频生成的分而治之方法

标题：MicroCinema: A Divide-and-Conquer Approach for Text-to-Video Generation

机构：西安交通大学、微软亚洲研究院、中国科学技术大学

关键词：文本到视频生成、分而治之、图像生成、视频生成

作者：Yanhui Wang, Jianmin Bao, Wenming Weng

分析：MicroCinema是一个简单而有效的高质量、连贯的文本到视频生成框架。它引入了一种分而治之的策略，将文本到视频分为两个阶段的过程：文本到图像生成和图像&文本到视频生成。通过这种策略，MicroCinema不仅可以充分利用文本到图像模型的最新进展，如Stable Diffusion、Midjourney和DALLE，生成逼真而高度详细的图像，还可以通过生成的图像来较少关注细粒度的外观细节，优先学习运动动态。为了有效实现这一策略，论文引入了两个核心设计。首先，该论文提出了外观注入网络，增强了给定图像外观的保存。其次，该论文引入了外观噪声先验，这是一种保持预训练2D扩散模型能力的新机制。这些设计元素使得MicroCinema能够根据提供的文本提示生成具有精确动态的高质量视频。大量实验证明了所提框架的优越性。具体而言，MicroCinema在UCF-101上实现了342.86的零样本FVD，在MSR-VTT上实现了377.40的零样本FVD。

地址：https://arxiv.org/pdf/2311.18829

代码：https://wangyanhui666.github.io/MicroCinema.github.io/

11. 校准的语言模型必定产生幻觉

标题：Calibrated Language Models Must Hallucinate

机构：微软研究院、佐治亚理工学院

关键词：预训练、统计原因

作者：Adam Tauman Kalai, Santosh S. Vempala

分析：该论文发现了最近的语言模型倾向于生成虚假但听起来真实的文本。这种“幻觉”阻碍了基于语言的人工智能系统的可用性，并可能伤害依赖它们输出的人们。该研究表明，预训练语言模型产生某些类型事实幻觉存在与统计原因有关，而与TransformLM架构或数据质量无关。对于那些无法从训练数据中确定真实性的“任意”事实，该论文展示了对于满足适用于生成语言模型的统计校准条件的语言模型来说，产生幻象是必要的。具体而言，如果任何事实的最大概率有界，则该论文展示了产生幻象的概率接近于训练数据中仅出现一次的事实的比例（一种“Good-Turing”估计），即使假设完美的训练数据没有错误。一个结论是，预训练成为足够好的预测器（即校准的）的模型可能需要在训练后进行调整以减少对训练集中仅出现一次的“任意”类型事实的幻觉。然而，该论文的分析还表明，预训练没有统计原因会导致在训练数据中多次出现的事实（如对文章和书籍的引用，其幻象尤为显著和有问题）或系统性事实（如算术计算）的幻觉。因此，不同的架构和学习算法可能会减少后者类型的幻觉。

地址：https://arxiv.org/pdf/2311.14648

12. TaskBench: 用于任务自动化的大模型基准

标题：TaskBench: Benchmarking Large Language Models for Task Automation

机构：浙江大学、复旦大学、微软亚洲研究院

关键词：任务自动化、大语言模型、数据集构建、工具图

作者：Yongliang Shen, Kaitao Song, Xu Tan

分析：该论文介绍了TaskBench，用于评估大语言模型在任务自动化中的能力。任务自动化将用户指令描述的复杂任务分解为子任务，并调用外部工具执行，是自主代理的核心。为了生成高质量的评估数据集，引入了工具图的概念来表示用户意图中的分解任务，并采用反指导方法来模拟用户指令和注释。实验结果表明，TaskBench可以有效地反映大语言模型在任务自动化中的能力。通过自动数据构建和人工验证的混合，TaskBench与人工评估具有较高的一致性，可作为基于大语言模型的自主代理的全面可靠的基准。

地址：https://arxiv.org/pdf/2311.18760

13. CDEval: 一个用于衡量大模型文化维度的基准

标题：CDEval: A Benchmark for Measuring the Cultural Dimensions of Large Language Models

机构：北京交通大学、微软亚洲研究院

关键词：大语言模型、文化维度、对齐研究

作者：Yuhang Wang, Yanxu Zhu, Chao Kong

分析：该论文通过引入CDEval基准来评估大语言模型的文化维度。目前对于大语言模型的对齐问题主要关注普世价值，对于包含多元文化的方面关注还不足。CDEval基准通过GPT-4的自动生成和人工验证构建，涵盖了七个领域中的六个文化维度。综合实验揭示了主流大语言模型的文化特征，强调了不同维度和领域之间的一致性和差异性。研究结果凸显了文化因素在大语言模型开发中的重要性，特别是在多元文化环境中的应用。通过CDEval，该论文旨在通过包含文化维度来拓宽大语言模型的对齐研究，为未来的发展和评估提供更综合的框架。该基准为大语言模型的文化研究提供了宝贵的资源，为更具文化意识和敏感性的模型铺平了道路。

地址：https://arxiv.org/pdf/2311.16421

14. TaskWeaver: 一个以代码为中心的代理框架

标题：TaskWeaver: A Code-First Agent Framework

机构：微软

关键词：LLM、自主代理、丰富的数据结构、特定领域

作者：Bo Qiao, Liqun Li, Xu Zhang

分析：TaskWeaver是一个以代码为中心的框架，用于构建LLM驱动的自主代理。它将用户请求转换为可执行的代码，并将用户定义的插件视为可调用函数。TaskWeaver支持丰富的数据结构、灵活的插件使用和动态插件选择，并利用LLM编码能力处理复杂逻辑。它还通过示例整合特定领域的知识，并确保生成的代码的安全执行。TaskWeaver提供了一个强大灵活的框架，用于创建智能对话代理，能够处理复杂任务并适应特定领域场景。

地址：https://arxiv.org/pdf/2311.17541

15. 在移动设备上进行的亚秒级文本到图像生成的MobileDiffusion

标题：MobileDiffusion: Subsecond Text-to-Image Generation on Mobile Devices

机构：Google

关键词：移动设备、文本到图像生成、模型优化、亚秒级速度

作者：Yang Zhao, Yanwu Xu, Zhisheng Xiao

分析：MobileDiffusion是一个高效的文本到图像扩散模型，该模型通过架构和采样技术的全面优化而获得。该论文对模型架构设计进行了全面的研究，以减少冗余，增强计算效率，并最小化模型的参数数量，同时保持图像生成质量。此外，该论文在MobileDiffusion上采用了精馏和扩散-GAN微调技术，分别实现8步和1步的推理。定量和定性实证研究证明了该论文所提出技术的有效性。MobileDiffusion在移动设备上生成512x512图像的推理速度达到了非凡的亚秒级，创造了一个新的技术水平。

地址：https://arxiv.org/pdf/2311.16567

16. 大规模语言模型生成中的通用自洽性

标题：Universal Self-Consistency for Large Language Model Generation

机构：Google

关键词：自洽性、大语言模型、多样本、性能提升

作者：Xinyun Chen, Renat Aksitov, Uri Alon

分析：本文提出了通用自洽性（USC）方法，利用大语言模型（LLM）本身从多个候选答案中选择最一致的答案。在数学推理、代码生成、长文本摘要和开放式问题回答等多个基准测试中，USC有效利用多个样本并提高了性能。在数学推理任务中，USC达到了标准自洽性性能的水平，而不需要答案格式相似。最后，在没有执行结果的情况下，USC也能够与基于执行结果投票的代码生成性能相匹配。

地址：https://arxiv.org/pdf/2311.17311

17. 一次性开放性可用性学习与基础模型

标题：One-Shot Open Affordance Learning with Foundation Models

机构：谷歌研究院、Stability AI

关键词：一次性开放性可用性学习、基础模型、可用性分割、视觉语言框架

作者：Gen Li, Deqing Sun, Laura Sevilla-Lara

分析：这篇论文主要通过综合分析已有的基础模型，探索其对可用性的内在理解，并评估数据有限的可用性学习潜力。然后，提出了一种视觉语言框架，通过简单有效的设计提高了视觉特征和可用性文本嵌入之间的匹配度。在两个可用性分割基准上的实验证明，该方法优于最先进的模型，只使用不到1%的完整训练数据，并在未见过的对象和可用性上表现出合理的泛化能力。

地址：https://arxiv.org/pdf/2311.17776

18. AnyLens: 一个具有任意渲染镜头的生成性扩散模型

标题：AnyLens: A Generative Diffusion Model with Any Rendering Lens

机构：谷歌研究院、特拉维夫大学

关键词：生成扩散模型、渲染几何、图像效果、曲率属性

作者：Andrey Voynov, Amir Hertz, Moab Arar

分析：本研究介绍了一个将文本到图像扩散模型与图像渲染过程中使用的特定镜头几何结合的框架。该论文的方法基于像素坐标条件方法，能够控制渲染几何结构。值得注意的是，该论文展示了通过单个扩散模型实现曲率属性的操纵，达到了各种视觉效果，如鱼眼、全景和球形纹理。

地址：https://arxiv.org/pdf/2311.17609

19. 大型多模态模型的组合式思维提示

标题：Compositional Chain-of-Thought Prompting for Large Multimodal Models

机构：UC伯克利分校

关键词：组合式思维提示、大型多模态模型、场景图、视觉推理

作者：Chancharik Mitra, Brandon Huang, Trevor Darrell

分析：该论文提出了一种名为CCoT的零样本组合式思维提示方法，通过利用场景图表示从大型语言模型中提取组合知识。CCoT方法不仅在视觉语言组合基准测试上提高了大型多模态模型的性能，还在一些常见的多模态基准测试上提高了几种流行的模型的性能，而无需微调或注释的场景图。

地址：https://arxiv.org/pdf/2311.17076

20. ChatGPT的一周年：开源大模型是否迎头赶上？

标题：ChatGPT's One-year Anniversary: Are Open-Source Large Language Models Catching up?

机构：南洋理工大学、Salesforce研究院

关键词：开源大语言模型、ChatGPT、任务相当性、模型进展

作者：Hailin Chen, Fangkai Jiao, Xingxuan Li

分析：ChatGPT发布于2022年底，给人工智能领域的研究和商业带来了巨大的变革。通过使用监督微调和人类反馈的强化学习来调整一个大语言模型，ChatGPT展示了模型能够回答人类问题并遵循广泛任务的指示。随着这一成功，对大语言模型的兴趣越来越浓厚，包括学术界和行业涌现了许多新的大语言模型，还有许多专注于大语言模型的初创公司。尽管封闭源大语言模型（如OpenAI的GPT、Anthropic的Claude）通常表现优于开源模型，但后者在一些任务上取得了快速进展，声称达到或甚至超过了ChatGPT的水平。这不仅对研究而言有重要意义，对商业也至关重要。在ChatGPT一周年之际，该论文对开源大语言模型在所有声称与ChatGPT相当或更好的任务上进行了全面概述。

地址：https://arxiv.org/pdf/2311.16989

21. 预训练语言模型对自回归图文生成没有帮助

标题：Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation

机构：斯坦福大学、Apple

关键词：预训练、语言模型、自回归、图文生成

作者：Yuhui Zhang, Brandon McKinzie, Zhe Gan

分析：本文探讨了预训练语言模型在自回归文本生成与图像生成中的应用，并发现预训练语言模型的帮助有限。研究发现图像令牌与文本令牌语义明显不同，预训练语言模型对图像令牌建模效果不如随机初始化模型。此外，图文数据集中的文本令牌相比常规语言模型的预训练数据过于简单，导致语言模型能力的灾难性下降。

地址：https://arxiv.org/pdf/2311.16201

22. GPT-4几乎完美处理不自然的打乱文本

标题：Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural Scrambled Text

机构：东京大学

关键词：大型语言模型、鲁棒性、打乱文本、GPT-4

作者：Qi Cao, Takeshi Kojima, Yutaka Matsuo

分析：本研究揭示了大型语言模型（LLMs）的鲁棒性，尤其是GPT-4，在遭受广泛的字符级置换时的表现。该论文首先提出了Scrambled Bench，一个用于衡量LLMs处理打乱输入的能力的测试套件，包括恢复打乱的句子和在打乱的上下文中回答问题。实验结果表明，大多数强大的LLMs表现出类似错位症的能力，即当单词中的字母被打乱时，只要首字母和末字母保持不变，人类就可以理解其中的意义。更令人惊讶的是，该论文发现只有GPT-4几乎完美地处理不自然的错误，即使在所有单词的字母都被完全打乱的极端条件下，这对于其他LLMs甚至人类来说都是一项巨大挑战。具体而言，GPT-4几乎可以将打乱的句子完美地重建为原始句子，编辑距离降低了95%。尽管打乱文本会严重破坏输入语言单元划分的启示性，但LLMs仍然能够展现出这样的鲁棒性。

地址：https://arxiv.org/pdf/2311.18805

23. 对抗性扩散蒸馏

标题：Adversarial Diffusion Distillation

机构：Stability AI

关键词：对抗性扩散蒸馏、图像合成、模型蒸馏

作者：Axel Sauer, Dominik Lorenz, Andreas Blattmann

分析：这篇论文介绍了一种名为Adversarial Diffusion Distillation（ADD）的新型训练方法，可以在仅1-4个步骤中高效采样大规模基础图像扩散模型，并保持高质量的图像。通过使用得分蒸馏来利用现成的大规模图像扩散模型作为教师信号，并结合对抗损失来确保在一个或两个采样步骤的低级别情况下保持高图像保真度。分析结果表明，该论文的模型在单步骤中明显优于现有的少步骤方法（GAN、潜变一致模型），并且在仅四个步骤中达到了最先进的扩散模型（SDXL）的性能水平。ADD是首个可以解锁基础模型下的单步骤实时图像合成的方法。

地址：https://arxiv.org/pdf/2311.17042

24. MoDS：面向模型的数据选择法用于指令微调

标题：MoDS: Model-oriented Data Selection for Instruction Tuning

机构：中国科学院大学、武汉AI研究院、中国科学院自动化研究所

关键词：指令微调、数据选择、模型优化

作者：Qianlong Du, Chengqing Zong, Jiajun Zhang

分析：本文提出了一种面向模型的数据选择（MoDS）方法，用于根据质量、覆盖范围和必要性三个方面来选择适当的指令数据以微调大型语言模型（LLM）的基础。通过质量评估模型过滤原始指令数据集中的高质量子集，并设计算法从高质量子集中进一步选择具有良好覆盖范围的种子指令数据集。将种子数据集应用于微调基础LLM以获得初始指令跟随LLM。最后，开发了必要性评估模型来确定在初始指令跟随LLM中表现不良且被认为是进一步改善LLM的必要指令数据。从原始指令数据集中获取小规模、高质量、广覆盖和高必要性的子集。实验结果表明，使用该论文的方法选择的4000个指令对的模型的性能优于使用包括214k指令数据的完整原始数据集微调的模型。

地址：https://arxiv.org/pdf/2311.15653

25. 每日任务指令的智能决策机器人RoboGPT

标题：RoboGPT: an intelligent agent of making embodied long-term decisions for daily instruction tasks

机构：北京大学、北京邮电大学、中国科学院自动化研究所

关键词：智能决策机器人、日常任务、大语言模型、规划模块

作者：Yaran Chen, Wenbo Cui, Yuanwen Chen

分析：RoboGPT是一个智能决策机器人代理，致力于通过自然语言指令解决日常任务。该论文提出了两个模块：基于大语言模型(LLMs)的规划模块，用于将任务划分为多个子目标；为子目标设计的RoboSkill模块，用于学习更好的导航和操作技巧。通过引入新的机器人数据集和重新规划的方法，RoboGPT在LLMs规划上进行了增强。提出的RoboGPT代理在ALFRED每日任务上表现优于其他方法。同时，RoboGPT规划器在数百个未见过的每日任务和其他领域任务上超越了ChatGPT等SOTA LLMs规划器，同时保留了大模型的广泛应用和普适性。

地址：https://arxiv.org/pdf/2311.15649

26. LanGWM: 语言基础的世界模型

标题：LanGWM: Language Grounded World Model

机构：剑桥大学、麻省理工学院

关键词：语言基础、世界模型、视觉特征学习、强化学习

作者：Rudra P.K. Poudel, Harit Pandya, Chao Zhang

分析：本文旨在通过利用语言提高强化学习中的状态抽象技术，以改善最先进的强化学习模型在面对分布之外的泛化问题时的挑战。具体来说，该论文关注学习语言基础的视觉特征，以增强世界模型学习，一种基于模型的强化学习技术。通过将图像观察中一些对象的边界框进行屏蔽，并提供文本提示作为这些被屏蔽对象的描述，来明确论证该论文的假设。随后，该论文将被屏蔽的对象及其周围区域作为像素重建进行预测，类似于基于Transformer的屏蔽自编码器方法。该论文的提出的LanGWM: 语言基础的世界模型在iGibson点导航任务的10万次交互步骤的分布之外测试中取得了最先进的性能。此外，该论文提出的显式语言基础的视觉表示学习技术有潜力改进人机交互模型，因为该论文提取的视觉特征与语言相关。

地址：https://arxiv.org/pdf/2311.17593

27. CESAR：用于多轮对话的组合指令的自动归纳

标题：CESAR: Automatic Induction of Compositional Instructions for Multi-turn Dialogs

机构：Amazon、新加坡国立大学

关键词：CESAR、指令归纳、对话任务、组合指令

作者：Taha Aksu, Devamanyu Hazarika, Shikib Mehri

分析：CESAR是一个新颖的框架，通过大规模的复杂演示来构建复杂指令，解决了大型语言模型在面对具有多个约束的复杂指令时的性能问题。该框架在InstructDial基准上应用，并增加了新的数据集和任务，形成了InstructDial++这一新的基准。通过严格的实验，证明了CESAR在提供丰富指令方面的可扩展性。在InstructDial++上训练的模型可以遵循包含多个风格约束的组合提示。

地址：https://arxiv.org/pdf/2311.17376

28. 数据多样性对鲁棒的指令微调很重要

标题：Data Diversity Matters for Robust Instruction Tuning

机构：佐治亚理工学院

关键词：指令微调、数据集选择、多样性、鲁棒性

作者：Alexander Bukharin, Tuo Zhao

分析：这篇论文研究了指令微调中的数据集选择问题，提出了一种新算法QDIT，通过控制数据集的多样性和质量来改善指令微调的性能。研究发现数据集的多样性对提高最差情况下的指令跟踪性能具有显著影响，进而提高了模型的鲁棒性。

地址：https://arxiv.org/pdf/2311.14736

29. 大规模多模态模型的持续指令微调

标题：Continual Instruction Tuning for Large Multimodal Models

机构：鹏城实验室、中国科学院大学、武汉AI研究院

关键词：大规模多模态模型、持续指令微调、灾难性遗忘、多任务联合指令微调

作者：Jinghan He, Haiyun Guo, Ming Tang

分析：这篇论文主要探讨大规模多模态模型（LMMs）的持续指令微调中存在的问题。通过建立第一个基准来揭示持续指令微调中的灾难性遗忘问题，并证明多任务联合指令微调可以促进模型的持续学习能力和减轻遗忘现象。同时，结合经典的持续学习方法，提出了数据回放和模型扩展策略，并针对视觉-语言任务对的相关性和遗忘动态，提出了基于任务相似度的正则化和模型扩展方法。该论文的实验结果表明，该论文的方法能够持续提升模型的性能。

地址：https://arxiv.org/pdf/2311.16206

30. 从扩散反馈中的强化学习：图像搜索的Q*

标题：Reinforcement Learning from Diffusion Feedback: Q* for Image Search

机构：卡内基梅隆大学

关键词：模型无关学习、强化学习、视觉模仿、图像生成

作者：Aboli Marathe

分析：该论文提出了两种使用模型无关学习进行图像生成的模型，即通过先验保留的奖励函数引导的强化学习从扩散反馈中进行的视觉模仿，以及基于噪声扩散梯度的优化驱动方法。这两种方法的根本是该论文提出的专门针对连续语义引导的特殊CFG编码。通过仅使用单个输入图像且无文本输入，RLDF在包括零售、体育和农业等各个领域生成了具有类一致性和强视觉多样性的高质量图像。

地址：https://arxiv.org/pdf/2311.15648

31. Bridging the Gap：一种用于时刻检索和精彩片段检测的统一视频理解框架

标题：Bridging the Gap: A Unified Video Comprehension Framework for Moment Retrieval and Highlight Detection

机构：清华大学、卡内基梅隆大学

关键词：视频时刻检索、精彩片段检测、统一视频理解框架、多模态

作者：Yicheng Xiao, Zhuoyan Luo, Yong Liu

分析：该论文通过提出统一视频理解框架（UVCOM），解决了视频时刻检索（MR）和精彩片段检测（HD）的问题。UVCOM通过对跨模态的内部和间模态进行逐步整合，实现了对视频的全面理解。此外，通过多方面对比学习，通过良好对准的多模态空间，巩固了局部关系建模和全局知识积累。在QVHighlights、Charades-STA、TACoS、YouTube Highlights和TVSum数据集上的大量实验证明了UVCOM的有效性和合理性，其优于现有方法。

地址： https://arxiv.org/pdf/2311.16464

32. Nova^+: 二进制生成语言模型

标题：Nova^+: Generative Language Models for Binaries

机构：普渡大学、中国科学技术大学

关键词：二进制生成语言模型、二进制代码、预训练、优化生成

作者：Nan Jiang, Chengxiao Wang, Kevin Liu

分析：该论文介绍了一种新的二进制代码生成语言模型，用于解决现有模型在模拟和学习二进制代码方面的挑战，包括十六进制值、复杂全局依赖和编译器优化。作者提出的Nova和Nova$^+$分别预训练于二进制语料库，通过三项下游任务（二进制代码相似性检测、二进制代码翻译和二进制代码恢复）的五个基准测试显示出优异性能，超过了GPT-3.5和其他现有技术。

地址：https://arxiv.org/pdf/2311.13721

33. 早期和后期隐性偏差的二分法可证明引发领悟现象

标题：Dichotomy of Early and Late Phase Implicit Biases Can Provably Induce Grokking

机构：斯坦福大学、华盛顿大学、密歇根大学

关键词：领悟现象、早期和后期隐性偏差、测试准确率、神经网络

作者：Kaifeng Lyu, Jikai Jin, Zhiyuan Li

分析：本文研究了Power等人(2022年)在学习算术任务中突出的“领悟”现象：神经网络首先“记忆”训练集，导致训练准确率完美，但测试准确率接近随机，经过足够长时间的训练后，突然转变为完美的测试准确率。本文在理论设置中研究了领悟现象，并证明它可以通过早期和后期隐性偏差的二分法引发。具体而言，当使用大初始化和小权重衰减来训练同质神经网络进行分类和回归任务时，该论文证明训练过程在一个很长时间内陷入与核预测器相对应的解决方案，然后出现最小范数/最大间隔预测器的非常明显的转变，从而导致测试准确率的显著变化。

地址：https://arxiv.org/pdf/2311.18817

34. LLMGA: 基于大模型的多模态生成助手

标题：LLMGA: Multimodal Large Language Model based Generation Assistant

机构：字节跳动、香港中文大学

关键词：多模态、语言模型、图像生成、可解释性

作者：Bin Xia, Shiyin Wang, Yingfan Tao

分析：本文介绍了一种基于大语言模型的多模态生成助手（LLMGA），利用大语言模型（LLMs）中的知识和推理、理解、响应能力来辅助用户进行图像生成和编辑。与现有方法不同，多模态大语言模型（MLLMs）生成固定大小的嵌入以控制稳定扩散（SD），该论文的LLMGA为精确控制SD提供了详细的语言生成提示。这不仅增加了LLM的上下文理解，还减少了生成提示中的噪声，产生了更复杂和精确内容的图像，提高了网络的可解释性。为此，该论文整理了一个全面的数据集，包括生成提示的精细化、类似图像生成、修复和扩展、视觉问答等方面。此外，该论文提出了一个两阶段的训练方案。在第一阶段，该论文训练MLLM掌握图像生成和编辑的属性，使其能够生成详细的提示。在第二阶段，该论文优化SD以与MLLM的生成提示对齐。此外，该论文还提出了一种基于参考的恢复网络，以减轻图像编辑期间生成区域与保留区域之间的纹理、亮度和对比度差异。广泛的结果表明，LLMGA具有有前途的生成能力，并可以以交互方式实现更广泛的应用。

地址：https://arxiv.org/pdf/2311.16500

35. GPT4Video: 统一的多模态大模型，用于指令跟随理解和安全生成

标题：GPT4Video: A Unified Multimodal Large Language Model for lnstruction-Followed Understanding and Safety-Aware Generation

机构：悉尼大学、腾讯AI实验室

关键词：多模态、视频理解、视频生成

作者：Zhanyu Wang, Longyue Wang, Zhen Zhao

分析：这篇论文提出了GPT4Video，一个统一的多模态框架，通过集成稳定扩散生成模型和基于指令的方法，为大语言模型增加了视频理解和生成的能力。通过定性和定量实验证明，GPT4Video具有成为有效、安全和类人化视频助手的潜力，能够处理视频理解和生成场景。

地址：https://arxiv.org/pdf/2311.16511

36. AvatarStudio: 从文本创建高保真和可动画的3D头像

标题：AvatarStudio: High-fidelity and Animatable 3D Avatar Creation from Text

机构：字节跳动、浙江大学、悉尼科技大学

关键词：分阶段生成模型、高保真、可动画

作者：Jianfeng Zhang, Xuanmeng Zhang, Huichao Zhang

分析：该论文提出了AvatarStudio，一种生成高保真和可动画的3D人体头像的分阶段生成模型。通过在粗略生成的基于NeRF的表示中加入SMPL引导的关节动作，并将其与DensePose条件扩散模型相结合，可以创建出从文本生成的高质量、可动画的头像。与之前的方法相比，AvatarStudio在观察一致性和姿势可控性方面显著优于其他方法。此外，它适用于多模态头像动画和风格引导头像创建等多种应用。

地址：https://arxiv.org/pdf/2311.17917

37. PoseGPT: 关于3D人体姿势的对话

标题：PoseGPT: Chatting about 3D Human Pose

机构：清华大学

关键词：姿势生成、姿势估计、大模型、多模态

作者：Yao Feng, Jing Lin, Sai Kumar Dwivedi

分析：PoseGPT是一种利用大型语言模型（LLMs）来理解和推理图像或文本描述中的3D人体姿势的框架。该论文的工作受到人类从单张图像或简短描述中直观理解姿势的能力的启发，这个过程包含了图像解释、世界知识和对身体语言的理解。传统的人体姿势估计方法，无论是基于图像还是文本，往往缺乏整体场景理解和细致的推理，导致视觉数据与其在现实世界中的影响之间存在脱节。PoseGPT通过将SMPL姿势嵌入多模态LLM中作为一个独特的信号令牌，使其能够直接从文本和视觉输入中生成3D人体姿势。这种方法不仅简化了姿势预测，还使LLMs能够在推理人体姿势时应用其世界知识，促进了两个高级任务：推理式姿势生成和姿势估计。这些任务涉及通过微妙的文本查询来推理人体生成3D姿势，可能还伴随图像。该论文为这些任务建立了基准，超越了传统的3D姿势生成和估计方法。该论文的结果表明，PoseGPT在这些新提出的任务上优于现有的多模态LLMs和任务特定方法。此外，PoseGPT基于复杂推理理解和生成3D人体姿势的能力开辟了人体姿势分析的新方向。

地址：https://arxiv.org/pdf/2311.18836

38. MEDITRON-70B: 大规模语言模型的医学预训练

标题：MEDITRON-70B: Scaling Medical Pretraining for Large Language Models

机构：伊迪亚普研究所、瑞士洛桑联邦理工学院

关键词：MEDITRON、医学预训练、语言模型、数据集构建

作者：Zeming Chen, Alejandro Hernández Cano, Angelika Romanou

分析：该论文介绍了MEDITRON，一种适用于医学领域的具有70B参数的开源LLM。通过在PubMed文章、摘要和国际公认的医学指南中进行全面策划的医学语料库的预训练，MEDITRON 在四个重要的医学基准测试上显示出显著的性能提升。与其他闭源LLMs相比，MEDITRON-70B超越了GPT-3.5和Med-PaLM，在GPT-4和Med-PaLM-2之内表现。为了推动开源发展更强大的医学LLMs，他们还发布了医学预训练语料库的策划代码和MEDITRON模型权重。

地址：https://arxiv.org/pdf/2311.16079

39. General Phrase Debiaser：在多令牌级别上去偏置的掩码语言模型

标题：General Phrase Debiaser: Debiasing Masked Language Models at a Multi-Token Level

机构：阿里巴巴集团

关键词：短语去偏、掩码语言模型、性别偏见、模型去偏

作者：Bingkang Shi, Xiaodan Zhang, Dehan Kong

分析：这篇论文提出了一个名为通用短语去偏器的自动多令牌去偏置流水线，其能够减轻掩码语言模型中的短语级别偏见。具体而言，该方法包括一个短语筛选阶段，从维基百科页面中生成刻板短语，以及一个模型去偏阶段，该阶段能够在多令牌级别上去偏置模型，以应对短语上的偏见挑战。最先进的标准数据集和度量结果显示，该论文的方法能够显著减少职业和多个学科领域的性别偏见，并适用于具有不同参数大小的模型。

地址：https://arxiv.org/pdf/2311.13892

40. 基于大模型的中文对话AI角色个性化定制

标题：CharacterGLM: Customizing Chinese Conversational AI Characters with Large Language Models

机构：清华大学、中国人民大学

关键词：对话生成、角色个性化定制、大语言模型

作者：Jinfeng Zhou, Zhuang Chen, Dazhen Wan

分析：本文介绍了CharacterGLM，该系列模型基于ChatGLM构建，模型参数从6B到66B不等。该论文的CharacterGLM旨在生成基于角色的对话（CharacterDial），旨在为对话式AI系统提供角色个性化定制，以满足人们内在的社交欲望和情感需求。在CharacterGLM的基础上，该论文可以通过配置其属性（身份、兴趣、观点、经验、成就、社会关系等）和行为（语言特征、情感表达、互动模式等），来定制各种AI角色或社交代理。根据手动评估，该论文的模型在一致性、人类相似度和参与度等方面优于大多数主流闭源大语言模型，包括GPT系列。该论文将发布该论文的6B版本的CharacterGLM和一部分训练数据，以促进基于角色的对话生成的进一步研究发展。

地址：https://arxiv.org/pdf/2311.16832

41. FFT：通过事实性、公平性和毒性对LLMs进行无害性评估和分析

标题：FFT: Towards Harmlessness Evaluation and Analysis for LLMs with Factuality, Fairness, Toxicity

机构：百度、中国科学院大学

关键词：LLM、事实性、公平性

作者：Shiyao Cui, Zhenyu Zhang, Yilong Chen

分析：本文提出了FFT，一个新的基准测试，用于通过事实性、公平性和毒性评估LLMs的无害性，其中包含2116个精心设计的实例。为了调查LLMs的潜在危害，该论文评估了9个代表性的LLMs，涵盖不同的参数规模、训练阶段和创建者。实验证明，LLMs的无害性仍然不理想，并且广泛的分析得出了一些有洞察力的发现，可以启发无害LLM研究的未来研究。

地址：https://arxiv.org/pdf/2311.18580

42. CAT-DM: 带扩散模型的可控加速虚拟试衣

标题：CAT-DM: Controllable Accelerated Virtual Try-on with Diffusion Model

机构：腾讯、天津大学

关键词：虚拟试衣、扩散模型、可控性、衣物图案

作者：Jianhao Zeng, Dan Song, Weizhi Nie

分析：CAT-DM 提出了一种基于扩散模型的虚拟试衣网络，用于改善传统生成对抗网络（GAN）在虚拟试衣中存在的衣物不自然变形和图像模糊等问题。CAT-DM 还通过引入 ControlNet 来增强可控性，并改善衣物图像的特征提取。此外，CAT-DM 利用预训练的 GAN 模型生成的隐式分布进行反向去噪过程，从而加速虚拟试衣过程。与基于扩散模型的之前的试衣方法相比，CAT-DM 不仅保留了商店内衣物的图案和纹理细节，还能减少采样步骤，而不影响生成质量。大量实验证明了 CAT-DM 在生成更真实图像和准确复现衣物纹样方面的优势。代码和模型将公开发布。

地址：https://arxiv.org/pdf/2311.18405

43. 从大模型中推理出您的布局:为文本到图像合成创造出布局大师

标题：Reason out Your Layout: Evoking the Layout Master from Large Language Models for Text-to-Image Synthesis

机构：字节跳动、塔夫茨大学

关键词：大语言模型、布局生成、文本到图像合成、模型改进

作者：Xiaohui Chen, Yongfei Liu, Yingxiang Yang

分析：这篇论文介绍了一种利用大语言模型（LLMs）作为布局生成器来改进文本到图像合成模型的方法。该方法利用LLMs的连续思维提示来解释文本并生成合理的对象布局，进而提高生成图像的组合能力和空间准确性。此外，论文提出了一种基于跨注意机制的高效适配器，将布局信息明确地整合到稳定的模型中。实验证明，图像质量和布局准确性都有显著提高，展示了LLMs在增强生成图像模型方面的潜力。

地址：https://arxiv.org/pdf/2311.17126

44. 回答问题的知识密集型复杂问题的概率思维树推理

标题：Probabilistic Tree-of-thought Reasoning for Answering Knowledge-intensive Complex Questions

机构：清华大学

关键词：概率思维树推理、大模型、复杂问题、知识密集型

作者：Shulin Cao, Jiajie Zhang, Jiaxin Shi

分析：该论文提出了一种名为Probabilistic Tree-of-thought Reasoning的方法。通过将复杂问题转化为查询树，并在树上进行概率推理，从叶节点到根节点逐步解决问题。该方法可以解决当大模型的参数中缺乏所需知识或信息过时时，生成错误论证步骤的问题。通过对叶节点的推理，选择更有信心的回答，以消除负面检索问题。对于非叶节点，通过使用层次结构，具有更广泛的视域，并可以全局推理从而纠正局部错误。该方法在三个复杂问答数据集上的实验结果表明，比目前的方法表现更好，展示了概率思维树推理的效果。

地址：https://arxiv.org/pdf/2311.13982

45. 用于角色动画的一致且可控的图像到视频合成

标题：Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation

机构：阿里巴巴集团

关键词：角色动画、图像到视频合成、细节特征、姿势引导器

作者：Li Hu, Xin Gao, Peng Zhang

分析：论文中提出了一种用于角色动画的新框架，主要解决了图像到视频合成中的一致性和细节信息保持的问题。通过设计ReferenceNet来融合细节特征并通过空间注意力来保持与参考图像的一致性。通过引入高效的姿势引导器来保证可控性和连续性，并采用有效的时间建模方法来确保视频帧之间的平滑过渡。与其他图像到视频方法相比，在角色动画方面取得了更好的结果。并且，在时尚视频和人体舞蹈合成的基准测试中取得了最先进的结果。

地址：https://arxiv.org/pdf/2311.17117

46. 位置信息对于上下文学习的重要性：简单函数类的案例研究

标题：Positional Information Matters for Invariant In-Context Learning: A Case Study of Simple Function Classes

机构：香港中文大学、香港浸会大学、腾讯AI实验室

关键词：上下文学习、ICL、位置信息、模型结构改进

作者：Yongqiang Chen, Binghui Xie, Kaiwen Zhou

分析：该论文通过对LLMTransformer进行ICL线性回归的调查，研究了成功ICL的限制和原则。研究发现，保持与输入演示的排列不变对于OOD ICL非常重要。然而，LLMs中的位置编码将破坏ICL的不变性。为了解决这个问题，该论文进一步对具有相同位置编码的Transformer进行评估，并发现在各种ICL分布转移情况下保持ICL不变性的Transformer实现了最先进的性能。

地址：https://arxiv.org/pdf/2311.18194

47. 自我补充代码生成

标题：Self-Infilling Code Generation

机构：香港大学、字节跳动

关键词：自我补充、代码生成、循环机制、控制性

作者：Lin Zheng, Jianbo Yuan, Zhi Zhang

分析：该论文介绍了一个将填写操作整合到自回归解码中的通用代码生成框架。该论文的方法利用了最近具有填充能力的代码语言模型可以进行自我补充的观察结果：填充操作旨在根据预定义的前缀和后缀填充中间部分，而自我补充依次生成这些上下文和填充内容。该论文利用这个特性开发了一种填充增强的解码过程，以促进非单调生成。该方法允许将不确定代码片段的生成推迟到确切的后缀建立之前，从而更好地控制生成顺序。此外，它还便于循环机制，可以以循环方式更新和同步每个生成部分。通过广泛的实验表明，该论文提出的解码过程在改善多个代码生成基准的规律性和质量方面是有效的。

地址：https://arxiv.org/pdf/2311.17972

48. Falcon系列开放式语言模型

标题：The Falcon Series of Open Language Models

机构：阿布扎比科技创新研究所

关键词：Falcon系列、大语言模型、预训练、开放生态系统

作者：Ebtesam Almazrouei, Hamza Alobeidli, Abdulaziz Alshamsi

分析：Falcon系列包括7B、40B和180B参数的因果解码器模型，主要在解决从网络数据中获取高质量文本的问题。最大的模型Falcon-180B是有史以来最大规模的预训练模型，使用了超过3.5万亿个文本标记进行训练。Falcon-180B在性能上显著超过了PaLM或Chinchilla等模型，并改进了同时开发的LLaMA 2或Inflection-1模型。它在降低预训练和推理成本的同时，接近PaLM-2-Large的性能，是该论文所知道的世界上三个最好的语言模型之一，与GPT-4和PaLM-2-Large齐名。该论文报告了详细的评估结果，以及预训练Falcon所使用的方法和定制工具。值得注意的是，该论文报告了该论文的定制分布式训练代码库，使该论文能够在云AWS基础设施上使用最多4096个A100进行高效的预训练。该论文提供了该论文的网络数据集的600B标记提取，并以自由许可证发布Falcon-7/40/180B模型，以促进开放科学，并加速大型语言模型的开放生态系统的发展。

地址：https://arxiv.org/pdf/2311.16867

49. HalluciDoctor: 缓解大规模机器生成视觉指导数据中的幻觉性毒性

标题：HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data

机构：浙江大学、中国科学院计算技术研究所

关键词：幻觉性毒性、幻觉检测、幻觉消除、大规模机器生成数据

作者：Qifan Yu, Juncheng Li, Longhui Wei

分析：本文旨在调查大规模机器生成视觉指导数据中的各种幻觉（即对象、关系、属性幻象），并减轻多模态大型语言模型中可能导致幻觉输出的幻觉性毒性。通过借鉴人类识别事实错误的能力，该论文提出了一个新颖的幻觉检测和消除框架HalluciDoctor，基于交叉检验范式。该论文使用该框架自动识别和消除训练数据中的幻觉。有趣的是，HalluciDoctor还指出由于长尾对象共现引起的虚假相关性有助于幻觉产生。基于此，该论文执行反事实的视觉指导扩展来平衡数据分布，从而增强对幻觉的抵抗能力。对幻觉评估基准的全面实验表明，该论文的方法相对成功地减轻了44.6%的幻觉，并与LLaVA相比保持竞争性能。源代码将在url{this https URL}发布。

地址：https://arxiv.org/pdf/2311.13614

50. 基于文本提示扩散的图像超分辨率

标题：Image Super-Resolution with Text Prompt Diffusion

机构：悉尼大学、西湖大学、上海交通大学

关键词：图像超分辨率、文本提示、扩散模型、预训练语言模型

作者：Zheng Chen, Yulun Zhang, Jinjin Gu

分析：该论文通过引入文本提示来提升图像超分辨率的性能，通过在SR数据集中将文本整合到图像中，并设计了文本-图像生成管道来描述图像的退化信息。论文提出了PromptSR方法，利用扩散模型和预训练语言模型进行图像超分辨率。实验证明，引入文本提示可以在合成图像和真实世界图像上取得出色的结果。

地址：https://arxiv.org/pdf/2311.14282

51. 将小型多模态推理模型的能力提升到与较大模型匹配的水平-自洽训练

标题：Boosting the Power of Small Multimodal Reasoning Models to Match Larger Models with Self-Consistency Training

机构：浙江大学、西湖大学、中国科学院计算技术研究所

关键词：多模态推理、理论生成、自洽训练、模型性能提升

作者：Cheng Tan, Jingxuan Wei, Zhangyang Gao

分析：本研究探讨了推理模型中理论的重要性。该论文观察到，当理论完全准确时，模型的准确性显著提高，凸显了高质量理论生成的需求。基于此，该论文提出了MC-CoT，一种自洽训练策略，通过投票过程生成多个理论和答案，随后选择最准确的一个。该方法不仅提高了理论生成的质量，还导致了更准确和更稳健的答案。通过大量实验证明，该论文的方法在各个基准测试中显著提高了模型性能。值得注意的是，该论文表明即使是较小的基础模型，经过该论文提出的方法装备后，也能达到与较大模型相媲美的结果，展示了利用理论提升多模态推理能力的潜力。

地址：https://arxiv.org/pdf/2311.14109

52. Wasserstein度量进行数据集精简

标题：Dataset Distillation via the Wasserstein Metric

机构： 南京大学、伊利诺伊大学

关键词：数据集精简、Wasserstein距离、分布匹配、数据嵌入

作者：Haoyang Liu, Tiancheng Xing, Luwei Li

分析：该论文主要研究数据集精简（DD）的方法，利用Wasserstein距离提高数据分布匹配，提出了一种新的方法。论文将合成数据嵌入到预训练分类模型的特征空间中，通过分布匹配实现对数据集的学习。在多个基准测试上取得了新的最好结果，验证了该方法的有效性和适应性。该论文揭示了Wasserstein度量在数据集精简中的未开发潜力。

地址：https://arxiv.org/pdf/2311.18531

53. Annotation Sensitivity：训练数据收集方法影响模型性能

标题：Annotation Sensitivity: Training Data Collection Methods Affect Model Performance

机构：慕尼黑大学、马里兰大学

关键词：注释敏感性、注释工具、模型性能、数据集构建

作者：Christoph Kern, Stephanie Eckman, Jacob Beck

分析：本研究探讨了当训练数据来自人工注释者时，注释工具的设计、注释者的指导、注释者的特征以及他们的互动对训练数据的影响。研究发现，在创建注释工具时所做的设计选择也会影响到根据注释训练的模型。该论文引入了注释敏感性这一概念，用于指代注释数据收集方法对注释本身以及下游模型性能和预测的影响。该论文以五种实验条件下的注释工具收集仇恨言论和冒犯性言语的注释，实验中将注释者随机分配到各种条件下。然后，该论文对得到的五个数据集分别对BERT模型进行微调，并在每个条件的保留部分上评估模型性能。该论文发现在以下四个方面条件之间存在显著差异：1）仇恨言论/冒犯性言语注释的比例，2）模型性能，3）模型预测结果，4）模型学习曲线。结果强调了注释工具在机器学习文献中所受的关注很少，它在模型训练中的关键作用。该论文呼吁进一步研究注释工具是如何影响注释，并为指导工具设计的最佳实践的发展提供更多研究。

地址：https://arxiv.org/pdf/2311.14212

54. Beyond Hallucinations：通过幻觉意识的直接偏好优化提升LVLMs

标题：Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware Direct Preference Optimization

机构：上海AI实验室

关键词：幻觉意识、多模态模型、直接偏好优化、幻觉样本配对

作者：Zhiyuan Zhao, Bin Wang, Linke Ouyang

分析：这篇论文介绍了一种新的策略：幻觉意识的直接偏好优化（HA-DPO）。通过将幻觉问题视为一种独特的偏好选择问题，模型在面对同一图像的两个回答时训练为偏好非幻觉性回答。同时，论文还提出了一种有效的构建幻觉样本配对的方法，以确保高质量、风格一致的配对用于稳定的HA-DPO训练。将该策略应用于两种主流多模态模型，结果显示幻觉问题显著减少，模型的泛化能力提升。通过HA-DPO，MiniGPT-4模型的POPE准确度从51.13%提升至85.66%（绝对改善34.5%），MME分数从968.58提升至1365.76（相对改善41%）。代码、模型和数据集将公开可用。

地址：https://arxiv.org/pdf/2311.16839

55. ElasticDiffusion：无需训练的任意尺寸图像生成

标题：ElasticDiffusion: Training-free Arbitrary Size Image Generation

机构：莱斯大学

关键词：ElasticDiffusion、无训练、图像生成、尺寸可变

作者：Moayed Haji-Ali, Guha Balakrishnan, Vicente Ordonez

分析：ElasticDiffusion提出了一种新颖的无需训练的解码方法，使预训练的文本-图像扩散模型能够生成具有不同尺寸的图像。它将预训练模型的生成轨迹分解为局部和全局信号。局部信号控制低级像素信息，可在局部补丁上估计，而全局信号用于保持整体结构一致性，并通过参考图像进行估计。在CelebA-HQ（人脸）和LAION-COCO（对象/室内/室外场景）数据集上进行实验，结果显示，与MultiDiffusion和Stable Diffusion的标准解码策略相比，ElasticDiffusion在不同宽高比下具有更好的图像连贯性。代码：链接见上文。

地址：https://arxiv.org/pdf/2311.18822

代码：https://github.com/MoayedHajiAli/ElasticDiffusion-official.git

56. 评估面向可部署终身学习的预训练模型

标题：Evaluating Pretrained models for Deployable Lifelong Learning

机构：南加州大学

关键词：终身学习、预训练模型、可扩展性、任务映射

作者：Kiran Lekkala, Eshan Bhargava, Laurent Itti

分析：这篇论文介绍了一种评估面向可部署终身学习系统的新型基准，该系统是在经过策划的数据集上进行预训练的视觉强化学习（RL）模型，并提出了一种新颖的可扩展终身学习系统，能够保留先前学习到的RL任务的知识。该论文的基准评估了可部署终身学习系统在可扩展性、性能和资源利用方面的有效性。该论文提出的系统一旦在数据集上进行预训练，就可以被部署来对未见过的任务进行持续学习。该论文的方法包括一个基于Few Shot Class Incremental Learning（FSCIL）的任务映射器和一个完全使用预训练数据集训练的编码器/主干网络。然后加载与识别任务对应的策略参数来执行该任务。该论文表明，由于占用内存少且需要较少的计算资源，该系统可以扩展到包含大量任务。该论文在Atari游戏上对该论文的DeLL（Deployment for Lifelong Learning）基准进行实验，以确定该系统的有效性。

地址：https://arxiv.org/pdf/2311.13648

57. RO-LLaMA：利用噪声增强和一致性正则化的放射肿瘤学通用大模型

标题：RO-LLaMA: Generalist LLM for Radiation Oncology via Noise Augmentation and Consistency Regularization

机构：韩国科学技术院

关键词：放射肿瘤学、大语言模型、临床报告摘要、放疗计划

作者：Kwanyoung Kim, Yujin Oh, Sangjoon Park

分析：这篇论文介绍了RO-LLaMA，一种适用于放射肿瘤学领域的多功能通用大语言模型。该模型能够无缝地涵盖放射肿瘤学工作流的各个方面，包括临床报告摘要、放疗计划建议以及计划引导疗法靶区分割。为了最大限度地提高端到端性能，作者还提出了一种新颖的一致性嵌入微调技术（CEFTune），该技术提高了大语言模型对中间结果额外错误的鲁棒性，同时保留了处理干净输入的能力，并将这个概念创造性地转化为一致性嵌入分割框架（CESEG）。实验证明，RO-LLaMA在多中心队列集上具有出色的性能和泛化能力。

地址：https://arxiv.org/pdf/2311.15876

58. Introduction to Transformers：自然语言处理的视角

标题：Introduction to Transformers: an NLP Perspective

机构：东北大学

关键词：Transformers、自然语言处理、模型改进

作者：Tong Xiao, Jingbo Zhu

分析：该论文介绍了Transformers的基本概念，并提供了构成这些模型最新进展的关键技术。它包括标准Transformer架构的描述、一系列模型改进和常见应用。该论文着重介绍对于理解Transformers及其变体有帮助的概念，并总结了对该领域产生影响的关键思想，从而揭示了这些模型的优势和局限性。

地址：https://arxiv.org/pdf/2311.17633

59. 大数据时代的数据集蒸馏

标题：Dataset Distillation in Large Data Era

机构：MBZUAI大学

关键词：数据集蒸馏、ImageNet、模型提升、数据综合

作者：Zeyuan Yin, Zhiqiang Shen

分析：该论文介绍了数据集蒸馏的概念和方法，通过从大数据集中生成一个更小但具有代表性的子集，使得模型能够高效训练，并在原始测试数据分布上取得不错的性能。作者展示了如何在常规输入分辨率为224×224的情况下，通过数据综合过程中引入一种名为CDA（Curriculum Data Augmentation）的简单而有效的方法，来蒸馏各种大规模数据集，包括全面的ImageNet-1K/21K。该论文提出的模型在ImageNet-1K/21K上的Top-1准确率超过了SRe^2L、TESLA和MTT等所有之前的方法，并且首次将与其完整数据训练对应模型之间的差距缩小到不到绝对15%的水平。该论文还是在标准分辨率224×224下，首次取得了在更大规模的ImageNet-21K上进行数据集蒸馏的成功。论文提供了代码和蒸馏的20IPC、2K恢复预算的ImageNet-21K数据集。

地址：https://arxiv.org/pdf/2311.18838

代码：https://github.com/VILA-Lab/SRe2L/tree/main/CDA

60. YUAN 2.0: 一种带有本地化基于过滤的注意力的大模型

标题：YUAN 2.0: A Large Language Model with Localized Filtering-based Attention

关键词：本地化基于过滤的注意力、Yuan 2.0、预训练

作者：Shaohua Wu, Xudong Zhao, Shenling Wang

分析：该论文介绍了本地化基于过滤的注意力（LFA）将自然语言的局部依赖性的先验知识纳入注意力机制中。基于LFA，该论文开发并发布了Yuan 2.0，一个参数范围从21亿到1026亿的大型语言模型。文中提出了一种数据过滤和生成方法，用于构建高质量的预训练和微调数据集。该论文提出了一种分布式训练方法，包括非均匀管道并行、数据并行和优化器并行，大大降低了节点内通信的带宽要求，并在大规模分布式训练中取得了良好的性能。与现有模型相比，Yuan 2.0模型在代码生成、数学问题求解和聊天方面展现出令人印象深刻的能力。包括模型权重和源代码的最新版本Yuan 2.0可以在Github上获得。

地址：https://arxiv.org/pdf/2311.15786

61. GeoChat: 面向遥感的基于大型视觉-语言模型

标题：GeoChat: Grounded Large Vision-Language Model for Remote Sensing

机构：澳大利亚国立大学

关键词：大型视觉-语言模型、多模态

作者：Kartik Kuckreja, Muhammad Sohail Danish, Muzammal Naseer

分析：这篇论文主要提出了一种面向遥感的大型视觉-语言模型GeoChat，用于解决Remote Sensing (RS) 领域的独特挑战。GeoChat不仅可以回答整体图像级的查询，还可以接受区域输入用于进行区域特定对话。此外，GeoChat还可以通过参考空间坐标来在回答中进行对象的视觉绑定。论文还提出了一个新颖的RS多模态指令遵循数据集，并与一些基线方法进行了对比和评估。GeoChat 在多个RS任务上展现了强大的零-shot性能，例如图像和区域描述、视觉问答、场景分类、视觉绑定的对话和引用检测。

地址：https://arxiv.org/pdf/2311.15826

62. Cerbero-7B：通过增强的聊天语料生成与评估，语言特定的LLM迈向新高度

标题：Cerbero-7B: A Leap Forward in Language-Specific LLMs Through Enhanced Chat Corpus Generation and Evaluation

关键词：聊天语料库、生成器LLM、掩码语言模型、意大利语

作者：Federico A. Galatolo, Mario G.C.A. Cimino

分析：这篇论文介绍了一种使用自对话机制生成高质量、语言特定的聊天语料的新方法。该论文结合了一个生成器LLM用于创建新样本和一个嵌入式LLM以确保多样性。提出了一种基于掩码语言模型（MLM）的质量评估指标，用于评估和过滤语料库。利用llama2-70b作为生成器和一个多语言句子Transformer作为嵌入器，该论文生成了一个意大利语的聊天语料库，并对基于翻译的英语ChatGPT自对话数据的Fauno语料库进行了优化。优化过程使用了结构断言和自然语言处理技术。两个语料库都经过了基于提出的MLM模型的质量度量的全面评估。使用这些语料库微调的意大利语LLM表现出明显提高的语言理解和问答能力。结果模型cerbero-7b为意大利语LLM建立了一个新的最新技术。这种方法在语言特定LLM的发展方面取得了重大进展，特别强调为意大利语等少数语言增加语料库。

地址：https://arxiv.org/pdf/2311.15698

63. 语言模型反演

标题：Language Model Inversion

机构：康奈尔大学

关键词：语言模型反演、提示符恢复、BLEU

作者：John X. Morris, Wenting Zhao, Justin T. Chiu

分析：解决了利用语言模型输出的信息恢复提示符的问题。研究发现，下一个token的概率分布中包含了关于之前文本的大量信息。提出了一种仅利用模型当前输出恢复未知提示符的方法。通过搜索，即使无法预测词汇表中的每个token，也能恢复概率向量。在Llama-2 7b数据集上，反演算法的BLEU得分为59%，标记级别的F1得分为78%，准确恢复了27%的提示符。

地址：https://arxiv.org/pdf/2311.13647

64. ChatGPT和以后:教育领域中的生成AI革命

标题：ChatGPT and Beyond: The Generative AI Revolution in Education

关键词：生成AI、ChatGPT、人工智能

作者：Mohammad AL-Smadi

分析：这篇论文主要探讨了生成人工智能（AI）模型的广泛应用和使用，特别是ChatGPT，在教育领域中的潜在应用。通过综合和严格评估最近学术文献，该调查旨在揭示生成AI模型，特别是ChatGPT，在教育中的不断演变的作用。通过阐明这一动态领域中的潜在益处、挑战和新兴趋势，该调查旨在为教育工作者、研究人员和决策者在学习环境中将AI技术整合到课程中做出明智的决策。该研究的发现将有助于教育工作者、研究人员和决策者对AI和教育之间的联系有更深入的了解。

地址：https://arxiv.org/pdf/2311.15198

65. 战争与和平（战争智能体）：基于大模型的世界战争多智能体仿真

标题：War and Peace (WarAgent): Large Language Model-based Multi-Agent Simulation of World Wars

机构：罗格斯大学、密歇根大学

关键词：战争模拟、大语言模型、国际冲突、和平策略

作者：Wenyue Hua, Lizhou Fan, Lingyao Li

分析：本研究基于人工智能（AI）和大语言模型（LLMs）的最新进展，试图回答人类历史上是否能够避免历史十字路口的战争问题。该论文提出了“战争智能体”（WarAgent），一种基于LLM的多智能体人工智能系统，用于模拟历史国际冲突中参与国家的决策和后果，包括第一次世界大战（WWI）、第二次世界大战（WWII）和中国古代的战国时期（WSP）。通过评估仿真效果，该论文研究了尖端AI系统在研究复杂的集体人类行为（如国际冲突）中的能力的进展和局限性。这些仿真中智能体之间的相互作用也为该论文提供了一种研究导致战争的触发因素和条件的新视角。该论文的发现提供了数据驱动和增强AI的见解，可以重新定义该论文如何应对冲突解决和维和策略。这些影响超越了历史分析，为利用AI理解人类历史并可能预防未来国际冲突提供了蓝图。

地址：https://arxiv.org/pdf/2311.17227

66. 用两阶段方法超越GPT-4医疗编码

标题：Surpassing GPT-4 Medical Coding with a Two-Stage Approach

关键词：医疗编码、证据提案、ICD代码、句子级证据识别

作者：Zhichao Yang, Sanjit Singh Batra, Joel Stremmel

分析：该论文介绍了一个两阶段方法(LLM-codex)，用于预测医疗编码中的ICD代码。第一阶段使用LLM生成证据提案，第二阶段使用基于LSTM的验证阶段。该模型同时在医疗编码准确性、罕见代码准确性和句子级证据识别方面取得了最先进的结果，并且不需要基于人工-注释的证据进行训练。

地址：https://arxiv.org/pdf/2311.13735

67. 概率Transformer：一种用于上下文词表示的概率依赖模型

标题：Probabilistic Transformer: A Probabilistic Dependency Model for Contextual Word Representation

机构：上海科技大学

关键词：概率Transformer、上下文词表示、条件随机场、均场变分推理

作者：Haoyi Wu, Kewei Tu

分析：这篇论文提出了一种新的上下文词表示模型，不是从神经网络的角度，而是从纯句法和概率的角度设计。通过设计条件随机场来建模句子中所有单词的离散潜在表示以及它们之间的依赖弧，并使用均场变分推理进行近似推理。实验结果表明，该论文的模型在小到中型数据集上与transformers相比性能竞争力强。该论文希望该论文的工作能够弥合传统句法和概率方法与最先进的神经网络方法之间的差距，并在未来激发出更多基于语言学原则的神经网络方法。

地址：https://arxiv.org/pdf/2311.15211

68. 大规模语言模型的泛化能力研究

标题：Do VSR Models Generalize Beyond LRS3?

机构：阿布扎比科技创新研究所

关键词：视觉语音识别、泛化能力、测试数据集、口型序列

作者：Yasser Abdelaziz Dahou Djilali, Sanath Narayan, Eustache Le Bihan

分析：该论文主要研究了在视觉语音识别（VSR）领域中，当前的VSR模型在不同测试数据集上的泛化能力。通过构建一个新的VSR测试集WildVSR，并与现有的LRS3测试结果进行比较，发现现有模型在WildVSR上性能下降明显。研究结果表明，模型对较困难且具有野外特点的口型序列的泛化能力较差。该研究的目的在于为未来更健壮的VSR模型研究提供参考。

地址：https://arxiv.org/pdf/2311.14063

69. 深度前馈网络的三个简单训练技巧

标题：The Trifecta: Three simple techniques for training deeper Forward-Forward networks

关键词：深度前馈网络、训练技巧、模型复杂性、泛化能力

作者：Thomas Dooms, Ing Jyh Tsang, Jose Oramas

分析：该论文提出了三个简单的技巧，通过这些技巧可以显著改进深度前馈算法。这些技巧可以使模型在训练速度和测试准确度上与基于反向传播的模型相媲美，解决了模型复杂性增加和泛化能力不足的问题。

地址：https://arxiv.org/pdf/2311.18130

70. 减少大模型中的事实不一致性和幻觉

标题：Minimizing Factual Inconsistency and Hallucination in Large Language Models

关键词：大语言模型、事实不一致性、多阶段框架

作者：Muneeswaran I, Shreya Saxena, Siva Prasad

分析：这篇论文提出了一个多阶段的框架，首先生成原因，验证和修正不正确的原因，并将其作为支持参考生成答案。生成的原因增强了答案的透明度，该论文的框架利用这个原因和上下文的参考提供了模型是如何得出这个答案的见解。这篇论文展示了在生命科学行业的药物相关咨询中提高响应质量的有效性。该论文的框架通过使OpenAI GPT-3.5-turbo比传统的检索增强生成（RAG）更忠诚和更准确14-25％，在两个数据集上提供了14-25％的好处。此外，基于该论文的框架对开放获取的较小的大语言模型进行微调，将其准确性提高了33-42％，与RAG在商业模型上竞争。

地址：https://arxiv.org/pdf/2311.13878

71. 如何建立一个可以适应任何课程并使用大模型和检索增强生成提供准确答案的AI导师

标题：How to Build an AI Tutor that Can Adapt to Any Course and Provide Accurate Answers Using Large Language Model and Retrieval-Augmented Generation

关键词：人工智能导师、大语言模型、个性化教育支持、检索增强生成

作者：Chenxi Dong

分析：这篇论文介绍了AI导师，一个创新的Web应用程序，它使用最先进的大语言模型（LLM）为任何科目提供个性化辅导。AI导师会将课程资料纳入其中，构建一个适应课程的自适应知识库。当学生提出问题时，它会检索最相关的信息并生成详细的对话式回答，并引用支持证据。该系统由先进的大语言模型和检索增强生成（RAG）技术驱动，以实现准确、自然的问答。该论文展示了一个完全功能的Web界面和视频演示，展示了AI导师在各种学科中的多功能性和生成教育上下文相关回答的能力。虽然这只是一个初始的原型，但这项工作代表了向能够使高质量、定制化教育支持平等化的AI辅导系统迈出的开创性一步。

地址：https://arxiv.org/pdf/2311.17696

72. 探讨将机器人带回家

标题：On Bringing Robots Home

关键词：机器人、家庭环境、任务解决

作者：Nur Muhammad Mahi Shafiullah, Anant Rai, Haritheja Etukuru

分析：这篇论文介绍了在家庭环境中学习机器人操作的通用系统Dobb-E。通过引入一种演示收集工具“棒子”，Dobb-E可以在用户演示机器人如何执行任务的五分钟内学会新任务。在实验中，该论文在纽约市的22个家庭收集了13小时的数据，并训练了家庭预训练表示（HPR）。通过在新的家庭环境中演示五分钟并调整HPR模型十五分钟，该论文展示了Dobb-E可以可靠地在市场上可用的移动机器人Stretch上解决任务。通过在纽约市及周边地区的10个家庭中进行约30天的实验，该论文在不同环境中完成了109个任务，最终成功率达到了81%。此外，实验揭示了实验室机器人中缺乏或被忽视的许多独特挑战，包括强光阴影的影响和非专业用户的演示质量变化。为了加速家庭机器人的研究，并最终在每个家庭中看到机器人管家，该论文在这个https URL上开源Dobb-E软件栈和模型，并分享了该论文的数据和硬件设计。

地址：https://arxiv.org/pdf/2311.16098

73. MAST:模型无关的稀疏训练

标题：MAST: Model-Agnostic Sparsified Training

关键词：稀疏训练、模型优化、随机梯度下降、收敛速度

作者：Yury Demidovich, Grigory Malinovsky, Egor Shulgin

分析：该论文提出一种新的优化问题形式，通过明确地纳入一个预训练模型和随机划分算子，允许在训练过程中对模型和梯度进行稀疏化。与传统形式不同，该方法明确考虑了初始预训练模型和随机划分算子，允许在训练过程中对模型和梯度进行稀疏化。该论文提出了多种针对新问题形式的随机梯度下降（SGD）方法的变体，包括带有一般抽样的SGD、分布式版本和带有方差减少技术的SGD。通过使用Dropout和Sparse training等重要技术，该方法实现了更紧密的收敛速度和放松了假设，弥合了理论原则和实际应用之间的差距。该工作对于通过稀疏化感知的优化方法增强模型训练的理论理解提供了有希望的机会。

地址：https://arxiv.org/pdf/2311.16086

74. 从单张图片中生成会说话的动漫角色4: 改进模型及其蒸馏

标题：Talking Head(?) Anime from a Single Image 4: Improved Model and Its Distillation

关键词：动漫角色模型、实时控制、图像质量、蒸馏技术

作者：Pramook Khungurn

分析：这篇论文主要研究如何从一个动漫角色的单张图片中实时生成可控制的角色模型。通过解决这个问题，可以大大降低创建头像、电脑游戏和其他交互应用的成本。该论文提出了针对这一问题的解决方案，通过输入动漫角色上半身的图片以及一个45维的姿势向量，输出同一角色在指定姿势下的新图片。该系统的可能动作范围足够丰富，适用于个人头像和特定类型的游戏角色。然而，该系统生成动画的速度在普通电脑上实时性较差，并且图像质量还有待提高。本文提出了两种改进方法，首先，该论文提出了新的基于带有注意力机制的U-Net的组成网络架构，用于旋转角色的头部和身体。这些新的架构相对于THA3基线模型能够始终获得更好的图像质量。然而，它们也使整个系统变得更慢：生成一帧图像需要长达150毫秒的时间。其次，该论文提出了一种将系统蒸馏为小型网络（不到2MB），该网络能够在实时生成512x512的动画帧（30 FPS以下）同时保持图像质量接近完整系统的技术。这一改进使整个系统在实时应用中变得实用。

地址：https://arxiv.org/pdf/2311.17409

75. 功能扩散

标题：Functional Diffusion

关键词：生成扩散、功能扩散、变形函数、有符号距离函数

作者：Biao Zhang, Peter Wonka

分析：这篇论文主要介绍了一种新的生成扩散模型，即功能扩散。与以前的工作相比，功能扩散在处理由连续域函数表示的样本时起作用。功能扩散可以看作是将经典扩散模型扩展到无限维域的一种方式。功能扩散非常灵活，可以通过最小的改变来处理图像、视频、音频、3D形状、变形等。此外，功能扩散特别适用于不规则数据或在非标准域中定义的数据。在这项工作中，该论文推导了功能扩散的必要基础，并提出了一个基于Transformer架构的初始实现。该论文展示了在复杂的有符号距离函数和定义在3D表面上的变形函数上的生成结果。

地址：https://arxiv.org/pdf/2311.15435

今天的论文分享完啦，欢迎👏🏻👏🏻明天再来~