MLNLP(机器学习算法与自然语言处理)社区是国内外知名自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

转载自 | 夕小瑶的卖萌屋

作者 | 天于刀刀

不晓得各位同学在看论文的时候最关注的是什么？也许是论文的创新点，或是被引用的数量，还是...是不是自带代码！

重要的事说三遍！复现，复现，还是复现！ (ーー゛)

为了方便各位同学愉快地在学习的海洋中遨游，Reddit 上的一位老哥整理了2022年8月 Github 上最热门的 AI 项目 [1]，感谢 bycloudai 的贡献。

以下所有项目排名均基于 Github Stars，它们分别是：

文字生成图片，但是个性化
预训练语言图像模型在视频识别中的应用
扩散生成模型的原理是？
int8 加速大语言模型推理，性能无损！
低资源下使用分散式数据蒸馏进行联邦学习
PeRFception：感知任务大规模隐式数据集
用图像来训练视频分割模型，MinVIS 减少了标注和内存成本
SawSing：一种歌声合成声码器模型
机器人的公园漫步
LCCDE：自动驾驶系统中的网络安全守护者

1
『文字生成图片，但是个性化』

作者基于潜在扩散模型（Latent Diffusion Models, LDM），允许用户使用自然语言指导 AI 生成包含特定独特概念的图像。

例如我想将心爱的宠物猫咪变成一幅独特的画作——抽象派猫猫，只需要提供3-5张照片，然后通过控制自然语言输入，来得到一个我家猫咪的抽象画作。

简单介绍下过程：首先，模型会通过学习这些图片，使用一些单词去表示图片。其次，这些单词可以组合成自然语言句子，通过 prompt 形式指导模型进行个性化创作。

好处在于，图像的自然语言表示对用户非常友好。用户可以自由修改 prompt 内容以获取他们想要的风格、主题和独一无二的结果。

项目地址：
https://github.com/rinongal/textual_inversion
论文地址：
https://arxiv.org/abs/2208.01618

2
『预训练语言图像模型在视频识别中的应用』

微软大佬的项目。在这项工作中，作者通过将预训练的语言图像模型（pretrained language-image models）调整为视频识别，以此将对比语言图像预训练方法（contrastive language-image pretraining）扩展到视频领域。

作者为了捕捉视频中帧沿时间维度的远程依赖性，提出了一个跨帧的注意力机制，明确了跨帧的信息交换。此外该模块非常轻量化，可以无缝插入预训练的语言图像模型。

项目地址：
https://github.com/microsoft/videox
论文地址：
https://arxiv.org/abs/2208.02816

3
『扩散生成模型的原理是？』

标准的扩散模型（diffusion models）涉及到图像变换（添加高斯噪声）和图像反转。但是作者观察到，扩散模型的生成并不强烈依赖于图像降解的选择。

在这个项目中，作者通过实验证明了基于完全确定性的降解（例如模糊、masking 等），也可以轻松训练一个扩散生成模型。

这个工作成功地质疑了社区对扩散模型的理解：它并非依赖于梯度郎之万动力学（gradient Langevin dynamics）或变分推理（variational inference）。

项目地址：
https://github.com/arpitbansal297/cold-diffusion-models
论文地址：
https://arxiv.org/abs/2208.09392

4

『int8加速大语言模型推理，性能无损！』

标题说明一切。

该项目主要聚焦于大语言模型（LLM）的量化过程，开发了一个用于前馈和注意力投射层的 int8 矩阵乘法程序，减少了一半的内存，并且保持了完全的精度性能。

这使得大模型更加亲民，例如现在我们可以在消费级显卡上使用 OPT-175B/BLOOM 模型。（显卡禁令福音）

项目地址：
https://github.com/TimDettmers/bitsandbytes
论文地址：
https://arxiv.org/abs/2208.07339

5
『低资源下使用分散式数据蒸馏进行联邦学习』

数据集蒸馏（dataset distillation）是通过合成小型数据集，以便其训练的模型可以在原始大数据集上实现高性能的任务。

一个好的小数据集不仅对理解数据有作用，而且可以辅助持续学习（continual learning）、隐私、神经网络搜索等。

这个项目梳理了非常详细的数据集蒸馏技术的发展脉络，以及在隐私、联邦学习、持续学习、模型压缩、知识蒸馏等等领域的应用论文。感兴趣的同学可以从此入手。

项目地址：
https://github.com/Guang000/Awesome-Dataset-Distillation
论文地址：
https://arxiv.org/abs/2208.11311

6
『PeRFception：感知任务大规模隐式数据集』

最近神经辐射场（Neural Radiance Fields, NeRF）在隐式 3D 表示中实现了一种准确又逼真且可微的方式。这种新的表示可以以一种紧凑的格式，有效传达数百张高分辨率图像的信息。

作者建立了第一个用于感知任务的大规模隐式表示数据集（PeRFception），并且提出一种新的增强技术，以避免过拟合图像背景。

项目地址：
https://github.com/POSTECH-CVLab/PeRFception
论文地址：
https://arxiv.org/abs/2208.11537

7

『用图像来训练视频分割模型，MinVIS减少了标注和内存成本』

前几年，字节跳动的大佬在视频识别的领域中开辟了新的任务：视频实例分割（Video Instance Segmentation, VIS），就是把视频帧的每一个实例分割出来。

有别于传统的基于视频的训练架构，MinVIS 将视频中的帧视为独立图像，然后通过对应查询的二分匹配来跟踪实例。

因此 MinVIS 在实验中取得了降低标注成本和内存要求的实际优势，同时没有牺牲 VIS 的性能。

项目地址：
https://github.com/nvlabs/minvis
论文地址：
https://arxiv.org/abs/2208.02245

小贴士[2]：在视频领域中还有一个视频目标分割任务（Video Object Segmentation, VOS）。它和 VIS 任务的主要区别在于，VOS是会在第一帧中给出需要 track&segment 的 object 的 mask 的，但是这些 object 是 class-agnostic 的，任务目标是在接下来的视频中 track&segment 出第一帧中的标注 objects。 VIS任务是有一个已知的 class set，你需要在 video 中把属于这些 class 的 instance 都给detect 出来并在整个视频中 track&segment 出来。

8
『SawSing：一种歌声合成声码器模型』

声码器是一种条件音频生成模型，他将梅尔频谱（mel-spectrogram）等声学特征转换为波形。

受到可微数字信号处理（differentiable digital signal processing）的启发，SawSing 可以生成连续的歌声，而不会像许多现有编码器那样出现不连续的故障。

此外，实验证明 SawSing 支持在少量数据上训练，并且可以在资源受限的情况下更快地收敛。

项目地址：
https://github.com/yatingmusic/ddsp-singing-vocoders
论文地址：
https://arxiv.org/abs/2208.04756

9
『机器人的公园漫步』

并非是在实验室的模拟环境，而是在真实的室内外地形中，作者采用强化学习和机器人控制器相结合的方法，在短短20分钟内成功让机器人学会四足行走。

（听上去有点像教狗狗学走路？）

项目地址：
https://github.com/ikostrikov/walk_in_the_park
论文地址：
https://arxiv.org/abs/2208.07860

10
『LCCDE：自动驾驶系统中的网络安全守护者』

自动驾驶和物联网是最近非常火热的领域，然而随着车辆互联网（Internet of Vehicles, IoV）的日益增长，对于网络安全的保护也越来越重要。

作者提出了一个识别恶意网络攻击的入侵检测系统，基于 XGBoost、LightGBM 和 CatBoost 来构建的。

项目地址：
https://github.com/Western-OC2-Lab/Intrusion-Detection-System-Using-Machine-Learning
论文地址：
https://arxiv.org/abs/2208.03399

参考文献

[1] Most Popular AI Research Aug 2022 pt.2 - Ranked Baed On Github Stars, https://www.reddit.com/r/learnmachinelearning/comments/x48r9g/most_popular_ai_research_aug_2022_pt_2_ranked/

[2] Video Instance Segmentation 阅读，https://zhuanlan.zhihu.com/p/78096960

    
技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向（如：小张-哈工大-对话系统）

即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP社区是由国内外自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名自然语言处理社区，旗下包括 万人顶会交流群、AI臻选汇、MLNLP英才汇 以及 AI学术汇 等知名品牌，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

8 月份 Github 上最火的10篇 AI 论文！

1 (adsbygoogle = window.adsbygoogle || []).push({}); 『文字生成图片，但是个性化』

(adsbygoogle = window.adsbygoogle || []).push({}); 2『预训练语言图像模型在视频识别中的应用』

3『扩散生成模型的原理是？』

4 (adsbygoogle = window.adsbygoogle || []).push({}); 『int8加速大语言模型推理，性能无损！』

(adsbygoogle = window.adsbygoogle || []).push({}); 5『低资源下使用分散式数据蒸馏进行联邦学习』

6『PeRFception：感知任务大规模隐式数据集』 (adsbygoogle = window.adsbygoogle || []).push({});

7 (adsbygoogle = window.adsbygoogle || []).push({}); 『用图像来训练视频分割模型，MinVIS减少了标注和内存成本』

(adsbygoogle = window.adsbygoogle || []).push({}); 8『SawSing：一种歌声合成声码器模型』

9 (adsbygoogle = window.adsbygoogle || []).push({}); 『机器人的公园漫步』

(adsbygoogle = window.adsbygoogle || []).push({}); 10『LCCDE：自动驾驶系统中的网络安全守护者』