社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  aigc

AIGC 实战教程 —— AIGC 摩天大楼

关于NLP那些你不知道的事 • 2 天前 • 25 次点击  

AIGC 实战教程 —— AIGC 摩天大楼


    • AIGC 实战教程 —— AIGC 摩天大楼
      • 第一层 LLMs 入门篇
      • 第二层 LLMs 指令微调篇
      • 第三层 LLMs 应用实战篇
      • 第四层 LLMs 推理优化篇
      • 第五层 LLM API性能评估 篇
      • 第六层 Stable Diffusion 文生图 篇
      • 第七层 OCR 篇
      • 第八层 ASR 篇
      • 第九层 TTS 篇
      • 第十层 人像分割 篇
      • 第十一层 Language-Image 篇
      • 第十二层 Ai 换脸 篇
      • 第十三层 Ai 文生视频 篇
      • 第十四层 Ai 图生视频 篇
      • 第十五层 Ai 动作迁移 篇
      • 第十六层 Ai 虚拟试衣 篇
      • 第十七层 数字人 篇
      • 第十八层 全模态理解 篇
      • 第十八层 Ai音乐生成 篇

    第一层 LLMs 入门篇

    DeepSeek 系列

    • AiGC摩天大楼 —— 第一层 LLMs 之 DeepSeek R1系列——DeepSeek R1初体验 :fire:

    • AiGC摩天大楼 —— 第一层 LLMs 之 DeepSeek R1系列——如何使用 Ollama 在本地运行 DeepSeek R1? :fire:

    • AiGC摩天大楼 —— DeepSeek R1系列——如何使用 Ollama和DeepSeek R1搭建RAG系统?  :fire:

    • DeepSeek-R1 复现 :fire:

      • 介绍:单卡RTX4090部署R1满血版
      • 介绍: 如何 QWen2.5 基础模型 GRPO 训练 复现Deepseek-R1。
      • AiGC摩天大楼 —— 第一层 LLMs 之 DeepSeek R1系列——QWen2.5 基础模型 GRPO 训练 复现Deepseek-R1 :fire:
      • AiGC摩天大楼 —— 第一层 LLMs 之 DeepSeek R1系列——KTransformers 实战篇—单卡RTX4090部署R1满血版 :fire:
      • AiGC摩天大楼 —— 第一层 LLMs 之 DeepSeek R1系列——LLMs 之 DeepSeek-R1 复现:Logic-RL :fire:
      • AiGC摩天大楼 —— 第一层 LLMs 之 DeepSeek R1系列——LLMs 之 DeepSeek-R1 复现:TinyZero :fire:
      • AiGC摩天大楼 —— DeepSeek R1系列——LLMs 之 DeepSeek-R1 复现:Open R1 :fire:
      • 第一层 LLMs之DeepSeek-R1 复现:使用 open-r1 基于 gsm8k 数据集复现DeepSeek R1 :fire:
      • 如何使用 open-r1 基于 gsm8k 数据集复现DeepSeek R1 代码讲解 :fire:
    • DeepSeek-R1 复现——蒸馏篇 :fire:

      • 如何使用 蒸馏 DeepSeek-R1-Distill-Qwen-14B(一)
      • 如何使用蒸馏 DeepSeek-R1-Distill-Qwen-14B (二)
      • 如何利用 swift 蒸馏 中文DeepSeek-R1 小模型

    Simple test-time scaling 系列

    • s1: Simple test-time scaling 论文笔记:fire:
    • s1: Simple test-time scaling 实践:fire:

    第一阶 阿里系列

    • AiGC摩天大楼 —— 第一层 LLMs 之 Marco-o1 :fire:
      • 论文:Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions
      • Arxiv:https://arxiv.org/abs/2411.14405
      • Github:https://github.com/AIDC-AI/Marco-o1
      • 介绍:Marco-o1是一个模仿OpenAI o1,使用思维链,旨在解决复杂的现实问题,强调开放式答案和多语言应用。Marco-o1 是一个旨在支持开放性解决方案的推理模型,特别关注复杂的现实世界问题解决。该模型受到 OpenAI 的 o1 模型的启发,旨在突破标准化知识领域的限制,探索其在缺乏明确标准和难以量化奖励的更广泛领域中的通用性。
    • AiGC摩天大楼 —— 第一层 LLMs 之 QwQ: 千问团队开源会思考 :fire:
      • 中文博客:https://qwenlm.github.io/zh/blog/qwq-32b-preview/
      • 介绍:阿里巴巴通义千问团队今日正式发布实验性研究模型 QwQ-32B-Preview,并配以博文《QwQ: 思忖未知之界》详解其设计理念与性能表现。作为一款专注数学与编程推理的开源大模型,QwQ-32B-Preview 成为全球首个以宽松许可(Apache 2.0)提供的同类领先模型,并在多个基准测试中超越 OpenAI 的 o1-preview 模型。
    • AiGC摩天大楼 —— 第一层 LLMs 之 Open Chat-o1 篇 :fire:
      • 介绍:在技术博客《Learning to Reason with LLMs》中,OpenAI 对 o1 系列语言模型做了详细的技术介绍。OpenAI o1 是经过强化学习训练来执行复杂推理任务的新型语言模型。特点就是,o1 在回答之前会思考 —— 它可以在响应用户之前产生一个很长的内部思维链。也就是该模型在作出反应之前,需要像人类一样,花更多时间思考问题。通过训练,它们学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。在 OpenAI 的测试中,该系列后续更新的模型在物理、化学和生物学这些具有挑战性的基准任务上的表现与博士生相似。OpenAI 还发现它在数学和编码方面表现出色。
    • AiGC摩天大楼 —— 第一层 LLMs 之 Qwen2 本地部署
      • 介绍:相比Qwen1.5,Qwen2在大规模模型实现了非常大幅度的效果提升。我们对Qwen2-72B进行了全方位的评测。在针对预训练语言模型的评估中,对比当前最优的开源模型,Qwen2-72B在包括自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的模型,如Llama-3-70B以及Qwen1.5最大的模型Qwen1.5-110B。这得益于其预训练数据及训练方法的优化。
    • AiGC摩天大楼 —— 第一层 LLMs 之 Qwen2.5 篇
      • github: https://github.com/QwenLM/Qwen2.5
      • Qwen2.5-7B-Instruct: https://modelscope.cn/models/qwen/Qwen2.5-7B-Instruct/files
      • 官网:https://qwen.readthedocs.io/zh-cn/latest/
      • 博客:https://qwenlm.github.io/
      • 介绍:Qwen是阿里巴巴集团Qwen团队研发的大语言模型和大型多模态模型系列。目前,大语言模型已升级至Qwen2.5版本。无论是语言模型还是多模态模型,均在大规模多语言和多模态数据上进行预训练,并通过高质量数据进行后期微调以贴近人类偏好。Qwen具备自然语言理解、文本生成、视觉理解、音频理解、工具使用、角色扮演、作为AI Agent进行互动等多种能力。

    第七届 Gemma 系列

    • AiGC摩天大楼 —— 第一层 LLMs之Gemma 3:谷歌最新开源多模态AI模型,单GPU性能碾压Llama!
      • 介绍:Gemma 3 是谷歌最新推出的开源人工智能模型,专为开发者设计,支持多种设备上的人工智能应用开发。它支持超过 35 种语言,具备分析文本、图像及短视频的能力,提供四种不同尺寸的模型(1B、4B、12B 和 27B),满足不同硬件和性能需求。

    第七届 Kimi 系列

    • AiGC摩天大楼 —— 第一层 LLMs之Kimi开源Moonlight-16B-A3B:基于Muon优化器的高效大模型,性能与训练效率双突破!
      • 权重衰减:对扩展到更大模型至关重要
      • 一致的RMS更新:在模型更新中保持一致的均方根
      • 介绍:Muon优化器在训练小规模语言模型方面展示了强大的效果,但其在大规模模型上的可扩展性尚未得到验证。Kimi确定了两个扩展Muon的关键技术:
      • 这些技术使Muon能够在大规模训练中开箱即用,无需超参数调优。扩展定律实验表明,在计算最优训练中,Muon相较通常默认使用的AdamW优化器,能提供高约2倍的样本效率。
      • 基于这些改进,Kimi基于Muon训练了Moonlight-16B-A3B系列模型。这是一个具备16B参数(激活参数为3B)的专家混合(MoE)模型,使用5.7T个token数据训练得到。该模型模型改进了当前的帕累托前沿,与之前的模型相比,使用更少的训练FLOPs就能实现更好的性能。
      • 同时Kimi开源了内存优化和通信效率高的Muon实现,还发布了预训练、指令微调和中间检查点,以支持未来的研究。

    第六届 Phi 系列

    • AiGC摩天大楼 —— 第一层 LLMs 之 Phi-4系列:多模态与文本处理的创新突破
      • 介绍:Phi-4-mini是一个 3.8B 参数模型和一个密集的解码器专用转换器,具有分组查询注意、200,000 个词汇表和共享输入输出嵌入,专为提高速度和效率而设计。尽管体积小巧,但它在基于文本的任务(包括推理、数学、编码、指令跟踪和函数调用)中的表现仍然优于大型模型。它支持多达 128,000 个标记的序列,具有高准确度和可扩展性,使其成为高级 AI 应用程序的强大解决方案。

    第二阶 Llama 系列

    • AiGC摩天大楼 —— 第一层 LLMs 之 Llama 3.2 篇
      • GitHub项目:https://github.com/meta-llama/llama-models
      • Llama 3.2博客文章:https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/
      • 介绍:Llama 3.2 主要包括小型和中型视觉 LLM(11B 和 90B)以及适合边缘和端侧的轻量级纯文本模型(1B 和 3B),包括预训练和指令调整版本。
    • AiGC摩天大楼 —— 第一层 LLMs 入门 之 Llama-3 初体验
      • 介绍:Llama-3是一款由Meta推出的大型开源人工智能语言模型,Llama-3共有80亿、700亿两个参数版本,分为基础预训练和指令微调两种模型(还有一个超4000亿参数正在训练中)。与Llama-2相比,Llama-3使用了15Ttokens的训练数据,在推理、数学、代码生成、指令跟踪等能力获得大幅度提升

    第三阶 GLM 系列

    • AiGC摩天大楼 —— 第一层 LLMs 入门 之 ChatGLM3 模型学习与实战
      • 更强大的基础模型:ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示,ChatGLM3-6B-Base 具有在 10B 以下的基础模型中最强的性能。
      • 更完整的功能支持:ChatGLM3-6B 采用了全新设计的Prompt 格式,除正常的多轮对话外。同时原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景。
      • 介绍:ChatGLM3 是智谱AI和清华大学 KEG 实验室联合发布的新一代对话预训练模型。ChatGLM3-6B 是 ChatGLM3 系列中的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了如下特性:
    • AiGC摩天大楼 —— 第一层 LLMs 入门 之 LongWriter: 如何让大模型输出 10k+ 字长文?
      • 论文名称:LongWriter: Unleashing10,000+ Word Generation from Long Context LLMs
      • 论文地址:https://arxiv.org/abs/2408.07055
      • 代码:https://github.com/THUDM/LongWriter
      • 介绍:LongWriter 作者们发现该问题的本质在于大模型受到监督微调(SFT) 期间看到的示例的限制。也就是说,这种输出限制主要原因在于现有 SFT 数据集中长输出示例的稀缺性导致。针对这一问题,LongWriter 作者们构建了一个 6000 多条2k-20k words 不等的长输出数据集 LongWriter-6k,并在此基础上,对 GLM-4-9B 进行 SFT微调和 DPO对齐。新的模型拥有了能够生成超过10,000字/词连贯文本的能力。同时,LongWriter使用多个需要不同长度响应的查询来探测最先进的长上下文模型的最大输出长度,

    第四阶 Baichuan 系列

    • AiGC摩天大楼 —— 第一层 LLMs 入门 之 Baichuan2 学习与实战
      • 论文名称:Baichuan 2: Open Large-scale Language Models
      • 论文地址:https://arxiv.org/abs/2309.10305
      • Github 代码:https://github.com/baichuan-inc/Baichuan2
      • 模型:https://huggingface.co/baichuan-inc
      • 介绍:Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。

    第五届 Mistral 系列

    • AiGC摩天大楼 —— 第一层 LLMs 之 Chinese-Mistral: 中文Mistral模型
      • 介绍:随着Mistral AI公司开源其七十亿参数模型Mistral-7B,该模型超越Llama,成为当前最强大的开源模型之一。Mistral-7B在各类基准测试中,不仅超过了Llama2-13B,而且在推理、数学、代码生成任务中超过Llama2-34B。然而,Mistral-7B的训练语料主要为英文文本,其中文能力较为欠缺。其次,Mistral-7B的词表不支持中文,导致其对中文的编码和解码效率较低,限制了在中文场景的应用。为了克服这一局限,我们基于Mistral-7B进行了中文词表扩充和增量预训练,增强了Mistral-7B在中文任务上的表现,并提高了其对中文文本的编解码效率。

    第二层 LLMs 指令微调篇

    • LLMs 指令微调数据构建篇

      • AiGC摩天大楼 —— 第二层 LLMs 指令微调 之 LM合成LLM训练数据方法汇总
      • AiGC摩天大楼 —— 第二层 LLMs 指令微调 之 QA 问答对批量生成篇
    • 基于模型篇

      • AiGC摩天大楼 —— 第二层 LLMs 指令微调 之 Qwen2 微调
      • [AiGC摩天大楼 —— 第二层 LLMs 指令微调 之 Qwen2 微调(使用 LLaMA-Factory)]
      • AiGC摩天大楼 —— 第二层 LLMs 指令微调 之 ChatGLM3 模型微调学习与实战
      • AiGC摩天大楼 —— 第二层 LLMs 指令微调 之 Baichuan2 学习与实战
      • AiGC摩天大楼 —— 第二层 LLMs 之 DeepSeek-llm-7B-Chat LoRA 微调
    • 基于 LLaMA-Factory 框架篇

      • AiGC摩天大楼 —— 第二层 LLMs 指令微调 之 继续预训练篇
      • AiGC摩天大楼 —— 第二层 LLMs 指令微调 之 指令微调篇
      • AiGC摩天大楼 —— 第二层 LLMs 指令微调 之 奖励模型训练篇
      • AiGC摩天大楼 —— 第二层 LLMs 指令微调 之 PPO训练篇
      • AiGC摩天大楼 —— 第二层 LLMs 指令微调 之 DPO训练篇
    • 基于 Firefly 框架篇

      • AiGC摩天大楼 —— 第二层 LLMs 指令微调 之 Firefly 进行大模型微调

    第三层 LLMs 应用实战篇

    第三层 第一阶 LLMs RAG实战系列

    • AiGC摩天大楼 —— 第三层 LLMs RAG实战 之 RAG潘多拉宝盒
      • RAG 开源项目推荐 —— QAnything 篇
      • RagFlow 篇
      • 其他
      • RAG 项目推荐——RagFlow 篇(一)——RagFlow docker 部署
      • RAG 项目推荐——RagFlow 篇(二)——RagFlow 知识库构建
      • RAG 项目推荐——RagFlow 篇(三)——RagFlow 模型供应商选择
      • RAG 项目推荐——RagFlow 篇(四)——RagFlow 对话
      • RAG 项目推荐——RagFlow 篇(五)——RAGFlow Api 接入(以 ollama 为例)
      • RAG 项目推荐——RagFlow 篇(六)——RAGFlow 源码学习
      • 【LLMs 入门实战】基于 本地知识库 的高效 🤖ElasticSearch-Langchain-Chatglm2
      • 大模型(LLMs)simple_RAG 实现篇
      • RAG 开源项目推荐

    第三层 第二阶 LLMs Agent 实战系列

    • AiGC摩天大楼 —— 第三层 LLMs Agent 实战 之 Agent千机变
      • AiGC摩天大楼 —— 第三层 LLMs Agent 实战 之 AgentScope 实战经验篇
      • AiGC摩天大楼 —— 第三层 LLMs Agent 实战 之 Qwen-Agent 实战经验篇
      • 第三层 LLMs Agent 实战 之 LangGraph 实战经验篇
      • 第三层 LLMs Agent 实战 之 Swarm 实战经验篇
      • 第三层 LLMs Agent 实战 之llamaindex实战-Agent-让Agent调用多个工具函数
      • AiGC摩天大楼 —— 第三层 LLMs Agent 实战 之 Autogen 实战经验篇
      • AiGC摩天大楼 —— 第三层 LLMs Agent 实战 之 Xagent 实战经验篇
      • AiGC摩天大楼 —— 第三层 LLMs Agent 实战 之 MetaGPT 实战经验篇
      • AiGC摩天大楼 —— 第三层 LLMs Agent 实战 之 AgentVerse 实战经验篇
      • AiGC摩天大楼 —— 第三层 LLMs Agent 实战 之 Agents 实战经验篇
      • AiGC摩天大楼 —— 第三层 LLMs Agent 实战 之 AgentScope Multi-Agent 实战经验 之 狼人杀游戏 篇
      • AiGC摩天大楼 —— 第三层 LLMs Agent 实战 之 Qwen-Agent 多代理实战 五子棋群聊 篇
      • LangGraph 是通过将这些状态机指定为图的方式来创建它们。LangGraph 建立在 LangChain 基础上,并与 LangChain 生态系统完全互操作。它主要通过引入一种简单的方法来创建循环图而增加了新价值。这在创建Agent runtimes是非常有用的。这种方法使Agent能够展现出比其前辈的线性执行模型更多的可变且细微的行为。利用图论,LangGraph为开发复杂的网络化Agent系统提供了新的途径。
      • 介绍:Swarm是由OpenAI推出的一个实验性框架,旨在构建、编排和部署多智能体系统。基于轻量级的Agent和handoff机制,简化智能体之间的协调和执行过程,让控制更加精细,测试更加便捷。Swarm框架特别适合处理难以整合到单个提示中的复杂功能和指令。Swarm完全在客户端运行,不保存调用间的状态,提供高度的透明度和细粒度的控制,非常适合对上下文、步骤和工具调用进行精细管理的开发者。
      • 介绍:本文介绍如何通过llamaindex的Agent来调用多个自定义的Agent工具函数。同以上系列文章一样,本文不使用openai的接口,完全使用本地大模型来完成整个功能。本文要实现的是:本文要实现的功能非常简单,就是把大模型的回答保存到pdf文件,同时还要保存到数据库(不实际保存,只是调用对应的函数和打印而已)。
      • AiGC摩天大楼 —— 第三层 LLMs Agent 实战 之 AI Agent Application 篇
      • AiGC摩天大楼 —— 第三层 LLMs Agent 实战 之 Agent 设计模式篇
      • AiGC摩天大楼 —— 第三层 LLMs Agent 实战 之 Single Agent vs Multi-Agent 篇
      • AiGC摩天大楼 —— 第三层 LLMs Agent 实战 之 PLANNING 规划篇
      • AiGC摩天大楼 —— 第三层 LLMs Agent 实战 之 Memory 记忆存储篇
      • 理论篇
      • 实战篇

    第三层 第三阶 LLMs PPT自动生成实战系列

    • AiGC摩天大楼 —— 第三层 PPT自动生成实战 之 用大模型实现PPT可视化几种思路
    • AiGC摩天大楼 —— 第三层 PPT自动生成实战 之 Auto_PPT 自动生成你的PPT
    • AiGC摩天大楼 —— 第三层 PPT自动生成实战之PPTAgent:PPT自动生成Agent框架

    第三层 第四阶 LLM 会议纪要总结系列

    • AiGC摩天大楼 —— 第三层 LLM 会议纪要总结

    第三层 第五阶 LLM 对齐角色扮演系列

    • AiGC摩天大楼 —— 第三层 LLM 对齐角色扮演
    • AiGC摩天大楼 —— 第三层 LLM 角色扮演 之 基于RoleBench数据训练 Qwen1.5角色大模型实战

    第三层 第六阶 Text-to-SQL 系列

    • AiGC摩天大楼 —— 第三层 Text-to-SQL 篇
    • AiGC摩天大楼 —— 第三层 Text-to-SQL 篇 之 SQLCoder 篇
    • AiGC摩天大楼 —— 第三层 Text-to-SQL 篇 之 Text2GQL:从语料生成到TuGraph-DB ChatBot

    第三层 第七阶 长文本摘要生成 系列

    • AiGC摩天大楼 —— 第三层 长文本摘要生成:预训练模型与分治策略如何协同应用

    第四层 LLMs 推理优化篇

    第四层 LLMs 推理优化篇 第一阶 vLLM 系列

    • AiGC摩天大楼 —— 第四层 LLMs 推理优化 之 vLLM 入门(一)——PageAttention 算法篇
    • AiGC摩天大楼 —— 第四层 LLMs 推理优化 之 vLLM 入门(二)——架构概览篇
    • AiGC摩天大楼 —— 第四层 LLMs 推理优化 之 vLLM 入门(三)——vLLM 安装部署篇
    • AiGC摩天大楼 —— 第四层 LLMs 推理优化 之 vLLM 入门(四)——vLLM 源码学习篇
    • AiGC摩天大楼 —— 第四层 LLMs 推理优化 之 vLLM 入门(五)——vLLM 源码学习篇

    第四层 LLMs 推理优化篇 第二阶 Ollama 系列

    • AiGC摩天大楼 —— 第四层 LLMs 推理优化 之 Ollama Linux 安装篇
    • AiGC摩天大楼 —— 第四层 LLMs 推理优化 之 Ollama篇
    • AiGC摩天大楼 —— 第四层 LLMs 推理优化 之 Ollama下LLM服务的三种使用方式:post、langchain、lamaindex

    第四层 LLMs 推理优化篇 第三阶 TensorRT-LLM 系列

    • AiGC摩天大楼 —— 第四层 LLMs 推理优化 之 TensorRT-LLM 篇
      • AiGC摩天大楼 —— 第四层 LLMs 推理优化 之 TensorRT-LLM部署调优

    第四层 LLMs 推理优化篇 第四阶 Medusa 系列

    • AiGC摩天大楼 —— 第四层 LLMs 推理优化 之 投机采样 篇
    • AiGC摩天大楼 —— 第四层 LLMs 推理优化 之 Medusa 篇

    第五层 LLM API性能评估 篇

    • AiGC摩天大楼 —— 第五层 LLM API性能评估 之 llmperf 

    第六层 Stable Diffusion 文生图 篇

    • 第十阶  之 MIDI-3D:单图秒变3D场景!40秒生成360度空间
      • 模型:HuggingFace 模型库:https://huggingface.co/VAST-AI/
      • 介绍:MIDI-3D(Multi-Instance Diffusion for Single Image to 3D Scene Generation)是一种先进的 3D 场景生成技术,能够在短时间内将单张图像转化为高保真度的 3D 场景。通过智能分割输入图像,识别出场景中的独立元素,再基于多实例扩散模型,结合注意力机制,生成360度的3D场景。MIDI-3D 具有强大的全局感知能力和细节表现力,能在40秒内完成生成,对不同风格的图像具有良好的泛化能力。无论是游戏开发、虚拟现实,还是室内设计,MIDI-3D 都能提供高效的3D场景生成解决方案。
    • 第九阶  之 OmniGen 篇 
      • 模型:HuggingFace 模型库:https://modelscope.cn/models/BAAI/OmniGen-v1
      • 介绍:现有的图像生成模型往往需要加载多个额外的网络模块(如 ControlNet、IP-Adapter、Reference-Net 等)并执行额外的预处理步骤(例如人脸检测、姿势估计、裁剪等)才能生成令人满意的图像。但认为未来的图像生成范式应该更加简单灵活,即直接通过任意多模态指令生成各种图像,而无需额外的插件和操作,类似于 GPT 在语言生成中的工作方式。
    • 第八阶 之 Janus-Pro
      • 模型:https://modelscope.cn/collections/Janus-Pro-0f5e48f6b96047
      • 介绍:Janus-Pro是DeepSeek最新开源的多模态模型,是一种新颖的自回归框架,统一了多模态理解和生成。通过将视觉编码解耦为独立的路径,同时仍然使用单一的、统一的变压器架构进行处理,该框架解决了先前方法的局限性。这种解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。Janus-Pro 超过了以前的统一模型,并且匹配或超过了特定任务模型的性能。Janus-Pro 的简洁性、高灵活性和有效性使其成为下一代统一多模态模型的强大候选者。
    • 第七阶 之 VisCPM 基于CPM基础模型的中英双语多模态大模型系列
      • 模型:https://hf-mirror.com/openbmb/VisCPM-Paint
      • 介绍:VisCPM 是一个开源的多模态大模型系列,支持中英双语的多模态对话能力(VisCPM-Chat模型)和文到图生成能力(VisCPM-Paint模型),在中文多模态开源模型中达到最佳水平。VisCPM基于百亿参数量语言大模型CPM-Bee(10B)训练,融合视觉编码器Muffin和视觉解码器Diffusion-UNet以支持视觉信号的输入和输出。得益于CPM-Bee基座优秀的双语能力,VisCPM可以仅通过英文多模态数据预训练,泛化实现优秀的中文多模态能力。
    • AiGC摩天大楼——第六层 Stable Diffusion文生图 之 OmniGen 篇
      • 模型链接:https://modelscope.cn/models/BAAI/OmniGen-v1
      • 介绍:用户可以轻松地微调 OmniGen,而不必担心为特定任务设计模型;你只需要准备相应的数据,然后运行训练脚本即可。想象力不再受限;每个人都可以构造任何图像生成任务,可以实现非常有趣、精彩和富有创意的事情。

    第六层 Stable Diffusion 文生图 篇 —— 第五阶 Stable Diffusion3.5 系列

    • AiGC摩天大楼——第六层 Stable Diffusion文生图 之 Stable Diffusion3.5 篇
      • 介绍:Stable Diffusion 3.5系列(后简称 SD3.5),进行了全面的架构和培训更改,现在根据更新的、更宽松的社区license,增强了图像保真度、指令遵循和可控性。

    第六层 Stable Diffusion 文生图 篇 —— 第四阶 PixArt 系列

    • AiGC摩天大楼——第六层 Stable Diffusion文生图 之 PixArt-alpha 篇
      • 介绍:PixArt-α是一种基于Transformer的文生图(T2I)扩散模型,其图像生成质量可与最先进的图像生成器(例如Imagen、SDXL甚至Midjourney)相媲美。
    • AiGC摩天大楼——第六层 Stable Diffusion文生图 之 PixArt-sigma 篇
      • 论文名称:PIXART-Σ:Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation
      • 论文地址:https://arxiv.org/pdf/2403.04692.pdf
      • 介绍:华为发布了 PixArt-Σ,一种Diffusion Transformer(DiT)模型,能够直接生成4K分辨率的高质量图像。总的来说就是PixArt-Σ通过将更高质量的数据纳入训练,并提出一种新颖的注意力模块来压缩Key值和Value值,实现了从“弱”基线到“强”模型的训练效率。该模型在生成高保真图像的同时,与文本提示紧密对齐,超越了其前身PixArt-α模型。PixArt-Σ可以直接生成 4K 的图片,目前开源的模型暂时还没有模型能做到,这个能力对于从事电影和游戏等行业的设计师来说是个巨大的福音了。

    第六层 Stable Diffusion 文生图 篇 —— 第三阶 VisCPM 系列

    • AiGC摩天大楼——第六层 Stable Diffusion文生图之VisCPM基于CPM基础模型的中英双语多模态大模型
      • 介绍:VisCPM 是一个开源的多模态大模型系列,支持中英双语的多模态对话能力(VisCPM-Chat模型)和文到图生成能力(VisCPM-Paint模型),在中文多模态开源模型中达到最佳水平。VisCPM基于百亿参数量语言大模型CPM-Bee(10B)训练,融合视觉编码器Muffin和视觉解码器Diffusion-UNet以支持视觉信号的输入和输出。得益于CPM-Bee基座优秀的双语能力,VisCPM可以仅通过英文多模态数据预训练,泛化实现优秀的中文多模态能力。

    第六层 Stable Diffusion 文生图 篇 —— 第二阶 Stable Diffusion 系列

    • 【Ai绘图】入门篇:手把手教你用 stable diffusion 绘制真人图像
    • 【Ai绘图】STABLE DIFFUSION WEBUI入门教程
    • 【Ai绘图】Stable Diffusion 教程(2)基础篇 如何写出好的prompt,一些技巧和原则
    • 【Ai绘图】Stable Diffusion 教程(3)基础篇 -SDWEBUI的基础功能,你都会用了吗?
    • 【Ai绘图】Stable Diffusion 教程(4)基础篇 -1秒都不浪费!采样方法和步数的最优选择
    • 【Ai绘图】Stable Diffusion教程(5)磨刀不误砍柴工!使用XYZ表格快速了解你手头的模型到底好不好用
    • 【Ai绘图】SD教程进阶篇(6)实战:LORA模型训练叠加controlnet,COSPLAYER都担忧要失业了
    • 【Ai绘图】进阶篇(7):图为什么没别人好看?因为你不会高清放大!
    • 【Ai绘图】Stable diffusion 汉化 指南

    第六层 Stable Diffusion 文生图 篇 —— 第一阶 Midjourney 系列

    • Midjourney 入门篇——新手快速起步指南
    • Midjourney 入门篇(二)——Midjourney Discord的使用手册

    第七层 OCR 篇

    • AiGC摩天大楼——第七层 OCR 入门 篇
    • AiGC摩天大楼——第七层 OCR 入门 篇 之 tesseract 实践
      • 介绍:Tesseract 是谷歌开发并开源的图像文字识别引擎,使用python开发。
    • AiGC摩天大楼——第七层 OCR 入门 篇 之 hn_ocr 实践
      • 介绍:hn_ocr 是惠农网基于cnstd + cnocr + tronado 构建的web服务 提供了http的接口,便于微服务体系中其他服务调用 也便于前端页面进行调用
    • AiGC摩天大楼——第七层 OCR 入门 篇 之 PaddleOCR 实践
      • 介绍:百度 paddle 开源的 OCR 框架,采用开源EAST、DB检测算法,以及CRNN、STAR-NET、Rosetta、RARE识别算法,覆盖不同类型的业界经典算法。
    • AiGC摩天大楼——第七层 OCR 入门 篇 之 olmOCR 篇
      • 介绍:
      • 1、高效精准的 PDF 文本提取。通过在 25 万页多样化 PDF 数据集上微调训练,能够应对 复杂布局(如 多栏排版)、嵌入表格、数学公式 和 手写文本 等挑战。结合 “文档锚定” (document anchoring) 技术,提高 文本解析质量,在 标题、段落、表格、方程式 等元素提取方面表现出色。
      • 2、Markdown 格式输出。olmOCR 会生成易于解析的 Markdown 格式文本,能准确处理方程式、表格和手写内容。这种格式便于后续使用,如与语言模型集成或文档编辑。
      • 3、低成本效益。处理 100 万页 PDF 的成本约为 190 美元,相比使用 GPT-4o API 的批处理模式,成本仅为其 1/32。这使得 olmOCR 成为预算有限的用户的理想选择,特别是在处理学术论文、法律文档等大批量 PDF 时,性价比极高。
    • AiGC摩天大楼——第七层 OCR 入门 篇 之 Got:5.8k Star! 文档OCR里程碑:端到端支持7个任务
      • 介绍:传统的OCR都是针对不同场景,训练不同的模型,任务稍微复杂一些的还需要写一套pipeline来完成任务。本次介绍的GOT采用端到端的训练方式,能覆盖几乎所有可能的OCR业务场景。

    第八层 ASR 篇

    • AiGC摩天大楼——第八层 ASR 入门 篇
    • AiGC摩天大楼——第八层 ASR 入门 篇 之 Speech-to-Text 
    • AiGC摩天大楼——第八层 ASR 入门 篇 之 WeTextProcessing
    • AiGC摩天大楼——第八层 ASR 入门 篇 之 ASR神器 Wenet
    • AiGC摩天大楼——第八层 ASR 入门 篇 之 ASR神器训练

    第九层 TTS 篇

    • AiGC摩天大楼——第九层 TTS 入门 篇
    • AiGC摩天大楼——第九层 TTS 入门 篇 之 CSM-1b: 驱动“超真人”虚拟助手Maya的实时语音对话模型
      • 第一个多模态主干网络处理交错的文本和音频以对第零个码本进行建模。
      • 第二个音频解码器对每个码本使用不同的线性头,并对剩余的 N – 1 个码本进行建模,以根据主干网络的表示重建语音。解码器比主干网络小得多,从而能够实现低延迟生成,同时保持模型的端到端。
      • 介绍:CSM 是一种直接对 RVQ 标记进行操作的多模态文本和语音模型,使用了两个自回归变换器,在第零个码本处拆分变换器。
    • AiGC摩天大楼——第九层 TTS 入门 篇 之 Spark-TTS: 基于Qwen的新一代单阶段TTS模型
      • 介绍:Spark-TTS 模型完全基于Qwen2.5架构,摒弃额外生成模型辅助,以单阶段、单流方式实现 TTS 生成,具备超自然的语音克隆与跨语种生成能力,还支持用户根据需求定制专属声音。目前,Spark-TTS已经在开源社区SparkAudio发布,迅速登上Hugging Face趋势榜TTS第二,目前仍在持续攀升中。
    • AiGC摩天大楼——第九层 第九层 TTS 入门 篇 之 Spark-TTS: 基于Qwen的新一代单阶段TTS模型
      • 介绍:Spark-TTS 模型完全基于Qwen2.5架构,摒弃额外生成模型辅助,以单阶段、单流方式实现 TTS 生成,具备超自然的语音克隆与跨语种生成能力,还支持用户根据需求定制专属声音。目前,Spark-TTS已经在开源社区SparkAudio发布,迅速登上Hugging Face趋势榜TTS第二,目前仍在持续攀升中。
    • AiGC摩天大楼——第九层 TTS 入门 篇之MeloTTS:多语言实时文本转语音的高质量工具!无GPU也可灵活使用!
      • Github 地址:https://github.com/myshell-ai/MeloTTS
      • 介绍:MeloTTS 是一个高质量的多语言 TTS 库,专注于提供快速、自然的语音输出。
    • AiGC摩天大楼——第九层 TTS 入门 篇 第八阶 之 F5-TTS 篇
      • 介绍:F5-TTS是由上海交通大学等团队开发的文本到语音系统,支持零样本声音克隆、情感控制、多语言合成等功能。 通过流匹配非自回归生成方法和扩散变换器技术,F5-TTS实现了快速高质量的语音生成,广泛应用于有声读物、语音助手等领域。
    • AiGC摩天大楼——第九层 TTS 入门 篇 第七阶 之 CosyVoice
      • 介绍:CosyVoice 是依托大规模预训练语言模型,深度融合文本理解和语音生成的一项新型语音合成技术,能够精准解析并诠释各类文本内容,将其转化为宛如真人般的自然语音。 CosyVoice 采用了总共超 15 万小时的数据训练,支持中英日粤韩 5 种语言的合成,合成效果显著优于传统语音合成模型。
    • AiGC摩天大楼——第九层 TTS 入门 篇 第六阶 之 OpenVoice 篇
      • GitHub:https://github.com/myshell-ai/OpenVoice
      • 介绍:OpenVoice 能够从一小段音频中复制声音并生成多种语言的语音。它不仅支持精准的音色克隆,还可以灵活控制语音风格,如情感和口音,确保声音输出自然流畅。
    • AiGC摩天大楼——第九层 TTS 入门 篇 第五阶 之 ChatTTS 实战
      • Github:https://github.com/2noise/ChatTTS
      • 介绍:ChatTTS 是一款专门为对话场景(例如 LLM 助手)设计的文本转语音模型,目前支持英文和中文。
    • AiGC摩天大楼——第九层 TTS 入门 篇 第四阶 之 KAN-TTS 实战
      • github 地址:https://github.com/AlibabaResearch/KAN-TTS
      • 官网地址:https://modelscope.cn/models?page=1&tasks=text-to-speech
      • 介绍:Knowledge-awareNeural TTS(KAN-TTS)技术是结合了我们最新的语音技术、海量的文本和声学数据以及大规模计算能力,对语音合成技术进行的改进。 我们通过深度融合了传统语音合成技术以及End2end系统,并结合各种domain knowledge,从而提供高表现力高稳定性的在线实时语音合成服务。
    • AiGC摩天大楼——第九层 TTS 入门 篇 第三阶 之 PaddleSpeech 实战
      • github 地址:https://github.com/PaddlePaddle/PaddleSpeech
      • 介绍:PaddleSpeech 是基于飞桨 PaddlePaddle 的语音方向的开源模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型,一些典型的应用示例如下:语音识别、语音翻译 (英译中)、语音合成、标点恢复等。
    • AiGC摩天大楼——第九层 TTS 入门 篇 第二阶 之 pyttsx3 实战
    • AiGC摩天大楼——第九层 TTS 入门 篇 第一阶 之 tensorflow_tts 实战

    第十层 人像分割 篇

    • AiGC摩天大楼——第十层 人像分割篇 第一阶 之 视频人像抠图模型 篇
      • 论文名称:Latte: Latent Diffusion Transformer for Video Generation Official PyTorch Implementation
      • 开源链接:https://github.com/Vchitect/Latte
      • 项目主页:https://maxin-cn.github.io/latte_project/
      • 论文链接:https://arxiv.org/pdf/2401.03048v1
      • 介绍:视频人像抠图(Video human matting)是计算机视觉的经典任务,输入一个视频(图像序列),得到对应视频中人像的alpha图,其中alpha与分割mask不同,mask将视频分为前景与背景,取值只有0和1,而alpha的取值范围是0到1之间,返回数值代表透明度。VHM模型处理1080P视频每帧计算量为10.6G,参数量只有6.3M。
    • AiGC摩天大楼——第十层 人像分割篇 第二阶 之 SAM 2 篇:图片和视频都可任意分割
      • 论文名称:SAM 2: Segment Anything in Images and Videos
      • 论文地址:https://ai.meta.com/research/publications/sam-2-segment-anything-in-images-and-videos/
      • Github 地址:https://github.com/facebookresearch/segment-anything-2
      • 介绍:Meta 团队首先开发了可提示(promptable)的视觉分割任务,并设计了一个能够执行此任务的模型,即 SAM 2。然后,研究团队使用 SAM 2 帮助创建一个视频对象分割数据集(SA-V),其规模比目前存在的任何数据集都要大一个数量级,并使用它来训练 SAM 2 以实现 SOTA 性能。

    第十一层 Language-Image 篇

    • AiGC摩天大楼——第十一层MLLM篇 Qwen2.5-VL-32B 实战

      • 回复更符合人类主观偏好:调整了输出风格,使回答更加详细、格式更规范,并更符合人类偏好。
      • 数学推理能力:复杂数学问题求解的准确性显著提升。
      • 图像细粒度理解与推理:在图像解析、内容识别以及视觉逻辑推导等任务中表现出更强的准确性和细粒度分析能力。
      • 介绍:Qwen2.5-VL-32B-Instruct。相比此前发布的 Qwen2.5-VL 系列模型,本次推出的 32B 模型的特点如下:
    • AiGC摩天大楼——第十一层MLLM篇 SmolVLM2: 让视频理解能力触手可及

      • 介绍:SmolVLM2 标志着视频理解技术的根本性转变——从依赖海量计算资源的巨型模型,转向可在任何设备运行的轻量级模型。我们的目标很简单: 让视频理解技术从手机到服务器都能轻松部署。
    • AiGC摩天大楼——第十一层MLLM篇 SmolVLM:Hugging Face推出的轻量级视觉语言模型

      • 介绍:SmolVLM是Hugging Face推出的轻量级视觉语言模型,专为设备端推理设计。以20亿参数量,实现了高效内存占用和快速处理速度。SmolVLM提供了三个版本以满足不同需求:SmolVLM-Base:适用于下游任务的微调。
    • AiGC摩天大楼——第十一层MLLM篇 Phi-4系列:多模态与文本处理的创新突破

      • 介绍:微软近期推出 Phi-4-multimodal 和 Phi-4-mini,这些模型是 Microsoft Phi 系列小型语言模型 (SLM) 中的最新模型。Phi-4-multimodal 能够同时处理语音、视觉和文本,为创建创新且具有上下文感知能力的应用程序开辟了新的可能性。另一方面,Phi-4-mini 在基于文本的任务方面表现出色,以紧凑的形式提供高精度和可扩展性。
    • 第十一层 MLLM 篇 之 R1-Onevision

      • 介绍: R1-Onevision,是一款开源的多模态视觉推理模型,基于 Qwen2.5-VL 微调而成。它不仅能同时处理图像和文本输入,还能在数学、科学、深度图像理解和逻辑推理等领域表现出色。在多项基准测试中,R1-Onevision 甚至超越了 Qwen2.5-VL-7B 和 GPT-4V 等模型。
    • AiGC摩天大楼——第十一层 MLLM 篇 第十八阶 之 Qwen2.5-VL

      • Qwen2.5-VL is the multimodal large language model series developed by Qwen team, Alibaba Cloud.
      • Blog地址:https://qwenlm.github.io/zh/blog/qwen2.5-vl/
      • 介绍:Qwen2.5-VL是阿里通义千问团队开源的旗舰视觉语言模型,具有3B、7B和72B三种不同规模。模型在视觉理解方面表现出色,能识别常见物体,分析图像中的文本、图表等元素。
    • AiGC摩天大楼——第十一层 MLLM 篇 第十七阶 之 Janus-Pro

      • 论文地址:https://arxiv.org/pdf/2410.00741
      • 介绍:Janus-Pro是DeepSeek最新开源的多模态模型,是一种新颖的自回归框架,统一了多模态理解和生成。通过将视觉编码解耦为独立的路径,同时仍然使用单一的、统一的变压器架构进行处理,该框架解决了先前方法的局限性。这种解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。Janus-Pro 超过了以前的统一模型,并且匹配或超过了特定任务模型的性能。Janus-Pro 的简洁性、高灵活性和有效性使其成为下一代统一多模态模型的强大候选者。
    • AiGC摩天大楼——第十一层MLLM 之 Valley2:基于电商场景的多模态大模型

      • 论文名称:Valley2: Exploring Multimodal Models with Scalable Vision-Language Design
      • 论文:https://arxiv.org/abs/2501.05901
      • 介绍:Valley2是一种新颖的多模态大型语言模型,旨在通过可扩展的视觉-语言设计增强各个领域的性能,并拓展电子商务和短视频场景的实际应用边界。Valley2在电子商务和短视频领域中实现了最先进的性能。它引入了如大视觉词汇、卷积适配器(ConvAdapter)和Eagle模块等创新,提高了处理多样化真实世界输入的灵活性,同时增强了训练和推理效率。
    • AiGC摩天大楼——第十一层MLLM篇之VideoCLIP-XL:一种新的视频 CLIP 模型

      • 数据收集系统
      • 文本相似性引导的主成分匹配(TPCM)
      • 描述排序任务
      • 论文地址:https://arxiv.org/pdf/2410.00741
      • 介绍:VideoCLIP-XL 模型,用于解决视频CLIP模型在理解长描述方面的能力不足问题。具体来说:
    • AiGC摩天大楼——第十一层 Language-Image篇 第十四阶 之 InternVL2 篇

      • 论文名称:InternVL Family: Closing the Gap to Commercial Multimodal Models with Open-Source Suites —— An Pioneering Open-Source Alternative to GPT-4V
      • 论文地址:https://arxiv.org/abs/2312.14238
      • Github 地址:https://github.com/OpenGVLab/InternVL
      • 介绍:InternVL是60亿参数的视觉-语言基础模型,以28%的参数量,具备ViT-22B同等强大的视觉能力,并通过全新的渐进式对齐策略,与大语言模型(LLM)组合构造多模态对话系统。InternVL已在32个通用视觉-语言基准任务上达到最优性能!InternVL在32个通用视觉-语言基准上的性能 InternVL-6B,可以替代掉小规模的ViT、ResNet等主干网络,可以替代掉CLIP,可以用在LLaVA等对话模型中。
    • AiGC摩天大楼——第十一层 Language-Image篇 第十三阶 之 MiniCPM-V 2.6 篇

      • Github 地址:https://github.com/OpenBMB/MiniCPM-V/
      • 介绍:MiniCPM-V 2.6 是 MiniCPM-V 系列中最新、性能最佳的模型。该模型基于 SigLip-400M 和 Qwen2-7B 构建,共 8B 参数。与 MiniCPM-Llama3-V 2.5 相比,MiniCPM-V 2.6 性能提升显著,并引入了多图和视频理解的新功能。
    • AiGC摩天大楼——第十一层 Language-Image篇 第十二阶 之 Qwen2-VL 篇

      • 读懂不同分辨率和不同长宽比的图片:Qwen2-VL 在 MathVista、DocVQA、RealWorldQA、MTVQA 等视觉理解基准测试中取得了全球领先的表现。
      • 理解20分钟以上的长视频:Qwen2-VL 可理解长视频,并将其用于基于视频的问答、对话和内容创作等应用中。
      • 能够操作手机和机器人的视觉智能体:借助复杂推理和决策的能力,Qwen2-VL 可集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作。
      • 多语言支持:为了服务全球用户,除英语和中文外,Qwen2-VL 现在还支持理解图像中的多语言文本,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。
      • github: https://github.com/QwenLM/Qwen2-VL
      • Qwen2-VL-7B-Instruct: https://modelscope.cn/models/qwen/Qwen2-VL-7B-Instruct/files
      • 官网:https://qwenlm.github.io/zh/blog/qwen2-vl/
      • 介绍:Qwen2-VL !Qwen2-VL 基于 Qwen2 打造,相比 Qwen-VL,它具有以下特点:
    • AiGC摩天大楼——第十一层 Language-Image篇 第十一阶 之 InternVL-Chat-V1.5 篇

      • 论文名称:InternVL Family: Closing the Gap to Commercial Multimodal Models with Open-Source Suites —— An Pioneering Open-Source Alternative to GPT-4V
      • 论文地址:https://arxiv.org/abs/2312.14238
      • Github 地址:https://github.com/OpenGVLab/InternVL
      • 介绍:InternVL是60亿参数的视觉-语言基础模型,以28%的参数量,具备ViT-22B同等强大的视觉能力,并通过全新的渐进式对齐策略,与大语言模型(LLM)组合构造多模态对话系统。InternVL已在32个通用视觉-语言基准任务上达到最优性能!InternVL在32个通用视觉-语言基准上的性能 InternVL-6B,可以替代掉小规模的ViT、ResNet等主干网络,可以替代掉CLIP,可以用在LLaVA等对话模型中。
    • AiGC摩天大楼——第十一层 Language-Image篇 第十阶 之 CogVLM2 篇

      • 开源模型。与上一代的 CogVLM 开源模型相比,CogVLM2 系列开源模型具有以下改进:
      • 在许多关键指标上有了显著提升,例如 TextVQA, DocVQA。
      • 支持 8K 文本长度。
      • 支持高达 1344 * 1344 的图像分辨率。
      • 提供支持中英文双语的开源模型版本。
      • Github 地址:https://github.com/THUDM/CogVLM2
      • 介绍:CogVLM2 系列模型并开源了两款基于 Meta-Llama-3-8B-Instruct
    • AiGC摩天大楼——第十一层 Language-Image篇 第十阶 之 CogVLM2 微调篇

      • Github 地址:https://github.com/THUDM/CogVLM2
    • AiGC摩天大楼——第十一层 Language-Image篇 第九阶 之GLM4V 篇

      • Github 链接: https://github.com/THUDM/GLM-4
      • Huggingface 链接:https://huggingface.co/THUDM/visualglm-6b
      • 介绍:GLM-4是清华智谱AI的第4代产品,重点强调的是ALL Tools工具调用能力,并于2024年6月5日开源了GLM-4-9B版本,包括GLM-4-9B、GLM-4-9B-Chat、GLM-4-9B-Chat-1M以及对应支持1120x1120像素的多模态模型GLM-4V-9B。今天重点对GLM-4V-9B进行介绍,并给出基于FastAPI私有化部署方式。
    • AiGC摩天大楼——第十一层 Language-Image篇 第九阶 之GLM4V 对话模型微调篇

    • AiGC摩天大楼——第十一层 Language-Image篇 第八阶 之 Qwen-VL 初体验篇

      • 介绍:Qwen-VL 是阿里云研发的大规模视觉语言模型(Large Vision Language Model, LVLM)。Qwen-VL 可以以图像、文本、检测框作为输入,并以文本和检测框作为输出
    • AiGC摩天大楼——第十一层 Language-Image篇 第八阶 之 Qwen-VL 微调篇

    • AiGC摩天大楼——第十一层 Language-Image篇 第七阶 之 Ziya-Visual模型学习与实战

      • 介绍:Ziya-Visual模型具备中英双语能力,特别是中文能力较为突出。和所有基于BLIP2的方案类似,我们简单高效的扩展了LLM的识图能力。该模型对比VisualGLM、mPLUG-Owl模型,在视觉问答(VQA)评价和GPT-4打分评价[2]中,展现了一些优势。
    • AiGC摩天大楼——第十一层 Language-Image篇 第六阶 之 Video-LLaVA 篇

      • 论文名称:Video-LLaVA: Learning United Visual Representation by Alignment Before Projection
      • 论文地址:https://arxiv.org/abs/2311.10122
      • Github:https://github.com/PKU-YuanGroup/Video-LLaVA
      • 介绍:Video-LLaVA由LanguageBind编码器 fVM 组成,用于从原始视觉信号(如图像或视频)中提取特征,一个大型语言模型 fL (如Vicuna),视觉投影层 fP 和词嵌入层 fT。我们最初使用LanguageBind编码器获得视觉特征。LanguageBind编码器能够将不同的模态映射到文本特征空间,从而得到统一的视觉表示。然后,通过共享投影层对统一的视觉表示进行编码,然后将其与token化的文本查询相结合,并馈送到大型语言模型中以生成相应的响应。
    • AiGC摩天大楼——第十一层 Language-Image篇 第五阶 之 VisualGLM-6B 模型学习与实战 

      • Github 链接: https://github.com/THUDM/VisualGLM-6B
      • 介绍:VisualGLM-6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共 78 亿参数。VisualGLM-6B 依靠来自于 CogView 数据集的30M高质量中文图文对,与 300M 经过筛选的英文图文对进行预训练,中英文权重相同。该训练方式较好地将视觉信息对齐到 ChatGLM 的语义空间;之后的微调阶段,模型在长视觉问答数据上训练,以生成符合人类偏好的答案。
    • AiGC摩天大楼——第十一层 Language-Image篇 第四阶 之 MiniGPT-4 模型学习与实战

      • MiniGPT-4 具有许多类似于 GPT-4 的能力, 图像描述生成、从手写草稿创建网站等
      • MiniGPT-4 还能根据图像创作故事和诗歌,为图像中显示的问题提供解决方案,教用户如何根据食物照片做饭等。
      • MiniGPT-4  https://github.com/Vision-CAIR/MiniGPT-4
      • 介绍:
    • AiGC摩天大楼——第十一层 Language-Image篇 第三阶 之 LLaVA篇

      • 论文名称:LLaVA(Large Language and Vision Assistant)
      • 论文地址:https://arxiv.org/pdf/2304.08485.pdf
      • GitHub 地址:https://github.com/haotian-liu/LLaVA
      • 介绍:使用仅限语言的GPT-4生成多模态语言图像指令跟随数据,提出一种连接预训练的视觉编码器(CLIP ViT-L/14)和大规模语言模型(Vicuna)的端到端训练多模态大模型
    • AiGC摩天大楼——第十一层 Language-Image篇 第二阶 之  BLIP2 模型学习与实战

      • 论文名称:BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
      • 论文地址:https://arxiv.org/abs/2301.12597
      • 代码地址:https://github.com/salesforce/LAVIS/tree/main/projects/blip2
      • 介绍:BLIP-2, 一种通用而有效的预训练策略,它从现成的冻结预训练图像编码器和冻结的大型语言模型中引导视觉语言预训练。
    • AiGC摩天大楼——第十一层 Language-Image篇 第一阶 之 BLIP 模型学习与实战

      • 论文名称:BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
      • 论文地址:https://arxiv.org/abs/2201.12086
      • 代码地址:https://github.com/salesforce/BLIP
      • 介绍:BLIP 的预训练模型架构和目标(相同的参数具有相同的颜色)。 BLIP 作者 提出了编码器-解码器的多模式混合,这是一种统一的视觉-语言模型,可以在以下三种功能之一中运行:**(1) 单模式编码器使用图像-文本对比 (ITC) 损失进行训练,以对齐视觉和语言表示。 (2) Image-grounded text encoder 使用额外的交叉注意层来模拟视觉-语言交互,并使用图像-文本匹配 (ITM) 损失进行训练以区分正负图像-文本对 (3) Image-grounded text decoder用causal self-attention layers代替bi-directional self-attention layers,与encoder共享相同的cross-attention layers和feed forward networks。 解码器使用语言建模 (LM) 损失进行训练,以生成给定图像的字幕**。
    • AiGC摩天大楼——第十一层 Language-Image篇之Chinese-CLIP:多模态预训练模型解读和图文检索

      • 论文名称: Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese
      • 论文地址:https://arxiv.org/abs/2211.01335
      • Github 代码:https://github.com/OFA-Sys/Chinese-CLIP
      • 模型地址:https://huggingface.co/alibaba-pai/VideoCLIP-XL
      • 介绍:2022年阿里达摩院开源的基于2亿中文原生图文对的多模态预训练模型。

    第十二层 Ai 换脸 篇

    • AiGC摩天大楼——第十二层 Ai 换脸 第六阶 之 Deep-Live-Cam实时AI换脸
      • Github: https://github.com/hacksider/Deep-Live-Cam
      • 介绍:Deep-Live-Cam 是一款功能强大的实时人脸交换算法,具备一键式视频深度伪造能力。它仅需一张图片,就能轻松地将人脸从视频或直播中替换掉。使用界面相比较于facefusion,操作起来也更方便。
    • AiGC摩天大楼——第十二层 Ai 换脸 第五阶 之 SDXL-EcomID-阿里推出的单个参考图像生成定制的个性图像
      • Github: https://github.com/alimama-creative/SDXL_EcomID_ComfyUI
      • 介绍:SDXL-EcomID是阿里妈妈推出的开源项目,从单个参考图像生成定制的个性图像。融合PuLID和InstantID的优点,优化背景一致性、面部关键点控制和面部真实性,提高生成图像的相似度。SDXL-EcomID在200万张淘宝图像上训练,图像分辨率高,美学评分超过5.5,能生成与个体身份高度一致的图像。SDXL-EcomID适于虚拟现实、影视制作、身份验证等多个领域,为用户提供新的解决方案,满足特定身份图像生成的需求。
    • AiGC摩天大楼——第十二层 Ai 换脸 第四阶 之 FaceChain-阿里推出的人物写真和个人形象生成框架
      • 论文名称:FaceChain-FACT:Face Adapter for Human AIGC
      • 项目主页:https://facechain-fact.github.io/
      • 介绍:FaceChain是阿里巴巴达摩院推出的一个开源的人物写真和个人数字形象的AI生成框架(类似于免费开源版的妙鸭相机),用户仅需要提供最少一张照片即可生成独属于自己的个人形象数字替身。该AI框架利用了Stable Diffusion模型的文生图功能并结合人像风格化LoRA模型训练及人脸相关感知理解模型,将输入的图片进行训练后推理输出生成为个人写真图像。
    • AiGC摩天大楼——第十二层 Ai 换脸 第三阶 之 roop 篇
      • 论文名称:RobustSwap: A Simple yet Robust Face Swapping Model against Attribute Leakage
      • 论文地址:ttps://arxiv.org/abs/2303.15768
      • 介绍:roop: one click face swap. 只用一张人脸图片,就能完成视频换脸。
    • AiGC摩天大楼——第十二层 Ai 换脸 第二阶 之 Face-Adapter 篇 —— 让人脸编辑技术突破天花板
      • 论文名称:FaceChain-FACT:Face Adapter for Human AIGC
      • 论文:https://arxiv.org/abs/2405.12970
      • 介绍:Face Adapter是一款高效的人脸编辑适配器,由浙江大学和腾讯联合开发,适用于预先训练的扩散模型,专门针对人脸再现和交换任务。
    • AiGC摩天大楼——第十二层 Ai 换脸 第一阶 之 FaceFusion 篇
      • Github 地址:https://github.com/facefusion/facefusion
      • 介绍:FaceFusion是一款开源的AI换脸工具,它能够将一个人的脸部特征替换到另一个人的身体上,实现面部表情和动作的同步。这种技术可以用于制作电影、游戏、社交媒体等多种领域,带来丰富的娱乐和创意效果。

    第十三层 Ai 文生视频 篇

    • AiGC摩天大楼——第十三层文生视频 之 Kolors: 基于潜在扩散的大型文本到图像生成模型

      • 论文:Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis
      • Kolors项目主页:https://huggingface.co/Kwai-Kolors/Kolors
      • 介绍:Kolors是由快手Kolors团队开发的一款基于潜在扩散的大型文本到图像生成模型。该模型经过训练,在视觉质量、复杂语义精度以及中英文字符的文本渲染方面表现出显著优势。它不仅支持中英双语输入,还特别擅长理解和生成中文内容,为用户提供高质量的图像生成服务。
    • AiGC摩天大楼——第十三层 Ai 文生视频 第六阶 之 FastHunyuan 篇

      • 论文地址: https://arxiv.org/pdf/2410.05954
      • 介绍:Pyramid-Flow是一种基于流匹配技术的自动回归视频生成方法。它能够根据文本提示,生成长达10秒、分辨率高达1280x768、帧率24fps的高清视频。
    • AiGC摩天大楼——第十三层 Ai 文生视频 第五阶 之 FastHunyuan 篇

      • 论文:FastVideo is a lightweight framework for accelerating large video diffusion models
      • GitHub:https://github.com/hao-ai-lab/FastVideo
      • 介绍: Fast-Hunyuan 开发了全新的视频DiT蒸馏配方。具体来说,Fast-Hunyuan 的蒸馏配方基于阶段一致性(Phased Consistency Model, PCM)模型。
    • AiGC摩天大楼——第十三层 Ai 文生视频 第四阶 之 Allegro 篇:最强开源文生视频模型

      • 论文地址:https://arxiv.org/abs/2410.15458v1
      • 介绍:Rhymes AI在发布开源MoE模型Aria后,再次推出了全新开源文本生成视频模型Allegro。Allegro的视频生成质量超越了所有开源模型,在人类盲评中表现仅次于两款闭源商业模型(Minimax的海螺和快手的可灵),成为首个具备商业视频生成能力的开源T2V模型。Allegro不仅公开了详细的技术报告和代码,还提供了模型的checkpoint,且经测试可兼容OpenSora-Plan框架训练。
    • AiGC摩天大楼——第十三层 Ai 文生视频 第三阶 之 VideoCrafter2 篇

      • 论文地址:https://arxiv.org/abs/2401.09047
      • 介绍:VideoCrafter2是一个由腾讯AI实验室开发的视频生成模型,旨在克服高质量视频数据获取的局限性,训练出能够生成高质量视频的模型。
    • AiGC摩天大楼——第十三层 Ai 文生视频 第二阶 之 Open-Sora 篇

      • Github 地址:https://github.com/hpcaitech/Open-Sora
      • 介绍:Open-Sora 1.0是由Colossal-AI团队开源的类Sora架构视频生成模型,采用Diffusion Transformer(DiT)架构,能够根据文本提示生成高质量视频内容。该模型通过三个阶段的训练流程实现,包括大规模图像预训练、视频预训练和微调。Open-Sora 1.0的开源降低了视频生成的技术门槛,为AI在视频创作领域的应用开辟了新路径。
    • AiGC摩天大楼——第十三层 Ai 文生视频 第一阶 之 Latte 篇——开源文生视频DiT

      • 预训练 VAE 编码器:将视频逐帧从像素空间压缩到隐空间;
      • 视频 DiT :对隐式表征提取 token 并进行时空建模
      • 最后 VAE 解码器:将特征映射回像素空间生成视频。
      • 论文名称:Latte: Latent Diffusion Transformer for Video GenerationOfficial PyTorch Implementation
      • 开源链接:https://github.com/Vchitect/Latte
      • 介绍:Latte 包含两个主要模块:

    第十四层 Ai 图生视频 篇

    • AiGC摩天大楼——第十四层 Ai 图生视频 第十四层 Ai 图生视频 之 HunyuanVideo-I2V

      • 模型地址:https://modelscope.cn/models/AI-ModelScope/HunyuanVideo-i2v/
      • 为利用HunyuanVideo强大的视频生成能力,研究团队采用图像潜在连接技术来有效地重建参考图像信息,并将其纳入视频生成过程。由于使用预训练的Decoder-Only架构多模态大语言模型(MLLM)作为文本编码器,可用于显著增强模型对输入图像语义内容的理解能力,并实现图像与文本描述信息的深度融合。具体而言,输入图像经MLLM处理后生成语义图像tokens,这些tokens与视频隐空间tokens拼接,实现跨模态的全注意力计算。
    • AiGC摩天大楼——第十四层 Ai 图生视频 第四阶 之 Ruyi:图森未来推出的图生视频大模型

      • Github 地址:https://github.com/IamCreateAI/Ruyi-Models
      • 模型地址:https://hf-mirror.com/IamCreateAI/Ruyi-Mini-7B
      • Ruyi是图森未来推出的图生视频大模型,专为在消费级显卡上运行设计,支持多分辨率、多时长视频生成,具备首帧、首尾帧控制、运动幅度控制和镜头控制等特性。Ruyi基于DiT架构,由Casual VAE模块和Diffusion Transformer组成,用在视频数据压缩和生成。Ruyi能降低动漫和游戏内容的开发周期和成本,是ACG爱好者和创作者的理想工具。目前图森未来将Ruyi-Mini-7B版本正式开源。
    • AiGC摩天大楼——第十四层 Ai 图生视频 第三阶 之 MOFA-Video,让静态图片“活”起来!

      • 论文名称:MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model.
      • 论文地址:https://arxiv.org/abs/2405.20222
      • MOFA-Video,一个能够将静态图像转化为生动视频的AI模型,它通过先进的生成运动场适应器技术,实现了对视频生成过程中动作的精细控制。这项技术不仅能够单独使用控制信号,还能将它们组合使用,以零样本的方式进行更复杂的动画制作。
    • AiGC摩天大楼——第十四层 Ai 图生视频 第二阶 之 DynamiCrafter 篇——将静态图像转换为动画视频

      • 论文名称:DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors
      • 论文地址:https://arxiv.org/abs/2310.12190
      • GitHub代码库:https://github.com/Doubiiu/DynamiCrafter
      • 介绍:DynamiCrafter是一个利用视频扩散先验技术来为开放域图像制作动画的项目。这个项目由香港中文大学、腾讯AI实验室和北京大学的研究人员共同开发。它能够将静态图像转换为动画,涵盖多种主题和风格,如风景、人物、动物、交通工具、雕塑等。DynamiCrafter还探索了通过文本控制运动的方法,并在不同应用场景下展示了其表现,例如讲故事和循环视频生成。
    • AiGC摩天大楼——第十四层 Ai 图生视频 第一阶 之 SV3D 篇

      • Github 地址:https://github.com/Stability-AI/generative-models
      • 介绍:SV3D基于Stable Video Diffusion模型,该模型在深度学习和计算机视觉领域具有广泛的应用。通过训练大量的数据,Stable Video Diffusion模型能够学习到从单张图片到3D视频的映射关系。SV3D作为Stable Video Diffusion的扩展,进一步提升了3D生成的质量和多视角一致性。

    第十五层 Ai 动作迁移 篇

    • AiGC摩天大楼——第十五层 Ai 动作迁移 第一阶 之 DWPose 篇 :高效全身姿态估计的两阶段蒸馏方法
      • 论文名称:Effective Whole-body Pose Estimation with Two-stages Distillation
      • 论文地址:https://arxiv.org/pdf/2307.15880v2
      • 介绍:DWPose 针对姿态估计提出了一个两阶段姿态蒸馏(Two-stage Pose Distillation,TPD)方法,并使用这个方法训练得到了一系列模型。
    • AiGC摩天大楼——第十五层 Ai 动作迁移 第二阶 之 MagicPose 篇 —— 无需微调的一致性人类舞蹈视频生成
      • 论文名称:MagicPose(also known as MagicDance): Realistic Human Poses and Facial Expressions Retargeting with Identity-aware Diffusion
      • 文章地址:https://arxiv.org/abs/2311.12052
      • 介绍:MagicPose,一个基于扩散的2D人体姿势和面部表情重定向模型。具体来说,给定一个参考图像,目标是在保持身份不变的情况下,通过控制姿势和面部表情来生成一个人的新图像。
    • AiGC摩天大楼——第十五层 Ai 动作迁移 第三阶 之 AnimateAnyone:图像到视频角色动画合成的框架
      • 论文名称:Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation
      • 论文地址:https://arxiv.org/pdf/2311.17117
      • 介绍:AnimateAnyone 能够将角色图片转化为受期望姿态序列控制的动画视频,同时确保外观一致性和时间稳定性。
    • AiGC摩天大楼——第十五层 Ai 动作迁移 第三阶 之 AnimateAnyone 实战篇
    • AiGC摩天大楼——第十五层 Ai 动作迁移 第四阶 之 Champ 篇 — 只需要一个视频和一张图片,让图片人物动起来
      • 论文地址:https://arxiv.org/pdf/2403.14781
      • 介绍:利用SMPL模型作为3D人体参数模型来建立身体形状和姿势的统一表示。这有助于从源视频中准确捕捉复杂的人体几何形状和运动特征。
    • AiGC摩天大楼——第十五层 Ai 动作迁移第四阶之 —MusePose:用于虚拟人类生成的姿势驱动的图像到视频框架
      • Github 地址:https://github.com/TMElyralab/MusePose
      • 介绍:MusePose 是一种基于姿态引导的虚拟人视频生成框架。它属于腾讯音乐娱乐 Lyra 实验室的 Muse 开源系列的最后一个模块。通过与 MuseV 和 MuseTalk 的结合,MusePose 旨在实现一个具备全身运动和交互能力的端到端虚拟人生成愿景。
    • AiGC摩天大楼——第十五层 Ai 动作迁移第五阶之 — UniAnimate篇
      • Github 地址:https://github.com/ali-vilab/UniAnimate
      • 介绍:UniAnimate通过结合统一的视频扩散模型、统一的噪声输入和时间Mamba(一种状态空间模型),解决了现有方法在外观对齐方面的限制,提高了视频生成的质量和效率。
    • AiGC摩天大楼——第十五层 Ai 动作迁移第五阶之 — UniAnimate篇:论文解读
    • AiGC摩天大楼——第十五层 Ai 动作迁移第六阶之 — MimicMotion 篇 论文翻译
      • 文章地址:https://arxiv.org/abs/2406.19680
      • 介绍:MimicMotion 可以生成任意长度的高质量视频,模拟特定的运动指导。与以前的方法相比,MimicMotion方法有几个亮点:
    • AiGC摩天大楼——第十五层 Ai 动作迁移第六阶之 — MimicMotion 实战
    • AiGC摩天大楼——第十五层 Ai 动作迁移第七阶之 —RealisDance篇 论文翻译
      • 论文:RealisDance: Equip controllable character animation with realistic hands
      • paper : https://arxiv.org/abs/2409.06202
      • Github : https://github.com/damo-cv/RealisDance
      • 介绍: RealisDance通过适应性地利用三种姿势类型来避免由损坏姿势序列导致的生成失败。在这些姿势类型中,HaMeR提供了准确的手的3D和深度信息,使得RealisDance能够生成甚至对于复杂手势都十分逼真的手。除了在主UNet中使用时序关注外,RealisDance还在姿势指导网络中插入时序关注,平滑视频从姿势条件方面。
    • AiGC摩天大楼——第十五层 Ai 动作迁移第八阶之 — StableAnimator篇
      • 论文:StableAnimator: High-Quality Identity-Preserving Human Image Animation
      • 介绍:StableAnimator 基于先前工作的常用骨干模型 Stable Video Diffusion (SVD) 构建。用户输入的参考图像通过扩散模型经过三条路径处理。

    第十六层 Ai 虚拟试衣 篇

    • AiGC摩天大楼——第十六层 虚拟试衣—可控人物图像生成统一框架Leffa,可精确控制虚拟试穿和姿势转换!
      • 论文名称:Learning Flow Fields in Attention for Controllable Person Image Generation
      • 论文:https://arxiv.org/pdf/2412.08486
      • 代码:https://github.com/franciszzj/Leffa
      • 介绍:Leffa是一个可控人物图像生成的统一框架,可以精确操纵外观(即虚拟试穿)和姿势(即姿势转换)。从效果看生成效果很不错!
    • AiGC摩天大楼——第十六层 虚拟试衣—CatVTON:简单高效的虚拟试衣扩散模型
      • 论文名称:CatVTON: Concatenation Is All You Need for Virtual Try-On with Diffusion Models
      • Github 地址:https://github.com/Zheng-Chong/CatVTON
      • 介绍:CatVTON的核心创新在于其简洁而高效的设计理念。通过巧妙的网络结构设计和训练策略,CatVTON在保持高质量输出的同时,大幅降低了计算资源需求。这不仅使得模型更容易在普通硬件上运行,也为实时应用和移动设备部署铺平了道路。

    第十七层 数字人 篇

    • AiGC摩天大楼第十七层数字人—LivePortrait:高级AI肖像动画,配有拼接和重定向功能
      • 论文名称:LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control
      • 介绍:LivePortrait是由快手科技与中国科学技术大学和复旦大学合作开发的先进AI驱动的肖像动画框架。不同于主流的扩散方法,LivePortrait利用基于隐式关键点的框架,从单个源图像创建栩栩如生的视频动画。这种方法平衡了计算效率和可控性,使其成为多种应用的实用工具。
    • AiGC摩天大楼第十七层数字人—Hallo2 篇
      • 项目官网: fudan-generative-vision.github.io/hallo2
      • 介绍:复旦大学跟百度联手开发的Hallo2简直离谱,一张照片配上一段语音,直接能搓出4K清晰度的数字人视频,关键是能录一整个小时!
    • AiGC摩天大楼——第十七层 数字人——TANGO:声音驱动视频生成全身数字人
      • 论文名称:TANGO: Co-Speech Gesture Video Reenactment with Hierarchical Audio-Motion Embedding and Diffusion Interpolation
      • 介绍:目前已经有很多面部和唇形同步的数字人项目了,但大多只支持头像和上半身,现在终于有个类Heygen的开源全身数字人项目。TANGO是由东京大学和CyberAgent AI Lab共同研发的项目,它能根据目标语音音频生成同步全身手势的视频。只需提供一段肢体动作视频和目标语音音频,TANGO就能将两者合成制作出高保真度、动作同步的视频。
    • AiGC摩天大楼——第十七层 数字人—— EchoMimic:让数字人说话更自然,表情更生动
      • 论文名称:EchoMimic: Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditioning
      • 论文地址:https://arxiv.org/abs/2407.08136
      • 介绍:EchoMimic是阿里蚂蚁集团推出的AI数字人开源项目,赋予静态图像以生动语音和表情。通过深度学习模型结合音频和面部标志点,创造出高度逼真的动态肖像视频。不仅支持单独使用音频或面部特征生成视频,还能将两者结合,实现更自然、流畅的对口型效果。
    • AiGC摩天大楼——第十七层 数字人——V-Express 篇
      • 论文名称:V-Express: Conditional Dropout for Progressive Training of Portrait Video Generation
      • 论文地址:https://arxiv.org/abs/2406.02511
      • Github:https://github.com/tencent-ailab/V-Express/
      • 介绍:V-Express方法通过渐进式训练和条件退出操作来平衡不同的控制信号,逐渐实现弱条件的有效控制,从而实现同时考虑面部姿态、参考图像和音频的生成能力。
    • AiGC摩天大楼——第十七层 数字人—— wav2lip 篇
      • 论文:A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild
      • 论文地址:http://arxiv.org/abs/2008.10010
      • 介绍:Wav2Lip 是一种通过将音频与视频中的嘴唇动作同步的技术,旨在生成与音频内容高度匹配的口型动画。其主要应用是让视频中的人物嘴唇动作与配音或其他音频输入精确同步,这在电影配音、虚拟主持人、在线教学、影视后期处理等领域非常有用。

    第十八层 全模态理解 篇

    • AiGC摩天大楼第十八层全模态理解—Qwen2.5-Omni-7B:端到端全模态,小而强
      • 介绍:Qwen2.5-Omni,Qwen 模型家族中新一代端到端多模态旗舰模型。该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。
    • AiGC摩天大楼第十八层全模态理解—Megrez-3B-Omni: 首个端侧全模态理解开源模型
      • 论文:Megrez-3B-Omni: The First Open-Source End-Side Full Modality Understanding Model
      • Github 地址:https://github.com/infinigence/Infini-Megrez-Omni/tree/main
      • 介绍:Megrez-3B-Omni是由无问芯穹(Infinigence AI)研发的端侧全模态理解模型,基于无问大语言模型Megrez-3B-Instruct扩展,同时具备图片、文本、音频三种模态数据的理解分析能力
    • AiGC摩天大楼第十八层全模态理解—VITA-1.5:迈向GPT-4o级别实时视觉和语音交互
      • 论文:VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
      • 论文地址:https://arxiv.org/abs/2501.01957
      • Github 地址:https://github.com/VITA-MLLM/VITA
      • 介绍:VITA-1.5是首个开源交互式全模态大型语言模型的升级版本,显著提升了用户体验。该版本将语音交互延迟从4秒减少至1.5秒,增强了多模态性能,平均基准分数从59.8提高至70.8,同时语音识别的字错误率(WER)也降至7.5。通过逐步训练策略,VITA-1.5在保持视觉语言性能的同时,成功集成了语音处理能力。

    第十八层 Ai音乐生成 篇

    • AiGC摩天大楼第十九层 Ai音乐生成之DiffRhythm:可创作完整歌曲,支持文本转音乐和纯音乐生成,MacOS 上可运行!
      • 介绍:DiffRhythm是第一个能够创作完整歌曲的开源基于扩散的音乐生成模型。目前已经支持文本转音乐和纯音乐生成,可以在MacOS运行!该名称结合了“Diff”(参考其扩散架构)和“Rhythm”(强调其对音乐和歌曲创作的关注)。中文名称谛韵(Dì Yùn)在发音上与“DiffRhythm”相似,其中“谛”(专心聆听)象征着听觉感知,“韵”(旋律魅力)代表音乐性。DiffRhythm,这是第一个基于潜在扩散的歌曲生成模型,能够在短短十秒内合成长达 4 分 45 秒的完整歌曲,同时保持较高的音乐性和清晰度。尽管 DiffRhythm 功能强大,但它的设计却简单而优雅:它无需复杂的数据准备,采用简单的模型结构,推理时只需要歌词和风格提示。此外,它的非自回归结构可确保快速的推理速度。这种简单性保证了 DiffRhythm 的可扩展性。
    • AiGC摩天大楼第十九层 Ai音乐生成之FluxMusic: 基于Flux的高效文本到音乐生成系统
      • 论文:FluxMusic: Text-to-Music Generation with Rectified Flow Transformer
      • 论文地址:https://arxiv.org/abs/2409.00587
      • Github 地址:https://github.com/feizc/FluxMusic
      • 模型地址:https://hf-mirror.com/audo/FluxMusic/tree/main
      • 介绍:FluxMusic是一个创新的开源音乐生成模型,旨在将文本描述转换为高质量的音乐。该模型基于扩散模型和Transformer架构,能够处理复杂的文本指令,生成具有特定情感、风格和乐器的音乐。FluxMusic提供了从小型到巨型的不同规模模型,以适应各种硬件需求和应用场景。
    • AiGC摩天大楼第十九层 Ai音乐生成之InspireMusic
      • 论文名称:About InspireMusic: A Unified Framework for Music, Song, Audio Generation
      • 文章链接:https://arxiv.org/abs/
      • 介绍:InspireMusic是由通义实验室开源的音乐生成技术,旨在打造一款集音乐生成、歌曲生成、音频生成能力为一体的开源AIGC工具包。

    Python社区是高质量的Python/Django开发社区
    本文地址:http://www.python88.com/topic/183147
     
    25 次点击