社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Git

Manus引爆3D视觉!几分钟将2D图片转为3D模型!上线3天Github已5.3k!

3D视觉工坊 • 5 月前 • 124 次点击  

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「3D视觉从入门到精通」知识星球(点开有惊喜),星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程最新顶会论文、计算机视觉书籍优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

明敏 克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

一句话提示,Claude自动化打开Blender将2D图片转为3D建模。

图片

整个过程行云流水。

而且还能只用一次提示词,再基于这个场景搭建可以互动的网页。

图片

背后关键还是最近大火的MCP(Model Context Protocol)——复刻Manus的重要诀窍。

将这套协议和Blender打通,即可获得如上效果。

让原本人工几小时才能搞定的建模工作,如今缩短到几分钟,还不用人插手。

该开源项目BlenderMCP,上线短短3天,GitHub标星已达3.8k。

图片

而且它整出来的建模效果可信任,有人亲测表示,让它设计火星地形,Claude可以自己处理错误和问题,并且会告知人类。

图片

怪不得有人看了直呼:人类已经不太需要设计工具了,amazing!

图片

AI+应用工具正在变强大。

图片

值得一提的是,这种方案可以复刻到其他开源专业工具上。

比如有人已经实现了MCP+QGIS(地理版“PS”),用Claude自动化做感应映射。

图片

“Blender/Cursor都可MCP”

简单理解,BlenderMCP就是将Blender连接到Claude,允许Claude直接和Blender交互并控制Blender。

基于BlenderMCP还能完成许多事。

比如创建一个由龙守卫一罐黄金的地牢场景。

提示词:Create a low poly scene in a dungeon, with a dragon guarding a pot of gold.

图片

这个过程里,指令遵循效果不错。

特意强调了low poly(低多边形),最后搭建的成果里龙和罐子都是圆滚滚的。

图片

还能去搭建逼真的海滩场景。

图片

提示词:Create a beach vibe using HDRIs, textures, and models like rocks and vegetation from Poly Haven.

这条指令要求利用来自Poly Haven的HDRIs、纹理以及岩石、植被等来建模海滩。

Poly Haven是一个免费开源的3D资源网站,可以看到Claude能够直接自己去下载使用资源。

图片

其余可以尝试的能力还有:

    • “把这辆车涂成红色并带有金属质感” 

    • “创建一个球体并将其置于立方体上方” 

    • “把灯光设置成摄影棚的效果” 

    • “将相机对准场景,并使其呈等距视角”

作者在项目页中介绍,BlenderMCP能实现的能力包括创建、修改和删除3D对象;使用、修改材料和颜色;场景检查以及代码执行。

这个系统主要由两部分组成,Blender Addon和MCP Server。

前者是一个Blender插件,可以在Blender中创建一个接受和执行命令的服务器。后者就是用来实现MCP。

具体安装办法,作者已经完全开源到GitHub上。

图片

除了将MCP接入到Blender,网友们还在尝试用它升级各种工具。

甚至是AI编程软件,也会因为使用MCP后变得更加自动化。

有人在Cursor上使用MCP协议同时接入了Slack和GitHub,完成了一次新功能开发。

图片

配置好插件并完成认证后,Cursor通过MCP自动读取了Slack中的需求文档,然后从GitHub中拉取代码,并自动完成新功能的编写和上传。

这套操作利用的是一个名为Composio的机构提供的MCP服务,在Cursor中可以通过链接直接配置。

图片

还有GitHub、谷歌搜索、邮箱、地图……都被Composio做成了MCP服务。

图片

除了Composio,还有MCP爱好者自行建立了MCP社区,提供了海量的开源server和client资源。

比如这个MCP服务,可以检索arXiv中的论文,按照教程配置好之后就可以在Claude客户端里直接找论文了。

图片

有意思的是,大模型也是可以被“MCP服务化”的,比如让服务器通过OpenAI兼容API调用其他模型。

图片

甚至是把DeepSeek-R1接入到Claude当中也不是问题。

图片

MCP为啥真强大?

MCP是一种通信协议,是Anthropic提出的,现在Anthropic把它比喻成AI应用的Type-C接口。

图片

并且Anthropic已经打算牵头把MCP协议推动成行业开放标准。

实现大模型应用与外部数据源和工具之间的无缝集成,帮助AI获得所需的上下文数据,生成质量更高、与任务更相关的回答。

图片

MCP主要解决的是全球应用玩家们都面临着的一个相同的痛点——数据隔离。

它就像AI系统与数据源之间的一座桥梁,允许开发者在数据源和AI工具之间建立双向连接。

MCP采用客户端-服务器架构,多个服务可以连接到任何兼容的客户端。客户端可以是Claude Desktop、IDE或其他AI工具,服务器则充当适配器,暴露数据源。

其优势在于,以后不管是访问本地资源(数据库、文件、服务),还是访问远程资源(如Slack、GitHub API),都能用同一个协议

而且支持的数据形式非常多样,包括文件内容、数据库记录、API响应、实时系统数据、屏幕截图和图像、日志文件等,几乎覆盖了所有类型。

MCP服务器还内置了安全机制,允许服务器自己控制资源,不用把API密钥交给大模型。

图片

根据服务来源,MCP主要采用通信机制,本地通信时采用标准输入输出,远程通信则通过SSE进行

这两种通信方式中的消息,都采用了JSON格式进行消息传输,使得MCP通信过程能够标准化,并带来了可扩展性。

看上去MCP能够调用的服务多而复杂,但实际上开发过程非常简单。

发布时官方公告就明示,当时最新的Claude 3.5 Sonnet自己就非常擅长架设MCP服务器,直接完成闭环。

图片

强大的调用能力、方便的开发流程,又背靠Anthropic,并且也获得了开源社区的关注,MCP似乎有望像Anthropic设想的一样,成为一种未来的AI标准。

但真能如此吗?

持观望态度or悲观态度的人,其实也不少。

最近知名开源大模型框架LangChain官方也在X上进行了一次投票。

40.8%的人认为MCP是未来标准,而更多人觉得还得再看看。

图片

包括在LangChain内部,也出现了一些分歧。

CEO觉得,MCP降低了Agent接入工具的门槛。

创始工程师则认为,具体到工程层面,还会产生很多定制化需求,很多情况MCP不能完全发挥作用。

MCP要变成像OpenAI的GPTs那样,才能配得上它的热度,但实际上GPTs似乎也没有多受欢迎。

图片

你觉得呢?MCP会是昙花一现吗?

欢迎评论区留言讨论~

GitHub地址:

https://github.com/ahujasid/blender-mcp?tab=readme-ov-file

参考链接:
[1]
https://x.com/bilawalsidhu/status/1900240156826939560
[2] https://x.com/bilawalsidhu/status/1900632591516008599
[3]https://x.com/mattpocockuk/status/1898789901824590328
[4]https://x.com/KaranVaidya6/status/1898439847322525963
[5]https://blog.langchain.dev/mcp-fad-or-fixture/

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉最前沿工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有求职硬件选型视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球(点开有惊喜),已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球
3D视觉工坊官网:www.3dcver.com

卡尔曼滤波、大模型、扩散模型、具身智能、3DGS、NeRF结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制无人机仿真C++、三维视觉python、dToF、相机标定、ROS2机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

长按扫码学习3D视觉精品课程


3D视觉模组选型:www.3dcver.com

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~ 

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/180108
 
124 次点击