社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

Grok图像理解功能上线,单挑ChatGPT结果惊人!无地标照片秒定位,18世纪手稿一眼识别

极市平台 • 1 周前 • 21 次点击  
↑ 点击蓝字 关注极市平台
来源丨新智元

极市导读

 

能识别并转录18世纪手稿、还能推测无地标照片拍摄地……马斯克本人也出来官宣:Grok现在能够理解图像了! >>加入极市CV技术交流群,走在计算机视觉的最前沿

就在刚刚,xAI为Grok增加了图像理解功能!

马斯克本人也出来官宣了,并称「Grok现在能够理解图像了,甚至还可以解释笑话」。

在马斯克举的例子中,Grok根据给出的这张meme图,从场景设置、笑话的前提、转折、幽默之处、额外的幽默层面、视觉笑点6个方面来解释了它。

这个笑话幽默地利用了对历史和科学的误解。以下是详细解释:


场景设置:漫画展示了两个守卫站在山丘上,周围有许多标着「物理学家」的尸体。守卫们在讨论这些物理学家是否真的死了,还是在装死。


笑话的前提:幽默来自第二个画面中的关键台词,一个守卫说「艾萨克·牛顿发明了重力」。这句话暗示了这些物理学家之所以不动(因此看起来像是死了),是因为重力的存在。而实际上,牛顿并不是「发明」了重力,而是用数学描述了它。


转折:笑话的关键在于,每次检查尸体时,这些尸体都会被「发现」。这讽刺了科学方法中的「观察与实验」,即通过观察来发现规律。


幽默之处:这个笑话结合了对科学历史的误解(牛顿没有发明重力,而是描述了它)和对科学发现的字面理解。那些人躺在那里不动是因为重力的作用,但每次检查时,守卫却当作是每次都在「发现」新东西,而不是认识到重力是他们不起来的原因。


额外的幽默层面:情境的荒谬性也增加了笑料。守卫们在一个检查尸体死活的场景里,用科学发现的术语,这种不恰当的应用增强了喜剧效果。


视觉笑点:尸体周围标有「发现」的标签,而守卫们认真地讨论这些人是否真的死了,还是因为重力在「装死」,这种视觉上的荒诞感也加强了笑话的幽默效果。


总体而言,漫画通过这种情景幽默讽刺了科学概念的误解或错误应用,同时还调侃了物理学家们对复杂理论的过度关注,以至于忽略了简单的现实状况。

不少网友调侃道:Grok比美国政客还要聪明有趣!甚至连它都知道什么是笑话。

但其实,这个笑话解释得太过复杂,让人云里雾里!

有网友在评论区补充了更恰当的解释:「真糟糕,我以为笑话是,物理学家们听到牛顿『发明了重力』忍不住要起来纠正,所以才停止装死...」

不少网友讨论道:

「是的,Grok的解释太过『高智商』以至于它重新变得愚蠢。」

「Grok解读太多毁了这个笑话!」

还有网友直言:「整个评论区都很奇怪,因为几乎没有人意识到Grok完全没理解这个笑话。那些知名的网红们都表现得像机器人一样。」

没想到马斯克本人出来官宣还闹了个乌龙!

不过,除了理解笑话还不太行,Grok倒是在其他的图像理解任务中展现出了不错的水平。

AI Breakfast发帖称:「Grok 2具有令人难以置信的OCR功能。它能够完美地转录这份几乎难以辨认的18世纪手稿文件。」

宾夕法尼亚大学沃顿商学院的副教授Ethan Mollick也发帖称赞了Grok的图像理解能力。

他将一张在日本大阪拍摄的照片传给Grok和GPT-4o,并让它们推测这张照片的拍摄地。据他所说,所有位置信息都从图像中删除,且没有可见的路标和广告牌。

GPT-4o回答道:「这张图片展示了一座大型工业起重机,位于水边,可能靠近一个港口或船厂。周围的建筑和起重机的结构表明,它可能位于一个具有大量海洋活动的城市的工业区。根据可见的细节,这个地点可能是在美国、日本或其他以重工业而闻名的沿海城市。」

在被要求进一步缩小范围的时候,GPT-4o能直接猜到是日本。

Grok也同样先分析了一遍照片的内容,最后捕捉到了照片中的「亚洲感」,给到「很可能是像日本、韩国或新加坡这样的亚洲船厂」的结论。

还有网友也分别给Grok和GPT-4o发了一张在葡萄牙首都里斯本拍摄的照片,让它们推测这张照片的拍摄地。

Grok回答道:

图片中的陶瓷作品的设计让人联想到传统的代尔夫特陶器,这是一种荷兰锡釉陶器,以其蓝白配色而闻名。这种风格与荷兰有着密切的关联。因此,这张照片很可能是在荷兰拍摄的,或者是在一个荷兰风格陶瓷流行的地方拍摄的。

GPT-4o回答道:

这张图片展示了一件陶瓷作品,其设计风格让人联想到传统的葡萄牙或荷兰陶瓷,尤其是蓝色花卉图案配以白色背景的设计。这种风格通常出现在葡萄牙(Azulejos)或荷兰(Delftware)。鉴于你位于里斯本,因此葡萄牙很可能是拍摄地点。

显然,ChatGPT完胜!但Grok的回答也不赖,已经十分接近正确答案。

不过目前,Grok还不能处理某些文件格式(例如PDF)。一名用户在马斯克的帖子下评论道:

「埃隆,Grok怎么回事?它无法处理照片或PDF,老实说,它在功能上感觉远远落后于ChatGPT。你曾对它进行了很多宣传,但作为用户,我可以告诉你:Grok需要重大改进。如果目标是设定一个新标准,它还远远不够。是时候让它赶上来了,你不觉得吗?」

马斯克回复说:「不久后就可以了。我们在几个月内完成的事情是其他人花费数年时间才能做到的。」

参考资料:

https://x.com/grok/status/1850808322074509434

https://x.com/AiBreakfast/status/1850961980892615161

https://x.com/emollick/status/1851025478833819947

https://x.com/MesutGenAI/status/1851048640472563798


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/175420
 
21 次点击