LLM是世界模型的新证据？ChatGPT能理解WiFi等物理信号，并猜出你的位置

CVer祝大家龙年快乐！重磅福利！CVer学术星球春节优惠券来了！为了感谢大家的支持，现在赠送10张50元新用户优惠券(下图左边二维码)，10张20元老用户续费券(下图右边二维码)，龙年坚持分享更多更好的工作，寒假不停更！助力你的科研和工作！顺利毕业升学，升职加薪！

大语言模型是否是世界模型？

大语言模型除了在数字世界完成如写作或翻译等任务，它们能否理解并处理物理世界中的信息并进而完成更广泛的任务呢？

最近来自香港科技大学（HKUST）、南洋理工大学（NTU）与加利福尼亚大学洛杉矶分校（UCLA）的研究者们提供了新的思路：他们发现大语言模型如 ChatGPT 可以理解传感器信号进而完成物理世界中的任务。该项目初步成果发表于 ACM HotMobile 2024。

论文标题：Penetrative AI: Making LLMs Comprehend the Physical World
论文地址：https://arxiv.org/abs/2310.09605
项目网站：https://dapowan.github.io/wands_penetrative-ai/

在讨论大型语言模型（LLMs）与物理世界互动的议题时，大家或许更熟悉的是将其应用于图像或音频数据处理，例如视觉语言模型（VLMs）。但在真实物理世界中，除了这些人类依赖的感知数据外，还存在诸多其他重要的物理量，如温度、气压、加速度、电压及电磁波信号强度等等。

因此，该研究团队从一个更广的视野出发，探索了大型语言模型理解这些物理量的可能性。他们发现了大语言模型新的能力 —— 处理物理信号进而理解世界，并基于此提出了渗透式人工智能（Penetrative AI）的概念。

研究者们首先尝试让 ChatGPT 来处理手机传感器（加速计、卫星和 WiFi）信号来感知用户在现实世界的活动与位置语义，流程与部分实验结果如下图所示：

研究团队在多种真实场景中采集手机传感器信号，并让 ChatGPT-4 分析采集的数据（图中绿色部分）。研究发现 ChatGPT 能够准确地识别用户的行为和所处环境。

在第一项实验中，模型通过分析特定 WiFi 名称（SSID），如「WiFi.HK via EPCC」和「3DG Jewellery」，成功推理用户很有可能在香港某商场。

接下来，研究团队进一步挑战让 ChatGPT 处理心电图（ECG）数据来推算心率。每次心跳都会在 ECG 数据上形成明显的波峰，即所谓的 R-peak。

在这一任务中，ChatGPT 的目标是识别出所有的 R-peak 峰值，以此来计算心率。不同于之前的任务，传感器数据在此任务中完全以纯数字序列的形式提供给模型，如下图所示：

初步实验发现，大语言模型如 ChatGPT 无法有效地直接处理长数字序列信号。面对此挑战，研究者在 Prompt 中为大语言模型设计了一个基于自然语言的「算法」以引导其分析数字信号。

与传统算法不同，该「算法」包含许多模糊逻辑（如「overall」和「lower」等词汇），且无需设定任何阈值。

实验结果显示，ChatGPT-4 能有效利用「算法」在绝大多数情况下准确识别出ECG信号中所有R-peaks，其精度甚至能超越相同实验设置下的传统信号处理算法。

渗透式人工智能

开启 AI 和物理世界交互新篇章

定义

研究团队于是提出了一个创新性的概念，渗透式人工智能（Penetrative AI）：利用大语言模型内嵌的世界知识来理解和处理广泛部署的物联网（IoT）传感器或控制器信号，来为物理信息系统（Cyber–Physical System，CPS）完成感知与决策任务。

该研究总结了渗透式人工智概念下感知事物的简易流程。在这一新范式下，大语言模型的输入和输出都对应真实的物理信号或状态。例如，让语言模型处理温度计捕获的温度信号，并生成与物理状态相对应的描述性文本 ——「水沸腾了」。随着任务复杂度的增加，向模型中注入专家知识（Expert Knowledge）可以增强其处理复杂数据的能力。

核心特点

与传统范式相比，渗透式人工智能的独特之处在于利用大语言模型中的通用知识。传统方法依赖于专家对物理世界的观察和规则制定，或通过大数据集训练的机器学习模型。而渗透式智能则基于大语言模型中的通识，通过与额外观察或专家模型的协作，为物理信息系统提供更全面的知识支持。

这种新的智能范式利用大量文本数据衍生的通识，不仅能增强系统的泛化能力，而且也能降低对领域知识的依赖。得益于大型语言模型的特性，开发者主要通过编辑文本进行操作，这相比传统的编程方式，可降低开发的难度和成本。该范式也可以利用文本这一通用表征，将不同传感器信号文本化再整合，呈现新的多模态融合方式。

深度探索

研究团队从信号处理的角度出发，深入探讨了大语言模型在处理不同类型信号时的能力，分为文本层次渗透和数字层次渗透两大层次，如上图所示：

文本层次渗透（Textualized-level Penetration）：大语言模型主要处理文本形式的信号，例如文本化的温度信号，或第一个示例应用中大模型分析的 WiFi 名称。
数字层次渗透（Digitized-level Penetration）：大语言模型主要处理数字形式的信号，例如温度数字信号，或第二个示例应用中大模型分析的 ECG 数字信号。

前文两个示例应用均展示了大型语言模型如 ChatGPT 在两个层次的潜能。相较于文本层次的渗透，大语言模型在数字层次渗透中可以处理更细致的信号信息，但也对其解析信号能力提出了更高要求，任务难度也随之增大。

小结

该研究提出了「渗透式人工智能」（Penetrative AI）的概念，透过两个具体的应用实例，展示了大型语言模型（LLM）如何利用其丰富的知识库，在不同信号层面上理解和处理物理信号，从而实现对现实世界的深度感知和有效干预的潜能。此研究也说明大语言模型如 ChatGPT-4 可能已经发展出世界模型，对物理世界有深入的理解。

渗透式智能不仅扩展了大型语言模型的应用领域，而且为 AI 在医疗、环境监测、家庭自动化等多个领域的应用提供了新的智能化解决方案。

如想进一步了解渗透式人工智能的定义、潜力、所面临的挑战和机遇，以及应用实例设计细节，欢迎阅读原论文。

参考文献

[1] Huatao Xu, Liying Han, Qirui Yang, Mo Li, Mani Srivastava. ”Penetrative AI: Making LLMs Comprehend the Physical World”, Proceedings of the 25th International Workshop on Mobile Computing Systems and Applications. 2024.

CVer祝大家龙年快乐！重磅福利！CVer学术星球春节优惠券来了！为了感谢大家的支持，现在赠送10张50元新用户优惠券(左图领取)，10张20元老用户续费券(右图领取)，龙年坚持分享更多更好的工作，寒假不停更！助力你的科研和工作！顺利毕业升学，升职加薪！

计算机视觉技术交流群成立

扫描下方二维码，或者添加微信：CVer444，即可添加CVer小助手微信，便可申请加入CVer-计算机视觉微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。

一定要备注：研究方向+地点+学校/公司+昵称（如目标检测+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群




    
▲扫码或加微信号: CVer444，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号



    
整理不易，请点赞和在看