科学家打造iLLM-TSC新框架，结合大模型和机器学习，能用于控制交通信号灯

当前，全球城市地区车辆数量的增加显著影响了出行效率，增加了交通事故，加剧了环境污染。因此，如何减少交通拥堵是城市治理中的一个关键问题。

而智能交通系统旨在通过优化控制和调度决策来提高运输效率。智能交通信号控制系统，则是其中的重要一环。

图 1 | 车辆、路边单元和基站之间的通信过程（来源：资料图）

为了应对传统智能交通信号控制方法的局限性，近期很多研究使用强化学习利用交叉口的实时传感器数据进行决策。

强化学习能够从数据中学习，并能动态调整控制策略以便适应实时交通的变化，在单个交叉口和多个交叉口场景中均有出色表现。

然而，大多数将强化学习用于智能交通信号控制的现有研究，往往都是假设观测完美且没有通信问题，而这与现实情况明显不符。

如图 1 所示，车辆、路边单元和基站之间的通信过程可能会遇到数据包延迟、丢失和噪声等问题，这些问题可能降低强化学习模型的性能，甚至危及交通安全。

此外，现有的基于强化学习的信号灯控制类研究很少考虑长尾场景的处理，比如很少考虑到涉及紧急车辆的情况。

而这会削弱强化学习方法在实际应用中的可靠性，给强化学习在智能交通信号控制中的实际部署带来了重大障碍。

大模型被视为是通用人工智能的原型，并被认为是解决智能交通信号控制算法适应动态环境问题的潜在解决方案。

然而，尽管大模型的泛化能力很强，也在相关测试中有着出色表现，但其性能在特定问题上仍不尽如人意，因为它们没有基于特定环境进行策略学习。

相比之下，强化学习模型可以有效地从特定环境的交通数据中学习策略。

因此，在近期一项研究中，香港中文大学（深圳）潘文安教授带领的智慧城市感知与通信实验室，希望利用强化学习和大模型的协同作用来实现更好的性能。

图 | 该团队的博士生、本次研究主要参与者之一的庞奥宇（来源：庞奥宇）

为了增强智能交通信号控制系统对环境变化的泛化能力，同时有效处理诸如数据包丢失或紧急车辆存在等各种紧急情况，他们结合强化学习和大模型提出了一种名为 iLLM-TSC（i large language model-traffic signal control）的新框架。

具体而言，iLLM-TSC 框架利用强化学习智能体基于环境的观测做出初步决策，从而发挥其从特定环境中学习的能力。

随后，大模型通过结合强化学习智能体基于策略给出的指令和环境信息（如环境中是否存在紧急车辆）来优化强化学习的决策。

大模型与强化学习的结合可以增强系统对环境的适应性，使智能交通信号控制系统在正常条件下保持高效性能，并在长尾或通信退化场景中表现出更强的鲁棒性。

图 2 | 模型结构图（来源：资料图）

总的来说，这一成果可以提高交通灯控制模型的效率和可靠性。让信号灯控制模型可以更好的适应多变的现实环境。

在其他强化学习的应用场景中，也可以用到类似的框架，比如让强化学习来处理常规情况，同时让大模型来处理特殊情况。

这样一来既能保证强化学习的效率，又可以对新的环境产生较好的适应性，从而提高强化学习模型对实际场景的适应能力。

日前，相关论文以《ILLM-TSC：集成强化学习和交通信号控制的大型语言模型政策改进》（ILLM-TSC: INTEGRATION REINFORCEMENT LEARNING ANDLARGE LANGUAGE MODEL FOR TRAFFIC SIGNAL CONTROLPOLICY IMPROVEMENT）为题发在 arXiv[1]。

图 | 相关论文（来源：arXiv）

目前，课题组只是基于 iLLM-TSC 做了初步研究，证明可以结合大模型和强化学习来对信号灯进行控制，但并没有深入去研究大模型是否可以理解强化学习如何作出决策。而如果可以实现反向推导，这将有助于设计更好的模型。

同时，本次研究只是初步借鉴了大模型基于常识的思考能力，但其对于一些特殊问题的理解能力依然是有限的。而能否针对性地微调甚至训练离线大模型，也是他们正在思考的新计划。

此外，目前的数据获取仍然基于摄像头拍照的方法，该团队也在思考能否将视觉大模型比如将视觉中间件模型（VIM，Vision Middleware）融入到闭环的训练和控制之中。

参考资料：

1.https://arxiv.org/pdf/2407.06025

运营/排版：何晨龙