
图片来源:元戎启行
VLA模型即视觉—语言—动作模型,是元戎启行在端到端模型基础上引入大语言模型后升级而成的多模态模型,可理解交通场景中复杂交互事件,识别异形障碍物,理解文字信息并且可以根据语音指令做出对应驾驶决策。
目前,元戎启行已完成该模型的真实道路测试。其中,VLA模型支持激光雷达方案与纯视觉方案,将率先搭载在NVIDIA Drive Thor芯片上,后续元戎启行还将通过技术优化,让VLA模型可以适配更多芯片平台。
此次VLA模型的发布,展示了其四大核心功能,即空间语义理解、异形障碍物识别、文字类引导牌理解和语音控车。

图片来源:元戎启行
具体来看,空间语义理解功能相当于驾驶“透视眼”,能够全维度解构驾驶环境,精准破解桥洞通行、公交车遮挡视野等动静态驾驶盲区场景驾驶风险;异形障碍物识别功能如同驾驶 “百事通”,可识别各种异形障碍物;文字类引导牌理解功能能准确理解并执行文字指示;语音交互控车功能则如同驾驶 “应答灵”,可与用户高效交流,根据语音指令做出对应驾驶决策,交互更拟人。
元戎启行CEO周光强调,VLA模型是实现物理世界agent的关键技术,可连接多种模态,打通物理世界与数字世界壁垒,具有完善任务规划和执行能力,此次与火山引擎合作将推动双方技术在多领域落地,促进生产力进阶。
VLA模型的量产上车,将为消费者带来更智能、便捷和安全的驾驶体验,推动汽车产业向智能化进一步转型,也有望重塑智能驾驶市场格局,助力元戎启行在自动驾驶领域取得更大市场份额和竞争优势,为行业发展树立新标杆,开启智能驾驶新时代。