
本次入选的研究成果涵盖多模态推理、强化学习、GUI Agent、端到端自动驾驶及音频生成等前沿方向,共计11篇论文。在多模态推理领域,Shuffle-R1框架通过数据层面的动态重组显著提升强化学习训练效率,解决优势坍缩和轨迹沉默等长期难题;ThinkOmni框架则实现将文本推理能力零成本迁移至全模态场景。在GUI Agent方向,MobileIPL框架通过迭代偏好学习增强移动智能体的思考过程,在多个主流基准上取得SOTA成绩;SMAN-Bench构建了跨系统、多维度的移动Agent评估基准,解决在线环境不稳定与离线轨迹单一的评测难题。
自动驾驶相关研究占据重要比重。ReCogDrive提出融合视觉语言模型、扩散式轨迹规划与强化学习的端到端自动驾驶框架;WorldSplat实现前向4D驾驶场景生成,解决3D一致性与新视角合成难题;Dream4Drive框架重新审视世界模型在感知任务中的应用价值,证明高质量合成数据而非数据规模是提升感知性能的关键。此外,FutureMind为小语言模型注入战略性思维先验,Flow2GAN提出混合流匹配与GAN的音频生成框架,DIPOLE算法实现稳定可控的扩散策略优化。

CONTACT US
ICC APP