
苹果的自博弈技术类似于自对抗生成网络(GAN),通过智能体与自我的副本或历史版本博弈实现进化。在自动驾驶领域,苹果设计了极简的奖励函数,无需真实数据,而是生成大规模的模拟数据,让多个智能体在地图上进行自博弈,实现算法进化。这种方法的优势在于速度快、成本低,依靠公共云上的8张A100,苹果每小时可模拟和学习44亿次状态转移,相当于720万公里的驾驶经验,速度比利用真实数据快了36万倍。

苹果的自博弈技术类似于自对抗生成网络(GAN),通过智能体与自我的副本或历史版本博弈实现进化。在自动驾驶领域,苹果设计了极简的奖励函数,无需真实数据,而是生成大规模的模拟数据,让多个智能体在地图上进行自博弈,实现算法进化。这种方法的优势在于速度快、成本低,依靠公共云上的8张A100,苹果每小时可模拟和学习44亿次状态转移,相当于720万公里的驾驶经验,速度比利用真实数据快了36万倍。