• 登录
  • 注册
  • 帮助中心

硅谷知名科技播客主持人 Dwarkesh Patel 提出了一个关于人工智能下一代训练模式的疑问。这位年仅 25 岁的播客主,因其 Dwarkesh Podcast 迅速在 AI 领域崭露头角,采访了 Ilya Sutskever、Andrej Karpathy 等众多行业领袖,并被《TIME》杂志评为 2024 年 TIME100 AI 榜单成员。

在最新的播客节目中,Patel 总结了当前前沿 AI 实验室正在探索的一条关键路径,即“RLVR”(Reinforcement Learning with Verifiable Rewards,可验证奖励强化学习)。这种方法让模型在大量能够自动判定对错的任务中进行反复试错,以培养其规划、纠错、迭代和长期执行的能力。当前代码和数学等领域的快速发展,很大程度上就是得益于此思路。

然而,Patel 深入探讨了一个核心问题:仅仅依靠“可验证任务训练”是否足以支撑下一代 AI 的发展?他认为可能不足够,因为任务除了“可验证”之外,还必须具备“可刷性”,即“grindability”,或者说“可大规模部署的能力”。代码和数学任务便是典型的“可刷”任务,可以通过并行复制训练环境,让大量代理(agent)同时尝试,效率极高。

Patel 指出,AI 在使用电脑这类任务上的进展相对较慢,尽管其结果同样是可验证的。问题在于,这类任务难以被大规模复制和回放。例如,无法轻易地让成千上万个代理同时在真实的电商网站上进行结账流程测试,因为真实网站会识别并封禁机器人。虽然可以构建模拟器,但这在当前阶段成本高昂且扩展性差。因此,AI 在某个领域的快速进步,不仅在于答案的可验证性,更在于该领域能否被包装成易于复制、回放和并行试错的训练环境。

Patel 进一步将讨论引向了更复杂的现实世界场景,例如训练 AI 进行创业、赢得官司、在市场中稳定盈利或帮助候选人赢得选举。这些任务虽然最终结果可判断,但面临反馈周期长、变量多、环境不可重置且难以在数据中心复制等挑战。这类环境在强化学习中被称为“reset-free, non-stationary”,即不能随意重置且环境本身在不断变化。

Patel 质疑,通过 RLVR 在“可验证且可刷”环境中训练出的代理,能否真正泛化到这些复杂的现实世界任务。他认为,真实世界中最有价值的知识往往并非以清晰、可验证、可重复的方式呈现,而是隐藏在模糊的客户反馈、失败的会议、隐性流程或真实的失败模式中。模型要掌握这些知识,需要更高的样本效率,而不仅仅是“刷题”。

这引出了他所强调的关键点:“learning back to the weights”,即学习过程应重新写入模型权重。当前大模型擅长“in-context learning”,能在长上下文中理解信息并临时适应需求,但这种学习大多停留在会话窗口内,会话结束后模型可能并不真正“长记性”。Patel 认为,模型在真实部署后获得的经验,如用户反馈、实际操作中的错误,才是宝贵的训练信号,但如果这些经验无法沉淀回模型权重,就只是短暂的适应,而非能力的长期增长。他以人类学习为例,指出人不是靠记住所有细节变强,而是将经历压缩成判断力、直觉和流程理解。

他提出了两种可能解决这一问题的训练范式:

  1. On-policy self-distillation (OPSD):让一个在长会话中积累了大量经验的模型充当“教师”,训练基础模型在没有完整上下文的情况下也能做出类似判断。这意味着将模型在真实任务中学到的东西蒸馏回其权重,这与简单的 SFT 不同,它关注的是提炼关键洞见而非复述细节。OPSD 的优势在于不一定需要外部可验证奖励,且能提供更密集的监督信号。

  2. Dreaming:AI 根据真实世界观察,自行构建模拟环境进行反复练习。例如,AI 在观察到公司业务流程后,会构造一个该流程的“游戏版模拟环境”,并在其中测试不同策略,最后将模拟练习的经验压缩回模型。这可能成为 AI 的第四个扩展维度——“test-time training”。

Patel 设想,未来的训练流程可能是:首先通过 RLVR 训练出具备基本能力的 agent;然后将其部署到真实世界执行任务,与用户连续工作;任务结束后,用户评价将成为模型将学到的经验(通过 OPSD 或 dreaming 等技术)蒸馏回基础模型的依据。一旦这条路径跑通,AI 的能力边界将不再受限于最初的可验证任务,而是可以通过真实部署持续学习和扩展。

他认为,AI 进步的主要来源将发生变化:从发布前训练转向发布后学习,从依赖人类数据转向积累环境经验,从上下文中的临时适应转向权重中的长期能力。未来最重要的 AI 训练数据,将是 AI 在真实世界中完成真实任务时自身积累的经验。

返回顶部