Absolute Zero - 清华大学及其合作机构开创的高效语言模型推理训练新策略

Absolute Zero是什么

Absolute Zero是清华大学 LeapLab 团队联合北京通用人工智能研究院 NLCo 实验室和宾夕法尼亚州立大学推出的全新语言模型推理训练方法。Absolute Zero基于模型自我提出任务自主解决,实现自我进化式学习,无需依赖人类标注数据或预定义任务。模型在提出任务时获得可学习性奖励,在解决问题时获得解答奖励,基于与环境交互不断优化自身推理能力。Absolute Zero的核心在于推动推理模型从依赖人类监督向依赖环境监督转变,让模型用真实环境的反馈生成可验证的任务提升性能。

Absolute Zero

Absolute Zero的主要功能

  • 任务自主生成:模型自主提出具有可学习性的任务,任务不过于简单,也不过于复杂,能为模型提供有效的学习信号。
  • 任务自主解决:模型作为求解者,尝试解决自己提出或生成的任务,基于环境反馈验证解答的正确性。
  • 推理能力提升:不断提出和解决任务,模型的推理能力(如归纳、演绎、溯因等)得到持续增强。
  • 跨领域泛化:模型基于自我学习获得的通用推理能力,迁移到新的任务和领域中。
  • 零数据训练:完全不依赖人工标注数据或人类设计的任务,基于与环境的交互和反馈进行学习。

Absolute Zero的技术原理

  • 双重角色模型:模型同时扮演任务提出者(Proposer)和任务求解者(Solver)两个角色。提出者生成任务,求解者尝试解决任务,两者共享模型参数同步优化。
  • 环境反馈机制:模型与环境(如代码执行器)交互,环境验证任务的可解性提供反馈。提出的任务获得可学习性奖励(基于任务的难度和模型的解答成功率),求解的任务获得解答奖励(基于解答的正确性)。
  • 强化学习优化:用强化学习算法(如TRR++)优化模型参数,结合可学习性奖励和解答奖励,实现多任务下的自我进化学习。
  • 推理模式支持:支持三种基本推理模式,演绎(Deduction)、溯因(Abduction)和归纳(Induction)。每种推理模式对应不同的任务类型,模型解决这些任务提升特定推理能力。
  • 自博弈闭环:模型不断提出新任务、求解任务,根据环境反馈更新策略,形成一个闭环的自博弈学习过程。闭环机制确保模型持续优化自身能力,无需外部数据支持。

Absolute Zero的项目地址

  • 项目官网:https://andrewzh112.github.io/absolute-zero-reasoner/
  • GitHub仓库:https://github.com/LeapLabTHU/Absolute-Zero-Reasoner
  • HuggingFace模型库:https://huggingface.co/collections/andrewzh/absolute-zero-reasoner
  • arXiv技术论文:https://www.arxiv.org/pdf/2505.03335

Absolute Zero的应用场景

  • 通用人工智能(AGI):推动模型自主学习和进化,逐步接近人类智能水平。
  • 代码生成:自动生成高效代码,解决复杂编程问题,提升开发效率。
  • 数学推理:提升模型在数学问题上的泛化能力,辅助数学教育和研究。
  • 自然语言处理(NLP):基于自我学习提升语言理解和生成能力,优化文本生成和问答系统。
  • 安全与伦理:研究AI自主进化中的行为模式,确保系统安全性和伦理性。

发表评论