1233资讯网

2025-05-13 23:42:57

Absolute Zero - 清华大学及其合作机构开创的高效语言模型推理训练新策略

Absolute Zero是什么

Absolute Zero是清华大学 LeapLab 团队联合北京通用人工智能研究院 NLCo 实验室和宾夕法尼亚州立大学推出的全新语言模型推理训练方法。Absolute Zero基于模型自我提出任务自主解决，实现自我进化式学习，无需依赖人类标注数据或预定义任务。模型在提出任务时获得可学习性奖励，在解决问题时获得解答奖励，基于与环境交互不断优化自身推理能力。Absolute Zero的核心在于推动推理模型从依赖人类监督向依赖环境监督转变，让模型用真实环境的反馈生成可验证的任务提升性能。

Absolute Zero

Absolute Zero的主要功能

任务自主生成：模型自主提出具有可学习性的任务，任务不过于简单，也不过于复杂，能为模型提供有效的学习信号。
任务自主解决：模型作为求解者，尝试解决自己提出或生成的任务，基于环境反馈验证解答的正确性。
推理能力提升：不断提出和解决任务，模型的推理能力（如归纳、演绎、溯因等）得到持续增强。
跨领域泛化：模型基于自我学习获得的通用推理能力，迁移到新的任务和领域中。
零数据训练：完全不依赖人工标注数据或人类设计的任务，基于与环境的交互和反馈进行学习。

Absolute Zero的技术原理

双重角色模型：模型同时扮演任务提出者（Proposer）和任务求解者（Solver）两个角色。提出者生成任务，求解者尝试解决任务，两者共享模型参数同步优化。
环境反馈机制：模型与环境（如代码执行器）交互，环境验证任务的可解性提供反馈。提出的任务获得可学习性奖励（基于任务的难度和模型的解答成功率），求解的任务获得解答奖励（基于解答的正确性）。
强化学习优化：用强化学习算法（如TRR++）优化模型参数，结合可学习性奖励和解答奖励，实现多任务下的自我进化学习。
推理模式支持：支持三种基本推理模式，演绎（Deduction）、溯因（Abduction）和归纳（Induction）。每种推理模式对应不同的任务类型，模型解决这些任务提升特定推理能力。
自博弈闭环：模型不断提出新任务、求解任务，根据环境反馈更新策略，形成一个闭环的自博弈学习过程。闭环机制确保模型持续优化自身能力，无需外部数据支持。

Absolute Zero的项目地址

项目官网：https://andrewzh112.github.io/absolute-zero-reasoner/
GitHub仓库：https://github.com/LeapLabTHU/Absolute-Zero-Reasoner
HuggingFace模型库：https://huggingface.co/collections/andrewzh/absolute-zero-reasoner
arXiv技术论文：https://www.arxiv.org/pdf/2505.03335

Absolute Zero的应用场景

通用人工智能（AGI）：推动模型自主学习和进化，逐步接近人类智能水平。
代码生成：自动生成高效代码，解决复杂编程问题，提升开发效率。
数学推理：提升模型在数学问题上的泛化能力，辅助数学教育和研究。
自然语言处理（NLP）：基于自我学习提升语言理解和生成能力，优化文本生成和问答系统。
安全与伦理：研究AI自主进化中的行为模式，确保系统安全性和伦理性。

发表评论取消回复