耐力惊人!Anthropic 旗舰模型 Claude Opus4.5创下“长任务”处理新纪录
在追求大模型“高智商”的同时,AI 的持续执行能力正成为衡量其进化水平的新维度。根据人工智能研究机构

测试结果显示,
AIbase 注意到,虽然测试数据中出现了模型理论上可连续工作超过20小时的数值,但
然而,也有专家对该测试的局限性提出了质疑。目前 METR 仅涵盖了14个样本,且有观点认为这种基准测试可能被模型针对性地“刷分”。但不可否认的是,
在追求大模型“高智商”的同时,AI 的持续执行能力正成为衡量其进化水平的新维度。根据人工智能研究机构

测试结果显示,
AIbase 注意到,虽然测试数据中出现了模型理论上可连续工作超过20小时的数值,但
然而,也有专家对该测试的局限性提出了质疑。目前 METR 仅涵盖了14个样本,且有观点认为这种基准测试可能被模型针对性地“刷分”。但不可否认的是,
发表评论