xbench – 红杉中国全新推出的人工智能性能评测工具，引领AI基准测试新潮流

xbench是什么

xbench是红杉中国推出全新的AI基准测试工具。基于双轨评估体系，构建多维度测评数据集，追踪模型的理论能力上限与Agent的实际落地价值。xbench用长青评估机制，动态更新测试内容，确保时效性和相关性。xbench首期推出的两个核心评估集分别是科学问题解答测评集和中文互联网深度搜索测评集。xbench致力于为AI技术突破与产品迭代提供科学、长效的评测指引，推动AI系统在真实场景中的效用价值提升。

xbench的主要功能

双轨评估：一方面评估AI系统的能力上限与技术边界，另一方面量化AI系统在真实场景的效用价值。
长青评估机制：动态更新测试内容，确保评估的时效性和相关性，避免题目泄露导致过拟合和评估失效，追踪模型能力演进，捕捉Agent产品迭代的关键突破。
核心评估集：推出xbench-ScienceQA（测试学科知识和推理能力）和xbench-DeepSearch（考察深度搜索能力）两个核心评估集，按季度或每月更新题目。
垂直领域智能体评测：构建与专家行为对齐的任务、执行环境与验证方式，如招聘和营销领域，标注任务经济价值，预设技术-市场契合点目标。
实时更新与LeaderBoard：实时更新评测结果，展示不同Agent产品在各评估集上的表现，为开发者和研究者提供参考。