Anthropic发布《人工智能经济指数报告》中文版PDF文档(第38页内容分析)

哪些经济任务是通过人工智能完成的?来自数百万次 Claude 对话的证据

作者

Kunal Handa*, Alex Tamkin*, Miles McCain, Saffron Huang, Esin Durmus

Sarah Heck, Jared Mueller, Jerry Hong, Stuart Ritchie, Tim Belonax, Kevin K. Troy

Dario Amodei, Jared Kaplan, Jack Clark, Deep Ganguli

Anthropic

摘要:

尽管关于人工智能对未来工作影响的讨论广泛存在,但我们缺乏关于这些系统如何被用于不同任务的系统性实证证据。本文提出了一个用于衡量经济中人工智能使用模式的新框架。我们利用一个最近的隐私保护系统,分析了超过四百万次 Claude.ai 对话,通过美国劳工部 O*NET 数据库中的任务和职业视角进行分析。我们的分析发现,人工智能的使用主要集中在软件开发和写作任务上,这两者加起来几乎占了所有总使用量的一半。然而,人工智能的使用在经济中更为广泛,约 36% 的职业在其至少四分之一的任务中使用人工智能。我们还分析了人工智能如何被用于任务,发现 57% 的使用表明增强人类能力(例如,学习或迭代输出),而 43% 表明自动化(例如,以最少的人类参与完成请求)。尽管我们的数据和方法面临重要限制,且仅描绘了一个平台上的人工智能使用情况,但它们提供了一种自动化、细致的方法,用于跟踪人工智能在经济中不断演变的角色,并识别这些技术继续进步时对未来的潜在影响。

获取《Anthropic – AI 经济指数报告》PDF原文件,扫码关注公众号回复:20250211 领取

1. 引言

人工智能的快速发展对劳动力市场的演变提出了深远的含义。尽管预测和准备这些变化至关重要,但我们缺乏关于人工智能系统如何被整合到经济中的系统性实证证据。现有的方法——无论是开发预测模型 ,还是定期对用户进行调查——都无法跟踪人工智能能力的进步与它们在经济中直接、实际使用之间的动态关系。

在此,我们提出了一个用于衡量经济中不同任务的人工智能使用的全新实证框架,基于对 Claude.ai 上数百万次真实对话的隐私保护分析。通过将这些对话映射到美国劳工部 O*NET 数据库中的职业类别,我们不仅可以识别当前的使用模式,还可以发现哪些经济领域可能在这些技术继续进步时最受影响的早期迹象。

我们利用这个框架做出了五个关键贡献:

  1. 提供了首次大规模实证测量,揭示了哪些任务在经济中看到了人工智能的使用(见图1、图2和图3)。我们的分析发现,在软件工程角色(例如软件工程师、数据科学家、生物信息学技术员)的任务中,以及需要大量写作能力的职业(例如技术作家、文案撰写人、档案管理员)和分析角色(例如数据科学家)中,人工智能的使用率最高。相反,涉及对环境进行物理操作的职业(例如麻醉师、建筑工人)的任务目前显示出极少的使用。

  2. 量化了职业内部人工智能使用的深度(见图4)。只有大约4%的职业在其至少75%的任务中使用人工智能,这表明在某些角色中可能存在深度任务级的使用。更广泛地,大约36%的职业在其至少25%的任务中使用人工智能,表明人工智能已经开始扩散到相当一部分劳动力的任务组合中。

  3. 测量了在人类与人工智能对话中哪些职业技能最具代表性(见图5)。认知技能,如阅读理解、写作和批判性思维,显示出较高的存在率,而物理技能(例如安装、设备维护)和管理技能(例如谈判)显示出极小的存在率——反映了人类与当前人工智能能力的明显互补性。

  4. 分析了工资和入职门槛与人工智能使用之间的相关性(见图6和表2)。我们发现,人工智能使用在工资分布的上四分位数达到峰值,但在工资分布的两端都下降。大多数高使用量职业集中在上四分位数,主要对应软件行业职位,而高工资职业(例如医生)和低工资职位(例如餐厅工作人员)显示出相对较低的使用量。这种模式可能反映了当前人工智能能力的限制,以及这些角色固有的物理操作要求,或者两者兼有。对于入职门槛,也出现了类似的模式,使用量在需要相当准备的职业(例如学士学位)中达到峰值,而不是在需要极少或广泛培训的职业中。

  5. 评估了人们是否使用 Claude 来自动化或增强任务(见图7)。我们发现,57%的互动显示出增强模式(例如,对任务进行来回迭代),而43%显示出以自动化为重点的使用(例如,直接执行任务)。尽管这一比例在不同职业中有所不同,但大多数职业在任务中表现出自动化和增强的混合,表明人工智能既是一个效率工具,也是一个协作伙伴。

我们的方法提供了一种自动化、细致且基于实证的方法,用于跟踪人工智能使用模式,随着人工智能能力和社会使用的发展而演变。这种对新兴趋势的早期可见性为政策制定者和民间社会提供了应对人工智能如何改变工作方式的关键提前时间。然而,我们承认存在多个关键限制(在第4.1节中讨论);例如,我们的使用数据无法揭示 Claude 的输出在实践中是如何被使用的,我们依赖 O*NET 的静态职业描述意味着我们无法考虑人工智能可能创造的全新任务或职业。

尽管如此,这个框架为理解人工智能对经济的不断演变的影响提供了一个基础。尽管我们的方法并不完美,但它们提供了一种系统性的方式来跟踪使用模式,并识别不同部门经济影响的早期指标。随着人工智能能力和采用的继续进步,我们相信这种实证测量对于理解和准备技术的更广泛的经济影响至关重要。

2. 背景与相关工作

我们的研究建立在多条试图建模、衡量和预测人工智能对经济影响的研究线路上。

经济基础和基于任务的框架 大量经济学文献提出了理论模型,以理解自动化对劳动力市场的影响。最著名的是, 主张通过离散任务的视角来建模劳动力市场,这些任务可以由人类工人或机器完成——例如,调试代码或理发。基于这个框架,Autor [2015] 表明,尽管技术自动化了一些任务,但它们通常会在其他任务中增强人类能力,因为人类和机器之间存在互补性,从而导致对劳动力的需求增加。此外,Acemoglu 和 Restrepo [2018] 使用这个框架探索了一个模型,其中自动化技术可以创造全新的任务,而不仅仅是取代旧任务。

预测人工智能对劳动力市场的影响 另一分支的研究利用基于任务的框架来预测自动化在未来经济中的普遍程度,通常基于美国劳工部提供的 ONET 职业信息数据库中对任务和职业的描述。例如,Frey 和 Osborne [2017] 将高斯过程分类器应用于 70 个标记职业的数据集,以预测哪些职业容易受到计算机化的威胁。Brynjolfsson et al. [2018a] 聘请人类标注者对 ONET 数据库中的 2069 个详细工作领域进行评级,特别关注它们被机器学习执行的潜力。Webb [2019] 分析了专利文件与工作描述之间的重叠,以预测任务对人工智能的“暴露”程度,发现高教育、高工资职业的暴露程度最高——这一模式部分反映在我们的实证使用数据中,尽管我们发现在中高工资职业中使用量最高,而不是在最高工资水平的职业中。

人工智能实际使用的真实世界研究 为了补充这些基于人类或机器判断的预测,另一些研究试图收集具体数据,以了解人工智能目前在劳动力市场中的采用情况。例如,2023 年末的研究发现,丹麦暴露职业中有一半的工人使用过 ChatGPT,估计它可以将大约三分之一的任务工作时间减半,而 2024 年 8 月的一项后续研究发现,39% 的美国工作年龄成年人使用过生成式人工智能,其中约四分之一的人每周都在使用 [Bick et al., 2024]。此外,进一步的研究试图衡量这种使用的广度和深度,发现生成式人工智能工具对广泛个体领域的生产力有积极影响,包括软件工程、写作 、客户服务、咨询、翻译 、法律分析和数据科学。

我们通过结合这些独立的方法,进行了首次对先进人工智能系统如何被用于经济中的任务和职业的全面分析。我们基于任务框架,但与预测潜在影响(职业对人工智能的“暴露”)不同,我们使用 Clio  测量真实世界的使用模式,这是一个最近的系统,能够对主要模型提供商上的数百万次人类模型对话进行隐私保护分析。这使我们能够补充特定领域人工智能生产力效应的对照研究,提供一个全面的视角,了解人工智能如何被整合到经济中的工作。我们的方法能够动态跟踪这些模式,随着人工智能能力和社会采用的演变,揭示当前的使用趋势以及未来扩散的早期迹象。

3. 方法与分析

为了了解人工智能系统如何被用于不同的经济任务,我们利用 Clio ,这是一个分析工具,使用 Claude 从数百万次人类模型对话中提供聚合的见解。我们使用 Clio 对对话进行分类,涵盖职业任务、技能和互动模式,揭示这些不同类别的分布。所有分析都基于 2024 年 12 月和 2025 年 1 月期间收集的对话数据。更多细节和提示见附录 B、E 和 F,包括验证我们数据集的组成以及如何在类别数量较多时(例如 O*NET 任务)进行分类。

3.1 人工智能使用情况的任务级分析

使用 Clio 对 100 万次 Claude.ai Free 和 Pro 对话的数据集进行分析,我们将每次互动映射到 ONET 数据库中最相关的任务类别。由于 ONET 中有近 20000 个独特的任务陈述,我们使用 Clio 创建了一个任务的分层树,并通过遍历树来进行分配。尽管一个对话通常可以映射到多个有效任务,但我们在将单个对话映射到多个任务时,观察到定性结果非常相似。我们还在附录 B 中提供了更多细节和分析,包括我们如何将对话映射到任务(附录 B.1)、层次创建过程(附录 B.1)、我们对对话级和账户级数据获得类似结果的事实(附录 B.2),以及我们对数据集组成的验证(附录 B.7)。此外,我们讨论了人类对我们任务层次分类的验证(附录 C)以及集群级数据的结果(附录 G)。

计算机相关任务的人工智能使用量最大,其次是教育和交流背景下的写作任务。为了理解更广泛的模式,我们根据 O*NET 的职业框架对这些任务进行分组——首先将它们映射到特定职业(如计算机网络架构师),然后映射到更广泛的职业类别(如计算机和数学职业)。图 2 展示了这些职业类别的分布,显示了每个组中出现频率最高的职业和任务,而图 3 将这些使用模式与美国劳动力的实际职业分布进行了比较。

值得注意的是,对话的职业分类并不一定意味着用户是该领域的专业人士。例如,一些关于营养的查询可能来自营养师,但也可能来自寻求个人饮食建议的个人。这种对传统专业任务的广泛访问——即使这些帮助并不完美——可能对这些领域产生重大影响,尽管分析这些影响超出了本研究的范围。我们在第 4.1 节中进一步讨论了这些限制。

总之,这些数据揭示了一些深刻的道理:

  • 与我们在任务层面的发现一致,计算机和数学职业显示出最高的相关人工智能使用率,占所有查询的 37.2%。相关的人工智能使用率最高,占所有查询的 37.2%。
  • 艺术、设计、娱乐、体育和媒体职业的相关人工智能使用率位居第二(10.3%)。(10.3%),这可能反映了在 Claude.ai 的查询中,市场营销、写作和其他类型的内容生成非常普遍。在 Claude.ai 的流量中,营销、写作和其他类型的内容生成非常普遍。
  • 教育类职业也有很高的比例,包括教育教学和图书馆职业,以及学科类职业。和图书馆职业,以及特定学科的职业,如生命、物理和
  • 社会科学职业。Claude.ai 流量的很大一部分属于商业相关职业: 商业和金融职业、办公室和行政支持职业以及管理职业。
  • 令人惊讶的是,需要体力劳动的职业最少,例如运输和材料搬运职业。运输和材料搬运职业;医疗保健支持职业;以及农业、渔业和林业职业、

每个职业中有多少任务使用了人工智能?为了评估人工智能在各职业中的融合程度,我们考察了每个职业的任务中有多少出现在我们的 Clio 运行结果中。如图 4 所示,我们发现人工智能任务的使用呈现出严重的偏态分布。只有约 4%的职业在至少 75%的相关任务中使用了人工智能,例如,在外语和文学教师这一职业中(75%的任务),我们观察到人工智能被用于与同事合作解决教学问题以及规划课程内容等任务,但并未用于撰写资助申请或维护学生记录等活动。仅有约 11%的职业在一半或更多的任务中使用了人工智能,比如市场营销经理(50%的任务),我们看到人工智能被用于市场调研分析和战略制定等任务,但未用于产品规格咨询或贸易展览协调等活动。在更低的阈值下,情况有所扩大,约 36%的职业在至少四分之一的任务中使用了人工智能,比如物理治疗师(25%的任务),我们观察到人工智能被用于研究和患者教育等任务,但未用于实际治疗或家庭护理指导等活动。这种分布表明,尽管如今人工智能可能触及许多职业,但在大多数任务中的深度整合仍有待提高。目前,在任何特定职业中实现完全自动化的情况仍然很少见。如今的人工智能似乎主要用于职业中的特定任务,而非完全取代整个工作岗位。

3.2 职业技能展示

发表评论