南宫28官网- 南宫28官方网站- APP下载完整解读:斯坦福 AI 年度报告
2026-04-18南宫28官网,南宫28官方网站,南宫28APP下载
斯坦福AI指数报告2026版发布:中美模型性能差距缩至2.7%,22-25岁软件开发者就业下降近20%,AI事件一年增至362起。美国消费者从生成式AI获得年化价值1720亿美元,但对自己政府监管AI的信任度全球最低。423页报告15条核心要点完整解读。
斯坦福 AI 指数报告(AI Index Report) 由斯坦福「以人为本人工智能研究院」(HAI)每年发布,追踪、整合并可视化 AI 领域的各类数据
与 2025 版相比,今年新增了两个独立章节:AI 与科学、AI 与医疗,同时新增了 AI 主权分析框架和生成式 AI 的消费者价值估算
过去两年,我每年都会进行完整解读,今年自然也不例外,先说 15 条核心要点,然后逐章展开
1. AI 能力没有停滞,还在加速。 行业贡献了超过 90% 的前沿模型,多个模型在博士级科学问题、多模态推理和竞赛数学上达到或超过人类基准。SWE-bench Verified 上一年内从 60% 涨到接近 100%。组织采用率达 88%,五分之四的大学生在用生成式 AI
2. 中美模型性能差距基本消失。 2025 年 2 月 DeepSeek-R1 一度追平美国最强模型,截至 2026 年 3 月 Anthropic 最强模型仅领先 2.7%。美国在前沿模型数量和高影响力专利上领先,中国在论文数量、引用、专利总量和工业机器人安装量上领先。韩国在人均 AI 专利数上全球领先
3. 美国拥有最多 AI 数据中心,大部分芯片由一家台湾代工厂制造。 美国有 5427 个数据中心,是第二名的 10 倍以上。TSMC 一家公司制造了几乎所有领先 AI 芯片,全球 AI 硬件供应链依赖台湾一座代工厂。TSMC 美国扩产计划在 2025 年开始运营
4. AI 能拿 IMO 金牌但看不准时钟,研究者称之为「锯齿边界」。 Gemini Deep Think 在国际数学奥赛拿了金牌(35 分),但最强模型看模拟时钟的准确率只有 50.1%。AI Agent 在 OSWorld 上从 12% 跳到约 66%,但每 3 次结构化测试还是会失败 1 次
5. 机器人在家庭任务中依然失败率极高,尽管在受控环境中表现出色。 机器人在真实家庭任务中成功率只有 12%。RLBench 模拟环境中达到了 89.4%,但可控实验室和不可预测家庭环境之间的差距依然巨大
6. 负责任 AI 跟不上能力进步,安全基准滞后,事件急剧增加。 几乎所有前沿模型开发商都报告能力 Benchmark 成绩,但在负责任 AI Benchmark 上的报告依然稀疏。AI 事件数据库记录的事件从 2024 年的 233 起上升到 2025 年的 362 起。改善一个负责任 AI 维度(比如安全)可能会恶化另一个(比如准确性)
7. 美国在 AI 投资上领先,但吸引全球人才的能力在下降。 美国私人 AI 投资达到 2859 亿美元,是中国 124 亿的 23 倍。但纯看私人投资低估了中国的实际投入,政府引导基金在 2000-2023 年间向 AI 企业注入了约 1840 亿美元。2025 年美国新获资 AI 公司 1953 家,是第二名的 10 倍以上。但流向美国的 AI 研究者和开发者人数自 2017 年下降了 89%,仅最近一年就下降了 80%
8. AI 采用以历史性速度扩散,消费者从免费工具中获得大量价值。 渗透率与人均 GDP 强相关,但也有例外:新加坡 61%,阿联酋 54%。美国排第 24 位,28.3%。美国消费者从生成式 AI 获得的估算年化价值到 2026 年初达到 1720 亿美元,每用户中位价值一年内翻了三倍。大多数工具是免费或接近免费的
9. AI 带来的生产率提升,恰好出现在入门级就业开始下降的领域。 客户支持和软件开发中生产率提升 14%-26%,需要更多判断力的任务中效果更弱甚至为负。AI Agent 部署在几乎所有业务功能中都处于个位数。22-25 岁软件开发者就业人数较 2024 年下降近 20%,同时年长开发者的人数仍在增长。
10. AI 的环境足迹随能力一起扩大。 Grok 4 的训练碳排放达到 72,816 吨 CO2 当量。AI 数据中心功率容量达 29.6 GW,相当于纽约州峰值用电量。GPT-4o 单年推理用水量可能超过 1200 万人的饮用水需求
11. 科学 AI 模型可以超越人类科学家,但更大的模型并不总是更好。 前沿模型在 ChemBench 上平均超过人类化学家,但在天体物理学论文复现上低于 20%,地球观测问题上只有 33%。1.11 亿参数的 MSAPairformer 在 ProteinGym 上打败了之前的领先方法,2 亿参数的 GPN-Star 打败了近 200 倍大的模型。大多数科学 AI 基础模型来自跨部门合作,与通用 AI 的工业主导格局形成对比
12. AI 正在改变临床医疗,但严谨证据仍然有限。 自动生成临床笔记的 AI 工具在 2025 年被大规模采用,医生写笔记时间减少 83%,职业倦怠显著下降。但证据基础依然薄弱:超过 500 项临床 AI 研究中近半使用考试题而非线% 使用了线. 正规教育落后于 AI,但人们在人生每个阶段都在学习 AI 技能。 超过 80% 的美国高中生和大学生在用 AI 做作业,但只有一半的中学有 AI 政策,只有 6% 的教师认为这些政策是清晰的。课堂之外,AI 工程技能增长最快的国家是阿联酋、智利和南非。美国和加拿大新增 AI 博士数量从 2022 到 2024 年增长 22%,增量全部流向了学术界
14. AI 主权正在成为国家政策的核心特征,但能力分布仍然不均。 国家 AI 战略正在扩展,特别是在发展中经济体中。国家级 AI 超算投资也在同步增长。但模型生产仍集中在美中两国。开源开发正在重新分配参与权,来自「世界其他地区」的 GitHub 贡献已超过欧洲,正在接近美国
15. AI 专家和公众对技术未来的看法截然不同,全球对机构管理 AI 的信任是碎片化的。 在就业影响上,73% 的专家持积极态度,公众只有 23%,差距 50 个百分点。经济影响差距 48 个百分点,医疗差距 40 个百分点。美国对自己政府监管 AI 的信任度全球最低,31%。全球范围内,欧盟被认为比美国或中国更可信地监管 AI
透明度崩塌是今年报告最值得注意的趋势之一。 95 个 notable models 中有 80 个没有公开训练代码,只有 4 个开源了训练代码。2020 年开源和未公开大致对半,到 2025 年前沿模型变成了能力最强、透明度最低的存在
环境代价在快速增长。训练 Grok 4 碳排放 72,816 吨 CO2 当量,超过一辆普通汽车全生命周期(约 63 吨)。DeepSeek v3 只产生了约 597 吨,远低于同等规模的模型。AI 数据中心总功率达 29.6 GW,和纽约州峰值用电量(31 GW)差不多。GPT-4o 单年推理用水量可能超过 1200 万人的饮用水需求
Epoch AI 预测高质量文本数据将在 2026-2032 年之间耗尽。 截至 2025 年 1 月,超过 50% 的新发布网络内容是 AI 生成的。各大公司开始转向授权数据(和亚马逊签了协议,Meta 也在和新闻机构谈)。但数据质量可能比数量更重要:OLMo 3.1 Think 32B 只有 320 亿参数(Grok 4 的约 1/90),通过数据清洗和去重,在 AIME 2025 上达到了 78.1%
美国仍然是全球 AI 人才最多的国家(220,520 人),但净流入在急剧下降:从 2022 年的峰值 324.6 降到 2025 年的 26.0,不足顶峰 1 成。迁入美国的 AI 研究者数量自 2017 年以来下降了 89%。瑞士和新加坡在人均 AI 研究者和开发者数量上全球领先。性别差距 15 年来没有变化,各国女性比例在 18%-32% 之间
自动驾驶是 AI 进入物理世界最成功的案例。Waymo 在五个美国城市达到每周约 45 万次出行。 中国的 Apollo Go 完成了 1100 万次完全无人驾驶出行,同比增长 175%。人形机器人硬件在 2025 年快速增长(Figure AI、特斯拉、波士顿动力、宇树等),Figure 02 在宝马工厂加载了 9 万多个零件。但 BEHAVIOR-1K(1000 个家务任务)完成率只有 12.4%,大规模部署尚未发生
组织层面有进展:AI 专职治理岗位增长 17%,没有负责任 AI 政策的企业从 24% 降到 11%。主要障碍是知识差距(59%)、预算限制(48%)和监管不确定性(41%)
在 HELM Arabic 上,一个为阿拉伯语专门开发的区域模型超过了 GPT-5.1 和 Gemini 2.5 Flash。在斯洛文尼亚语常识推理测试中,用方言测试时多个领先模型的准确率损失接近一半
安全评估方面,在 AILuminate Benchmark 上多个前沿模型在正常条件下获得「非常好」或「好」的安全评级,但面对对抗性越狱攻击时所有模型的安全性能都出现下降
负责任 AI 的各个维度之间存在冲突,并且这个问题比想象中更棘手。差分隐私提升了隐私保护,但降低了公平性、可解释性和准确性(准确率下降高达 33 个百分点)。目前没有任何框架能解决这个 trade-off
美国私人 AI 投资 2859 亿美元,是中国(124 亿)的 23 倍。但中国政府引导基金在 2000-2023 年间投入约 1840 亿。自 2013 年以来美国累计吸引了 7573 亿美元 AI 私人投资
GenAI 工具给美国消费者带来的年度剩余价值估算达 1720 亿美元。 一年前是 1120 亿。使用 GenAI 的美国成年人从 9500 万增加到 1.25 亿,每用户中位价值从 3.40 美元涨到 11.40 美元(+235%)。这个消费者剩余远超 GenAI 企业的收入总和。各国差异大:阿联酋 64%,新加坡 61%,法国 44%,美国排第 24 位只有 28.3%
企业层面,88% 的组织在至少一个业务功能中使用了 AI。但 AI Agent 的采用仍处于早期,几乎所有业务功能中大规模使用 Agent 的比例都是个位数
在 AI 暴露程度最高的职业中,22-25 岁工人的就业相对暴露最低的职业下降了约 16%。自 GenAI 引入以来的职业流动速度,快于计算机和互联网引入后的同期速度。三分之一的组织预计 AI 将在未来一年减少员工
生产率提升在结构化工作中最明显。客户支持 14%-15%(Brynjolfsson et al.),软件开发 26%(Cui et al.,GitHub Copilot),营销产出 50%(Ju & Aral),会计 55%(Choi & Xie)。METR 的研究发现经验丰富的开源开发者反而慢了 19%(但后续未能复现)。依赖 AI 学习的软件工程师没有表现出可测量的速度提升,研究者称之为「学习惩罚」
宏观层面,美国 2025 年生产率增长达 2.7%,接近过去十年 1.4% 平均值的两倍。Brynjolfsson 将此解读为「J 曲线 家欧洲企业的研究发现 AI 采用提升了 4% 的劳动生产率
中国继续安装全球一半以上的工业机器人(2024 年 54%),差距还在扩大。台湾以 33% 的同比增长率领跑
AI 相关科学论文在 2025 年达到约 80,150 篇,同比增长 26%。AI 方法占科学研究产出的 5.8%-8.8%,2010 年低于 1%。地球科学的 AI 渗透率最高(8.8%),其次是整体自然科学(6.8%)和生命科学(6.5%)
AI 在科学中的角色分三个层次:第一层是传统的科学数据机器学习,已经成熟;第二层是辅助科学家工作流(文献综合、实验设计、数据分析),2025 年大幅扩展;第三层是自主发现,仍在早期阶段
在分子生物学领域,小模型在打败大模型。 MSAPairformer 只有 1.11 亿参数,在 ProteinGym 上打败了之前的领先方法。GPN-Star 2 亿参数的基因组学模型打败了近 200 倍大的模型
AI 首次端到端运行了完整的天气预报流程。Aardvark Weather 用单个 ML 系统替换了传统数值预报流水线。FourCastNet 3 在不到 4 分钟内生成 60 天全球预报,比之前的方法快 8-60 倍。材料科学方面,微软的 MatterGen 用扩散模型生成新材料,新颖性和稳定性是此前方法的 2 倍以上
但 frontier agents 在论文级复现任务上的得分仍然低于 20%。能提出计算假设和能实验验证之间的差距仍然很大
AI 驱动的蛋白质研究在 2024 到 2025 年间增长了约 71%。蛋白质-药物相互作用占论文的最大份额(54.4%)。随着共折叠模型已经可以表示蛋白质数据库中的所有结构类型,瓶颈正在从架构转向数据
环境笔记 AI 是 2025 年临床 AI 中采用最广的品类。 Abridge 从约 100 家扩展到 150 多家医疗系统,Kaiser Permanente 在 40 家医院和 600 多个诊所部署。Sharp HealthCare 报告笔记写作工作量减少 83%。芝加哥大学医学中心认知负荷降低 47%,不分心地关注患者的时间增加 58%。斯坦福医疗(48 名医生的前瞻性研究)每半天门诊节省 20 分钟,职业倦怠显著降低
脓毒症预测取得实质进展。TREWS(约翰霍普金斯/Bayesian Health)在克利夫兰诊所 13 家医院部署后:脓毒症死亡率相对降低 18.7%,首次抗生素使用时间提前 1.85 小时,ICU 使用降低 10%,临床医生采用率 89%。COMPOSER(加州大学圣地亚哥分校):脓毒症死亡率降低 17%,估计每年挽救 50 条生命
2025 年 FDA 授权了 258 个 AI 医疗设备,已超过此前任何完整年度。 累计总数达到 1,357 个。放射学占 76.6%。绝大多数通过 510(k) 通道上市(不要求新临床试验),只有 2.4% 有随机试验数据支撑
AI 生成的摘要现在出现在 84%-92% 的健康相关 Google 搜索结果顶部
症状和常见健康问题触发 AI 概览的比例最高(92%),其次是治疗和疾病查询。这正在塑造用户对健康问题的初始理解
临床 AI 的证据基础依然薄弱。超过 500 项临床 AI 研究的综述发现,近一半使用的是考试题而非线% 使用了真实临床数据
医学数字孪生的研究兴趣增长迅速。在一项 150 名糖尿病患者的随机试验中,71% 在一年内达到了健康血糖水平,同时安全地减少了用药
医学 AI 论文中的伦理讨论在 2025 年翻倍,但话题集中在治理层面,算法问责、生物安全和全球健康公平仍然被忽视
全球 80% 的大学生使用过 GenAI 学习(2023 年是 40%)。60% 的美国高中生用 GenAI 做研究、编辑论文和头脑风暴。Anthropic 对 Claude 使用数据的分析显示,学生主要用于高阶任务:创造(39.8%)和分析(30.2%)
但只有约一半的美国中学和高中有 AI 政策,只有 6% 的教师认为学校的 AI 政策清晰。47% 的学生想用 AI 做作业但不确定是否被允许
美国和加拿大新增 AI PhD 从 2022 到 2024 年增长 22%,达到 442 人,但新增的 PhD 全部去了学术界而非产业界,扭转了过去十年的趋势
全球 90% 以上的国家已向中小学生提供 CS 课程,但 AI 教育推进更慢。中国和阿联酋从 2025-26 学年强制要求 AI 教育。韩国在 2025 年 3 月推出 AI 教科书后因家长和教师反对而撤回
全球 AI 政策方向分裂。2025 年 1 月特朗普签署行政命令撤销了拜登的 AI 行政命令 14110,转向去监管和创新。2 月 EU AI Act 第一阶段生效,禁止预测性执法和情感识别等高风险应用。巴黎 AI 行动峰会上美国和英国拒绝签署 60 个国家背书的包容性 AI 宣言
7 月美国参议院通过了 10 年联邦禁令阻止州级 AI 立法。但州级立法在快速增长:从 2020 年的不到 10 部增加到 2025 年的 150 部,加州一个州在 2025 年就通过了 20 部 AI 法案
模型产出仍高度集中:美国累计 1,618 个,中国 849 个,欧洲 666 个,拉丁美洲只有 2 个。数据本地化措施:东亚太平洋 77 项,撒哈拉以南非洲 71 项,北美只有 3 项。超过一半的新 AI 国家战略来自发展中经济体
美国国会 AI 相关听证证人从 2017 年的 5 人增长到 2023 年峰值 131 人。产业界证人占比从 13% 升到 37%,成为最大群体。学术界降至 15%,政府降至 10%
美国公共投资与私人支出相比微不足道。 2013 到 2024 年美国在 AI 相关合同和拨款上投入约 204 亿,而 2025 年一年美国私人 AI 投资就有 2859 亿。欧洲 AI 公共承诺在 2013-2024 年间约 37 亿美元(英国 16 亿,德国 5.05 亿,法国 3.2 亿)
东南亚仍是全球最乐观的地区。马来西亚、泰国、印度尼西亚、新加坡超过 80% 认为 AI 将在 3-5 年内深刻改变生活。德国(+12 个百分点)、法国(+10)和中国(+9)的乐观情绪在 2022-2025 年间增长最多
印度是 AI 焦虑上升最快的国家。 担忧增加了 14 个百分点,乐观只增加了 2 个百分点
工作场所 AI 使用在新兴经济体中高于许多发达经济体。全球 58% 的员工报告半定期或定期使用 AI 工作,但在印度、中国、尼日利亚、阿联酋和沙特,这一比例超过 80%
就业影响:专家 73% 积极 vs 公众 23%(差距 50 个百分点)。经济影响:69% vs 21%。医疗:84% vs 44%。两组人唯一的共识是 AI 会损害选举和人际关系
64% 的美国人预期未来 20 年 AI 会减少就业,只有 5% 认为会增加。专家没那么悲观(39% 减少,19% 增加),但预测采用速度快得多:专家预计 2030 年生成式 AI 辅助 80% 的美国工作时长,公众的预期是 10%
AI 伴侣目前仍是小众行为。2025 年 8 月一起与 AI 伴侣互动相关的青少年自杀事件引发了美国立法审查。专家预测到 2027 年 10% 的美国成年人将每天使用 AI 伴侣,2040 年 30%
美国对自己政府监管 AI 的信任度全球最低,只有 31%。 全球平均 54%。新加坡最高 81%,印尼 76%,日本 32%。全球范围内,欧盟被认为比美国或中国更可信地监管 AI(53% vs 37% vs 27%)。全部 50 个美国州中,担心监管不足的人多于担心监管过度的人(41% vs 27%)
报告原文 423 页,配套数据集在 Google Drive 上公开,详情看这里


