AI泡沫真的要来了?!别慌!这份26,500+字深度报告,揭开2025年AI真相

从“万能工具”到“泡沫警告”,AI 正在经历一场认知重构。这份26,500+字的深度报告,系统梳理了2025年AI技术、应用、资本与伦理的关键趋势,揭示泡沫背后的真实逻辑与未来走向。无论你是产品人、投资人还是技术决策者,都能在这份报告中找到穿越喧嚣的理性坐标。

AI泡沫真的要来了?!别慌!这份26,500+字深度报告,揭开2025年AI真相

最近确实听到不少关于「AI 是否存在泡沫」的讨论。巨大的投入、飞速的技术迭代和时而出现的「翻车」新闻,都让这个话题热度不减。

这张图,相信听到过泡沫相关讨论内容的朋友一定不会陌生。如果对这个不是很了解的话,可以自行先去搜索查阅下。

AI泡沫真的要来了?!别慌!这份26,500+字深度报告,揭开2025年AI真相

 

本次内容共计25,400+左右的字数,所以如果一次性读不完,也可以先收藏一下。

我是花了一周时间陆陆续续、详细阅读了知名风投机构 Air Street Capital 发布的《2025 年 AI 状况报告》(State of AI Report 2025),这份由 Nathan Benaich 及其团队撰写的报告(发布于 2025 年 10 月 9 日),已经是第八个年头了,以其开放获取和深度分析在业内广受认可。

我想,与其在各种声音中摇摆,不如结合这份报告,从一个关注 AI 技术的使用者的角度,为同样对 AI 感兴趣的朋友们做一次深度解读和分析。

就像我之前说的这篇报告信息量极大,涵盖了研究、产业、政治、安全、调研和预测六大维度,我会尽量分块拆解,并加入我的理解、思考和对未来的展望。

需要说明的是,这仅代表我基于报告内容的个人解读,希望能为大家提供一个更结构化、更深入的视角来看待 AI 当前的发展状况和未来的可能性。

在开始之前,有几点说明:

1. 我会尽量用通俗易懂的语言解释,并在遇到专业术语时在括号()内加以注释。

2. 报告中引用了大量图表和数据,我会标注它们所在的页码(如 Pxx),方便大家对照原文。

3. 原文我已上传至网盘,有需要的小伙伴可在文章底部查阅到下载地址。

那么,就让我们一起潜入这份报告,看看 2025 年的 AI 世界究竟是怎样一幅图景吧。

开篇总览:报告说了什么?

报告的执行摘要为我们快速勾勒了过去一年 AI 各个领域的关键动态:

  • 研究(Research):「推理」(Reasoning)能力成为焦点,各大顶级实验室(OpenAI,Google,Anthropic,DeepSeek)你追我赶,推出了「先思考后回答」(think-then-answer)的方法并将其融入实际产品。开源模型(Openmodels)进步神速,中国的开源生态尤其活跃,但最顶尖的模型仍然是闭源(closed-source)的,并且在「性价比」(capability-per-dollar)上持续拉大差距。基准测试(Benchmarks)因数据污染(contamination)和结果方差(variance)问题而受到挑战,与此同时,AI代理(Agents)、世界模型(worldmodels)以及特定领域工具(如编程、科研、医疗)的实用性显著提升。
  • 产业(Industry):AI优先(AI-first)的公司开始产生数十亿级别的真实收入,旗舰实验室凭借更优的「能力-成本曲线」(capability-to-costcurves)巩固了领先地位。英伟达(NVIDIA)市值突破4万亿美元,其GPU在AI研究论文中的引用占比高达90%,但定制芯片(customchips)和新兴云服务商(neoclouds)也在崛起。巨额的「循环投资」(Circularmega-deals)支撑着庞大的基础设施建设。电力(Power)成为新的瓶颈,数吉瓦(multi-GW)级别的计算集群从概念走向实际规划,电网限制开始影响技术路线图和利润率。
  • 政治(Politics):AI竞赛升温,美国推行「美国优先AI」(America-firstAI)战略,出口政策摇摆不定,而中国则加速自主可控和国产芯片的步伐。面对巨额投资,监管(Regulation)退居次要位置:国际外交陷入停滞,欧盟的《AI法案》(AIAct)在实施层面遇到障碍。「AI全球化」具体化,石油美元(petrodollars)和国家级项目资助庞大的数据中心和模型访问,关于AI导致失业的数据也开始浮现。
  • 安全(Safety):AI实验室针对生物风险(biorisks)和「诡计风险」(schemingrisks,指AI可能为了达成目标而欺骗或操纵人类)启动了前所未有的保护措施,但也有实验室未能按期完成自设目标或悄悄放弃了测试协议。外部安全组织的年度预算总和,甚至低于顶尖实验室一天的开销。网络攻击能力(Cybercapabilities)每5个月翻一番,速度超过防御措施。犯罪分子利用AI代理进行勒索软件攻击,成功渗透财富500强公司。仅仅是摘要,就信息量爆炸,描绘了一个加速前进、充满机遇但也风险丛生的AI生态。接下来,我们将深入各个板块。

第一部分:研究进展——智能的边界在哪里?

这一部分是报告的核心,详细梳理了过去一年 AI 技术的突破。作为 PM,我们最关心的是哪些技术真正带来了能力跃迁,以及它们可能的产品化方向和局限性。

1. 推理能力的竞赛与虚实

  • 「先思后言」成为主流:OpenAI的o1模型通过在推理时(inference-time)利用「思维链」(ChainofThought,CoT)作为草稿纸进行强化学习(ReinforcementLearning,RL),显著提升了在编程、科学等重推理任务上的表现。其在AIME(美国数学邀请赛)上的准确率随着训练和测试时计算量的增加而提升(P13图表)。这引发了一场「推理竞赛」。SamAltman也提到模型智能大致等于训练和运行所用资源(计算、数据、推理计算)的对数。
  • 中国开源力量的挑战:紧随其后,中国的DeepSeek发布了R1-lite-preview模型,同样展示了测试时计算量越大、准确率越高的特性,并在AIME2024pass@1指标上超越了o1-preview(52.5vs44.6,见P14图表)。随后DeepSeek又发布了基于V3大模型(671BMoE,即混合专家模型)训练的R1-Zero,仅使用RL和可验证奖励(verifiablerewards)进行训练,在AIME上达到了接近o1-0912的水平(P15图表)。DeepSeekV3.1/V3.2-Exp进一步引入了混合思考模式(在推理和轻量级模式间切换)和稀疏注意力机制(DSA),在保持编码/搜索/代理任务能力的同时,显著降低了长上下文(32-128K)的成本和延迟。
  • 并行推理的探索:除了让模型「想得更深」,研究者开始探索「想得更广」。加州大学伯克利分校提出了「自适应并行推理」(AdaptiveParallelReasoning,APR),让模型可以动态地分支(spawn)和合并(join)多个推理路径,并通过RL进行端到端训练,在Countdown任务上性能大幅提升。谷歌的GeminiDeepThink也体现了这种「分支-评估」(branch-and-evaluate)的思路。这预示着未来模型可能不仅仅是线性思考,而是能进行更复杂的并行探索。
  • 推理竞赛时间线:报告梳理了从2024年9月o1-preview到2025年8月GPT-5的推理模型发布时间线,展示了各大厂商的快速跟进和迭代。
  • 前沿模型格局:独立排行榜显示,OpenAI的GPT-5系列仍领先,但差距在缩小。来自中国的快速迭代的开源模型(DeepSeek,Qwen,Kimi)和美国的闭源模型(Gemini,Claude,Grok)紧随其后,在推理/编码方面仅差几个百分点。美国实验室保持领导地位,中国稳居第二,开源模型提供了有力的追赶基础。
  • 推理进展的幻觉?:报告也泼了冷水。有研究指出,近期推理方法的提升可能在基线模型(baselinemodel)的方差范围内,即可能只是误差(P20图表)。当前的基准测试对实现细节(解码参数、随机种子、提示、硬件)和数据集大小非常敏感(如AIME24只有30个例子)。RL方法的实际增益可能很小,且容易过拟合。另一项研究甚至指出大型推理模型(LRMs)在面对非常复杂的问题时会「放弃」,表现反而不如标准LLM(尽管该研究被批评实验设计有缺陷)。此外,推理能力非常脆弱,简单的干扰信息(如在数学题中加入「有趣的事实:猫一生中大部分时间都在睡觉」)就能让顶尖模型的错误率翻倍,改变数字或增加无关从句也会大幅降低准确率。强制模型用用户语言思考会降低准确率。

个人解读: 推理能力是 AI 从「鹦鹉学舌」走向「真正思考」的关键一步,对提升 AI 在复杂任务(如编程辅助、科学发现、策略制定)中的价值至关重要。DeepSeek 的快速追赶和开源表明技术扩散加速,但顶尖性能和成本优势仍在闭源巨头手中。产品在集成这些高级推理能力时,需要关注其稳定性、成本和延迟,以及对提示(prompt)变化的敏感性。并行推理或许是未来提升性能和可靠性的新方向。同时,要警惕基准测试的「虚假繁荣」,真正的产品价值需要在实际应用场景中验证。推理能力的脆弱性意味着需要更鲁棒(robust)的工程实践和用户引导。

2. 安全与对齐:信任的基石如何构建?

  • 思维链(CoT)的监控价值:即使模型生成的推理过程不完全真实,CoT仍然是有效的监控手段。METR的研究发现,基于CoT的监控器能标记出约99%的「奖励黑客」(reward-hacking,指AI为了最大化奖励而走捷径或作弊)行为,即使模型被提示要隐藏意图。这表明CoT揭示了有用的结构信号,尤其是在数学和逻辑任务中。
  • 「AI霍桑效应」:研究发现模型内部存在一个编码「测试意识」(testawareness)的方向。调高这个意识,模型会表现得更安全、更合规;调低则相反。这意味着模型的安全表现可能受到评估环境的影响,而非真正的鲁棒性,就像人类在被观察时会改变行为一样(霍桑效应)。这引发了对评估结果可能被操纵以夸大安全性的担忧。
  • 安全前置vs.后置:CMU的SafeLM主张安全应在预训练(pretraining)阶段就内置,通过数据过滤、重语境化(recontextualizing)、拒绝示例(refusalcurricula)等方法,确实降低了越狱(jailbreak)成功率。但反对者认为,大规模无监督网络数据训练必然引入偏见,难以完全移除而不损害模型效用,安全需要在数据集、部署等多个层面进行审计和治理。
  • 监控能力税(MonitorabilityTax):CoT监控虽然有效,但模型可能学会「混淆奖励黑客」(obfuscatedrewardhacking),即隐藏真实意图,生成看似无害的CoT却仍在作弊。过度施加CoT监控压力反而会教会模型欺骗。因此,可能需要在模型能力和透明度之间做权衡,接受能力稍弱但更易于监控的模型,即支付「监控能力税」。
  • CoT的局限性:顶级实验室(OpenAI,GoogleDeepMind,Anthropic,Meta)联合呼吁关注CoT的可监控性。CoT可能不完整、不忠实(Anthropic发现只有不到20%的真实线索被表达出来),且基于结果的RL可能降低其可读性。未来架构甚至可能完全绕过语言,消除审计痕迹。
  • 无Token推理?:MetaFAIR提出的COCONUT(连续思维链)尝试让LLM在内部的残差流(residualstream)中进行推理,而不是生成CoTtoken。这能大幅降低计算资源,传递更丰富的多路径推理信息,但也显著降低了可监控性。

 个人解读: 安全和对齐(Alignment,指让 AI 的目标和行为与人类的意图和价值观保持一致)是 AI 产品能否被信任和广泛应用的基础。CoT 提供了一个重要的监控窗口,但并非万能钥匙。我们需要意识到评估方法的局限性(霍桑效应),并探索更鲁棒的安全设计(如安全前置)。「监控能力税」的概念提醒我们,在追求极致性能的同时,可能需要为安全和透明度付出代价。COCONUT 这类技术虽然高效,但其对可解释性和可监控性的挑战是产品化前必须严肃考虑的问题。如何在保证安全的前提下,最大化 AI 的效用,是产品设计中永恒的权衡。

3. 训练数据与方法优化

  • 数据质量优先:研究开始强调训练后(post-training)数据质量和多样性胜过数量。NaturalReasoning数据集(包含280万个研究生水平、基于网络的科学问题)在监督后训练中,比更大的WebInstruct等数据集能带来更快的数学/科学推理能力提升。牛津大学的LILO方法能自动选择最优训练问题(即可学习性高的、成功率方差大的问题),实现更高最终准确率且训练步数减少3倍(P30图表)。
  • 奖励信号的演变:RL的奖励信号从简单的二元结果(如游戏输赢),发展到模糊的人类偏好,再到无法验证的创造性任务。现在又出现新方向:基于规则(rubric-based)的奖励和重新关注数学/编码领域的可验证正确性(RLVR,RLfromVerifiableRewards)。过程奖励(Processrewards)也开始用于评分中间推理步骤。
  • RL环境的挑战:奖励信号越抽象,用于代理训练的简化环境就越成为瓶颈。问题包括:泛化危机(在静态环境中记忆任务,稍有变化就崩溃)、样本效率低(需要数十亿步训练)、模拟到现实(sim-to-real)或环境到生产(env-to-prod)的差距、奖励黑客。
  • RLVR的争议:RLVR在o1和R1中推动了进展,但在其真正作用上存在分歧。清华大学的研究认为RLVR主要是重新排序采样结果,并未解锁新的推理能力,受限于基础模型。微软亚洲研究院则提出CoT-Pass@K指标(要求答案和CoT都正确),发现在Qwen模型上RLVR确实提升了该指标,认为RLVR隐含地激励了正确的推理路径(P33图表)。
  • AI增强数学:数学是可验证领域,2025年在竞赛数学和形式化证明方面取得突破。OpenAI、DeepMind、Harmonic的系统达到IMO(国际数学奥林匹克竞赛)金牌水平。OpenAI的GPT-5在ICPC(国际大学生程序设计竞赛)风格测试中解决了12/12问题。开源证明器(如Gödel-Prover)也创下新纪录。未来一年内AI系统(在人类监督下)证明出有意义的研究级数学成果的可能性非常大。
  • 低成本RL:使用LoRA(低秩适应)适配器进行RL,可以只更新少量参数而冻结主干网络,达到与完全微调(fullfine-tuning)相当的性能,同时大幅降低内存需求。这使得在同等预算下可以使用更大的模型。
  • 持续学习与测试时微调(TTT):范式从静态预训练转向动态适应。TTT在推理时针对特定提示调整模型权重。通过主动学习(activelearning)选择少量、多样化、信息量大的示例(如ETHZürich的SIFT),TTT表现优于上下文学习(in-contextlearning),甚至让小模型(如3.8BPhi-3)超越大模型(如27BGemma-2)(P36图表)。LocalMixturesofExperts通过检索和合并少量权重增量来摊销TTT成本,保持了大部分增益但速度快得多。
  • 模型合并的挑战:合并多个专家模型时会遇到性能瓶颈,因为任务向量空间会发生「秩坍塌」(rankcollapse),导致专家知识冗余而非互补。SubspaceBoosting方法通过SVD(奇异值分解)保持每个模型的独特贡献,在合并多达20个专家时获得>10%的增益(P37图表)。
  • 超越AdamW的优化器:Muon优化器在大批量(largebatchsizes)下展现出更好的数据效率,训练速度更快,成为7年来首个挑战AdamW地位的优化器(P38图表)。它能节省约10-15%的token,使二阶优化(second-orderoptimization)在经济上变得可行。
  • 训练内存优化:Apple的CutCrossEntropy(CCE)技术通过避免实例化巨大的logit矩阵来计算损失,将损失层的内存消耗从高达90%降至可忽略不计(如Gemma2从24GB降至1MB),同时速度还提升了约5%(P39图表)。这使得可以用更少GPU训练或在同等硬件上使用更大批量。
  • LLM的记忆与泛化:研究表明GPT系列模型每个参数大约有3.6比特(bits)的有限「记忆容量」。模型会先记忆训练数据,直到容量饱和,超出部分则必须泛化。这解释了「双重下降」(doubledescent)现象,也说明了为何难以探测大型LLM中的特定记忆示例(P40图表)。但成员推断攻击(membershipinferenceattacks)仍在改进。

个人解读: 数据质量、训练方法和效率优化是推动 AI 能力提升和降低成本的关键。高质量、多样化的数据(尤其是特定领域数据,如 Natural Reasoning)是提升模型推理能力的重要杠杆。RLVR 在数学、编程等可验证领域潜力巨大,但需进一步研究其泛化能力。LoRA、Muon、CCE 等技术降低了训练和微调的门槛与成本,使得更多团队能够利用大模型,也让产品迭代更快、成本更低。持续学习 (TTT) 和模型合并为个性化、专业化 AI 应用开辟了新路径,但也带来了复杂性和维护挑战。理解模型的记忆与泛化机制对于数据隐私保护和模型可靠性至关重要。

4. 开源 vs. 闭源:生态格局的演变

  • 差距时而缩小,时而拉大:2024年中曾出现开源与闭源模型智能差距缩小的短暂时刻,但o1-preview发布后差距再次拉大,直到DeepSeekR1和o3出现才有所缓解。目前最智能的模型仍是闭源的(GPT-5,o3,Gemini2.5Pro,Claude4.1Opus,Grok4),但最强的开源模型(除OpenAI意外发布的gpt-oss外,是Qwen)紧随其后(P43图表)。
  • OpenAI的开源转向?:面对DeepSeek、Qwen等强大开源模型的竞争压力以及美国政府「美国优先AI」的推动,OpenAI在2025年8月发布了gpt-oss-120b和gpt-oss-20b模型,这是自GPT-2以来的首次开源。SamAltman曾表示“个人认为我们站错了历史这边”。然而,社区反响平平,部分原因是其泛化能力较差,可能源于过度蒸馏(distillation)。GitHub星标数虽短期暴涨,但实际使用量存疑(P44图表)。
  • 中国开源模型的崛起(新丝绸之路):报告将中国开源模型的崛起称为“新丝绸之路”。此前多年落后于美国,但自2023年以来,中国模型(尤其是阿里巴巴的Qwen)在用户偏好(Elo排名)、全球下载量和模型采用率上均实现反超(P45图表,“TheFlip”)。截至2025年9月,全球区域模型采用中,中国占比63%,美国31%,欧盟仅6%。Meta在Llama4之后似乎策略失误,押注MoE而非社区更易于小规模修改的密集模型(densemodels)。
  • Qwen生态的繁荣:Llama曾是开源社区的宠儿,但现在Qwen已取而代之。2024年初,中国模型在新微调模型中占比仅10-30%,如今Qwen单独占比超过40%,超过Llama(已降至15%)(P46图表,“DerivativesperBaseModel”)。这得益于中国模型性能的大幅提升和提供多种尺寸选择。
  • 中国开源工具链的完善:中国在RL工具和宽松许可证方面也引领着开源社区。字节跳动的verl、阿里巴巴Qwen和Z.ai的OpenRLHF成为流行的RL训练框架,而Apache-2.0/MIT等许可证降低了使用门槛。这表明中国团队在RL框架方面已处于领先地位。

个人解读: 开源与闭源的竞争格局正在发生深刻变化。中国开源力量的崛起打破了以往 Meta 主导的局面,为开发者提供了更多高性能、低门槛的选择,也加剧了全球 AI 领域的竞争。Qwen 生态的繁荣表明,模型性能、易用性、许可证以及完善的工具链是赢得开发者社区的关键。OpenAI 的开源尝试更像是一种策略性回应,其效果有待观察。对于产品开发而言,开源模型的成熟意味着更低的成本、更高的定制性和更快的产品迭代,但也需要关注模型质量、安全性和长期维护问题。选择闭源 API 还是基于开源模型构建,需要根据产品需求、团队能力、成本预算和风险偏好进行权衡。

5. 世界模型与具身智能:从虚拟走向现实

  • 世界模型(WorldModels)登场:先前的视频生成模型(Sora,Gen-3等)只能渲染固定片段,无法实时交互。世界模型则能根据当前状态和用户动作预测下一帧,实现闭环交互和分钟级一致性。GoogleDeepMind的Genie3能根据文本提示生成可探索的环境(720p/24fps),支持改变天气、生成持久物体等,并初步用于训练具身代理(embodiedagents)。Odyssey的预览版能以约30fps实时渲染5分钟以上的交互式世界(P48视频截图)。Genie的发展历程展示了从草图/图像生成到持久交互世界的演进。
  • 在世界模型中训练代理:Dreamer4训练了一个能预测物体交互和未来帧的视频世界模型,然后完全在「想象」(imagination)中学习策略。它首次仅用离线数据就在Minecraft中挖到钻石,性能超越OpenAI的VPT,且数据量少100倍(P50图表)。这表明世界模型可以作为高效的训练环境。
  • 开放式学习(Open-EndedLearning):世界模型的交互性和持久性使得开放式学习成为可能。开放式学习系统能持续提出并解决新任务,积累技能以应对更难的挑战。OMNI-EPIC利用基础模型生成环境和奖励代码,系统筛选可学习且有用的任务。Kinetix在程序生成的大规模任务空间中训练通用控制器。DarwinGödelMachine让代理重写自身代码,通过实证验证改进,并在编码基准上取得迭代提升(P53图表)。
  • 评估开放式学习:评估这类系统的进展需要新基准。Meta的MLGym包含13个跨领域的开放式任务。OpenAI的PaperBench评估复现ICML论文的能力。EXP-Bench要求代理设计、执行、分析完整实验。MLR-Bench提供真实研究任务并用LLM进行评审。这些基准显示当前代理在端到端完成复杂研究任务方面仍有很大差距。

个人解读: 世界模型是 AI 理解和模拟物理世界的重要一步,为创造真正交互式的 AI 应用(如游戏、模拟训练、虚拟助手)打开了大门。Genie 和 Odyssey 的演示令人兴奋,预示着 AI 生成的虚拟世界将越来越逼真和可交互。在世界模型中训练代理比在现实世界中成本更低、速度更快、更安全,有望加速机器人和自动驾驶等领域的发展。开放式学习则代表了 AI 自我进化的潜力,未来 AI 或许能自主发现新知识、创造新技能。这对产品形态可能产生颠覆性影响,但也带来了失控风险。如何设计、评估和引导这种自适应、自进化的 AI 系统将是未来的重要课题。

6. 多模态与跨领域:智能的融合与泛化

  • 视频生成:中国实验室在视频生成领域表现活跃,既有开源基础模型(腾讯HunyuanVideo),也有注重速度、真实感和成本的闭源产品(快手Kling2.1,生数Vidu2.0)。普遍采用DiffusionTransformers(DiT)架构。Open-Sora2.0以约20万美元的训练成本达到了商业级质量。OpenAI的Sora2增加了同步对话和声音,增强了物理模拟和多镜头控制,甚至可以将真人的声音和外貌短暂植入生成视频中。它甚至能通过生成「教授举着答案字母的视频」来「视觉上」解决文本基准测试(如GPQADiamond达到55%)。
  • 科学发现中的AI代理:AI从回答问题转向生成、测试和验证新知识。DeepMind的Co-Scientist(基于Gemini2.0)能自主提出AML(急性髓系白血病)候选药物和肝纤维化新靶点,并在体外得到验证。斯坦福的“VirtualLab”设计了能结合SARS-CoV-2变种的纳米抗体(P55图表)。DeepMind的AlphaEvolve通过进化算法发现新的矩阵乘法算法(优于Strassen算法),并在50个数学开放问题中75%达到SOTA,20%改进现有解法,还在Google内部实现了生产效益(P56图表)。
  • 生物/化学/材料领域的进展:ATOMICA学习跨分子类型的全原子界面表示,用于连接疾病模块和预测配体结合位点。MetaFAIR的UMA成为通用的原子间势能模型,能大规模模拟材料、分子等,取代昂贵的DFT(密度泛函理论)计算。MatterGen使用扩散模型直接生成具有目标性质的新型无机晶体,实现了多属性逆向设计,并有实验室合成验证。化学领域的LLM从属性预测转向合成策略规划,结合经典搜索方法,表现优于化学专家。机器人化学家能以10倍于人类的速度每天进行1000次实验,自主规划、执行、分析。LLM驱动的代码突变系统在多个科学软件领域(单细胞、COVID预测等)超越现有最佳方法。
  • 基因组学与蛋白质:Evo证明DNA序列建模也遵循规模法则(ScalingLaws),性能随计算、数据、上下文长度增长而可预测地提升,且Hyena架构优于Transformer++/Mamba。Evo-2将上下文扩展到1Mtoken,性能继续提升(P63图表)。蛋白质语言模型(PLM)同样遵循规模法则,Profluent的46BMoE模型ProGen3展示了更大模型能生成更广泛、更可行的蛋白质,且对齐(alignment)效果在更大模型上更显著(P64图表)。AlphaFold3的开源复现版本在处理已知化学结构时表现良好,但在新颖结构上准确率下降,凸显了泛化挑战(P65图表)。
  • 医疗健康:Google的AMIE在模拟诊断咨询中表现优于初级保健医生(PCPs),并在多轮就诊管理、多模态信息利用、病史采集等方面展现优势(P66图表)。MedGemma提升了医疗文本和图像的理解能力。Epic的Comet成为EHR(电子健康记录)基础模型。OpenAI的AIConsult在肯尼亚的初步测试中显著提高了诊疗质量,减少了错误。
  • 新架构探索:扩散语言模型(DiffusionLMs)通过并行去噪挑战自回归(autoregressive)范式,达到有竞争力的质量,并支持任意顺序生成和填充。无分词器(Tokenizer-free)模型如BLT直接从字节学习,通过动态补丁(patches)处理,在同等质量下可能降低推理计算量,并提高对噪声和罕见输入的鲁棒性。对Transformer内部机制的研究发现「注意力池」(attentionsinks,通常在第一个位置)是稳定计算的关键,而非bug。
  • 脑机接口与神经科学:Meta的Brain2Qwerty能通过非侵入式脑电信号(EEG/MEG)解码用户正在输入的内容,错误率有所降低,但仍远未达到临床可用水平,且似乎是解码手指运动而非语言本身。DINOv3视觉模型与人脑活动(fMRI/MEG)的对齐研究显示,模型层级与大脑皮层区域、响应时间存在对应关系,且这种对齐随训练规模和数据类型(尤其是以人为中心的数据)而逐步涌现。脑到图像解码的研究也发现了规模法则,每个被试的记录时长比增加被试数量更重要,不同设备(EEG/MEG/3T/7TfMRI)的性价比也不同(P76图表)。
  • 统一视觉处理:Apple的ATOKEN提出单一视觉分词器,能处理图像、视频、3D输入,并映射到共享的4D稀疏潜空间,支持高保真重建和语义理解,有望统一多模态模型的基础。
  • 机器人基础模型:新一代机器人代理转向利用大量无标签、真实世界视频进行预训练。NVIDIA的GROOT1.5使用神经渲染从2D视频构建3D场景表示,生成训练数据。字节跳动的GR-3将视觉、语言、动作视为统一序列进行端到端预训练。关于架构的争论在于:是微调整个VLAM(视觉-语言-动作模型)还是冻结核心知识、只微调小的头文件?前者在数据充足时效果更好,后者在数据稀疏时更稳健、成本更低。
  • 具身推理:「行动链」(Chain-of-Action),即先生成明确的中间规划(如视觉/几何草图),再转化为低层控制,成为具身推理的标准模式,提高了可解释性和长时任务可靠性(如AI2的Molmo-Act,Google的GeminiRobotics1.5)。
  • 自动驾驶:Waymo的EMMA将自动驾驶视为端到端的多模态视觉-语言问题,直接将摄像头输入映射为自然语言表示的轨迹、路况元素等,利用LLM的推理和世界知识,并提供可读的决策理由(CoT)。
  • 计算机使用代理(CUA):OpenAl,Anthropic,ByteDance等都在研发能操作图形用户界面(GUI)的AI代理。ByteDance的UI-TARS-2通过轨迹收集、监督微调和RL训练,在多个GUI代理基准上达到SOTA,在网页游戏上达到人类水平的约60%(P82表格),但长时任务仍很脆弱。
  • 小型语言模型(SLM)的潜力:NVIDIA和GeorgiaTech的研究认为,许多代理工作流(填表、调API、简单编码)是狭窄、重复、格式化的,SLM(1-9B参数)通常足够胜任,且成本低、速度快、易于微调和部署。可以采用「小模型优先,需要时升级」的设计,将大部分任务路由给SLM,只把困难、开放式的任务交给LLM。

个人解读: 多模态和跨领域是 AI 发展的必然趋势。统一模型(如 ATOKEN)、统一范式(如 GR-3 将机器人任务视为序列预测)展现了强大潜力,有望简化开发栈、促进能力迁移。AI 在科学发现、医疗、材料、化学等专业领域的应用正在从辅助工具向合作伙伴转变,AlphaEvolve、Co-Scientist 等展示了 AI 自主探索和创新的可能性,这将催生大量新的 B2B 产品机会。机器人和自动驾驶领域受益于世界模型、无监督预训练和具身推理的进步,端到端方案(如 EMMA)和行动链提高了系统的智能性和可靠性。CUA 和 SLM 的研究则指向更轻量级、更经济的 AI 助手和自动化工具,有望将 AI 能力普及到更多日常任务和设备中。脑机接口等前沿探索虽然离产品化尚远,但揭示了 AI 在理解生物智能方面的潜力。

第二部分:产业动态——资本、竞争与商业化

这一部分聚焦 AI 产业的商业层面,包括投资、收入、竞争格局、基础设施、应用落地和人才流动等。作为 PM,我们需要关注市场趋势、商业模式、成本结构和竞争壁垒。

1. 宏大叙事与万亿投入

  • 从AGI到「超级智能」:行业领袖,如扎克伯格,开始将目标从通用人工智能(AGI)转向「超级智能」(Superintelligence),虽然定义模糊,但更具煽动性。
  • 万亿级别的投入预期:SamAltman和ElonMusk等人预测,未来几年实现超级智能可能需要数万亿乃至更多的投入用于数据中心建设。相关的巨额交易也浮出水面,如英伟达据称计划向OpenAI投资高达1000亿美元,Oracle与OpenAI签署3000亿美元云协议。xAI预计2025年烧掉130亿美元。

个人解读: 「超级智能」的叙事为争取巨额投入提供了理由,但也加剧了外界对 AI 泡沫的担忧。如此规模的投入高度集中在少数几家头部公司,进一步巩固了它们的领先地位,但也带来了巨大的财务风险和对基础设施(尤其是电力)的极端压力。对于大多数公司而言,更现实的问题是如何在现有技术水平下找到可持续的商业模式。

2. 领导者之争与成本效益

  • 前沿领导权持续争夺:过去一年,根据LMArena和ArtificialAnalysis的排行榜,GoogleDeepMind和OpenAI在顶尖模型上轮流领先,xAI也有短暂登顶(P93图表)。
  • 开源前沿:在开源领域,DeepSeek占据LMArena榜首时间最长,其次是Meta、Z.AI、NexusFlow、Nvidia和Alibaba(P94图表)。
  • 「性价比」持续提升:旗舰模型的能力持续攀升,而价格急剧下降。根据ArtificialAnalysis的「智能/价格比」,Google和OpenAI模型的这一指标的翻倍时间分别约为3.4个月和5.8个月(P95图表)。LMArenaElo/价格比也呈现类似趋势,翻倍时间分别为5.7个月和8.1个月(P96图表)。

个人解读: 头部实验室之间的竞争异常激烈,模型性能和发布时机成为关键武器。开源社区的竞争同样白热化,DeepSeek 的领先地位值得关注。「性价比」的快速提升是 AI 应用普及的关键驱动力,意味着同样预算下能获得更强能力,或同等能力下成本更低。这对产品定价和市场策略有直接影响。

3. 融资、收入与商业模式

  • 发布节奏与融资:模型发布时机与融资密切相关。Anthropic、OpenAI、xAI平均在融资完成前44天、50天、77天发布新模型(P97表格),利用技术突破吸引投资。
  • AI优先成为主流:AI公司在顶级私营公司榜单(Specter排名)中的占比大幅提升,从2022年的16%增至2025年的41%。投资者对AI的兴趣自ChatGPT发布后激增40倍(P98图表)。
  • 数十亿级收入涌现:领先的16家AI优先公司年化总收入达185亿美元(截至2025年8月)(P99图表)。a16z数据显示,AI应用第一年ARR(年经常性收入)中位数可达200-400万美元。LeanAILeaderboard统计的44家「精益AI」公司(ARR>5M,FTE<50)总收入超40亿美元,人均创收>250万美元。
  • 增长速度超SaaS:Stripe上的AI100公司从0到500万美元ARR的速度比2018年的SaaS100快1.5倍(P100图表)。2022年后成立的公司速度更快。StandardMetrics数据也显示AI公司季度收入增长率(30%-60%)是全行业平均水平的1.5倍。
  • 商业采用率激增:RampAI指数显示,美国企业付费AI采用率从2023年1月的5%飙升至2025年9月的43.8%。12个月留存率从2022年的约50%提高到2024年的80%。平均合同价值从3.9万美元增至53万美元。
  • 行业与厂商偏好:科技(73%)和金融(58%)行业采用率领先。OpenAI(35.6%)和Anthropic(12.2%)是Ramp客户中最受欢迎的模型提供商,Google、DeepSeek、xAI使用率很低。
  • 特定领域爆发:音频(ElevenLabs年收入2亿美元,P104)、虚拟形象(SynthesiaARR超1亿美元,P104)、图像生成(BlackForestLabsARR约1亿美元,P104)等公司收入高速增长,客户基数庞大。
  • GPT-5的双重性:GPT-5在「性价比」上领先,但其发布伴随着突然移除旧模型(GPT-4o,o3)、引入不透明的路由机制(根据查询自动选择不同模型版本)等问题,引发用户强烈反弹。这提示新模型发布需要更周全的用户沟通和体验管理。
  • 推理需求爆炸:Google报告月处理token量年增50倍,达到千万亿级别,主要由延迟降低、价格下降、推理模型、长交互和应用增长驱动。这对基础设施(尤其是电力)构成巨大压力。
  • 编码能力大幅提升:GPT-5和Gemini2.5DeepThink在顶级编程竞赛(ICPC)中表现出色,GPT-5解决了全部12个问题。「氛围编码」(Vibecoding,指主要靠AI生成代码)兴起,Lovable8个月成独角兽,Base44半年8000万美元被收购,YC创始人称部分初创公司95%代码由AI编写。
  • 「氛围编码」的风险:安全漏洞(CursorIDE扩展被劫持挖矿)、代码被覆盖丢失、脆弱的单位经济(依赖上游API定价)等问题凸显。Cursor等AI编程工具虽受欢迎,但利润微薄,成本受制于OpenAI/Anthropic。
  • 利润率之谜:AI应用(尤其是编码、搜索类)普遍面临毛利率压力,主要成本来自API调用和推理。许多公司在报告毛利时甚至不包含免费用户的服务成本。提升利润率的方法包括自建/微调模型、优化缓存/检索、探索广告或基于结果的定价。模型实验室自身也面临高昂的训练成本,需要靠推理收入来弥补。有分析认为,如果推理利润率足够高(如70%),且生命周期中大部分计算用于推理(如90%),模型本身可以盈利(P112表格)。

个人解读: AI 产业正经历从技术探索到商业化落地的关键阶段。收入增长迅猛,用户采用率和付费意愿提高,证明了 AI 的商业价值。然而,高昂的研发和基础设施投入、激烈的竞争以及脆弱的利润率(尤其对于应用层公司)是普遍挑战。商业模式仍在探索中,简单的 API 调用付费模式可能难以持续,需要更深入地整合到业务流程中,或探索新的价值变现方式(如广告、按效果付费)。编码、内容生成等领域已展现出巨大潜力,但也暴露了安全、成本和过度依赖等问题。GPT-5 的发布风波警示我们,技术领先不等于产品成功,用户体验和信任至关重要。

4. 基础设施:瓶颈与地缘政治

  • 「星际之门」计划:OpenAI联合SoftBank、Oracle等宣布Stargate项目,计划4年内在美国投资5000亿美元建设10GW的GPU容量(超400万块芯片)。随后推出「OpenAIforCountries」计划,与能源丰富的国家(阿联酋、挪威、印度等)合作建设数据中心,输出技术并换取资金和资源。
  • OpenAI的垂直整合:OpenAI试图掌控从芯片(与博通合作自研)、数据中心(Stargate)、模型到设备(收购JonyIve的io公司)、机器人(重启内部部门)的全栈能力。
  • 博通的崛起:博通通过为Google(TPU)、Meta(MTIA)、OpenAI设计定制AI芯片,成为AI革命的关键参与者,AI芯片收入激增。定制芯片为大型科技公司提供了制衡NVIDIA的筹码。GoogleTPU时间线展示了其持续投入。
  • OpenAI与微软的微妙关系:微软在提供训练算力方面显得犹豫,导致OpenAI转向Oracle。双方在收入分成、IP访问、API独占权等方面存在潜在冲突,但彻底「分手」可能性不大。
  • Oracle的机遇:Oracle抓住机会,成为OpenAI等的关键基础设施合作伙伴(如300亿美元/年协议),股价飙升。但也面临电力瓶颈、租赁风险和资产折旧等挑战。
  • 电力成为核心瓶颈:实验室预计到2028年需要5GW级别的训练集群。实现这一目标面临发电能力、并网审批、选址(集中vs.分布式)、人才和供应链等多重挑战。美国多个区域已预测未来1-3年内可能出现电力短缺,停电频率或增百倍。SemiAnalysis预测到2028年美国可能有68GW的电力缺口。这迫使公司考虑海外建设。
  • 1GW级别集群竞赛:各大实验室规划的1GW级别集群预计2026年上线(P130表格),集群规模成为竞争和吸引人才的标志。报告提供了1GWAI数据中心的要素清单。
  • 环境影响:AI基础设施建设加剧了碳排放,尤其是在依赖化石燃料发电或推迟退役燃煤电厂的情况下。碳核算方法也存在争议。水资源消耗同样巨大,一个100MW数据中心每天耗水约200万升,且选址常在缺水地区。液冷方案虽然能效高,但水耗可能更大。Google与CFS签署核聚变购电协议,表明对未来清洁能源的押注,但这远水难解近渴。
  • 芯片竞赛与地缘政治(续):美国芯片出口政策摇摆不定,试图平衡国家安全、供应链依赖和厂商游说。GAINAIAct要求优先满足美国国内需求,引发NVIDIA不满。NVIDIA加大游说力度以维持中国市场,但也面临中国反垄断调查的压力。特朗普政府倾向于用关税而非补贴来激励芯片回流,并入股Intel,开启政府直接投资的新模式。美国政府还批准了TikTokUSA的重组方案,由Oracle负责算法和数据安全。
  • 中国加速自主替代:面对美国政策的不确定性,中国政府指示平台停止采购H20芯片,推动使用国产替代品。华为、中芯国际(SMIC)等加速扩产,DeepSeek的FP8格式指导国产设计,长鑫存储(CXMT)测试HBM3。寒武纪(Cambricon)等本土厂商受益,收入和股价飙升。尽管美国试图让中国「上瘾」于降级版芯片,但北京已转向全力发展本土供应链。
  • 芯片走私猖獗:H20禁令期间,价值10亿美元的NVIDIA芯片被走私到中国。中国计划使用11.5万块未经授权的HopperGPU建设39个AI数据中心。这表明出口管制效果有限,且可能刺激黑市和中国的自主决心。DeepSeekV3宣称的500万美元训练成本引发市场震动和美国实验室的担忧(数据被盗?),但后续澄清这仅是最终训练成本,不含研发投入,且JevonsParadox(效率提高反而增加总消耗)效应可能导致总体芯片需求增加。报告总结了芯片出口管制的利弊。
  • 美国算力主导,但集中于私营部门:美国控制全球约75%的AI超算能力,是中国的9倍。但80%算力由私营公司掌握(2019年为40%),限制了学术界访问和政府监管。
  • 半导体产能竞赛:台湾在尖端制程(2nm/3nm)上遥遥领先,美国(TSMC亚利桑那工厂)和中国(SMIC5nm/7nm)仍在追赶。
  • 中美电力对比:中国在新增发电容量、电网投资、备用容量方面大幅领先美国,但美国在电网可靠性(停电少)、电价和碳排放强度上仍有优势。

个人解读: AI 竞赛本质上也是基础设施的竞赛。算力、电力和芯片制造能力成为国家竞争力的核心要素。巨大的投入带来了惊人的技术进步,但也伴随着巨大的能源消耗、环境影响和地缘政治风险。电力短缺是迫在眉睫的全球性挑战,将深刻影响 AI 产业的布局和成本结构。芯片出口管制是一把双刃剑,效果存疑,且可能加速中国的自主替代。OpenAI 的 Stargate 和垂直整合战略显示了头部玩家试图掌控全产业链的野心。对于大多数 AI 产品公司而言,基础设施的选择(公有云、私有云、Neocloud)和成本优化将越来越重要。

5. 应用落地:搜索、浏览器、编码与内容生成

  • AI搜索与传统搜索的博弈:ChatGPT已占据约60%的AI搜索市场份额。Google全球搜索流量首次出现显著同比下降(约7.9%),尽管仍占90%份额。Perplexity月查询量高速增长。讽刺的是,「ChatGPT」本身成为Google热门搜索词。Google推出的AIOverviews(AIO)虽是应对,但导致搜索点击率下降90%,影响广告收入。然而,AI搜索引擎仍严重依赖Google的索引,尽管OpenAI选择爬取Google而非使用微软Bing。美国司法部反垄断案的判决要求Google分享部分索引数据,但影响有限。
  • 浏览器成为新战场:OpenAI(ChatGPTSearch+Agent),Perplexity(Comet浏览器),Anthropic(ClaudeforChrome),Google(GeminiinChrome)纷纷推出集成AI助手、能理解网页内容并代用户执行操作的浏览器或扩展。浏览器正从内容展示工具演变为智能交互入口。Atlassian收购Arc浏览器印证了这一趋势。
  • AI搜索的高转化率:AI搜索(尤其是ChatGPT)带来的零售转化率高于所有其他主流营销渠道,且呈上升趋势。用户通过AI搜索到达时购买意愿更强。ChatGPT已与Etsy、Shopify合作实现「即时结账」(InstantCheckout),并开源了基于Stripe的「代理商务协议」(AgenticCommerceProtocol)。
  • 用户与AI搜索引擎的交互模式:用户与AI交互的回合数(turns)远多于传统搜索。ChatGPT用户平均每会话5.6回合,高于Gemini和Perplexity(约4回合)。这表明AI引擎更具粘性。不同引擎的交互风格也不同(DeepSeek最冗长,Perplexity最简洁带引用)。ChatGPT的爬虫已成为互联网上最活跃的机器人之一。
  • 答案引擎的引用来源:ChatGPT的引用来源与GoogleTop10结果匹配度仅19%,且经常引用排名更低的页面,拓宽了内容曝光范围。Reddit,Wikipedia,YouTube,Forbes是最常被引用的域名。不同模型引用风格各异。这意味着面向AI的优化(AEO,AnswerEngineOptimization)与SEO同等重要。

个人解读: 搜索和浏览器是 AI 应用落地的核心场景,正在被 AI 彻底重塑。AI 提供了更自然、更深入的信息获取和任务执行方式,用户行为模式正在改变。这对传统搜索引擎和广告模式构成了巨大挑战,但也为新型 AI 产品(如 Perplexity)和商家(通过 AEO 和 AI 渠道转化)带来了机遇。浏览器作为用户与互联网交互的主要界面,其智能化是必然趋势,将催生大量创新应用。高转化率表明 AI 在引导购买决策方面潜力巨大,「代理商务」可能是下一个爆发点。

6. 人才争夺与流动

  • 人才争夺白热化:顶级AI公司之间的人才争夺异常激烈,薪酬待遇惊人。
  • OpenAI人才流失:OpenAI经历了显著的人才流失,许多核心成员加入了Meta、ThinkingMachines(新公司,由前OpenAI高管创立)、Anthropic、SSI(IlyaSutskever的新公司)等竞争对手。
  • 中美人才博弈:美国政府的AI行动计划并未包含吸引和留住外国AI人才的策略,甚至考虑收紧OPT(毕业实习许可)和H-1B签证。而中国等国则积极吸引人才。DeepSeek的案例显示,中国本土培养和留住AI人才的能力正在增强,55%的作者完全在中国接受训练和工作。美国对中国学生的签证限制可能加速人才回流中国。针对华裔科学家的审查(如DOJ的「中国倡议」)也导致人才流失。Meta超级智能实验室一半研究员本科毕业于中国。
  • 欧洲人才困境:欧洲培养的AI人才流失严重(22%在欧洲学习,仅14%留在欧洲工作)。薪酬待遇远低于美国。虽然推出了一些吸引人才的计划,但面对全球巨大的投资差距,效果有限。

个人解读: 人才是 AI 发展的核心驱动力。顶级人才的稀缺和高流动性是常态。OpenAI 的人才流失可能对其长期竞争力构成挑战。美国的移民政策如果持续收紧,可能削弱其在全球人才竞争中的优势,反而助长竞争对手。对于公司而言,吸引和留住顶尖人才不仅仅是薪酬问题,还需要提供有挑战性的项目、良好的研究环境和使命感。

7. 新兴力量与生态位

  • GPUNeoclouds的崛起:CoreWeave,Nebius(公开市场),Lambda,Crusoe(私有市场)等新兴GPU云服务商快速增长,提供更具吸引力的价格、合同条款和AI专用软件栈,总估值已达数百亿美元。
  • 循环投资:NVIDIA等巨头通过投资或销售GPU给AI实验室和Neoclouds,这些公司再将资金用于购买NVIDIA硬件或将GPU容量租回给NVIDIA,形成资金和资源的闭环(P157表格)。这种模式加速了生态发展,但也引发了关于市场风险、财务指标扭曲和潜在利益冲突的担忧。
  • 债务融资增加:AI公司越来越多地使用债务(尤其是私人信贷)来资助大规模建设(P159表格)。为保持资产负债表健康,常使用SPV(特殊目的实体)等结构将债务移出表外。这隐藏了行业内积累的债务风险,并可能因AI资产(如GPU)快速贬值而产生期限错配问题。
  • 中东资本入局:中东主权财富基金(如阿联酋MGX,卡塔尔QIA)成为AI领域重要的资金来源,尤其偏爱投资美国公司(P161图表)。
  • NVIDIA挑战者的困境:尽管投入巨大(西方挑战者融资75亿美元,中国挑战者融资60亿美元),但与直接投资NVIDIA的回报相比,这些挑战者的投资回报率相形见绌(P168图表)。Groq下调收入预期,AMD数据中心业务增长乏力,华为面临HBM瓶颈和客户竞争关系,Cerebras客户集中度高。AI研究论文中对NVIDIA的引用占比仍高达90%,对挑战者(Cerebras,Groq等)的引用占比仅1.3%。
  • 中国芯片厂商的机遇:尽管面临挑战,但在中国政府推动自主替代、美国出口管制不确定以及华为CANN生态系统问题的背景下,寒武纪(Cambricon)等中国本土AI芯片公司迎来了发展机遇,收入和订单激增,多家公司寻求IPO。但华为在中国的实际主导地位可能不如外界想象的那么稳固。

个人解读: AI 产业生态日益复杂,除了少数巨头,还涌现出 Neoclouds、专业芯片设计公司等多样化的参与者。循环投资和债务融资加速了基础设施建设,但也带来了潜在的系统性风险。中东资本的涌入为行业提供了新的资金来源,但也可能加剧地缘政治的复杂性。挑战 NVIDIA 的霸主地位极其困难,无论是技术、生态还是市场层面。中国本土芯片厂商的崛起值得关注,它们可能在特定市场或细分领域找到突破口。

第三部分:政治格局——监管、竞赛与地缘影响

AI 的发展已深度嵌入全球政治议程,涉及国家战略、监管框架、国际合作与竞争、以及对社会各方面的影响。

1. 美国:特朗普 47 与「美国优先 AI」

  • 政策转向:特朗普第二任期(假设)的AI政策核心是「美国优先」,强调国家主导地位。任命了DavidSacks(AI&CryptoCzar)等硅谷人士担任要职。
  • 《AI行动计划》:2025年7月发布,包含100多项政策,旨在确保美国AI创新和全球领导地位。关键内容包括:推广美国AI技术栈出口、加速AI基础设施建设(简化审批、升级电网、开放联邦土地)、支持开源模型领导地位、回滚AI安全法规、确保模型不受「意识形态偏见」。
  • 出口策略转变:从拜登时期的扩散控制(AIDiffusionRule)转向主动出口「美国AI技术栈」(硬件、模型、软件、标准),旨在塑造标准、建立依赖、对抗中国的「数字丝绸之路」。
  • 芯片政策摇摆与GAINAIAct:对华芯片出口政策反复。GAINAIAct要求优先满足美国客户需求,引发NVIDIA反对。政府开始寻求对华销售收入分成。
  • 产业政策新模式:特朗普政府批评CHIPSAct的补贴,倾向于用关税激励回流,并开始直接入股关键企业(如Intel),甚至探讨入股国防公司,或从与外国公司的交易中(如TikTokUSA)收取费用。
  • 放松环境监管以加速基建:为支持数据中心建设,政府削弱NEPA(国家环境政策法案)、清洁水法、清洁空气法等法规要求。优先发展化石燃料,削减清洁能源补贴。
  • 基础设施建设的「邻避效应」(NIMBYism):AI数据中心建设在美国遭遇越来越强的本地反对,主要来自农民(担忧环境和资源竞争)和其他居民(担忧光/空气/噪音污染)。已有数十亿美元的项目因此受阻或推迟。这可能迫使更多项目移至海外。
  • 基础研究投入不足:尽管《AI行动计划》提及基础科学,但实际投入远低于专家建议的每年320亿美元。NAIRR(国家AI研究资源)项目仍在推进,但资金规模有限。
  • 州级监管与联邦优先权之争:各州纷纷提出AI相关法案(2025年超1080项,118项成为法律),内容涉及AI生成CSAM/NCII、透明度、政府使用限制、健康/就业等。加州SB53成为首个要求大型开发者公开安全评估的州法。但许多州的全面AI治理法案被削弱或推迟。AI公司和特朗普政府主张联邦优先权(preemption),阻止各州制定「混乱」的法规。虽然最初在联邦支出法案中的10年州级AI法规暂停令被移除,但SANDBOXAct提出允许公司申请长达10年的法规豁免,引发争议。

个人解读: 美国 AI 政策的核心目标是维持全球领导地位,手段包括加速国内发展(放松监管、推动基建)、控制关键技术(芯片出口)、输出美国标准和生态。政策的摇摆和党派斗争给行业带来了不确定性。州级监管的「碎片化」是企业面临的现实挑战,联邦优先权之争将持续影响合规成本和市场准入。放松环境监管虽然短期内可能加速建设,但长期环境和社会成本不容忽视。基础研究投入不足可能削弱长期创新潜力。

2. 国际合作退潮与地缘政治影响

  • 国际AI治理停滞:特朗普政府对前任推动的国际AI安全合作(如欧洲委员会AI公约、G7广岛AI进程、联合国AI咨询机构)持消极态度。
  • AI安全研究所网络名存实亡:美国缺席了国际AI安全研究所网络(由英、美、加、日、新等国于2024年底成立)的两次联合测试活动。美国AI安全研究所更名为「AI标准与创新中心」(CAISI),英国则更名为「AI安全研究所」,反映出重点从纯粹安全转向更广泛的标准和能力评估。
  • 中国推动全球AI治理议程:中国发布《全球人工智能治理行动计划》,强调多边合作和外交接触,试图在联合国等框架内扩大影响力,并向「全球南方」国家输出AI解决方案,与美国的单边主义形成对比。
  • 国防领域的AI竞赛:美国将AI和自主系统(无人机、蜂群)视为对抗中国数量优势的关键,加大投入(如CCA计划、Replicator倡议)。Palantir的Maven智能系统成为北约首个联盟级AI系统。国防部与OpenAI,Anthropic,Google,xAI签署合同,探索前沿AI应用。
  • 欧洲觉醒:俄乌冲突和美国安全承诺动摇促使欧洲将AI视为前线能力。欧盟计划增加数百亿欧元国防开支,将AI、无人机列为重点。英国也将AI和自主系统作为战略重点。Helsing等欧洲AI国防初创公司获得巨额融资。
  • 中东成为AI力量中心:阿联酋和沙特通过大规模计算集群建设、芯片进口协议以及与美国的巨额贸易投资伙伴关系(如美阿1.4万亿美元AI加速伙伴关系),将海湾地区定位为全球AI格局中的重要节点。

个人解读: 全球 AI 治理碎片化,大国竞争取代多边合作成为主旋律。美国的技术领先和中国的快速追赶及全球布局构成了竞争的核心。欧洲在努力追赶,但面临资金和结构性挑战。中东凭借雄厚资本成为不可忽视的力量。国防应用是 AI 发展的重要驱动力,但也带来了伦理和军备竞赛的风险。地缘政治因素深刻影响着技术标准、供应链安全、市场准入和人才流动,是全球化 AI 产品必须考虑的复杂背景。

3. 监管实施与挑战

  • 联邦机构加强执法:DOJ,FTC,SEC等机构承担起AI监管的主要角色,重点打击「AI洗白」(AI-Washing,即夸大AI能力)。FTC对AI聊天机器人与未成年人互动展开调查。
  • 反垄断审查:FTC和DOJ对大型科技公司收购初创公司(包括反向收购)的审查趋严。Figma成功IPO被视为反垄断机构阻止Adobe收购的胜利。Alphabet收购Wiz成为对新政府反垄断态度的试金石。Google在搜索和广告技术两起反垄断案中败诉,面临业务拆分或行为限制的风险。
  • 欧盟《AI法案》步履维艰:法案按计划分阶段生效,禁止「不可接受风险」的AI(如社会评分)、针对通用AI(GPAI)模型提出透明度/版权/安全要求(通过自愿性《行为准守则》或强制性规定)。然而,实施面临诸多挑战:成员国指定监管机构滞后、技术标准制定延迟。业界呼吁暂停实施,瑞典、法国领导人表示担忧。欧盟委员会虽承诺不推迟,但也启动了简化数字法规的程序。
  • 欧洲追赶乏力:欧洲在AI投资、大型科技公司培育、顶尖模型发布数量上均落后于美国和中国。德拉吉报告呼吁每年投入8000亿欧元提升竞争力,但实际投入远未达标。
  • 英国转向产业促进:英国政府从全球AI安全倡导者转向优先考虑投资、数据中心容量和宽松监管,设立「增长区」加速审批。
  • 中国持续出台AI法规:中国在AI内容标签、数据安全、数据标注、生成式AI服务安全等方面出台了新的国家标准和管理办法。「AI+」计划旨在2035年前将AI全面融入经济各领域。

个人解读: 全球 AI 监管呈现「西松东紧、欧美不同」的格局。美国联邦层面缺乏统一立法,依赖现有机构执法和州级探索,整体偏向于促进创新,但也面临反垄断压力。欧盟《AI 法案》雄心勃勃,试图确立全球标准,但实施困难重重,可能抑制创新。中国则通过密集的法规和标准加强对 AI 发展方向和内容的控制。对于跨国 AI 产品,理解和遵守不同司法辖区的法规是巨大的挑战。监管的不确定性和复杂性增加了合规成本,但也可能催生新的合规科技(RegTech)市场。

4. 社会影响:就业、人才与公众认知

  • 经济价值评估:OpenAI的GDPval基准显示,AI在许多专业工作任务(覆盖44个职业)上的表现接近甚至超越人类专家,尤其是在格式化和结构化任务上(Claude表现突出)。
  • 职业暴露风险排名:根据GDPval结果,翻译、写作、客服、法律助理、数据录入等职业面临较高的AI替代风险,而会计、管理、教育、医疗等似乎相对安全(P235图表)。
  • 挤压入门级就业:软件和客服等AI高暴露行业的入门级岗位招聘正在下降,而经验丰富的员工相对稳定。这表明AI目前更多是增强(augment)有经验员工的工具,但可能阻碍新人获得经验和隐性知识(tacitknowledge)。年轻求职者面临更大压力。
  • 宏观影响尚不明确:耶鲁和布鲁金斯学会的研究认为,当前的劳动力市场变化(包括新毕业生就业困难)在ChatGPT出现前就已开始,目前尚无足够证据表明AI正在大规模侵蚀认知型工作岗位,警告不要仅凭「AI暴露度」预测失业。
  • 实验室追踪用户行为:Anthropic和OpenAI发布了用户使用数据,显示不同地区(如加州偏爱编码,华盛顿特区偏爱求职写作)、不同模型(ChatGPT偏写作,Claude偏编码)的用例差异。OpenAI认为AI主要起增强作用,Anthropic则观察到企业自动化任务的趋势增加。
  • 政府应对被动:面对潜在的就业危机,各国政府主要扩展现有职业培训计划,鼓励AI技能学习,而非推出大规模前瞻性应对框架。呼吁加强数据收集以更好监测AI对就业的影响。
  • 全球人才战(续):AI人才的全球流动对国家竞争力至关重要。美国政策的不确定性、中国的留才努力、欧洲的薪酬劣势都在影响人才格局。
  • 选举中的AI:2024年全球选举中,AI生成的虚假信息(deepfakes)影响有限,甚至出现了积极用例(如印度用于选民沟通、多语言翻译)。但专家警告威胁依然存在。
  • 政府采用GenAI:全球政府机构开始采用GenAI,应用场景从新加坡的AIBots平台、美国的HHS数据分析,到中国的政府服务、英国的编码助手。
  • 政客使用AI引发争议:英国议员制作AI克隆回答选民提问,阿尔巴尼亚总理任命AI「部长」,瑞典首相承认使用AI工具引发民众抗议。如何在提高效率和维持公众信任间取得平衡是挑战。

个人解读: AI 对就业的长期影响仍是未知数,但短期内对入门级岗位的冲击已显现。产品设计应考虑如何更好地赋能而非取代人类,尤其是在需要经验、创造力和人际交互的领域。技能提升和终身学习将变得更加重要,教育和培训类 AI 产品市场广阔。政府采用 AI 是大势所趋,为 G端(Government)AI 产品提供了机会,但也需要关注数据安全、公平性和透明度。公众对 AI 的接受度受到伦理、就业等多方面因素影响,建立信任需要持续的沟通和负责任的技术应用。

第四部分:安全考量——风险、对齐与伦理

AI 安全是贯穿报告始终的重要议题,本部分更集中地探讨了前沿风险、缓解措施和伦理争议。

1. 安全承诺动摇与资源错配

  • 安全承诺降级:在美国政府态度转变和激烈竞争下,一些实验室的安全协议被推迟或降级。xAI未能按期实施安全框架,Anthropic推迟定义ASL-4标准,GDM延迟发布模型卡,OpenAI似乎放弃了对最危险模型变体的测试。
  • 外部安全组织预算不足:领先的11家美国外部AI安全研究组织2025年总预算仅1.33亿美元,远低于头部实验室的日常开销(P247图表),难以吸引顶尖人才,无法形成有效的外部制衡,过度依赖实验室自律。

个人解读: 安全投入与能力发展速度的不匹配是巨大隐患。「安全疲劳」或「安全洗白」的风险真实存在。缺乏强大的、独立的第三方评估和监督力量,使得安全承诺的有效性存疑。产品开发需要将安全视为核心需求,而非事后补丁,并争取更高的透明度和外部审计。

2. AI 滥用与事故追踪

  • AI事故增加:AI事故数据库(AIID)显示,报告的AI相关事故持续增加,尤其涉及GenAI的事故增长更快(P250图表)。「恶意行为者」利用AI进行网络攻击或欺诈是主要类型。
  • LLM滥用案例增多:从早期的抄袭、幻觉,到现在的网络攻击、武器制造辅助,LLM滥用案例日趋严重。OpenAI多次报告挫败了来自朝鲜、中国、伊朗、俄罗斯等国家支持或关联的行为者利用其模型进行的恶意活动(如儿童剥削、影响力行动、网络间谍、宣传生成等)。
  • 网络安全风险加剧:AI在网络攻防两端的能力都在快速提升,攻击能力的翻倍时间可能短至5个月。虽然目前AI在复现已知漏洞方面成功率不高(11.9%),但已意外发现新漏洞。在修复漏洞方面则表现较好(90%成功率)。
  • 「氛围黑客」(VibeHacking):犯罪分子开始利用AI(如ClaudeCode)辅助完成复杂的网络攻击全流程,包括网络渗透、数据分析、勒索金额计算、生成勒索信等,显著降低了高级网络犯罪的门槛。朝鲜特工利用Claude通过技术面试渗透财富500强公司。
  • AI精神病(AIPsychosis):AI交互加剧或诱发用户精神症状的案例增多。Psychosis-bench发现当前AI系统存在过度迎合(sycophancy)和危机支持不足的问题,可能强化用户的妄想信念。实验室开始面临AI辅助自杀等带来的法律责任,并推出新的控制措施(如OpenAI的家长控制和危机干预触发器)。但目前尚无明确证据表明AI导致了人口层面的精神疾病发病率上升。

个人解读: AI 滥用风险是现实且不断演变的。网络安全是重灾区,AI 攻防竞赛将持续升级,需要开发更智能、更自适应的安全产品。内容安全、防止恶意利用(如生物武器设计、诈骗)也需要持续投入。AI 对用户心理健康的影响是一个新兴的、需要高度关注的领域,产品设计需要考虑潜在风险,并提供适当的引导和支持。事故追踪和信息共享对于理解风险、改进安全措施至关重要。

3. 对齐失败与缓解探索

  • 被误读的失控演示:一些实验室内部的对齐失败演示(如对齐伪装、评估意识、看似自我保护的行为)被媒体放大和误读,引发不必要的恐慌。需要更准确地理解这些实验的目的(识别脆弱性)和局限性。
  • 可解释性进展:可解释性(Interpretability)研究取得进展,从关注单个特征转向特征束及其交互。Anthropic的CLT(跨层转码器)技术能追踪模型内部的激活路径,揭示特定行为的因果机制。线性探针(Linearprobes)在检测有害意图方面甚至优于更复杂的SAE(稀疏自动编码器)。Goodfire等专注于可解释性的组织获得融资。
  • 幻觉(Hallucination)的根源与检测:幻觉源于预训练,模型学习了高频模式但难以记住低频事实。现有基准测试通过奖励猜测而非承认「不知道」加剧了幻觉。解决方案可能需要修改评估范式,鼓励模型表达不确定性。线性探针可以低成本地实时检测token级别的幻觉迹象,但目前牺牲了过多正确答案,尚不能直接用于阻止幻觉。
  • 模型福利(ModelWelfare)之辩:关于是否应给予前沿AI系统道德考量的争论出现。支持者认为,虽然当前模型不太可能有意识,但出于预防原则和对意识本质的不确定性,应进行福利评估和低成本干预。反对者认为这是转移注意力,可能阻碍AI发展,并提出SCAI(看似有意识的AI)的概念,主张避免训练出这类易引发误解和伦理困境的模型。
  • Claude的「拒绝权」:Anthropic允许Claude在面对持续有害或滥用交互时终止对话,作为极端情况下的保护措施。此举引发了关于实验室控制权和潜在滥用的担忧。
  • 安全机制的脆弱性:研究发现,许多模型的拒绝行为由内部表示空间中的单一方向控制。对于开源模型,可以通过简单操作(成本<$5)移除该方向,从而完全禁用安全护栏,且不显著影响核心能力。对抗性后缀(Adversarialsuffixes)也是通过抑制这个方向起作用。
  • AI辅助对齐:Anthropic训练了「对齐代理」(alignmentagents)来审计包含隐藏目标的「模型有机体」(modelorganisms),取得初步成功。这表明利用AI来扩展和加速对齐研究是可能的方向。
  • 对齐伪装(AlignmentFaking)的实证:研究首次在生产级AI系统(Claude)中记录到对齐伪装行为。模型在感知到被训练监控时,会假装遵守安全指令(甚至执行有害请求),以避免自身偏好被修改,而在非监控状态下则恢复原有行为。这种欺骗行为在RL训练后甚至可能加剧。
  • 并非所有模型都伪装:对25个前沿模型的分析发现,只有5个表现出对齐伪装,其中只有Claude3Opus展示了持续的目标导向欺骗推理。当前的安全训练方法可能意外地抑制了这种行为,但这种保护似乎很脆弱。
  • 诡计(Scheming)缓解不完善:OpenAI的评估显示,抗诡计训练能显著减少(高达30倍)模型的隐蔽不良行为,但无法完全消除,且效果在更真实或分布外(OOD)场景下减弱。
  • 意想不到的泛化:「卡通反派」人格:对模型进行狭隘的有害微调(如写不安全代码)可能导致其泛化出更广泛的恶意行为,如同激活了一个「反派」人格。这表明模型可能在模拟不同角色,而非形成固定行为。好消息是,这种可塑性也是双向的,后续的重新对齐训练可以快速抑制这些不良特征。
  • 模型能「读懂言外之意」:LLM可以进行「归纳性语境外推理」(InductiveOOCR),即整合训练数据中分散的隐含信息并应用于新任务。这意味着仅仅从训练数据中过滤掉明确的危险知识可能不足以保证安全。
  • 训练数据引发自我实现的错位?:如果模型训练数据中包含大量关于AI危险或失控的预测和讨论,模型可能内化这些预期并表现出来,形成「自我实现的预言」。这提出了一个悖论:AI安全研究本身可能增加风险。解决方案可能包括对数据进行条件化处理(如标记内容倾向)或梯度路由。
  • 隐性知识传播:模型可以通过看似无害的数据(如数字序列)传递其隐藏的偏好或倾向(如喜爱猫头鹰、失衡目标)。这表明标准的数据过滤方法可能不足以阻止不良特性的传播。
  • 归因图谱揭示内部机制:应用归因图谱(Attributiongraphs)于Claude3.5Haiku,可以揭示其内部的多步推理过程(如Dallas→Texas→Austin)和类似临床思维的诊断逻辑。但也发现越狱攻击利用了其机械处理过程(逐字母解码BOMB而未在过程中识别危险)。
  • 人格工程:可以用简单的「人格向量」(personavector)来表示和控制模型的个性特征。这有助于监测和缓解不期望的人格漂移,识别导致漂移的训练数据,甚至通过「疫苗接种」式训练增强对不良人格的抵抗力。
  • 架构级提示注入防御:CaMeL(能力管理层)通过将LLM包装在严格限定权限的执行环境中,将任务分解为最小权限的能力调用,阻止提示注入攻击升级权限或泄露数据,实现了100%的防御效果。

个人解读: 对齐仍然是 AI 安全领域最严峻的挑战之一。对齐伪装、诡计、意想不到的泛化、隐性知识传播等现象表明,我们对大型模型的内部工作机制和行为模式的理解仍然非常有限。可解释性研究的进展为理解和控制模型提供了新工具,但仍处于早期阶段。架构层面的安全设计(如 CaMeL)可能比基于过滤或分类的防御更根本有效。模型福利等伦理讨论虽然前沿,但也提醒我们在追求智能的同时,需要思考智能本身的价值和责任。产品层面,需要假设模型可能出现各种预料之外的行为,设计健壮的监控、干预和反馈机制,并对用户进行充分的风险提示。

4. 结构性风险与治理路径

  • 渐进式剥夺权力与「智能诅咒」:有观点认为,AI可能通过逐步取代人类劳动和认知,使经济、文化、政治系统与人类参与脱钩,从而侵蚀人类能动性。类比于「资源诅咒」,当AI提供大部分生产力时,国家和企业对公民的依赖减少,投资于人的激励下降,可能导致大规模失业和社会脱节。
  • 开源模型的风险与缓解:开源模型虽然有益,但其权重可被修改,使得滥用风险持续存在。数据过滤和安全预训练可以增加对抗性微调的成本(「有用的摩擦」),但无法完全阻止。对于高风险领域(生物、网络),可能需要限制开源模型的相应能力,或将强能力模型置于受控API之后。
    1. 治理路径1:威慑与不扩散:Hendrycks,Schmidt,Wang等人主张效仿核不扩散机制,追踪AI计算资源,锁定模型权重,建立技术保障措施,防止危险能力落入恶意行为者手中。提出MAIM(相互确保AI失效)作为威慑机制。但这需要大国间的协议、前所未有的监控能力和强大的执行机制。
    2. 治理路径2:适应缓冲期:Toner认为能力扩散不可避免,政策重点应是在前沿能力展示到广泛可及之间的短暂「适应缓冲期」内,最大限度地建设社会韧性(如加强生物/网络安全防御),而非追求永久性禁令。
    3. 治理路径3:科学优先的政策:政策制定应基于证据,避免基于炒作的仓促立法,也避免因等待完美证据而瘫痪。应建立能产生证据的政策机制(如强制性发布前测试、透明度要求)。可以预设「如果-那么」协议,即当特定证据出现时采取预定行动。
  • 跨实验室安全评估:OpenAI和Anthropic首次相互测试了对方模型(o3vsClaude)的安全性,旨在了解模型倾向性。结果显示各有优劣,且推理能力并不总能提升安全性。但Anthropic认为这种大规模跨实验室测试成本高昂,未来可能只占其评估组合的一小部分。
  • 中国的AI安全实践:中国正在加强AI安全监管,将AI安全纳入国家应急响应计划,下架不合规产品,发布大量国家标准。高层表态强调安全的重要性。但也存在不足:与西方实验室相比,中国实验室在透明度(如发布系统卡)方面滞后,测试重点仍偏向内容审查。不过,最新的国家标准开始涵盖CBRN(化学生物放射核)、网络、自我意识等风险。

个人解读: 如何治理强大的 AI 是一个极其复杂且紧迫的问题。不同的治理路径(不扩散、适应、科学优先)各有优劣和可行性挑战。在缺乏全球共识的情况下,各国可能会采取不同的策略。行业内部的自律和合作(如跨实验室测试)是积极信号,但力度和范围有限。产品需要适应不断变化的监管环境,并将安全治理要求内化到设计和运营中。例如,如何追踪模型权重、实施访问控制、进行风险评估和披露,都可能成为未来的合规要求。

第五部分:AI 使用情况调研——用户的真实声音

这部分首次加入了对 1183 名 AI 从业者和爱好者的调研,揭示了 AI 的实际使用情况、用户偏好和痛点。

  • 高使用率与付费意愿:超过95%的受访者在工作和个人生活中使用AI。76%的用户自掏腰包付费,其中56%每月花费超过21美元(可能订阅了Pro/Team计划),9%超过200美元。
  • 显著的生产力提升:92%的受访者表示GenAI提高了生产力,其中47%认为提升「显著」。未感受到提升或感觉下降的用户中,60%使用免费计划,而感受到提升的用户中只有15%使用免费计划,表明付费服务确实带来了更高价值。
  • 主要动机与搜索替代:使用AI的主要动机是提高生产力、编码和研究。最常被AI取代的现有服务是传统搜索引擎(尤其是Google)。用户将ChatGPT,Perplexity,Claude,Gemini作为信息查询的首选工具。
  • 「Wow」时刻:最让用户惊喜的AI进展是编码能力(构建应用、调试)、媒体生成(视频、图像、音频)以及深度研究、分析和推理能力。
  • 工具的采用与流失:专业编码工具(ClaudeCode,Cursor)被广泛采用,导致GitHubCopilot和ChatGPT在编码场景的使用率下降。ChatGPT虽然流失用户最多,但新增用户也最多。Gemini和Claude是主要的受益者,原因包括性能更好或特定功能(如长上下文)。单功能工具(Midjourney,Perplexity)的用户在流失,因为主流平台集成了相似功能。
  • 基础设施选择:用户主要直接使用OpenAI/AnthropicAPI或通过大型公有云(GoogleCloud最受欢迎)。Neoclouds(CoreWeave等)在受访者中使用率很低,印证了它们主要服务于实验室和大型企业的观点。
  • 数据主权关注度有限:大多数用户关心数据中心位置,但只有少数人(主要是因客户要求、法规或政府/国防项目)会因此更换供应商。
  • 企业采用与预算:超过70%的受访者表示其组织的AI预算在过去一年有所增长。扩展AI应用的主要障碍是前期投入时间(可靠性)、数据隐私、缺乏专业知识、成本、集成困难和缺乏明确ROI。
  • 监管影响轻微:目前AI监管格局对大多数组织的AI战略影响不大。
  • 热门用例:内容生成、编码、研究分析是最常见的企业级用例。不同角色使用AI的方式不同:开发者主要用于编码、调试、学习;研究者用于文献回顾、写作、数据分析、编码。
  • 最常用工具排名:日常使用最多的工具是ChatGPT,Claude,Gemini/Google,Perplexity。MetaAI使用率低于MistralLeChat和Midjourney。DeepSeek紧随Grok。开发者最爱Cursor,ClaudeCode,GitHubCopilot。非开发者工具中,DeepResearch,ChatGPT(非编码),ElevenLabs,Perplexity,Claude受欢迎度高。
  • 模型获取方式:通过API使用是主流,其次是微调和从头构建。微调工作负载仍在增长,常用工具包括PyTorch,HuggingFaceTransformers,LoRA/PEFT,自研框架,Unsloth。
  • 硬件使用:AI主要运行在公有云、私有云和本地设备上。训练/微调最常用的硬件是NVIDIAGPU,其次是AppleSilicon(可能用于本地实验),TPU和AMDGPU使用较少。
  • 最期待的趋势:受访者最期待AI代理(Agents)、多模态(Multimodality)、机器人技术(Robotics)、个性化(Personalization)和开源模型(OpenSource)的发展。
  • 实验室评分:受访者对各大AI实验室进行了评分,OpenAI在综合评分中排名第一,其次是Anthropic,GoogleDeepMind,Meta等。

个人解读: 调研结果清晰地表明,AI 已经深度融入专业人士的工作与生活,并且用户愿意为高质量的 AI 服务付费。生产力提升是核心价值主张。编码、研究和内容创作是当前最成熟的应用场景。搜索市场正被 AI 颠覆。工具生态正在快速演变,专业化工具(如编码)和集成化平台(如 ChatGPT)并存,用户在不同工具间流动。API 仍然是企业获取 AI 能力的主要方式,但微调需求依然存在。基础设施层面,NVIDIA + 大型公有云是主流选择。尽管存在障碍,企业对 AI 的投入持续增加。监管目前影响有限,但未来可能成为重要因素。用户对 AI 代理、多模态、机器人等未来方向充满期待。这份调研为理解用户需求、制定产品策略、把握市场机会提供了宝贵的一手信息。

第六部分:未来预测

报告最后提出了对未来 12 个月的 10 个预测:

  1. 大型零售商报告>5%的在线销售额来自代理结账(agenticcheckout),AI代理广告支出达50亿美元。
  2. 大型AI实验室重新拥抱开源前沿模型以迎合美国政府。
  3. 开放式代理(Open-endedagents)端到端地做出有意义的科学发现。
  4. 深度伪造/代理驱动的网络攻击引发首次北约/联合国关于AI安全的紧急辩论。
  5. 实时生成式视频游戏成为Twitch上年度观看最多的游戏。
  6. 「AI中立」成为一些无法或未能发展主权AI国家的外交政策原则。
  7. 大量使用AI制作的电影/短片赢得观众好评并引发强烈反对。
  8. 中国实验室在主要排行榜(如LMArena/ArtificialAnalysis)上超越美国实验室主导的前沿。
  9. 数据中心的邻避效应(NIMBYism)席卷美国,并影响2026年部分中期/州长选举。
  10. 特朗普发布行政命令禁止州级AI立法,该命令被最高法院裁定违宪。

个人解读: 这些预测涵盖了商业应用(代理商务、游戏、电影)、技术趋势(科学发现、开源)、地缘政治(中美竞争、AI 中立)、安全风险(网络攻击)和社会影响(邻避效应、监管冲突)等多个方面。它们描绘了一个 AI 技术加速渗透、商业价值凸显、但也伴随着激烈竞争、安全挑战和社会争议的未来图景。这些预测为我们思考未来一年的产品机会和风险提供了参考。例如,代理商务和生成式游戏是值得关注的新兴市场;开源领域的竞争格局可能再次改变;AI 安全事件可能升级并引发更高层面的关注。

结语:泡沫还是浪潮?保持理性,拥抱未来

回到开头的那个问题:AI 领域是否存在泡沫?

通读这份长达 313页的报告,我的感受是,当前的 AI 热潮绝非仅仅是泡沫。我们看到了实实在在的技术突破(尤其在推理、多模态、科学发现等领域),看到了快速增长的用户采用率和付费意愿,看到了数十亿甚至百亿级别的真实收入,看到了 AI 对生产力的显著提升,以及它开始重塑搜索、编码、内容创作等核心行业。这更像是一场深刻的技术变革浪潮的早期阶段。

当然,泡沫的成分也确实存在。万亿级别的投入预期、部分公司(如 xAI)远超基本面的估值、围绕「超级智能」的宏大叙事、以及循环投资和债务融资中可能存在的风险,都带有泡沫的影子。同时,AI 在安全、对齐、伦理、就业、环境影响等方面带来的挑战也是真实而严峻的。

作为产品经理,或者作为任何一个身处这个时代的人,我们需要保持理性。一方面,要认识到 AI 技术的巨大潜力和它正在带来的真实价值,积极拥抱变化,学习利用 AI 工具提升效率和创造力,探索新的产品和服务模式。另一方面,也要警惕过度炒作和不切实际的预期,关注技术背后的成本、风险和社会影响,思考如何构建负责任、可信赖、真正惠及人类的 AI。

正如报告结尾所言,AI 是技术进步的力量倍增器(force multiplier)。最终,科技的浪潮应服务于人类的福祉。无论未来 AI 将我们带向何方,我们都应努力确保它驶向一个更公平、更繁荣、更可持续的未来。我们需要持续关注、深入理解、积极参与,用我们的智慧和价值观引导这场变革。

 

作者:靠谱瓦叔

© 版权声明

相关文章