这篇文章带来了一位重量级人物——Andrej Karpathy的深度访谈。Karpathy是OpenAI的早期成员,也是特斯拉AI总监,他在AI领域有着深厚的实战经验和独到的见解。

看了 Andrej Karpathy 的播客,信息量巨大
开篇泼冷水:未来十年没有 AGI,只有 Agent
这里说一下,Karpathy 是 OpenAI 早期成员,参与过 GPT 背后的技术路线,在一线干了 15 年同时,Karpathy 也是前特斯拉 AI 总监
同时,我制作了一份中文版音频使用的工具,是大橘子的 ListenHub 的 API(我弄了一整个周日,非常良心)
这里,我还准备了一份文字实录,中英双语

中英双语,非常贴心
在 Andrej Karpathy 眼中,当前的 AI Agent,核心问题有三个:
• continual learning:你告诉它一个事,它记不住
• multimodal:真正的多模态还没做到
• computer use:不能像人一样操作电脑
这三个问题,每一个都得花好几年解决
AGI 还要十年
有人说今年是 Agent 之年
Karpathy 表示:应该叫「agents 的十年」
在他的观点里
我们未来十年没有 AGI,只有 Agent
业界有很多 over-prediction
对于 AGI 大家都太乐观了
他举了个例子
你现在有 Claude、有 Codex,对吧,很厉害
但你会让它们替你干活吗?不会
为什么?
因为它们就是不行
智能不够、多模态不够、记不住东西、不能操作电脑
这些问题,每一个都是硬骨头
要花时间一个个啃
continual learning 这个事,很多人可能没意识到有多重要
现在的 LLM,你跟它聊天
它看起来「记住」了你说的话
但那只是因为对话历史还在 context window 里
你关掉窗口,重新开一个对话,它什么都不记得
这不是 bug,这是设计就这样
要让它真的「学习」新知识
不只是记住,而是真正理解并融入已有知识体系
目前没有好办法
你可能会想,那就扩大 context window 不就行了
问题是这治标不治本,学习不能只是把内容简单地塞进上下文
真正的学习,是要把新知识整合到模型的参数里
这需要重新训练,或者找到新的架构,成本高得吓人
当前的AI, 无法真正学习新知识
强化学习:terrible, but everything else is worse
播客里有个特别有意思的部分
Karpathy 说:
强化学习是个糟糕的选择
但紧接着他又说:
但其他方法更糟糕
这话听着矛盾,但其实是对现状最准确的描述
RL 的问题主要是数据效率太低
你想让模型学会一个东西,得让它试错无数次
AlphaGo 下围棋,self-play 了几百万局
才达到世界冠军水平
这种训练方式,放在真实世界根本不现实
你不可能让自动驾驶撞车几百万次来学习
你也不可能让医疗 AI 误诊几百万次来进步
所以:RL 在真实世界的应用,始终受限于数据效率
强化学习,需要海量试错
但为什么还要用 RL?
因为 supervised learning 也有问题:
需要大量标注数据
而真正难的任务,根本标注不出来
比如「写一个好的代码」、「做一个好的决策」
什么叫「好」
人类自己都说不清楚
你让标注员去标注什么是「好代码」
每个人的标准都不一样有人觉得简洁就是好,
有人觉得性能高就是好
这种主观性太强的任务,标注成本高得离谱
而且质量还没保证
所以最后还是得回到 RL,让模型自己在反馈中学
通过奖励信号,而不是人工标注,是目前唯一可行的路
Karpathy 的判断是:
未来会是 SL + RL 的混合
先用 supervised learning 学个大概,建立基础能力
再用 RL 精调,在具体任务上优化
但这条路,还有很长的路要走
需要解决的技术问题一堆
比如怎么设计好的奖励函数,怎么平衡探索和利用
每一个都不容易
未来的训练方式:监督学习 + 强化学习
人类怎么学习,AI 为什么学不会
播客里有一段特别精彩
主持人问:
人类是怎么学习的,为什么 AI 学不会
Karpathy 给了个很有意思的观点:
人类的学习,是多模态 + embodied + continual 的
什么意思?
对于一个苹果,在人类的认识中:
• 视觉上看到红色、圆形
• 触觉上感受到光滑、硬度
• 味觉上尝到甜味
• 听觉上听到咬下去声音
这些信息是同时发生的,互相强化的
而且你一辈子都在学,不断更新认知
你小时候对「苹果」的理解
和你现在对「苹果」的理解
肯定不一样
正如…
小时候对「络腮胡」的理解
和你现在对「络腮胡」的理解
也不一样(雾
这种持续的、多模态的学习方式,是人类智能的基础
人的学习能力,很牛逼
但 LLM 呢?它只有文本
虽然现在有了 vision model,但那还不是真正的 multimodal
真正的 multimodal,是所有模态在同一个 latent space 里
信息是融合的,不是翻译的
现在的做法,更像是把图片翻译成文本描述,再喂给 LLM
这不是真正的融合
就像你把一个视频的每一帧都写成文字描述
这个描述再详细,也不等于你真的看了视频
丢失的信息太多了
而且,LLM 不能 continual learning
你今天告诉它一个新知识,明天它就忘了
除非你重新训练整个模型,但那成本太高
一个模型训练一次,可能要花几百万美元
你不可能每次有新知识就重新训练一遍
Karpathy 说:
这是个根本性的架构问题
当前的 transformer 架构,就不是为 continual learning 设计的
它的参数是固定的,训练完就冻结了
要解决这个问题,可能需要新的架构
能够动态更新参数,而不影响已有知识
这是一个很难的问题
学术界在研究,但还没有成熟的方案
Transformer 架构不支持持续学习
model collapse:AI 不能吃自己
播客里还提到一个很有意思的概念:
model collapse
什么意思?
就是 AI 生成的数据,不能用来训练 AI
为什么?
因为会越来越糟
人类可以从人类写的东西里学习,对吧
你读别人写的书,你变聪明了
代际之间互相学习,知识不断积累
但 AI 不行
如果你用 AI 生成的文本,再去训练下一代 AI,模型就会越来越偏
最后输出变得越来越单调、越来越重复
这个问题其实挺严重的
现在网上越来越多 AI 生成的内容
文章、代码、图片、视频
如果下一代 AI 训练的时候,把这些内容也当成「真实数据」
那就完了
模型会学到 AI 的偏见和错误
然后放大这些偏见和错误
循环往复,越来越糟
这就是为什么 AI 不能像人类那样自我学习
人类可以互相学习、代际传承
但 AI 必须依赖人类产生的真实数据
这是个很大的瓶颈
而且随着 AI 生成内容越来越多
「干净」的人类数据会越来越少
将来怎么办?值得思考
有人提出:
可以标注 AI 生成的内容,训练时过滤掉
但这也不容易
AI 生成的内容越来越逼真,很难区分
而且标注成本也很高
这个问题,目前还没有好的解决方案
AI 生成内容,正在污染整个互联网
AGI 会是什么样:融入 2% 的 GDP 增长
很多人对 AGI 有个幻想
觉得会有个奇点,突然爆炸
某一天,AGI 出现了,然后世界完全变了
Karpathy 说:不会的
他的判断是:
AGI 会融入过去 2.5 个世纪的 2% GDP 增长
什么意思?
过去 250 年,人类社会一直在以每年 2% 的速度增长
蒸汽机来了,2%
电力来了,2%
互联网来了,2%
为什么?
因为技术革命不是一瞬间的
它需要时间扩散、需要基础设施、需要人适应
蒸汽机发明了,不是第二天所有工厂都换成蒸汽动力
需要几十年时间,建铁路、建工厂、培训工人
互联网也一样
1990 年代就有了,但真正普及到每个人手机上,用了 20 多年
AGI 也一样
它会逐渐渗透到各行各业
但不会在某一天突然改变一切
先是一些简单的任务被自动化
然后是复杂的任务
一步步来
期间会有阵痛,会有失业,会有适应期
但不会是突然的、剧烈的
Karpathy 说
他不相信「hard takeoff」
他相信的是:
AGI 会像之前所有技术革命一样,缓慢、渐进地改变世界
这个判断,其实挺重要的
如果 AGI 真的是这样,那我们有时间准备
不用担心明天醒来世界就变了
可以慢慢调整教育体系、社会保障、法律法规
这是一个好消息
当然,2% 的增长也不是绝对的
可能某些年份会高一些,某些年份低一些
但长期来看,会是一个相对稳定的、可预测的过程
而不是指数爆炸式的奇点
自动驾驶:为什么花了这么久
播客里还聊了自动驾驶
Karpathy 在特斯拉干了 5 年 Autopilot,他太清楚这里面的坑了
主持人问:
为什么自动驾驶这么难,为什么花了这么久
Karpathy 给了几个理由
第一个,是 long tail problem
你以为自动驾驶就是识别车道线、识别红绿灯
太天真了,真实世界有无数种情况
施工路段、临时路牌、突然窜出的小孩、逆行的疯子、路上的大坑、掉落的货物
这些「长尾情况」,占比很小,但每一个都可能致命
你必须把它们全部解决
不能说「我 99% 的情况都能处理」,剩下的 1% 就会是事故
而且这个长尾,真的很长
你以为处理完 100 种情况就够了
结果发现还有 1000 种
处理完 1000 种,还有 10000 种
永远有新的边缘情况
这就是为什么自动驾驶这么难
第二个,是 safety bar
自动驾驶不是「比人类平均水平好」就行
它必须远好于人类
为什么?
人们对机器的容忍度,远低于对人的容忍度
人类司机每天撞车,大家习惯了
美国每年 4 万人死于车祸,大家也接受了
但如果是自动驾驶撞了一次
新闻头条、国会听证、股价暴跌
所以 safety bar 特别高
(所以… AGI Bar 呢?)
不是做到人类水平就行,要做到远超人类水平
这个标准,其实挺不公平的
但现实就是这样
技术要被接受,必须远好于现状
不能只是「稍微好一点」
第三个,是 data problem
自动驾驶,需要海量的真实驾驶数据
再次划重点:真实世界的
这需要时间积累
特斯拉为什么现在做得好
因为它有几百万辆车在路上跑,每天收集数据
这是花钱买不来的
你可以造一个很贵的实验室,雇一堆博士
但你造不出几百万辆车在路上跑的数据
这个优势,其他公司很难追上
Karpathy 说:
自动驾驶花了这么久,其实是给 AGI 的一个预警
AGI 会遇到同样的问题
long tail、safety、data
每一个都需要时间
不是说模型做出来就完事了
还要在真实世界里打磨,处理各种边缘情况
这个过程,可能比模型训练本身还要长
教育的未来:untangling knowledge
播客最后聊了教育
Karpathy 现在在做 Eureka Labs,一个 AI 教育公司
他对教育有个很有意思的理解
好的教育,是 untangling knowledge
什么意思?
知识本身是一团乱麻
所有概念互相缠绕、互相依赖
但学习需要一个线性的路径
你得先学 A,才能学 B
好的老师,就是把这团乱麻理清楚
让学生按照一个清晰的顺序,一步步往上爬
每一步都只依赖前面学过的东西
不会突然冒出一个新概念,让你措手不及
Karpathy 举了个例子
他的 transformer 教程,为什么大家觉得好
因为他从 bigram 开始
bigram 是什么?
就是个 lookup table:上一个词是 A,下一个词是 B
就这么简单
一个 2 维表格,谁都能看懂
然后一步步加东西
加 embedding、加 attention、加 layer norm
好的教育,每一步都会解释:为什么要加东西,这是在解决什么问题这就是 untangling
比如,把复杂的 transformer 拆成一步步的演进,每一步都有章可循
他还说了个特别重要的教育原则:
present the pain before you present the solution
别上来就告诉学生答案,先让他们感受到问题,然后再给解决方案,这样学得才深
为什么?
因为如果你直接给答案,学生不知道这个答案解决了什么问题
就像你告诉学生「attention 机制是这样的」
学生学会了公式,但不知道为什么需要 attention
如果你先展示问题:
之前的模型处理长序列有这个问题
先让学生自己思考怎么解决
然后你再给出 attention 这个方案
学生会恍然大悟:原来是这样解决的
这种学习,才是深刻的,才能记得住
这个原则,其实不只适用于技术教育
任何教育都一样
先让学生感受到问题的存在,再给解决方案,这样学习效果
最好最后说两句
这个播客值得一看
Karpathy 是一个在一线干了 15 年的人
很诚实地说出他看到的东西
在 Karpaty 眼中,AGI 还需要十年
不是因为技术不行,而是因为问题太多、太难
continual learning、multimodal、safety、long tail、data
每一个都是硬骨头,需要时间一个个啃,但也不是遥不可及
十年,听起来很长
但 iPhone 发布到现在,也就 17 年
不用焦虑,也不用盲目乐观
踏踏实实做事就好
作者【赛博禅心】,微信公众号:【赛博禅心】