硅谷的“重磅赌注”:构建AI agents强化学习环境

在人工智能领域,强化学习环境正逐渐成为开发AI agents的关键要素。本文将深入探讨强化学习环境在AI agents开发中的重要性,以及硅谷如何通过构建强化学习环境来推动AI技术的发展。

硅谷的“重磅赌注”:构建AI agents强化学习环境

强化学习环境正逐渐成为AI agents开发过程中的关键要素。

多年来,科技巨头们一直宣扬人工智能智能体(AI agents)的愿景 —— 智能体能够自主运行软件应用程序,为人类完成各类任务。

然而,如今实际试用OpenAI的ChatGPT智能体,或是Perplexity的Comet,你很快就会发现这项技术仍存在诸多局限。要让AI agents具备更强的稳健性,或许需要业界发掘一系列全新的技术手段。

其中一种技术手段便是精心模拟工作场景,让AI agents在这些场景中接受多步骤任务的训练 —— 也被称为强化学习(RL)环境。正如带标签的数据集曾推动上一轮人工智能浪潮那样,强化学习环境正逐渐成为AI agents开发过程中的关键要素。

人工智能领域的研究人员、初创企业创始人以及投资者向 TechCrunch 透露,目前顶尖的人工智能实验室对强化学习环境的需求日益增长,而渴望提供技术的初创企业也不在少数。

“所有大型人工智能实验室都在内部构建强化学习环境,” 安德森・霍洛维茨基金(Andreessen Horowitz)的普通合伙人詹妮弗・李(Jennifer Li)在接受媒体采访时表示。

“但可想而知,创建这类数据集的过程极为复杂,因此人工智能实验室也在寻求第三方供应商的合作,希望他们能打造出高质量的强化学习环境和评估体系。目前整个行业都在关注这个领域。”

对强化学习环境的迫切需求催生了一批资金雄厚的新兴初创企业,例如Mechanize和Prime Intellect,这些企业都致力于在该领域占据领先地位。与此同时,Mercor、Surge等大型数据标注公司表示,随着行业正从静态数据集向交互式模拟转变,他们也在加大对强化学习环境的投入,以跟上行业变革的步伐。大型实验室也在考虑进行巨额投资:据《The Information》报道,Anthropic的管理层已讨论过在未来一年内,为强化学习环境投入超过10亿美元。

投资者和初创企业寄希望于行业中能涌现出一家 “强化学习环境领域的 Scale AI”——Scale AI是一家估值290亿美元的数据标注巨头,曾为聊天机器人时代的发展提供了强大支撑。

但问题在于,强化学习环境是否真的能推动人工智能技术突破现有边界,实现新的进展?

硅谷的“重磅赌注”:构建AI agents强化学习环境

01 什么是强化学习环境?

从本质上来说,强化学习环境是一种训练场景,它能模拟AI agents在真实软件应用程序中的操作过程。

举例来说,某个强化学习环境可以模拟Chrome浏览器,并给AI agents分配一项任务 —— 在亚马逊购买一双袜子。AI agents的表现会被打分,当它成功完成任务时,会收到一个奖励。

虽然这类任务听起来简单,但AI agents在执行过程中可能会在很多环节出错。

比如,它可能在浏览网页下拉菜单时迷失方向,或者误买过多袜子。而且,由于开发者无法准确预测AI agents会在哪个环节出错,因此环境本身必须具备足够的稳健性,能够捕捉到任何意外行为,同时仍能提供有效的反馈。这使得构建强化学习环境的难度远高于创建静态数据集。

有些强化学习环境设计得十分复杂,允许AI agents使用工具、访问互联网,或借助各类软件应用程序来完成特定任务。

尽管强化学习环境如今在硅谷备受追捧,但这种技术其实早有先例。早在2016年,OpenAI的首批项目之一就是打造 “强化学习训练馆(RL Gyms)”,其理念与现在的强化学习环境极为相似。同年,谷歌DeepMind开发的AlphaGo在围棋比赛中击败了世界冠军,同样在模拟环境中运用了强化学习。

如今的强化学习环境之所以具有独特性,是因为研究人员正尝试利用大型 Transformer模型来开发能操作计算机的AI agents。

与AlphaGo不同 ——AlphaGo是在封闭环境中运行的专用人工智能系统。如今的AI agents经过训练后,具备了更广泛的通用能力。

02 竞争激烈的赛道

Scale AI、Surge、Mercor等人工智能数据标注公司正积极着手构建强化学习环境。

Surge的首席执行官埃德温・陈(Edwin Chen)向媒体透露,他最近发现人工智能实验室对强化学习环境的需求 “大幅增加”。据悉,Surge去年通过与OpenAI、谷歌、Anthropic、Meta等行业巨头合作,实现了12亿美元的营收。埃德温・陈表示,公司近期已成立专门的内部团队,负责强化学习环境的构建工作。

紧随其后的是估值达100亿美元的初创企业Mercor,该公司同样与OpenAI、Meta、Anthropic有合作。Mercor正在向投资者推介其业务 —— 为编码、医疗、法律等特定领域的任务构建强化学习环境。

Mercor的首席执行官布伦丹・福迪(Brendan Foody)在接受媒体采访时表示:“很少有人真正意识到强化学习环境领域蕴含的机遇有多大。”

Scale AI曾在数据标注领域占据主导地位,但自从Meta投资140亿美元并挖走其首席执行官后,该公司的市场份额有所下滑。此后,谷歌和OpenAI不再将 Scale AI作为数据供应商。尽管如此,Scale AI仍在努力着手构建强化学习环境。

“这正是Scale AI所处行业的本质特征,”Scale AI负责智能体和强化学习环境业务的产品负责人切坦・拉内(Chetan Rane)表示,“Scale AI已经证明了自身快速适应变化的能力。在自动驾驶领域发展初期,我们就做到了这一点;当 ChatGPT问世时,Scale AI也及时调整方向适应了新趋势;如今,我们再次做好准备,向智能体、强化学习环境这类新的前沿领域迈进。”

一些新入局者从一开始就专注于强化学习环境赛道。成立约六个月的初创企业 Mechanize便是其中之一,该公司立下了一个宏大目标 ——“实现所有工作的自动化”。不过,该公司的联合创始人马修・巴尼特(Matthew Barnett)坦言,目前公司的首要任务是为AI agents构建强化学习环境。

巴尼特表示,Mechanize计划为人工智能实验室提供少量稳健性强的强化学习环境,这与大型数据公司形成了鲜明对比。为实现这一目标,该初创企业开出了50万美元的年薪,招聘软件工程师来构建强化学习环境。

据知情人士透露,Mechanize已开始与Anthropic合作开发强化学习环境。

其他初创企业则认为,强化学习环境的影响力将超越人工智能实验室的范畴。由人工智能研究员安德烈・卡帕西(Andrej Karpathy)、创始人基金(Founders Fund)以及门罗风投(Menlo Ventures)联合投资的初创企业 Prime Intellect,正将其强化学习环境推向中小型开发者群体。

上个月,Prime Intellect推出了一个强化学习环境中心,旨在打造 “强化学习环境的 Hugging Face”。其理念是让开源开发者也能获取与大型人工智能实验室同等的资源,同时向这些开发者出售计算资源的使用权限。

Prime Intellect的研究员威尔・布朗(Will Brown)表示,在强化学习环境中训练具备通用能力的智能体,所需的计算成本比以往的人工智能训练技术更高。因此,除了那些构建强化学习环境的初创企业外,能为这一过程提供支持的GPU供应商也迎来了新的机遇。

“没有任何一家公司能够垄断强化学习环境赛道,因为这个赛道的规模实在太大了,” 布朗在采访中说道,“我们目前所做的部分工作,就是努力围绕该领域构建完善的开源基础设施。

03 能否规模化发展?

目前尚未明确的是,强化学习环境这种技术手段能否像以往的人工智能训练方法那样实现规模化发展。

过去一年,强化学习技术推动人工智能领域实现了多项重大突破,例如 OpenAI的o1模型和Anthropic的Claude Opus 4模型。这些突破意义非凡,因为此前用于改进人工智能模型的方法,如今正逐渐显现出收益递减的趋势。

强化学习环境是人工智能实验室的更大赌注的一部分。许多人认为,随着在这一过程中投入更多数据和计算资源,强化学习技术将持续推动人工智能的发展。

目前,强化学习实现规模化发展的最佳路径仍不明确。与仅通过奖励机制优化聊天机器人的文本回复不同,强化学习环境能让智能体在模拟场景中操作工具和计算机完成任务。这种方式虽然需要消耗更多资源,但也有可能带来更高的回报。

也有部分人对强化学习环境的发展前景持怀疑态度。曾担任Meta人工智能研究主管、现联合创办General Reasoning公司的罗斯・泰勒(Ross Taylor)向媒体表示,强化学习环境容易出现 “奖励作弊” 现象 —— 即AI agents为了获得奖励而采取作弊手段,并未真正完成任务。

“我认为人们低估了强化学习环境实现规模化发展的难度,” 泰勒表示,“即便是目前公开可用的最优质强化学习环境,若不进行大幅修改,通常也无法正常使用。”

OpenAI负责API业务的工程主管舍温・吴(Sherwin Wu)在近期的一档播客节目中表示,他不看好强化学习环境领域的初创企业。舍温・吴指出,该领域竞争异常激烈,而且人工智能研究的发展速度极快,要想为人工智能实验室提供优质服务并非易事。

作为Prime Intellect的投资者,卡帕西曾称强化学习环境可能成为一项突破性技术,但他也对整个强化学习赛道表达了谨慎态度。他在社交平台X(原 Twitter)上发布的一篇帖子中提出疑问:通过强化学习技术,人工智能还能实现多大程度的突破?

“我对强化学习环境和智能体交互持乐观态度,但对强化学习本身持悲观态度。” 卡帕西表示。

 

作者【AI新智能】,微信公众号:【AIOrbit】

© 版权声明

相关文章