AI数字人,要来抢饭碗了吗?

AI数字人正逐渐从科幻走向现实。从虚拟偶像到新闻主播,从广告代言人到企业培训讲师,AI数字人的应用场景越来越广泛。然而,随着其技术的成熟,一个问题也逐渐浮现:AI数字人是否会取代人类的工作?

AI数字人,要来抢饭碗了吗?

你印象里的数字人是什么样的?

小编第一次见识数字人,是几年前《明日之子 第一季》舞台上的赫兹。一个长得像动漫人物、唱跳动作有点生硬的虚拟偶像。

AI数字人,要来抢饭碗了吗?

那时候的数字人,更多像是秀肌肉的「技术demo」。有点意思,但也有点假,至少不像是能真正用起来的东西。

这几年,数字人伴随着争议一路成长:有人迷恋它背后的「科技与狠活」,有人嘲笑它的一眼假、五官僵,甚至直接拿来做段子。但就在这一路谩骂与掌声的夹杂中,AI数字人正在以肉眼可见的速度进化。尤其是在AI生成内容已经内卷到不能再卷的当下,曾一度被资本催熟、又被用户嫌弃的数字人技术,正在悄然完成一次从秀场到工地的转型。

一个很典型的信号,是今年2月字节跳动发布的OmniHuman-1模型。只需一张照片和一段音频,就能合成一个会动、会说、能表达情绪,还能对口型的数字人视频,甚至连背景、动作都能自适应生成。几乎同步,Hedra推出的Character-3也展示了在多平台上的超高适配能力,角色能自然微笑、点头、眨眼、起伏语调,给人的「类人幻觉」越来越真。

[fancyad id=”45″]

风投也嗅到了不一样的味道。不久前,a16z发布了一份关于AI数字人的行业报告,直接给出了一个判断:底层技术基本准备完毕,AI数字人正迈向爆发期,有望成为「下一个十亿级赛道」。

说白了,这不是「数字人又回来了」,而是「这回,它真的准备好了」。

过去十年,我们看着AI从「不会画画」进化到「秒出插画」,从「不会说话」跃升到「模仿语气播报新闻」。而AI数字人,是把这些能力捏合成一个「人」,既能动,又能说,还能听得懂指令和上下文。它可以是你早晨打开电视看到的财经主播,也可能是你品牌广告里的虚拟代言人,甚至成为公司培训中带你讲PPT、讲规章制度的那位「数字同事」。

但问题来了:技术准备好了,应用真的准备好了吗?

01 为什么说AI数字人的机遇来了?

在过去的AI热潮中,有太多「看起来很强、用起来不香」的技术。但AI数字人,正逐渐成为那个真正「能上手、能落地、能赚钱」的例外。a16z最近的报告直接下了一个判断:「AI数字人将成为下一个十亿级赛道。」听起来有点大词,那它到底靠什么撑起这个估值呢?

第一,底层能力确实发生了质变。

像字节跳动的OmniHuman-1和Hedra的Character-3是代表性成果。只需要一张照片、一段音频,系统就能生成动态背景+口型对齐+肢体动作协调的完整AI视频。数字人不仅能「说话」,还会「点头微笑」「眨眼转身」「识别语义调节语气」。这意味着它们已经大幅度穿过了「恐怖谷」,具备了真正的视觉与行为仿真能力。

第二,模块打通,形成「全链协同」的生成闭环。

过去的AI数字人只是「人脸生成器」,现在则是一个完整的内容协作系统:唇形同步、情绪识别、语音合成、动作逻辑、背景适配等技术模块,已经能够标准化协同工作。像负责合成声音的技术公司、做实时传输的后台系统,以及能自动生成虚拟人的平台,现在都在「对接接口、打通系统」。原来一个视频从配音到动画、再到剪辑要靠好几个人配合、反复沟通。现在这些技术可以串联起来,变成一套自动化流程,普通人也能一站式搞定。

第三,应用场景正在「刚需化」。

过去企业用AI数字人是「试试看」,现在已经变成了「必须用」。目前,很多场景需求已经到了临界点,但人力供给却常常掉队。比如广告、电商、教育、政务等行业,对标准化视频内容的需求暴涨,但真人拍摄的成本和效率已远远跟不上。数字人恰好填补了这个缺口,它像流水线上的机器人一样,高效、稳定、成本低。

从「科技圈炫技」走到「行业里干活」,这条路径并不陌生。AI数字人正在经历的,其实正是过去几年AIGC(文生图、文生视频)已经跑通的那条路。但也正是因为它看起来「终于能用了」,我们才必须问——现在真的适合让它「上场」了吗?它离大规模实用还有多少路?

这就不是模型的事了,而是场景的事,是人性的事。

02 AI数字人到底发展到了哪一步?

目前来看,大部分主流的AI数字人技术路径可以归结为三类:

第一种是轻量化合成路线,

以文字驱动的2D虚拟人,适用于低成本口播视频和模板化内容,典型代表如HeyGen、Synthesia。

第二种是中等拟真度+语音驱动路线,

融合TTS(文字转语音)、唇形同步与基础动作匹配,能实现「说话头像」的效果,主流社媒平台上已大量使用,尤其适合「知识类短视频」。

第三种是高保真拟人路线,

3D建模+面部捕捉+神经渲染,强调「像真人一样思考和互动」,比如字节跳动的OmniHuman-1、Hedra的Character-3等,具备整合视听动作的能力,朝「虚拟演说者」演化。

但热闹归热闹,国内真正能用到生产环节里的,目前其实只有少数几个场景:

首先,是内容快消领域。比如AI主播、讲解员、短视频脚本自动化生成、教学类内容录制等。优点是便宜、省时、不出错,缺点是重复性强、情绪表达弱。

其次,是品牌宣传与广告演示。可以用数字人代言产品、讲品牌故事,甚至在电商平台挂直播。但从广告公司的反馈来看,客户最在意的不是技术炫不炫,而是观众信不信、内容转化率高不高。

此外,还有企业培训与演示。这是目前增长最快的落地场景。从入职培训到销售话术,AI数字人帮企业节约了大量拍摄与人力成本。配合多语种翻译和知识图谱,还能实现「全球化复制」。

至于传媒行业、影视创作、互动娱乐等高情绪场景,目前还处在「小试牛刀」的阶段。许多AI生成的人物虽然口型对了、节奏对了,但依然做不到「讲一个动人故事」或「带来一个观点冲击」。

这或许正是当下最清晰的分野:AI数字人能替人说话,尚不能替人思考;能完成任务,却还难以建立连接。

在写这篇文章的时候,小编还去采访了身边的一家数字人创业公司,优链时代。针对目前的行业现状,他们非常巧妙地选择了另一个方向:不做卡通风的合成形象,而是通过高精度3D扫描技术,快速生成真人数字分身,用于文旅讲解、虚拟发布会、在线教育。这种「高拟真+强定制」的路径,本质上是在满足「场景信任感」的刚需——尤其是在「人设可信」远比「技术酷炫」更重要的场合。他们的底层判断很简单:技术卷得再快,最终决定AI数字人有没有用的,还是场景和人性。

03 定制的完美打工人,广告主用着「省心」吗?

说完发展,再看看当下AI数字人最实际的一个应用场景,广告。

在很多广告人眼中,AI数字人乍一看简直是为营销而生的「理想员工」。

它标准化、可控、不闹情绪,也没有人设崩塌风险。今天是极简科技感的白皮书女主播,明天就能变成潮牌感十足的Z世代男孩。穿什么、说什么、怎么笑,全凭你设定。出错了?删稿、重制、一键回炉即可。

但真到了实际投放里,情况却没有这么「美梦照进现实」。

「目前最适合数字人的场景,是高频、重复、需要大量标准化内容输出的营销动作。」十相宜创始人、《传媒1号》首席营销顾问王凯英跟我们介绍道。

比如一款产品,你不可能拍100支真人口播,但用数字人合成可以;又或者品牌想做“科技感”展示,AI主播确实加分。但要是到了真正讲故事、拉近情感距离的环节,数字人就容易掉链子。

AI主播最大的问题,是信任感和氛围感方面,有待提高。

尤其在当下「内容即社交」的语境中,品牌与用户之间的关系,本质上是建立在人与人之间的「信任关系」上的。而绝大多数AI数字人,哪怕外观仿真、语音真实,但观众刷个三秒后,仍然很快就能识破这是一张「AI脸」。这种「类人但不够人」的尴尬,很容易让品牌花了钱,却没讨好观众。

更别说,在现实操作中,创意团队和AI技术团队之间的沟通成本,比传统拍摄反而更高。

你想让数字人「微笑着眨眼说出这句话」,这不是动动嘴皮的事。你得调参数、试口型、配光线、导出素材、反复预览。很多时候,最后还不如找个真人一条过。

甚至连IP运营也成了难题。许多品牌原本指望打造一个虚拟代言人,长期陪跑,结果发现这些数字人热度来得快,去得也快。没有性格弧线、没有互动机制、没有故事背景,仅靠一张脸和几个pose,根本撑不起一个「品牌人格」。

针对「品牌人格」这个话题,王凯英说:「真人网红需要有故事,有真实的内核,并且明确是和品牌长期绑定发展的。举个比较成功的数字人例子,蜜雪冰城雪王。这个IP他们做了很长线、人感的运营。公司上市的时候也被请到现场,真的像一个代言人一样参与公司的大小事情,也走在一线,和消费者互动。比如近期云南泼水节,也有雪王的身影。社交媒体的积极互动,调侃、逗趣、爱凑热闹,专属的配饰,不同场合的变装等等。」

王凯英还总结道:「对于品牌如何用好数字人,这个需要品牌自己想清楚,为什么做这个,想要获得什么?如果只是短时间有一个便宜好用,不会有负面的代言人,那这个代言的效果肯定人感要差一点。」

所以,尽管AI数字人在广告行业的存在感越来越高,但它仍然只是一种「效率工具」,远没有达到「情感代言人」的角色。

归根到底,广告讲的不只是产品,还有人——人设、情绪、表达、共鸣。而这,恰恰是当下AI数字人暂时做不到的。

04 传媒行业能不能用上数字人?怎么用?

再说回AI数字人对传媒领域的影响。

对于传媒行业来说,AI数字人从来不是一个「能不能提高效率」的问题,而是一个「谁还在说话」的问题。

它不是一个换掉剪辑师的AIGC工具,也不是一个替主播省口播的语音模型,而是一个可能替代表达者本身的存在——主持人、记者、讲述者、内容人。也正因如此,它来得格外敏感。

这两年,很多媒体都在试水AI数字人。新华社、人民网等平台相继推出了自己的AI主播,连很多本地电视台也纷纷上马「虚拟主持人」。从技术角度看,它们的「播报准确率」「语音语调」「表情匹配度」都在逐步提高;但从观众感知来看,数字人还是难以很快替代人的「温度」。

这是AI数字人眼下在传媒行业最根本的短板。它可以传递信息,但还不能传递观点;可以生成内容,但很难生成立场。

内容行业的本质,从来不是「告诉你一个事实」,而是「带你看一个世界」。这需要的不只是读稿,还要「判断力、感受力和风格」而这恰恰是人类内容人的看家本事。

我们也可以反过来看。AI数字人其实更适合的是那些「信息性强+结构稳定」的内容场景,比如快速新闻播报(不涉及深度采访与观点)、多语种同传主播(适合国际会议、跨境电商)、企业PR口播(不需要态度,只需要标准化输出);但它难以胜任的是,情绪张力强的长对话(如人物专访),强调视角和语气的专栏类表达,以及需要「说话人身份」来承担社会意义的表达,比如主播控诉、记者追问、作者自白等等。

结语

某种程度上,我们可以说,AI数字人可以「表演一个记者」,但它永远不会「成为一个记者」。

随着AI数字人的突飞猛进,未来的内容人也许不会被替代,但一定会被「重构」。他们可能不再出镜讲故事,但要负责「喂养」数字人背后的脚本、语气、情绪策略;他们可能不再主持节目,但会成为「数字人内容运营官」,操盘整个人设、台词和观众互动。

这将是一场内容行业的「角色位移」——从「我就是内容」到「我设定内容」。

 

作者【葛缦】 微信公众号:【传媒1号】

© 版权声明

相关文章