文/VR陀螺
不久前,阿里巴巴通过3D高斯溅射技术在苹果Vision Pro上部署了实时高质量渲染的3D AI数字人TaoAvatar,可根据多视图序列生成逼真、拓扑一致的3D全身虚拟形象,姿势、手势和表情均可完全控制。
该技术使数字人在3D空间中能聆听、能说话、有表情、有动作,同一数字人可瞬间切换职业/服饰,未来可应用于AR电商直播场景等。未来可应用于虚拟导购等领域。
4月7日,阿里通义宣布开源发布LHM可驱动超写实3D数字人生成模型,可单图秒级生成超写实3D数字人。只需输入一张图片、即可与这张图片所生成的数字人化身进行低延迟的实时对话。未来,LHM有动作重现、游戏角色生成和虚拟现实探索三大应用方向。
数字人的发展远比想象中更快,AI化只是其变革的一个缩影。
虚拟主播、数字员工……当数字人都开始接入AI
自2022年起便处于休整状态的虚拟VTuber绊爱(Kizuna AI)于不久前以全新形象正式“复活”,在YouTube上恢复更新,并宣称未来将更专注于音乐活动。更新后不久,其YouTube订阅数重新突破300万。
左图为绊爱新形象
网友戏称:“2016年怀疑绊爱是不是AI,2025年还在怀疑绊爱是不是AI,一切都回来了!”
以人工智能为人设的绊爱或许未曾料到,同样是在2022年,在自己宣布无限期休整后,真正意义上的AI聊天机器人ChatGPT会掀起一场袭卷全球的浪潮,将AI的发展推向新的高峰。
技术的持续升级不断扩展数字人的“工作能力”,相较于由人类(中之人)驱动的数字人(虚拟主播、虚拟偶像等),如今由AI驱动的数字人(AI助手、AI数字员工)在接入多模态大模型后受到了更多的青睐。
在虚拟主播领域,AI VTuber如雨后春笋般涌现,例如Neuro-sama是完全依靠AI运行的英语系VTuber,不仅能回复聊天,还能通过AI玩《osu!》和《Minecraft》等游戏。Neuro-sama的成功不仅展示了AI VTuber在娱乐领域的潜力,更揭示了AI数字人在多场景应用中的技术通用性。
它们与传统虚拟主播的区别在于,后者不需要人类过多介入,能基于大型语言模型(LLM)自主与观众互动,而且能够实时响应用户聊天、玩电子游戏和分享个人趣事。随着开发者向他们提供更新的数据或语言模型,它们能够不断进化。
AI驱动的VTuber
随着多模态大模型的不断成熟,不同职位的数字人的功能属性正在发生变化:AI数字人正在重塑人机交互的边界:
春节期间,杭州电视台新闻联播的AI主持人“小雨”进行新闻播报,实现了0失误率,不少地方电视台和地方融媒体中心都聘用了AI数字人担任主播。
2025年两会期间,长江日报正式上线接入DeepSeek的最新人工智能产品,数字人“小武”能根据政府工作报告内容进行知识问答。
浙江义乌老板通过AI数字人短视频制作工具,录制好带口型的视频,配合对应的产品文案就能一键生成对应的外语视频。
腾讯云智能数智人接入DeepSeek大模型,用户通过数智人平台内置的V3、R1等模型,无需开发就可以让DeepSeek拥有真人外观,数智人可应用于交互场景和播报场景。
百度慧播星发布了“真人一键克隆”数字人直播功能,可以实现无需专业设备、无需真人值守、无需运营团队、上传视频即可同步复刻声音、形象、装修,一键打造数字人电商直播间。
不知不觉间,DeepSeek等AI大模型都在为数字人注入新的血液,数字人正完成从“皮囊”到“灵魂”的进化,AI将逐步覆盖数字人生产到应用的全流程。
能力进化,这是AI数字人该有的样子
数字人的发展可按技术成熟度分为五个阶段:萌芽阶段、初级阶段、成长阶段和成熟阶段,不同时期均有其显著特点。
萌芽阶段的数字人起源于20世纪80年代的日本宅文化,以角色概念设定出现。直至21世纪初期的初级阶段,随着雅马哈的语音合成软件VOCALOID的推出,数字人正式走上文娱舞台,代表角色为初音未来。2016年至2020年期间,动捕技术和录制设备的发展到达新阶段,出现了以绊爱等需要中之人驱动的虚拟主播。
进入成长阶段的数字人主要以二次元风格形象为主,2021年后元宇宙兴起,AI开始融入数字人的制作环节,建模、驱动和渲染技术的升级,使得3D化偏写实风格的数字人凭借高仿真的外形和交互能力获得超高关注,代表角色有AYAYI、柳夜熙等,然而这类数字人自带IP属性,由于生产成本过高,其模式难以大批量复制投入市场。
在正式进入成熟阶段之前,数字人产业因ChatGPT等AI的出现走向了新的分支,这期间各产业与数字人的融合更加紧密,且AI不再局限于融入数字人的制作流程,而是能直接赋予数字人情感表达、内容输出和规模化应用的能力。
纯AI驱动的数字人已经走向新高地,其技术构成主要涵盖外在形象、决策交互和多端部署等方面。
外在形象:AI数字人外在形象塑造技术取得显著进展,源于计算机图形学、计算机视觉、神经网络、深度学习等方面均取得重要突破。传统建模方式流程繁琐且效果有限,如今数字人建模算法仅需少量视角的图片/视频/音频就可生成新样本,再对数据进行渲染从而生成更具真实感的三维数字人形象。
EchoMimicV2数字人——输入1张图+1段手势视频+1段音频,即可生成有自然动作的数字人
决策交互:实现AI数字人与用户流畅智能交互,依赖语音识别(ASR)、语音合成(TTS)、自然语言理解(NLP)、AIGC、大型语言模型(LLM)等能力,以及知识图谱的构建和深度学习能力来完成分析决策,实现与数字人的实时交互,在智能客服、智慧屏等ToB应用场景,AI数字人表现出色。
Tavus:实时音视频对话数字人——能听、看到、理解用户的话,并做出有感情的回复
多端部署:多端部署对AI数字人的价值发挥至关重要。具有实用性的AI数字人需要支持多平台运行,这意味着它需要强大的传输能力、云计算、边缘计算等能力来保证高质量、和低延迟的人机交互服务。
硅基智能开源实时数字人duix.ai——可在各种终端设备上部署
上述数字人从外形和面部表情来看足够以假乱真,用户所希望的是一种更有“活人感”的数字人。2月6日,字节跳动推出OmniHuman-1数字人模型:可从单张照片及一段音频生成逼真全身动态视频,据悉OmniHuman是经过超18700小时的人类视频数据训练而成的。
字节跳动OmniHuman-1数字人模型
在AI数字人这条赛道上能看到阿里、百度、京东、腾讯等企业的加入,现在AI数字人的产品和落地场景都得到了验证,然而最关键的成本问题则会随着国内训练的模型的增多而进一步缓解。
硅基数字人HeyGem.ai模型
3月6日,硅基智能在GitHub开源了硅基数字人HeyGem.ai模型,用户只需要上传1秒视频或者一张真人照片,就能在30秒内输出还原本人音色和外貌的60秒数字人视频,且支持离线克隆数字人的形象和声音,以及4K画质导出。此开源模型一发布,开发者、企业甚至是个人用户都能以更低成本创建AI数字人。
当AI数字人在虚拟世界构建起完整的交互生态时,技术的边界正悄然向物理世界延伸。
AI的另一个进化方向:具身智能-人形机器人
作为AI大模型中最先进行商业化尝试的应用之一,AI数字人在多数人眼中像是人机交互的门户,如今已经能与人类进行无障碍交流。随着技术发展,人们不禁思考,数字人会不会从平面的虚拟形象概念发展到具有高度智能和仿真交互能力的实体数字人,甚至能在某些场景中辅助人类完成任务?
具身智能是指将人工智能融入机器人等物理实体,赋予它们感知、学习和与环境动态交互的能力。如今,具身智能已经走到台前,并首次被写入政府工作报告。
人形机器人是具身智能的一类代表性终端,其核心特性则是强调机器人的身体要与物理世界的环境有动态交互,包括执行抓取、移动、操作物体等物理动作,而纯软件系统,如AI聊天机器人/AI数字人则无法实现这类交互。
2025年,人形机器人热度颇高。在CES大会上,英伟达宣布合作的14家人形机器人厂商中,有近半数来自中国,包括小鹏汽车XPENG(Iron)、宇树科技Unitree(H1)、银河通用机器人Gallbot(G1)、傅利叶智能Fourier(GR-2)、星动纪元ROBOTERA(Star1)、智元机器人Agibot(A2)。
具身智能的发展速度超乎想象,如今人形机器人的上新时间间隔已经缩短到以天为单位,进入量产前的热身阶段。比起外形,人形机器人的现阶段的首要任务就是优化“大脑”能力并提升运动能力。
3月11日,稚晖君时隔两年发布新视频,展示全新的智元机器人灵犀X2,能走、能跳舞、能骑自行车,在此之前稚晖君还发布了首个通用具身基座模型——智元启元大模型(Genie Operator-1),该大模型能够通过学习人类视频并训练,完成小样本快速泛化,最终部署到智元机器人的本体上。
3月19日,英伟达CEO黄仁勋在GTC 2025大会上发表了主题演讲,并宣布推出Isaac GR00T N1通用机器人模型,使通用人形机器人能够理解人类世界、遵循语言指令并执行各种任务,其目的就是加速人形机器人的开发和能力提升。
两个Isaac GR00T N1人形机器人用双臂搬运物体
黄仁勋将机器人描述为下一个10万亿美元的产业,并表示到2030年年底,全球将面临至少5000万劳动力短缺的问题,未来将雇佣更多机器人来工作。
宇树G1机器人的“侧空翻”和波士顿动力机器人Atlas“跳街舞”挑战高难度动作,让人形机器人再次火出圈,这些动作对机器人精确控制身体各部分的运动轨迹和姿态的能力要求颇高。
宇树G1机器人
波士顿动力机器人Atlas
当下计算机视觉、多种传感器与深度学习等技术的融合正在推进人形机器人走向应用阶段。推荐阅读:《中国正在用一个万亿机器人市场,消解二十亿人的养老焦虑》
站在2025年的技术节点回望,虚拟世界的数字人最初作为虚拟主播的娱乐载体,如今具身智能以钢铁之躯在现实世界展现新貌,二者虽在形态上截然不同,却在部分技术上有共通之处。
有开发者使用苹果Vision Pro训练机器人
在长期的发展进程中,数字人发展到现今具备复杂技术构成和多样化应用的成熟形态的过程中,积累了海量且高精度的动作捕捉数据,并通过持续训练不断优化。这些宝贵的数据资源,能为人形机器人的训练提供坚实的数据支撑,助力其更精准地模拟人类动作。与此同时,AI大模型凭借强大的算法与智能运算能力,赋予人形机器人核心的交互能力,让它们得以与环境、人类实现更为自然、流畅的互动。
我们正站在虚实交融的边界,或将见证人类文明史上最深刻的生产关系变革——不是机器人取代人类,而是人机协同开创更具温度的未来。
原文标题 : 左手AI数字人,右手人形机器人:多模态技术正模糊虚实边界