(报告出品方/作者:国泰君安证券,陈筱)
1.虚拟人:穿梭于现实与虚拟世界间的重要角色
1.1.定义:数字技术驱动的拟人化形象,元宇宙必备分身
一般而言,虚拟人指由CG技术构建、以代码形式运行的拟人化形象。笼统地说,虚拟人、数字人、虚拟数字人均指通过CG技术创造出的拟人化形象,他们被赋予鲜明的人物设定,以代码与数据的形式在计算设备上运行。严格来说,虚拟人强调其在外观上与真人的相似性;数字人强调其存在于二进制的数字世界中,既可以是根据真人生成的1:1数字孪生,亦可以是完全虚构的形象与身份;虚拟数字人则有着更为严格的定义,虚拟数字人具备三大特征:1)拥有人的外观及性格特征;2)拥有通过语言、表情或肢体动作表达的能力;3)拥有识别外界环境、与人交流互动的能力。本文将虚拟人、数字人、虚拟数字人三个概念统称为“虚拟人”。
如果将元宇宙比作驶向未来的飞船,那么虚拟人是必要的船票。对于用户而言,虚拟是任何人进入虚拟世界的必要化身,用户可以根据其喜好设置多个形象迥异的分身;对于经纪公司与MCN而言,虚拟偶像比真人违约风险低、公关风险低、管控力更强,因此其有意愿孵化虚拟偶像、虚拟主播;对于服务型企业而言,虚拟主持人、虚拟客服在普通AI产品的基础上增强了互动体验并有利于塑造品牌形象。
因此我们认为,虚拟人在虚拟世界和真实世界中均扮演着重要角色,科幻小说《雪崩》亦将Metaverse(元宇宙)、Avatar(虚拟化身)两个概念紧密关联。除了从制作主体与应用场景出发以外,虚拟人还可根据美术风格的不同划分为高保真、写实、卡通三类,根据驱动方式的不同划分为手动调节关键帧、预制动作、动作捕捉、语音/文字驱动四类。
1.2.发展历程:形象写实化、交互多样化,当下步入成长期
虚拟人起源于20世纪80年代,在CG、动捕、AI等技术驱动下步入高速成长期。
1)萌芽:通过手绘、化妆打造虚拟人,以实现对美好的向往、对现实的批判。年,动画作品《超时空要塞》中的女主角林明美凭借动人的歌声与纯真的人设走红,制作方顺势将其包装为歌手并发布个人音乐专辑,林明美因此成为全球首个虚拟偶像,也是全球首个虚拟人。虚拟主持人MaxHeadroom诞生于年,由覆盖厚重妆效的真人扮演,MaxHeadroom通过重复、变声等故障行为对精致有序的统治阶层进行批判。
2)探索:随着CG、动捕等技术问世,虚拟人在影视娱乐领域的应用进一步拓宽。自20世纪80年代以来,CG(计算机图形技术)、动作捕捉、面部捕捉等技术的快速发展为好莱坞电影带来深刻的变革,以数字技术为支撑的景观电影逐步取代叙事电影成为最受欢迎的类别,《指环王》《金刚》《阿凡达》等巨制中均出现虚拟人角色。年,初音未来在VOCALOID语音合成技术的加持下诞生,成为首个闻名世界的虚拟偶像,其热度延续至今。
3)初级:虚拟人形象越发逼真,AI技术的发展使其开始向智能服务领域延伸。近五年来,自然语言处理、语音识别、计算机视觉等AI技术在虚拟人中的应用不断加深,具有智能交互能力的虚拟人崭露头角。例如,年搜狗与新华社联合发布的虚拟主持人以高仿真形象示人,可对用户输入的新闻文本进行语音播报;年,浦发银行首位虚拟员工“小浦”在服务客户时可感知对方情绪并辅之表情和手势,且具备主动学习、持续提高服务效率的能力。
4)成长:技术、需求均迎突破,虚拟人成果井喷。年,视觉特效公司数字王国的软件研发主管DougRoble在TED演讲中完美呈现其1:1虚拟化身DigiDoug,在高度还原本人外貌的前提下完成实时动捕,成为高保真虚拟人的里程碑事件。自年以来,虚拟偶像凭借独特的人设加速吸引年轻群体,以“会捉妖的美妆达人”柳夜熙为例,其在年10月31日发布第一条抖音短视频后迅速获赞万、涨粉超万。
根据虚拟人制作技术及其在市场上的形态,可总结出一套通用系统框架。由于虚拟人的发展尚处于成长阶段,目前仍未形成统一的系统框架,但根据虚拟人制作技术及其在市场上的形态,人工智能产业发展联盟总结出了一套通用系统框架。根据该框架,虚拟人一般由五个模块构成,其中人物形象基于建模技术,语音生成模块基于AI技术,动画生成模块基于动作捕捉或AI技术,音视频合成显示模块将语音和动画部分结合以呈现给用户;交互模块为扩展项,一些侧重于展示的虚拟人不具备交互能力(如小红书、微博等平台上的虚拟KOL),而强调交互的虚拟人可通过语音语义识别等AI技术或真人操控来完成与用户的交互。
真人驱动型虚拟人多应用于泛娱乐领域,智能驱动型虚拟人多应用于服务领域。具有交互能力的虚拟人可进一步划分为真人驱动型、智能驱动型两类,其中真人驱动型虚拟人是在完成原画建模和关键点绑定后,由佩戴动捕设备或特定摄像头的真人实时驱动,除设备购置外无其他技术成本,且互动感更为亲切,因此现阶段可交互虚拟人以真人驱动型为主,并在虚拟偶像、虚拟主播等娱乐领域广泛应用。智能驱动型虚拟人旨在简化各类业务流程以提升企业运作效率,作为当下尖端基础技术的集合体具备初始投入高、未来边际成本低的特质,因此目前着手开发此类虚拟人的企业多为百度、腾讯、搜狗、三星等大厂。
2.技术方案:建模、AI、动捕、渲染是四大关键
虚拟人产业链由技术方案(基础层、平台层)与内容应用构成,其中基础层已形成稳固格局,应用层新锐企业崭露头角。虚拟人产业链从下至上可分为基础层、平台层、应用层,其中基础层为虚拟人的制作提供基础设施,例如芯片对传感器所采集的数据进行预处理并渲染模型,渲染引擎进一步优化灯光、毛发等细节,基础层领军企业主要为Meta、英伟达、Unity等技术壁垒深厚的巨头。
平台层中的软硬件系统企业从基础层获取数据信息后通过软件算法重现人物动作,生产技术服务平台提供一站式虚拟人解决方案,AI能力平台提供交互技术能力,代表性企业包括腾讯、网易等互联网大厂以及商汤科技、科大讯飞等AI头部企业。在基于以上技术方案构建好虚拟人的“外壳”以后,部分虚拟人还需内容运营企业为其注入“灵魂”,而后应用于影视、传媒、游戏、金融等领域,近年来应用层涌现出众多新锐企业。
2.1.建模:3D建模技术成熟,动态光场指引新方向
在虚拟人通用系统框架背后,建模、AI、动捕、渲染是四大关键技术。
3D建模技术与动画制作软件已发展较为成熟,广泛应用于电影、游戏等领域。早期的3D建模技术以结构光扫描为主,虽可实现毫米级重建精度,但过长的扫描时间导致其难以对运动目标进行较好地刻画,近年来高速发展的多相机阵列技术克服了以上问题,成为当下主流的3D建模技术。以国内领先企业凌云光为例,该公司自主研发的高精度人脸3D建模系统可满足20-台相机的高精度同步、快速拍摄与存储,由此获得的人脸模型可精确到皱纹、毛孔等细节。客户在获得模型的3D格式数据后,可进一步利用Maya等工具集对其进行处理以生成3D动画。
光场技术对光影效果的高质量呈现使其成为建模新方向,在VR/AR头显上的应用亦有望改善用户体验。光场可以测量三维世界中各个方向上流动的光,基于此特点动态光场重建技术可以更好地呈现不同观看视角下事物的光影效果,为3D建模提供更加丰富的图像信息,近年来微软、Google等企业均积极探索该项技术在3D建模中的应用。此外,光场技术在VR/AR头显中的应用可以使头显模拟出人眼感知光线和聚焦的方式,从而呈现出更自然的观感,年4月头显技术创业公司CREAL发布的VR头显便采用光场显示器与中心凹结构,与大多数采用基础3D显示技术的VR头显相比,CREAL头显可以使用户在任何场景任意距离自动对焦,或显著改善由长时间佩戴设备导致的眩晕感。
2.2.AI:人机交互成长性高,文娱领域应用有望成为新蓝海
人工智能技术在政府城市治理和运营、制造等领域的应用趋于成熟,但在文娱领域的应用仍处于初级阶段。根据艾瑞咨询数据,政府城市治理和运营(公安、交警、司法、城市运营、政务等)是AI技术的主要应用领域,年贡献收入占整体市场比例达49%,其次为互联网、金融,份额分别达18%、12%;艾媒咨询亦显示,AI技术在安防、制造、金融等领域已有成熟应用,且市场体量较为可观。与上述成熟应用相比,AI技术在文娱、医疗、农业等领域的渗透率仍然较低,分支技术的突破与发展将成为改写行业份额格局的关键驱动因素。
从分支技术来看,人机交互产业规模高速增长,虚拟主播、数字员工等虚拟人应用打开市场空间。近年来随着深度学习算法不断优化、算力大幅增加,计算机视觉、自然语言处理等分支技术取得突破性进展,基于自然语言处理技术的人机交互产品及服务因此实现高速增长。年人机交互核心产品规模有望同比增长60%至58.5亿元,-年CAGR有望达36.5%,带动相关产业规模同比增长94%至.9亿元,-年CAGR有望达36.7%,增速显著高于AI技术大盘。现阶段人机交互技术主要用于实现金融、电信、电商等领域的客服及售后功能,虽可缩减成本、提高效率,但产品与C端用户的互动较为生硬、附加值偏低。与之相比,以虚拟主播、数字员工为代表的虚拟人将客服答疑、智能营销等多种功能合而为一,并有助于塑造客户品牌形象,有望成为人机交互产品的价值突破点。
除了打造语音交互功能外,AI技术还可用于虚拟人的“捏脸”环节,网易伏羲是相关研究的拓荒者。满足玩家个性化需求的“捏脸”系统自单机游戏《上古卷轴3》开创以来流行至今,现已广泛应用于《天涯明月刀》《逆水寒》等MMORPG游戏。在近20年的发展历程中,“捏脸”系统可供玩家调节的参数类型不断扩充,在提升个性化程度的同时亦大幅增加了“捏脸”环节的复杂程度。
为了让玩家轻松定制专属虚拟形象,年5月网易伏羲AILab携手密歇根大学发明面部捕捉深度学习算法MelnGame,仅需玩家上传一张人物肖像照片就可以生成虚拟面部的形状和纹理,与此同时该算法还会根据游戏年代设定调整面部特征,现已在《逆水寒》《永劫无间》等游戏中得到应用。网易伏羲AILab负责人李仁杰表示,未来MelnGame不仅会在3D游戏中广泛应用,还能促进更多社交活动从面对面走向网络化,其预测已在年8月网易伏羲发布的沉浸式活动系统“瑶台”中得到初步验证。
2.3.动捕:高精度与低成本相悖,视觉捕捉或成性价比之选
动作捕捉是让虚拟人“动起来”的核心技术,现存三类方案各有优劣。按照实现方式的不同,动作捕捉技术可分为光学捕捉、惯性捕捉、视觉捕捉三类,其中光学捕捉通过摄像头对演员身上粘贴的马克点进行追踪来捕获演员动作,该方式可实现多目标同时捕捉,但对环境要求,且造价高昂;惯性捕捉的硬件基础是IMU(惯性测量单元),通过算法计算IMU在特定骨骼节点上的运动轨迹来实现动捕,该方案成本相对低廉,但精度较低,且会随着使用时间的增加累积误差;视觉捕捉以新兴的计算机视觉技术为底层技术,较上述两类方案而言更简单易用、成本更低,但与此同时算法开发难度大、精度难以得到保障。总而言之,现存方案各有优劣,难以兼顾高精度与低成本。(报告来源:未来智库)
三类动捕方案适用于不同场景,视觉捕捉或成为虚拟偶像的性价比之选。三类动捕方案的差异导致其应用场景存在差异,目前光学捕捉多应用于医疗、运动、电影等专业领域以及对高精度、低延迟要求较高的舞台,惯性捕捉在影视作品中亦有较多应用,视觉捕捉则更多地应用于消费级市场。以虚拟偶像的动捕为例,光学捕捉可以完美展示虚拟偶像的形象并实时驱动其舞蹈,年10月国内领先企业青瞳视觉携手华为带来全球首个5G+VR二次元偶像直播;惯性捕捉可以较好地呈现3D虚拟偶像并与用户进行互动;视觉捕捉可以通过手机自带深感摄像头完成基础的面部与肢体捕捉,目前多应用于“纸片人”虚拟主播。随着虚拟偶像加速吸引年轻群体,低门槛的视觉捕捉方案有望成为UGC创作者涌入虚拟偶像赛道的首选。
2.4.渲染:真实性与实时性显著提升,但需高性能硬件支撑
随着PBR渲染技术不断进步,高保真虚拟人突破恐怖谷效应。根据日本机器人专家森昌弘提出的恐怖谷理论,当机器人/虚拟人与真人的相似度高到某一临界点时,人们对其产生的反应将会由好感转变为极其反感,并产生排斥、恐惧等负面心理。因此,早期3D引擎渲染出的蜡像感虚拟人会给用户带来不适。随着PBR技术(基于物理的渲染技术)不断进步,UnrealEngine4、Unity3D5等渲染引擎均能更真实地反映模型表面折反射光线的强弱,从而突破恐怖谷效应。
MetaHumanCreator显著降低高保真虚拟人制作门槛,任何人可在数分钟内完成创作。EpicGames旗下渲染引擎UnrealEngine于年2月推出高保真虚拟人制作工具MetaHumanCreator,该工具拥有从发型、肤质到体型等多种真人扫描素材,用户可自行组合素材以快速创建高保真虚拟人,基于UnrealEngine的渲染能力,MetaHumanCreator可实现光源在不同肤色、纹理下的不同呈现,从而达到高精细度。
实时渲染是支撑虚拟人实时互动的核心技术,对硬件能力提出较高要求。电影、游戏宣传片、广告短片等预录内容多采用离线渲染技术,设计师可花费大量时间完善细节,但对于舞台表演、直播等实时交互场景,离线渲染不再适用。与数小时渲染一帧画面的离线渲染相比,实时渲染每秒至少渲染30帧画面,对硬件能力提出了较高要求,目前英伟达RTX显卡及其平台可提供高效的GPU渲染解决方案。另一方面,受限于有限的计算资源,实时渲染可持续时效亦有限,倘若计算能力或渲染能力不足,将会在实时互动中出现穿模、静止等“翻车”现象。
3.内容应用:虚拟偶像迅速爆发,掀起虚拟化潮流
不同功能的虚拟人可赋能不同领域,虚拟偶像的流行有望催化虚拟人在其他领域的渗透。从影视到游戏再到新兴的虚拟偶像(包括虚拟歌手、虚拟主播、超写实KOL等),泛娱乐领域是虚拟人最先渗透且应用最为广泛的领域。随着虚拟偶像的热度不断攀升,大众对于虚拟人的接受程度有望持续提升,从而带动虚拟人在金融、文旅、教育等领域的渗透,为C端用户带来智能高效的人性化服务。
3.1.泛娱乐:虚拟偶像市场广阔,虚拟主持人迈进广电门槛
3.1.1.虚拟偶像:人设好、颜值高,自年以来迅速爆发
虚拟偶像已成为承接现实、启示元宇宙的重要角色。初音未来诞生于年,是全球首个以语音合成技术为基础开发的2D虚拟歌手,也是全球首个现象级虚拟偶像,此后随着3D建模、AI、动作捕捉、全息投影等技术进步,虚拟偶像的设计逐步向3D乃至超写实方向发展,其身份由歌手向主播、KOL延伸,与粉丝的互动性亦在技术的支撑下不断增强。除了从0孵化的形象外,虚拟偶像亦可脱胎于游戏IP,例如《英雄联盟》推出女团KDA、《王者荣耀》推出男团无限王者团。历经十余年发展后,虚拟偶像在大型演出、品牌活动、内容社区、短视频平台中的现身越发频繁,已成为穿梭于虚拟世界与现实世界间的重要角色。
虚拟偶像按职能可划分为虚拟歌手、虚拟主播、超写实KOL三类,对技术的要求及商业模式均有所不同。虚拟歌手的定位通常为专业虚拟偶像,其声源来自VOCALOID语音合成器或知名歌手,对3D建模、动捕设备等技术要求较高,若举办Live演唱会还需采用全息投影技术并进行高精度实时渲染,专业内容+专业技术使虚拟歌手拥有类似于真人偶像的粉丝经济。虚拟主播的专业程度较虚拟歌手而言更低,其对技术的要求亦相应更低,主要通过互动打赏与直播带货创收。超写实KOL拥有精致且特别的外貌,其对3D建模的要求通常高于虚拟主播,一些甚至超过虚拟歌手。超写实KOL可进一步划分为内容社区KOL、短视频KOL,前者主要生产图文内容,无需动捕设备,后者则对动捕与渲染技术提出一定要求,二者的创收方式均以广告营销为主。此外,亦有采用虚拟形象的UGC创作者活跃于社交平台,主要通过虚拟道具创收。
凭借人设讨喜“不塌房”的特质,虚拟偶像成功吸引了众多90后粉丝。
根据调研数据,62.6%用户喜欢虚拟偶像是因为其不会有负面新闻,49.6%是因为喜欢二次元文化;艾媒咨询数据显示,虚拟偶像爱好者中92.3%年龄介于19-30岁,75%月平均收入在元以上,可见虚拟偶像受众以看重偶像人设、收入位于中高水平的90后为主。
对于运营方而言,虚拟偶像商业安全感更强、可控性更强。与真人偶像相比,虚拟偶像的孵化无需经历数年的培训,并且违约风险低、公关风险低、更易管控,这一特点吸引传统经纪公司着手尝试。以头部经纪公司乐华娱乐为例,其在年11月推出虚拟偶像团体A-Soul,并按照真人训练生培养模式对A-Soul进行运营。基于乐华丰富的艺人运营经验,该团体出道后迅速圈粉,成员嘉然在B站直播间的人气值不断攀升,根据数据,嘉然舰团数(付月费的粉丝数)已达个,远超过菜菜子Nanako、阿萨Aza等头部虚拟主播。
对于品牌方而言,虚拟偶像有助于塑造年轻化的品牌形象。年4月,肯德基在Instagram上推出自己的超写实KOL桑德斯上校,此次全新亮相颠覆了品牌在顾客心中的“老爷爷”形象。年9月,超写实KOL翎Ling与特斯拉展开跨界合作,广告大片将翎Ling的中式美学与特斯拉的现代感合而为一,呈现出独特的科技视觉效果,从而吸引年轻群体对品牌的