哈希力量归集文库路径访问：首页 > 机器智能 > 智能体虚拟人

AI虚拟主播的具象化情感表达设计研究

官奕聪吕欣 ☉ 文来源：传媒杂志 2022-12-29 @ 哈希力量

【小哈划重点：虚拟仿真角色的情感研究号称人工智能的“禁区”，其中既包含了哲学、伦理学层面的寓意，同时也因为情感本身较难被量化、被转换为抽象的数字。技术层面，虚拟主播的具象化情感表达或可从如下路径加以探索。】

摘要：近年来，伴随人工智能技术的快速发展与应用，AI虚拟主播已然成为信息传播领域引人注目的一道风景。然而与真人主播相比，虚拟主播在表情达意、亲和力等方面依然存在着诸多难以跨越的障碍，亟待在认知和实践中予以重视和改进。本文旨在通过分析AI虚拟主播现状，寻找其具象化情感表达的可行路径，并提出相应解决策略及方案。

关键词：AI虚拟主播具象化情感表达

2018年11月，新华社联合搜狗在第五届世界互联网大会上发布了全球首个“AI合成主播”。这位身着黑色西装、打领带、以央视新闻主播邱浩为原型的虚拟合成主播的亮相引起全球瞩目。英国《独立报》称其是“一位栩栩如生的数字化播报员”。

人工智能技术使得机器人写作、数据新闻、虚拟主播等深刻影响着传统记者、播音员的角色定位，算法推送比传统编辑更加精准高效，AI剪辑师也至少在效率上实现了对传统剪辑的超越，而上述虚拟主持人在国家级文化活动中的规模亮相，更是让传统意义上的主持人受到挑战，深感“不论是身体、技能还是体力、心理都已处于下风”。的确，虚拟主播在内容制作上的高效、节目播报的准确度以及带来视觉新鲜感等方面的优势有目共睹。但受众与用户以及不同领域的研究者们在耳目一新的同时也都感受到其与真人主播在共情力、亲和力方面的差距。除了哲学意义和媒介专业主义层面的考量之外，学界和业界的关注点都不约而同地触及虚拟主播本身的拟人化、交互性等问题。与真人相比，虚拟主播除了在技能等物理层面“优于”真人主播外，其情感表达的缺失将是影响该技术在信息传播领域有效应用的首要因素。

一、情感交流缺失——虚拟主播的局限与困境

美国心理学家梅拉比安（Mehrabian）曾经提出著名的“7%-38%-55%定律”，即“Mehrabia沟通模型”。他认为人们对表达内容的有效理解包含三个要素：肢体语言55%，声调38%和说话内容7%。而肢体语言中包括：仪态、姿势、表情。其中表情是最直观被感知的，尤其是面部表情，这也符合我们日常生活中的经验与常识。中国自古就有“察言观色”“喜怒形于色”“手舞足蹈”等成语，表情及形体语言所传达的信息之于交流的重要性由此可见一斑。反观当下业界实践中的虚拟主播产品现状，不难看出情感化的交流尚处在初级阶段。总体而言，由于情感化交流的缺失，虚拟主播在业界的实践及应用范围还存在很大的局限，具体表现在如下方面。

1.传播领域及内容方面的局限。新闻播报是当下AI虚拟主播应用的主要行业之一。对真人主播而言，该领域的新闻信息播报可谓包罗万象。但对虚拟主播而言，由于具象化情感表达的不足，使得虚拟主播擅长播报的领域范围有所限制，一般是以较为中性、客观的新闻报道类型为主，如数据型、信息发布型新闻的播报。综艺节目、直播平台的主持中，虚拟主播也存在类似的情形。比如，难以和观众、用户形成深层的持续性互动，因而适合其主持的节目类型或直播平台风格也多局限在更多程式化、重复性的商业、销售等领域。

2.传播效果的局限。与其他类型的主播或主持人相比，新闻主播的语言表达相对更加客观、理性。但这并不意味着新闻主播工作时不需要情感的把握。在播报一条充满正能量的见义勇为的新闻时，真人主播会慷慨激昂、面带笑容；在播报一条揭露社会问题的负面消息时，真人主播会怒目圆睁、眉头紧蹙……。受众在观看上述新闻播报的同时也会感受到真人主播对事件的态度以及价值取向，进而潜移默化地受到影响。倘若上述两条视频中使用AI虚拟新闻主播，鉴于后者在情感表达上的局限，将可能带给受众某种程度上的违和感。这种违和感不仅会带来恐怖谷效应，更会直接影响产品的体验感，使之无法与真人主播富有表现力的、分寸拿捏得当的播报相提并论。

3.与受众/用户产生“共情”力上的局限。“共情”作为心理学上的重要概念，是指个体“直觉和理解他人的情绪并作出适当反应的能力”。人工智能技术的發展促进了真人和机器人之间的互动，在信息传媒领域，则意味着AI虚拟主播有可能具备“共情”能力。无论是新闻节目的受众，还是直播平台的用户，在接收信息的同时，都期待与主播有更多的互动。这一需求给虚拟主播提出了挑战，与真人主播相比，虚拟主播无法体会和理解他人的情绪、情感反应，难以与受众或用户之间形成有效的互动交流，在产生“共情”力上受到局限。在传播信息的同时，兼顾扮演“共情传递者”的角色，将是虚拟主播面临的困境之一。

二、具象化情感表达：让虚拟主播更富亲和力

虚拟主播要想突破瓶颈、实现更好的传播效果，仅仅在外形设计上“栩栩如生”是远远不够的。从应用领域的拓展、播报内容的多元，到“共情力”的增强，其关键点和基本出路都在于如何实现与受众和用户的交流与互动。不论是新闻播报，还是肢体语言更为丰富的综艺节目乃至直播平台的虚拟主持，情感表达都是其实现有效传播的核心竞争力。就技术维度而言，具象化情感表达为实现上述目标提供了可行的思路。

虚拟主播的具象化情感表达，一般是指AI虚拟主播通过更为丰富的面部表情、肢体语言及服装形象上的设计，使受众对其产生亲切感、认同度乃至深度的情感依赖。以此为标准来衡量国内相关行业发展现状不难发现，凡是在业界受欢迎的虚拟主播，都是因其形象塑造以及与用户的情感交流、互动方面的设计有所创新。

以B站为例，这个堪称国内虚拟主播产业布局最久的平台，2019年一季度内共有超6000位虚拟主播在B站开播，观看人数近600万。不仅如此，B站还投资了洛天依、彩虹社等高人气的二次元虚拟偶像。B站在这方面的成功得益于AI技术的加持，得益于虚拟偶像角色在情感化方面的独到表达。“白上吹雪”就是一个较为典型的成功案例，其形象可爱软萌，于2018年6月1日进行了首次直播，且当日粉丝数就达到20万，至2020年7月25日，bilibili关注人数已突破110万。该虚拟偶像初次直播不仅没有怯场，而且“反自然地”与观众进行了互动。其面部表现力，尤其是具象化情感表达方面的刻画十分到位，被粉丝团亲切地形容为“喵喵狐”。

正如虎牙CTO所言：“在平台上有很多已经有的数字人IP，你可以把你的形象拿过来，通过驱动技术把这些形象驱动起来，然后再渲染给观众。”这里的驱动技术中最重要的就是具象化情感表达。倘若具象化情感表达缺失，就很难让用户产生亲近感和认同感，会让人感觉在和一个“面瘫”进行交流。可见，具象化情感表达在AI虚拟主播的设计中举足轻重。

如果说情感化设计是一般产品和伟大产品之间的分野，那么这句话也同样适用于虚拟主播的设计。AI合成主播的问世虽然引发一系列冲击，但与“现象级”产品的出现还有很大距离，虚拟主播“跨界”到更广泛领域的应用也面临瓶颈。如何借助技术手段弥补具象化情感表达的缺失，已然成为虚拟主播发展中的关键一环。

三、虚拟主播具象化情感表达的可能路径与方法

虚拟仿真角色的情感研究号称人工智能的“禁区”，其中既包含了哲学、伦理学层面的寓意，同时也因为情感本身较难被量化、被转换为抽象的数字。技术层面，虚拟主播的具象化情感表达或可从如下路径加以探索。

1.虚拟主播情感表达的语义分析路径及改善方法。文字语言作为人类将情感抽象化的工具之一，是连接机器与人脑的重要工具，通过对文字语言进行词性、词义分析及词频分析、语义分析等，再配合人工标注的情感词典，可以得出富有情感色彩的文字所对应的情感。虚拟主播情感表达的设计主要根据语义分析方法得以建立。

目前对文字情感的语义分析技术主要有两类，即极性分析和情绪分类。前者将文本分为积极情绪、消极情绪以及无情绪三类，其识别正确率可达85%左右。后者则将文本进行初级情绪分类，如开心、愤怒、悲伤等情绪。根据模型不同，初级情绪分类也会有很多不同的方法。初级情绪分类源于心理学家埃克曼（Ekman）的理论，埃克曼把喜、怒、哀、惧、惊奇、厌恶确立为基本情感。

不过初级情绪分类的识别正确率较低，笔者测试了GitHub上的“基于LSTM的中文情绪识别”项目后，得出不足40%的识别正确率。此项目将拥有4万多个句子的样本，分为其他（Null）、喜好（Like）、悲伤（Sad）、厌恶（Disgust）、愤怒（Anger）、高兴（Happiness）六类，其数据来源分别为NLPCC Emotion Classification Challenge（训练数据中17113条，测试数据中2242条）和微博数据筛选后人工标注（训练数据中23000条，测试数据中2500条），其数据提供方是清华大学计算机系黄民烈副教授。

极性分析与初级情感分类呈递进关系，即先通过对文本的极性分析，确保情感来源向量正确的基础上，展开情感情绪的二次划分（积极情感对应“开心”等正面情绪，消极情感对应“愤怒”等负面情绪），再根据结果综合得出其情感表达的整体量表。这样可以大大改善初级情感分类识别率较低的缺陷，使得整体识别率有所提升。

2.虚拟主播情感表达的具象化路径及改善方法。如果说情感向量及程度的正确判断从根本上避免了虚拟主播播报内容引起受众质疑乃至反感的可能，那么与之同等重要的就是情感的表达，也就是通过虚拟主播的模型设计及数据驱动等技术手段，将文字描述中的抽象情感、情绪尽可能具象化地加以展现的能力。

机器并不能直接理解抽象的情绪，需要通过算法将抽象情绪与具象化的AI虚拟主播的情绪动画进行一一映射。通过对上下文的语义分析及同情绪不同文本的语义分析，可以对情感表达的向度和程度进行相应的量化，以此作为权重，使得AI虚拟主播的表情达意具有真切感，也符合人類的行为习惯。

现有的虚拟主播情绪动画制作主要采用两种方法，一种是动画师手动设置关键帧，另一种则借助面部捕捉设备拾取真人的面部情绪变化数据并进行分析，以此数据驱动AI虚拟合成主播角色模型及其情绪动画形象的生成。前者的优势在于可以将情绪动画制作得更为生动、夸张，劣势是操作耗时费力，人力成本高且制作周期较长；后者制作周期较短，并在某种程度上弥补了现有AI生成动画动作不够流畅、面部表情僵硬等不足，但对设备精度及成本要求高。

理想的做法是，尝试将二者的优势集中起来，首先通过面部捕捉技术获得面部情绪变化数据并进行分析，然后由动画师进行手工修改关键帧，这样的工作流程将生产出效率更高效果更好同时带有立体、灵动、互动特征的情绪动画，在与受众进行信息交流乃至精神层面的沟通上更进一步。

3.运用5G等新技术加深交互反馈，有效提升虚拟主播“共情力”。5G时代的到来为传感器技术赋能，使多模态数据收集及交互成为可能。与单模态的数据识别相比，多模态数据识别可以综合不同模态的信息以提高情绪情感识别的准确度。通过对受众心率、血流速度、面部表情等的感应与分析，对其生理信号、表情以及肢体语言等多模态信息进行特征提取和融合，能够较为准确地获得受众当下的情绪状态和对传播内容的感受，在此基础上虚拟主播将会尝试以类人类的思维、从“理解”的意义上发出更为贴合语境的对应性情感反馈，满足受众的心理需求，让用户获得更好的“共情”体验。

高速发展的5G技术也将进一步实现数据的全场景联通和人机之间的智能协同。虚拟主播“跨界”至交互领域时，情感表达的交互反馈既是用户对虚拟主播产生情感依赖的重要条件之一，也是虚拟主播的“机器情感”得以生成的前提。全场景多模态的情感情绪识别中，设计者可以借助相关的智能交互测量工具和传感设备，较为精确地辨识用户的实时情境与情感，有针对性地进行双向语义分析和情感反馈分析，在用户情感和“机器情感”以及二者的互动方面均获得较为精确的把握，可望建立起人机情感互动的完整闭环，从而有效提升虚拟主播的共情能力，使得交互过程更为人性化、专业化。

四、结语

作为智媒时代具有象征意义的新生事物，虚拟主播的问世与发展一直伴随着“亲和力”方面的质疑。依托信息情感分析这一人工智能中极具引领性的方法，通过语义分析技术的细化和动画制作手段的优化，将有效提升虚拟主播情感表达的具象化水准；借助5G时代带来的全场景多模态交互环境以及智能传感器的综合运用，可望使这一新型技术不仅仅在新闻播报、节目主播等媒体舞台上赢得一席之地，还可以“跨界”到包括直播平台在内的其他行业，实现对人类劳动的部分替代和人类能力的某种延伸。

作者官奕聪系中国传媒大学动画与数字艺术学院数字媒体艺术专业硕士研究生，吕欣系中国传媒大学动画与数字艺术学院教授

本文系2019年度国家社科基金艺术学项目“网络文化对社会公众生活方式的影响研究”（项目编号：19BH147）的阶段性研究成果之一。

参考文献

[1]邵鹏，杨禹.AI虚拟主播与主持人具身传播[J].中国广播电视学刊，2020（06）.

[2]EKMAN P.Emotion in the Human Face[M].Oxford：Pergamon Press Inc，1972.

[3]高勇，马思伟，宋博闻.国内虚拟主播产业链发展现状及趋势研究[J].新媒体研究，2020（01）.

[4]王丹.“AI合成主播”的发展与双效推进策略[J].传媒，2019（23）.

[5]华树凯.人工智能驱动下主持人角色的创新与发展——以AI合成主播为例[J].中国广播，2020（09）.

《传媒》2020年23期