高保真数字真人直播传输的威力有多大?

所有版权归中国经济网所有。
中国经济网新媒体矩阵
网络广播视听节目许可证(0107190)(京ICP040090)
◎记者 杜鹏 当直播持续近6小时,大部分电商主播都显露出疲态时,百度直播间主播“罗永浩”和她的搭档“朱小萌”依然能够情绪化地回应观众的提问,偶尔讲一些“笑话”来吸引观众、逼迫下单。这两位主播并非真人,而是百度利用基于脚本的多模型协同数字人技术打造的数字人主播。在2025世界互联网大会乌镇峰会上,百度自主研发的基于脚本的多模态协作高保真数字人技术荣获世界互联网大会新兴技术奖。随着人工智能技术的快速发展和从大规模模型到多模态模型的加速演进,数字人类已经成为大规模语言模型和多模态技术相结合的创新应用。电商直播是数字人落地的绝佳舞台。数字人技术让会员店无需投入大量人力物力进行直播,大幅降低场地租赁、设备采购、人力资源培训等成本。同时,数字化工作人员可以24小时进行直播,进一步增加产品曝光时间和销售机会,提高经济效益。然而,传统的数字人生成技术往往面临语音、语言和视觉多模态分离的问题,表现为线条僵化、语音语调与线条情感匹配不佳、面部表情和手势独特等。王海峰 百洁首席技术官杜先生表示,为了解决数字人应用的痛点,百度正在创新开发基于脚本的多模态协作的高保真数字人技术。他说,他已经开发出来了。剧本的基础是对话。台词的生成不仅与内容的结果相匹配,而且与演讲者的个性和语言风格相匹配,保证了语言表达的个性化和连贯性。多主播场景还需要实现语义逻辑、语调节奏、情感风格的整体协调。同时,提高台词内容深度,应引入内容规划、知识丰富和事实核查机制,降低人工智能错觉的风险。基于线路,大模型可以直接生成真人直播数字脚本。脚本带有“视觉标签”和“音频标签”,可以告诉系统角色应该采取什么行动d 根据对话采取。互动性强是电商直播场景的一大特点。在与观众互动过程中,语音合成的自然程度是决定用户沉浸感的重要因素。观众希望听到演讲者情绪化、上下起伏的声音,而不是死板、机械的朗读。王海峰表示,针对这一需求,百度提出了“文本控制语音合成”的解决方案。大规模文本控制的语音合成模型不仅具有高弹性的语音合成功能,还可以结合直播台词和主讲人的个人特点,将这些文本内容转换为自然且富有感染力的声音,让数字人员不仅能发出声音,还能准确传达嘲笑、自豪、强调等微妙情绪。除了与用户交互之外,数字真人演示者还必须与产品和空间进行物理和逻辑交互直播期间。我们该怎么做?高度一致、超真实、人性长度的数字视频生成技术,可以生成历史视频数据、脚本和输入语言。分析和理解多模态信号作为au信息和骨骼脉冲,基于此我们生成了高度表现力的片段、复杂的“人、物、场”交互片段以及具有大动作和面部表情的片段。该系统可以在很长一段时间内对这些剪辑进行一致的编程,以便声音、嘴型、面部表情和动作始终存在。保证高度一致和同步。目前,数字人正逐步从实验室走向各种应用场景,商业化进程显着加速。深度思考和多模式交互等关键能力的进步预计将使越来越多的数字人类出现在屏幕上并进入人们的生活。在 th同时,业内专家提醒,《直播电子商务监督管理办法(征求意见稿)》提出,利用人工智能等技术生成的人物图像、视频进行直播营销活动时,直播间经营者应当在直播页面设置明显标识,持续提醒消费者,人物图像、视频是人工智能等技术生成的,并与自然人的姓名、图像明确区分。中国科学院信息技术研究所高级工程师韩子忠表示,人们在接受数字人技术的同时,也要划清界限,避免使用高保真的技术来掩盖其真实性,达到欺诈或虚假宣传的目的。技术发展必须与法律和道德限制并行进行要保持创新走在正确的道路上。

类似文章

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注