AI的智能翻译应该来说不算新鲜事,在冬奥会的解说员中,有一个特别的解说员,就是为听力障碍人员准备的手语主播。 这个高颜值,会卖萌的主播是个AI虚拟人物,你可以想象吗? 坐在播音室的朱广权老师,张口来了一段数来宝: 随着话音,AI主播自动生成对应的手语。 虽然我也看不懂手语,但据说是完全遵照了《国家通用手语词典》翻译的。她能够为听障朋友提供专业、准确的手语解说。光看这流畅的动作,起码是八级精通吧。让我们看看她工作的场景吧。 区别于传统翻译,手语翻译的难点在于:手语并非按照语言逐字翻译,而需要根据语句整体意思进行语言精炼和语序调整,同时还需实时配合表情和唇语,帮助听障者更好的理解。这就导致AI手语数字人在信息凝练度、低时延和精细化三方面面临极其复杂的技术难题。AI手语主播不仅需要具备高精度的数字人形象,还需要具备能够语音识别、手语翻译和手语表达的AI大脑。 引用百度集团副总裁吴甜的说法:“百度已发布集数字人生产、内容创作、业务配置服务为一体的智能数字人平台——百度智能云曦灵,百度希望通过领先的全栈AI能力,把虚拟人的生产周期缩短到小时级别,降低生产成本,并且用AI驱动生成内容。” 基于关键字“百度智能云曦灵”我们可以在网上搜索到,百度智能云曦灵数字人以AI技术赋能的特色,顺应数字人智能化的趋势。由四个主要引擎构成:人像驱动引擎、智能对话引擎、语音交互引擎、智能推荐引擎。着重解决了数字人表情、语言理解力、交互、以及面向用户的场景服务能力等几个方面的问题,从而实现了数字人的“能听、能说、可互动”。进一步查找,发现“百度智能云曦灵”最初的应用并不是在手语翻译,而是更多应用在虚拟成像,比如:央视网虚拟主持人小C、航天局火星车数字人祝融号、手机百度代言人龚俊 1)用AI技术增强角色的表现力,让数字人表情动作“更生动” 这一目标主要由人像驱动引擎完成,它能通过4D 扫描、智能绑定等 AI 技术,来实现数字人的唇形驱动、肢体驱动、表情驱动、手势感知等,让数字人从表情到动作更生动具体。 从早期2D卡通到3D写实,数字人的精度在不断进化。目前百度智能云曦灵支持3D写实、3D半写实、3D卡通,2D卡通、真人多种数字人风格,不仅通过全栈的AI能力实现了二次元数字人的“一句话生成”,还通过基于任意单个2D人脸重建高精度3D人脸技术,并可对虚拟人人脸3D模型进行编辑,实现将任意2D人脸低成本替换到3D虚拟人上,更将可被AI驱动的高精3D数字人生成成本由三个月降低到一星期。 2)用AI技术增强数字人的“语言理解力”,让数字人“更智慧” 这一目标主要由智能对话引擎理解完成。其拥有智能对话平台UNIT,能服务于智能对话系统的开发者,在对话理解和对话管理技术方面,被认为拥有较强的技术积累。 通过它,开发者能为数字人快速定制对话能力、持续提升对话效果、深度定制和灵活接入,满足各应用场景需求等,让数字人在理解自然语言上更智慧。 3)用AI技术增强角色的语音交互能力,让数字人“能听能说” 这一目标主要由语音交互引擎完成。当中最值得一提的是,该引擎拥有世界首个在线语音交互注意力模型,能实现与数字人自然畅通交流,高准确度的音画同步,逐字口型准确率>98.5%。 此外,其拥有全双工ASR、个性化TTS、变声器、定制唤醒词等各类功能或开发工具。 其中全双工ASR融合了百度自然语言处理技术,据披露,它能实现近场中文普通话识别准确率达98%;个性化TTS,则能支持数字人多种预置肢体动作,情绪、唇形,根据输入的文本/语音信息来自适应,生成表情丰富逼真的人像动画,具有高泛化、低延迟的特点。 此外,百度还研发了基于百亿级训练参数的开放域对话平台PLATO-XL,它基于百度多年的搜索及知识图谱积累,被认为是当前最大规模的中英文对话模型,刷新了开放域对话效果。目前可以借助百度PLATO-XL模型,驱动数字人来实现直播、动画等内容。 AI交互的一个例证是央视网虚拟主持人小C。2021年全国两会期间,小C以C+真探的身份在央视网特别策划“两会C+真探”节目中正式出道,并成为当家主持。其在3月7日的第一次“上岗”就与全国人大代表梁倩娟进行了独家对话。 4)用AI技术增强数字人面向客户的“营业能力” 这一目标主要由智能推荐引擎完成,能依托百度的大规模机器学习和个性化推荐技术,基于丰富的素材库,增强数字人在不同应用场景中,对客户进行内容、产品的智能服务能力。 举例来说,数字明星可以通过AI快速“习得”唱歌跳舞的功能,快速的生成内容。比如通过TTS转化唱歌,虚拟人的口型、表情、动作都自动与歌曲合拍,又比如可以通过对2D动画的舞蹈进行动作识别,让3D人物学会跳舞。
|