来自新加坡南洋理工大学(NTU Singapore)的一组研究人员开发了一个计算机程序,该程序创建了一个模拟视频,只需要音频剪辑和面部照片,就可以反映人们说话的面部表情和头部动作
DIverseyet RealisticFacialAnimations,简称DIRFA,是一种基于人工智能的程序,它拍摄了音频和照片,并制作了一段3D视频,展示了演示与音频同步的现实和一致的功能动画的人员(见视频)
NTU开发了一个程序,改进了现有的方法,这些方法与适当的变化和运动控制作斗争
为了做到这一点,我培训了来自6000多人的超过一百万个音频视频剪辑,这些剪辑来自一个开源数据库。VoxCeleb2数据集可以从演讲中预测线索,并将其与面部表情和头部运动相关联
DIRFA的搜索器可以在包括医疗保健在内的各种行业和主要领域中引入新的应用程序,从而实现更多的个性化和现实化虚拟抵抗和聊天机器人,改善用户体验它还可以为有特殊表面残疾的个人提供一个强大的工具,帮助他们通过表达情感或数字表达来表达情感和情感,增强沟通能力
新加坡南洋理工大学计算机科学与工程学院的卢世坚副教授在整个研究中表示:“这四项研究的影响可能是深远的,因为三次进化通过创造个人说话的高质量视频,结合计算机和机器学习等技术,实现了多媒体交流的真实性。我们的项目也建立在以前的研究和技术进步的基础上,因为用我们的程序创建的视频包括准确的肢体动作、生动的面部表情和自然他们的头部姿势,只使用他们的录音和静态图像
第一作者、南洋理工大学博士研究生吴荣亮博士说:“演讲展示了变异的多样性个体在不同的语境中发音相同的单词,包括硬度、幅度、音调和更多的变化此外,除了语言内容外,演讲稿还形成了演讲者的情感状态和身份因素,如性别、年龄、种族和销售个性特征我们的方法代表了一个致力于从AI和机器学习的角度提高绩效的人“WuisaResearchScientists博士是新加坡科学、技术和研究机构信息通信研究所的科学家。
这一发现于8月发表在科学期刊《模式认知》上。
演讲量:以最快的准确度打开音频点对话。
研究人员认为,在复杂的挑战中,创建由音频驱动的逼真的面部表情是有意义的。对于音频信号,可以有很多可能的面部表情,当处理音频信号序列也是垂直的由于通常与嘴唇移动有很强的联系,但与面部表情和头部位置的联系较弱,因此需要创建与提供的音频相对应的精确同步、丰富面部表情和自然头部移动的谈话面
为了解决这个问题,我们首先设计了一个AI模型,DIRFA,以捕捉瑙迪欧信号和面部图像之间的中心水分关系该团队在6000多人的100多万个音频和视频剪辑上训练了这个模型,这些剪辑来自一个现成的数据库
AssocProfLu补充道:“具体来说,DIRFA模型降低了面部模拟的可能性,例如基于输入音频的鼻梁褶皱。该模型仍然能够将输入音频转换为各种逼真的特定动画序列,以指导生成空白面。”
吴博士补充道:“扩展实验表明,DIRFA可以生成具有精确的手势、生动的面部表情和自然的头部姿势的对话面。然而,我们正在努力改进程序的界面,允许控制某些输出。例如,DIRFA不允许用户调整一个固定的表达,例如将表情更改为文件。”
除了为DIRFA的界面提供更多的选项和改进外,NTU研究人员还将为非数字的面部表情提供广泛的数据集,包括记忆丰富的面部表情和语音音频剪辑
来源:
Materials provided by
Nanyang Technological University.
注明: Content may be edited for style and length.
参考:
2024-01-20
2024-01-20
2024-01-20
2024-01-20
2024-01-20