最近,萧经开企业一知智能闷声又有新动作!自研通用说话人合成技术上线,能让静态照片开口说话。该视频所展示的,正是该技术的魅力所在。
原图(图源网络)
什么是通用说话人合成技术?
通用说话人合成技术是一种基于智能算法的图像处理技术,它能根据语音直接驱动静态照片中人物头部和面部自然动作,无需定制训练,即可生成人物流畅说话的视频效果。也就是说,仅需一张图片,一段音频,就能让图片中的人物“活”起来。
通用说话人合成技术是如何做到的?
在语音特征方面,采用了基于Transformer的语音特征聚合模型来提取每一帧画面对应的语音特征。同时,通过motion extractor提取头部姿态和表情偏移量,在实际使用中可以用模板库中丰富的头部姿态序列进行驱动。将关键点、语音特征、运动信息和图片特征通过聚合模型进行融合,并利用扩散模型重建头部图像。
有了一知智能自研的通用说话人合成技术,想象一下,你只需上传一张自己满意的照片和一段音频,就能得到一个动态的你,是不是很有趣!
它还能使500年前静态的蒙娜丽莎开口说话
赋予静态的经典艺术人物新生命
一知智能自研通用说话人合成技术通过建立高质量的人物头部模型与动作映射模型,优化了语音驱动头面部动作的合成链路。在高性能计算设备上,甚至能实现实时与流式的说话人视频生成。同时,引入定制化数字人模型中的高质量语音-图像多模态特征融合模型,实现高精度的唇音同步效果。
左一是传统定制化数字人技术合成的视频,
右一是通用说话人合成技术生成的视频,
可对比发现,效果所差无几。
基于过去为众多电商品牌拍摄的定制或公用模特,一知智能构建了丰富的头面部动作与表情模型库。这使得通用说话人合成技术能够创造出自然又真实的多样化面部表情与动作,精准匹配声音与细腻表情变化。
一张图
即可解锁属于你的数字人形象
实际上,这项技术的突破,不仅仅使一知智能在通用式唇音匹配效果上处于业界领先地位,更是极大降低了数字人制作的经济与时间成本。摒弃了前期对摄影棚拍摄和专业化妆师团队的依赖,仅凭单图即可驱动出高真实度、高可控性、高表现力的数字人,与定制化数字人模型所差无几,提升了数字人制作的灵活性与效率,也为一知智能的业务拓展开辟了新视野,带来更多可能性。
每一次技术突破都是对人类生活改善的一次尝试,每一次创新都是对未来可能性的探索。一知智能一直以来不断探索AI多模态人机交互的新边界,致力于将AI深度融入业务场景。随着技术的不断成熟和应用场景的拓展,通用说话人合成技术正逐步搭建起现实与虚拟的桥梁,让静态图像焕发出新的生命力,让沟通方式更多元。未来,一知智能自研通用说话人合成技术也将带来更多惊喜与便利,让人感受到科技的魅力。