非欺骗性的声音合成实践

WowTune VR 源自著名的 Voctro Labs(VOCALOID 开发团队)在二〇一五年公布的一个名为 "REVIVOS" 的开发项目。WowTune VR 利用机器学习算法从已有的人声音频中总结出声纹特征,通过人声合成的方式构建出属于这个人声特色的音频资料库,从而让创作者获得「使用任何人的声音制作歌曲」的能力。WowTune VR 团队至今一共放出了三段小样,其中最新发布的一段是基于欧巴马、希拉莉和特朗普三人的演讲语音,生造出了三人合唱名曲 Autumn Leaves 的逼真片段。相比 BaracksDubsBarack Obama Sings Everything 系列所能达到的效果,这毫无疑问是一项惊人的突破。

另外一则来自麻省理工大学「计算机科学与人工智能」实验室(MIT Computer Science and Artificial Intelligence Laboratory, MITCSAIL)的消息:Visually-Indicated Sounds,一个分析录制视频画面中物体的物理碰撞和其发出声音之间的联系,并根据输入视频预测、合成和伪造声音的视听机器学习系统。究极地说,这套系统想要达到的效果是:给无声的画面配上还原度百分百的声音,让你无法分辨出声音到底是同期真实录制抑或是伪造的。点击 这里 观看 Visually-Indicated Sounds 的 YouTube 演示视频。

如果说二〇一六年是 VR 元年,大概是了吧。