非欺骗性的声音合成实践

WowTune VR 源自著名的 Voctro Labs （VOCALOID 开发团队）在二〇一五年公布的一个名为 “REVIVOS” 的开发项目。WowTune VR 利用机器学习算法从已有的人声音频中总结出声纹特征，通过人声合成的方式构建出属于这个人声特色的音频资料库，从而让创作者获得「使用任何人的声音制作歌曲」的能力。WowTune VR 团队至今一共放出了三段小样，其中最新发布的一段是基于欧巴马、希拉莉和特朗普三人的演讲语音，生造出了三人合唱名曲 Autumn Leaves 的逼真片段。相比 BaracksDubs 的 Barack Obama Sings Everything 系列所能达到的效果，这毫无疑问是一项惊人的突破。

另外一则来自麻省理工大学「计算机科学与人工智能」实验室（MIT Computer Science and Artificial Intelligence Laboratory, MITCSAIL）的消息：Visually-Indicated Sounds ，一个分析录制视频画面中物体的物理碰撞和其发出声音之间的联系，并根据输入视频预测、合成和伪造声音的视听机器学习系统。究极地说，这套系统想要达到的效果是：给无声的画面配上还原度百分百的声音，让你无法分辨出声音到底是同期真实录制抑或是伪造的。点击这里观看 Visually-Indicated Sounds 的 YouTube 演示视频。

如果说二〇一六年是 VR 元年，大概是了吧。