评 Zealer Tips 近两期有关音响话题的节目

玄学真的更好吗?
Publishing date August 17, 2016 Author 阿鲁卡多

最近在网络上闲逛,偶然看到了 Zealer 出品的几期有关音响话题的节目,标题不免透露出一些「科普」的意味。令人大失所望的是,这两期节目的内容毫无疑问都显露出他们不专业的态度。这两期节目分别是:

通过给这两期节目挑错,我想顺便简单地谈一下我对这两个争议性问题的看法。

煲耳机真的能提升耳机的音效吗?

首先,这个问题的题干在遣词上就有问题。我之前有提到过一个观点:如果你对中文里一个专有名词的意思容易产生误解,转而使用英文是规避错误的最佳方法。在视频中,Zealer 一直试图讨论的是「音质」(Sound Quality)而非「音效」(Sound Effect),这两个词是有本质区别的。有趣的是,视频画面中所使用的标题却是「煲耳机真的能提升耳机的音质吗?」看来是他们的工作人员在编排和复审的环节上出了问题。

价值 1000 块的耳机,无论你怎么煲,音质都不会超越 2000 块的。

视频中提到的「以价论声」「两千块耳机一定比一千块耳机好听」的说法是非常不妥当的。现代耳机的价值由多个方面构成,传统价值观下的「音质」属性在未来更会走向边缘化。我在 Your Mileage May Vary 一文中提到「尊重市场规律」,虽说隐含了「贵价比廉价更好」这种消费主义倾向的观点,但我还是要强调「价格」和「音质」并非线性相关。你应当抛弃掉陈腐的观点,尊重自己的钱包、耳朵和脑袋,选择你认为最好的耳机。

耳机同样有它自身的调音取向,有的适合听古典,有的适合听摇滚,不要指望通过煲耳机来掰弯它。如果你喜欢听戏曲,却买了一个听电子音乐的耳机,要么你就将就用,要么你就退货,谁让你买的时候不看清楚呢?

「调音」是音响领域的一大误区。「调音」虽说不至于是个伪概念,但在中国某些音响代理商和厂家的宣传下也变得差不多是了。须知,听音审美的建立是认知的过程,从机械波到感知再到认知需要经历复杂的过程(如下图)。所谓「调音」,暨是通过人为调整最左边的一端(声音的物理属性)来操纵最右边一端的结果(主观认知)—— 最左端需要工业制造经验上的累积,最右端需要的是统计学上的显著性;山寨小厂口中的「调音」,真的是「调音」吗?另一方面,从我极为有限的观察来看,我从未见到过有任何一家正经的耳机厂商会在包装上印有「本耳机适合某流派的音乐」这种字样,这更是和客观上「高保真」(High-Fidelity)的定义相违背,Zealer 是如何给出这样的建议呢?

Audio Filter Model

「煲耳机」真的能提升「音质」吗?这是个可证伪的主张,但并不意味着它是假的。许多人谈到「音质」会直接联想到频率响应、互调失真、总谐波失真等客观测量参数,但这些只是构建「音质」定义的一半;另一半正是我们常说的「主观因素」,或者说,「审美」。审美有可以习得的客观内容和其承载的标准,但对于大多数人来说,这部份教育是缺失的;剩下的便是身体性的(Embodiment)、人口统计学(Demographic)和心理声学(Psychoacoustics)的主观了。盲目地肯定或否定这个议题,一定是错误的。

对于「煲耳机」这件事,支持者和反对者皆有,双方都能拿得出「实验结果」。比如对「煲耳机」持反对观点的中国人,时常引用到的是 《[艾迪盲测第一期]【盲听实验】煲耳机真的有用吗?》 中所谓「双盲实验」的结果。而支持「煲耳机」的人,可能会提到 InnerFidelity 主编 Tyll Hertsens 在二〇一一年做的一系列测量和盲听实验 —— Evidence of Headphone Break-In?Break-In, Part Deux —— 对「煲耳机」在客观测量参数上变化的肯定事实。

从现有的科学程序上讲,Tyll Hertsens 的实验是合格的。但就算是这样,他也在这次实验之后引用过 Floyd Toole 的观点,表达了这样的看法:

I have, numerous times, done work that has a pseudo-scientific approach (Pono player and AKG K701 burn-in blind tests), but the truth is that there are all sort of holes that could be poked in those test by people who do understand the nuance and difficulty of real science.

在「艾迪盲测」中,实验设计者对 ITU-R BS.1116-3 所给定的盲听实验设计要求(以及背后的原因)毫不知情的表现,已经不是 “all sorts of holes”,而是「满身都是筛子」了。在这里就不对这个实验存在的问题展开讲了,你只需要知道这是一个不合格的实验就可以了。

我对「煲耳机」这件事的态度是这样的:「听音」这种极度私人的事,你的决定高于一切;煲耳机是否有用,你自己说得算。鞋合不合脚,没穿过怎么会知道?但如果你找别的人来帮你穿鞋、帮你走路,那就真得太可笑了。

无损音乐真的比有损音乐更好听吗?

先说这个视频中最夸张的一个错误:码率的单位竟然被标注为 “kps”!码率、比特率、位元速率、Bit Rate 的单位是 bps 或 bit/s,而不是 kps。很显然 Zealer 想说的是我们在讨论音频文件码率时常常提到的 kilobit per second,kbps。

接下来,Zealer 举了这样一个让人摸不着头脑的例子:

你可以把它理解成歌曲的密度:相同的体积,密度越大就越重。所以,同一首歌,码率越大、内容就越多,占用的空间也越大。

「相同的体积」在这里类比的是什么?「密度」又是什么吗?

目前常见的有损格式有 128 kps、320 kps,而无损格式一般都大于 500 kps。

这些都不是常见有损格式,而是固定比特率(Constant Bit Rate, CBR)的音频有损压缩文件常见的码率;.mp3, .aac, .m4a, .ogg, .wma 才是格式。除了 CBR 之外,还有 VBR(Variable Bit Rate,可变比特率)和 ABR(Average Bit Rate,平均比特率)。

「根据码率来区分有损和无损」是不可行的。有损压缩的过程不可逆,音频有损压缩文件无法通过任何方式还原成无损文件,但低码率的音频有损压缩文件却可以转换成为高码率的文件。这样的转换对于音质来说当然是毫无意义的,但正如某某音乐上的一些「无损音乐」一样,你怎么知道它标称的「无损」就是真无损?

既然有损的删除了一部分内容,那是不是有损歌曲一定没有无损歌曲好听呢?那可就未必了。

这个结论可以说没错,但论证过程却是有问题的。我们接着看:

音乐原始文件包含声波频率的范围很广,人耳可以听到的频率范围在 20 Hz 至 20000 Hz,而 320 kps 基本只删掉了 20000 Hz 附近的频段,普通人几乎听不出来无损和 320 kps 的区别,只有极少数的发烧友才能分辨。

这里似乎隐含了一个错误的理解 —— 好像在讨论音频有损压缩文件的码率和其采样率时,经常有人将「基本只删掉了 20000 Hz 附近的频段」这个基本错误的说法当作是「MP3 压缩算法通过降低采样率来提高压缩性能」这个错误理解的证据。实际上,MPEG-1 Audio Layer III CBR 支援的码率从 32 kbps 到 320 kbps,而采样率只有 32 kHz、44.1 kHz 和 48 kHz 三种标准。其中最常见的是符合 CD-DA 标准的 44.1 kHz 采样率。高品质有损压缩编码器是在尽量保证 20 Hz 至 20,000 Hz 全频段保真度的前提下进行的有损压缩,「将人耳可能听不到的高频删除」只是基于心理声学模型(人类听觉模型)应用的一种方法,而不是全部。

除了高频段之外,其它频段在有损压缩时也会发生变化。这里引用 MagicLen 兄关于音频有损压缩格式的 一篇分析文章 :使用 LAME 3.9.5 编码器转换得到的 320 kbps .mp3 有损压缩文件和原始音频文件(16 bit/48 kHz)在全频段上都有差异。

mp3 versus wav

MagicLen 兄使用 Adobe Audition 配合 ImageDifferencer 这种比较讨巧的、类似 Null-Test 的对照方式,并不影响他给出直观结论的正误。所谓 “Null-Test”,暨取两段声音波形,将其中一段的相位反转并与未反转的声音波形相结合,成为一段新的声音波形。如果两段声音波形是相同的(identical),那么两段声音波形会互相抵消(相位消除),合成的声音波形将不会含有任何声频信息;如果两段声音波形有细微的区别,那么相同的部分会被消除,不同的地方将会在合成的声音波形中以差异化的方式被保留下来,正如上图中所展示的概念一样。

这种数字化的(声音物理属性)差异并不代表感知上的差异,更不代表认知上的差异。我们经常说的「听不出区别来」,实际上是认知上的差异。反过来说,认知上的差异,也不代表感知上的差异和声音物理属性上的差异。比如 Tritone Paradox (三全音悖论)就是一个典型的「认知上有差异,但感知和数字上无差异」的范例。

那么,「普通人听不出区别」和「极少数发烧友才能分辨」是正确的说法吗?在历史上的一些有关音频有损压缩编码器的盲听实验中,专家(包括音频工程师和音乐家)确实表现出了比接受过听音训练的普通人(相当于我们平常定义下的「发烧友」)更高的分辨能力。但是,在近些年的音频有损压缩编码器输出高品质有损压缩文件(256 - 320 kbps)的对比盲听实验中,专家们却也难以取得传统统计学意义上的显著性,更不用说没有接受过听音训练的普通人了。

一般的耳机加手机这样的配置,也难以体现出无损音乐的音质。所以,如果不是发烧友,听个 320 kps 就足够了,可别傻傻地迷信无损了。

这段话所阐述的事实没错,但我并不认同 Zealer 给出的结论。无损不需要迷信,因为毋论你是否能「听出区别」,无损音频在客观属性上就是要比有损音频更好;而且这里所说的「好」是有客观标准的价值取向,甚至是审美取向。音频有损压缩格式从最初诞生、到现在存续的意义只在于它可以有效地利用有限的带宽、节省昂贵的存储空间和传播廉价的盗版,它是一种可实施的、有性价比的时代产物。在可预知的未来中(甚至就是现在),我们有了足够的带宽和存储空间,使得我们有能力使用无损的音频格式,那为什么不呢?MPEG-4 SLSMQA 已经在路上,我们离全面无损的世界越来越近了。

← Next Post 后
艺术、艺术家与国界
前 Previous Post →
非欺骗性的声音合成实践