位深度 (音频)

数字音频脉冲编码调变(英语:PCM)中,音频位深度(英语:audio bit depth)是指每次采样存储着多少比特(英语:bit)的信息,数值直接对应着每次采样的分辨率。比如,数字音乐光盘采用16位存储采样,则每个采样点可以存储65,536(216)种可能振幅值之一;DVD-A蓝光光盘则最高可支持24位,即每个采样点最多可以存储16,777,216(224)种可能振幅值之一。[1]

红色表示一段模拟信号,蓝色表示脉冲编码调变(PCM)在4位下所得取样点;由于位深度为4即分辨率为16(24),每次取样的振幅便是16种可能值之一。

在一些基本执行实例中,位深度的变化主要影响由量化误差引起的量化噪声水平,比如说信噪比(英语:SNR)和动态范围。不过,抖动过采样噪声整型英语noise shaping等技术也能够减轻上述影响,同时维持位深度不变。另外,位深度还会影响比特率和文件大小。

位深度仅对PCM数字化信号有意义,而有损数据压缩格式等非PCM格式并无“位深度”一说。[2][3]

二进制表示

 
4位PCM中,对模拟信号(红色)采样量化、二进制编码的示意图。

PCM信号是一段数字音频采样值序列,它所包含的资料可为重建英语Signal reconstruction原始模拟信号提供必要信息。在序列中,所有采样值在时间上间隔均匀,各自代表信号在对应时间点上的振幅。振幅是每个采样点所精确存储的唯一信息,其存储形式通常是整数浮点数形式,但会编码成具有固定位数的二进制数。该二进制数之位数就是采样的位深度(英语:bit depth),也称作字长(英语:word length)或者字大小(英语:word size)。

采样值的分辨率是指:由原始模拟信号所含所有振幅值所构成的连续分布范围内,有多少离散值能够为采样值所表示。在整数采样PCM音频中,采样值通常以有符补码形式存储,[4]以二进制整数表示的分辨率会随着字长增加而呈指数增长,字长每增加一比特,分辨率即翻一倍。若位深度以十进制整数形式表示为n,则采样值能够表示的可能振幅值数量为2n[5]例如,若位深度为16,则分辨率为65,536(216)。

许多音频文件格式以及数字声讯工作站(英语:DAW)现在也支持以浮点数表示采样的PCM格式,[6][7][8][9]比如WAVAIF[10][11]整数的位模式是单一的比特系列,而浮点则与之不同,其数值表示是由单独而互相构成数学关系的字段构成的。最常见的浮点数标准是IEEE 754,在该标准中,数字由表示符号正负的符号位、指数以及由指数代表位移的尾数英语Significand组成,其中尾数在IEEE二进制格式中是以二进制分数表示的。[12]


量化

 
上图之中,蓝色表示原始信号,红色表示它经过量化得到的信号。下图表示量化误差,即上述两股信号之间的差值。

在重建出的信号中,讯杂比最大值受限于采样位深度,并取决于量化误差值。频率响应则受限于采样率而与位深度无关。

由模拟至数字变换(英语:ADC)导致的量化误差,是来自ADC的模拟电压输入值与完成数字化的输出值之间的舍入误差,透过塑模可成为量化噪声。这种噪声非线性,并与信号本身相关。

 
8位二进制表示的十进制数字149,其中最低有效位(LSB)以强调色标记

在理想状态下,模拟至数字变换的量化误差会均匀分布在最低有效位(英语:LSB)±½倍范围内,并且信号会有覆盖所有量化阶的均匀分布。信号量化噪声比(英语:SQNR)可通过下式计算:

 

此处的Q为信号的量化比特数,解果以分贝(英语:dB)为单位。[13]

由此可知,CD上的16位数字音频的最大理论信噪比为96分贝,而专业的24位数字音频的最大理论信噪比可至144分贝。至2011为止,由于集成电路的实际设计限制,数字音频变换器的信噪比大约只能达到123分贝,[14][15][16]也就是相当于有效英语Effective number of bits21比特,不过这也与人类的听觉系统能力相近。[17][18]虽然说也有售卖的32位变换器,但这些基本纯粹是营销产物,和24位变换器比起来没有任何实际好处,那些多出来的比特要么一直是0,要么只能编码噪声。[19][20]另外也可以用多个变换器覆盖处理同一信号的不同范围,如此一来就可以在信号的长期范围纪录更大的动态范围,这种技术称作动态范围拓展,不过这仍在短期范围会有受限于单个变换器动态范围的问题。[21][22]

各种位深度所对应的信号噪声比及分辨率
位深度 信噪比 整数取值总数(单个采样点) 有符十进制取值范围(单个采样点)
4 24.08 dB 16 −8至+7
8 48.16 dB 256 −128至+127
11 66.22 dB 2,048 −1,024至+1,023
12 72.24 dB 4,096 −2,048至+2,047
16 96.33 dB 65,536 −32,768至+32,767
18 108.37 dB 262,144 −131,072至+131,071
20 120.41 dB 1,048,576 −524,288至+524,287
24 144.49 dB 16,777,216 −8,388,608至+8,388,607
32 192.66 dB 4,294,967,296 −2,147,483,648至+2,147,483,647
48 288.99 dB 281,474,976,710,656 −140,737,488,355,328至+140,737,488,355,327
64 385.32 dB 18,446,744,073,709,551,616 −9,223,372,036,854,775,808至+9,223,372,036,854,775,807


浮点数

在浮点数采样中,位深度与分辨率的关系并不像在整数采样中那般简单。浮点数取值间隔并不均匀,相邻二值之间隔与取值本身成比例。这一特点令其信噪比远远高于整数采样体系,因为同一段信号无论位准高低都具有相同精度。[23]

尽管如此,浮点数采样相比之下也有另一方面劣势:对于相同位深度,在取值很大的情形下,相邻浮点数比相邻整数间隔更大。因此,浮点数取值越大,舍入误差便越大。而整数无论取值大小,舍入误差值始终维持在相同程度。换言之,整数无论大小,数值修约结果始终不外于最低有效位取0或1;而浮点数无论大小,信噪比始终不变,量化噪声位准始终与信号位准成一定比例,随信号位准升降而升降。[23]如果位深度足够低,量化噪声位准之不同便能够为人耳所辨别。[24]

音频处理

正如模拟至数字信号变换这一步会引入量化误差,大多数处理数字音频的运算涉及重新量化采样,从而引入更多舍入误差。在数字至模拟变换过程中,若要避免舍入误差大于既有误差,运算所涉计算步骤必须满足更高精确度要求。[25]

无论是定点数抑或浮点数运算,数字信号处理都能满足相应精度要求,但每一步运算的精度取决于所用硬件的运算精度,而不是输入资料的分辨率。例如x86处理器会采用单精度双精度执行浮点运算,以及采用16、32及64位分辨率执行定点运算,因此无论来源格式为何,所有用到英特尔处理器的处理工序都必然受到上述精度限制。

由定点数数字信号处理器通常支持特定字长,从而支持特定的信号分辨率。例如摩托罗拉56000采用24位乘法器以及56比特累加器,因而能够对两段采样执行乘积累加运算并且免受溢出以及截断影响。[26]如果没有高规格累加器,定点运算的结果可能受到截断影响,从而精度较低。[27]卷积这类用到重复处理的算法以及无限冲激响应滤波器这类递归算法对精度要求更高。[25][28]尤其在无限冲激响应滤波器当中,舍入误差会导致频率响应表现欠佳、稳定性降低。[25]

颤动信号

在音频处理流程当中,包括舍入误差及精度损失在内的量化误差会引入噪声。若要减轻噪声影响,可在量化前的信号上加入颤动信号(英语:dither),即加入少量随机噪声。颤动能够消除非线性量化误差所致影响,导致失真程度极低,代价则是底噪(英语:noise floor)会稍微放大。在ITU-R 468噪声加权(英语:noise weighting)标准之下,16位数字音频的颤动信号推荐值为以校准位准(英语:alignment level)减去约66分贝处,或是以数字满格(英语:full scale)位准减去84分贝处。该值与麦克风底噪、录音室噪声值相当,在16位音频当中不足为虑。

对24位音频而言,数字变换器内的噪声位准永远高于颤动信号位准的必要值,因此无需使用颤动信号。理论上,24位音频经编码可获取144分贝的动态范围,但根据各厂商产品型录,目前没有任何模拟数字变换器动态范围能够做到大于125分贝左右。

颤动信号也可以用于增大有效动态范围。对于16位音频,若利用人耳的频率响应特征,对颤动信号执行噪声整型再加诸于音频,则其主观动态范围可达至少120分贝。


动态范围及动态宽限

信号动态范围是指系统能够录入或再现的信号振幅值当中最大值与最小值之比。若无颤动信号,则动态范围与量化噪声基底相关,例如16位整数体系采样动态范围可达96 dB左右。数字音频系统适当采用颤动信号,可突破分辨率对最低信号位准的限制,增大有效动态范围。[29]过采样及噪声整型等手段可除去重要频段内量化误差,进一步增大动态范围。

若一段信号的最高位准未达到其位深度对最高信号位准的规定值,该段音频便具备宽限(英语:headroom)。录音期间采用较高位深度,可维持动态范围不变而同时留出宽限,在不增加量化误差的同时令低音量区域降幅(英语:clipping)风险降低。

超采样

若要在PCM音频当中维持位深度不变而增大动态范围,超采样也是一种方法。[30]超采样即以数倍于期望值的采样率获取采样值。假设量化误差均匀分布于各频段,超采样以后其中一大部分将移位到超声波频段,播放音频期间能够由数字模拟变换器滤除。

若要借由超采样将位深度提升 比特,则采样率需要增加至  倍。

例如,一台14位模拟数字变换器若要将位深度提升2比特,产生16位、48 kHz数字音频,则需执行16( )倍超采样,采样率为768 kHz( )。因此,超采样在PCM音频当中以更高采样率为代价,换得“以单一采样值更低比特数维持分辨率不变”这一优势。

若要提高动态范围,但不在源信号数字化期间执行超采样,也可以在信号重建阶段执行。比如在16倍超采样当中,对于原始信号每一采样点,数字重建滤波器(英语:reconstruction filter)都要计算得到16个新采样点以取代,因此每次采样结果都独一无二。如前文所述,有效位深度增大的原理不在于减弱量化噪声,而在于将噪声频谱分散到音频频宽的16倍。

历史上,CD标准是由Sony与飞利浦共同开发制定。在各自首款CD播放机上,Sony CDP-101采用16位DAC,而飞利浦CD100仅采用14位双DAC。当时市场方面以至业界都有许多人士对此感到不解,原因是16位PCM讯杂比可达96分贝,而14位PCM仅能达到84分贝,较前者少12分贝。实际上,飞利浦是将4倍超采样与一阶噪声整型(英语:first-order noise shaping)相结合,理论上能实现96分贝动态范围,与CD格式标准一致。[31]在实际应用当中,飞利浦CD100在20 Hz至20 kHz频段上实测讯杂比为90分贝,表现与Sony CDP-101相同。[32][33]

噪声整型

采用超采样处理信号,则量化噪声大小在所有频段上都相同,动态范围增大倍数与超采样率(英语:oversampling ratio)之平方根成正比。而噪声整型是在较高频段加入额外噪声以抵消较低频段一些噪声,以令超采样动态范围增幅更大的一种手段。n阶噪声整型(英语:nth-order noise shaping,是指超采样后能令动态范围较一般超采样处理多6n分贝的噪声整型。[34]譬如,对20 kHz模拟音频执行4倍超采样,再结合二阶噪声整型,便能将动态范围提升30分贝。由此可知,对16位信号执行176 kHz采样,位深度等于对21比特信号执行44.1 kHz无噪声整型采样。

参考资料

  1. ^ Trier, Author Stephen. Choosing a high-performance audio ADC. Skywired.net. 2011-09-14 [2021-12-29]. (原始内容存档于2022-03-31) (美国英语). 
  2. ^ Montgomery, Chris. 24/192 Music Downloads ...and why they make no sense. xiph.org. 2012-03-25 [2013-05-26]. (原始内容存档于July 2013-07-07) (英语). With use of shaped dither, which moves quantization noise energy into frequencies where it's harder to hear, the effective dynamic range of 16 bit audio reaches 120dB in practice, more than fifteen times deeper than the 96dB claim. 120dB is greater than the difference between a mosquito somewhere in the same room and a jackhammer a foot away.... or the difference between a deserted 'soundproof' room and a sound loud enough to cause hearing damage in seconds. 16 bits is enough to store all we can hear, and will be enough forever. 
  3. ^ Stuart, J. Robert. Coding High Quality Digital Audio (PDF). Meridian Audio Ltd. 1997 [2016-02-25]. (原始内容 (PDF)存档于2016-04-07) (英语). One of the great discoveries in PCM was that, by adding a small random noise (that we call dither) the truncation effect can disappear. Even more important was the realisation that there is a right sort of random noise to add, and that when the right dither is used, the resolution of the digital system becomes infinite. 
  4. ^ Pulse Code Modulation (PCM). ccrma.stanford.edu. [2021-12-29]. (原始内容存档于2022-03-31). 
  5. ^ Thompson, Daniel M. Understanding audio : getting the most out of your project or professional recording studio. Boston, Mass.: Berklee Press. 2005. ISBN 0-634-00959-1. OCLC 58450656. 
  6. ^ Campbell, Robert. Pro Tools 10 : advanced music production techniques. Boston, MA: Course Technology PTR. 2013. ISBN 978-1-133-72801-6. OCLC 812179989. 
  7. ^ Avid Pro Tools 10. www.soundonsound.com. [2021-12-29]. (原始内容存档于2022-01-01). 
  8. ^ Reason Mixing Masterclass. www.soundonsound.com. [2021-12-29]. (原始内容存档于2022-01-01). 
  9. ^ Audio Fact Sheet — Ableton Reference Manual Version 11 | Ableton. www.ableton.com. [2021-12-29]. (原始内容存档于2022-07-16) (英语). 
  10. ^ Wave File Specifications. www-mmsp.ece.mcgill.ca. [2021-12-29]. (原始内容存档于2010-03-25). 
  11. ^ AIFF / AIFC Sound File Specifications. www-mmsp.ece.mcgill.ca. [2021-12-29]. (原始内容存档于2021-03-09). 
  12. ^ Floating Point (Real Numbers). www.dspguide.com. [2021-12-29]. (原始内容存档于2021-07-30). 
  13. ^ Kester, Walt. Taking the Mystery out of the Infamous Formula, "SNR = 6.02N + 1.76dB," and Why You Should Care (PDF). Analog Devices. 2007 [2021-12-29]. (原始内容存档 (PDF)于2011-06-16). 
  14. ^ Nwavguy. NwAvGuy: Noise & Dynamic Range. NwAvGuy. 2011-09-06 [2021-12-29]. (原始内容存档于2022-04-12). 
  15. ^ PCM4222. [2021-12-29]. (原始内容存档于2011-06-23). Dynamic Range (–60dB input, A-weighted): 124dB typical Dynamic Range (–60dB input, 20 kHz Bandwidth): 122dB typical 
  16. ^ WM8741 | Cirrus Logic. master-nq.webp2.cirrus.com. [2021-12-29]. (原始内容存档于2022-03-02). 
  17. ^ D. R. Campbell. Aspects of Human Hearing (PDF). [2011-04-21]. (原始内容 (PDF)存档于2011-08-21). The dynamic range of human hearing is [approximately] 120 dB 
  18. ^ Sensitivity of Human Ear. hyperphysics.phy-astr.gsu.edu. [2021-12-29]. (原始内容存档于2011-06-04). 
  19. ^ The great audio myth: why you don’t need that 32-bit DAC. Android Authority. 2016-01-19 [2021-12-29]. (原始内容存档于2022-07-09). 
  20. ^ 32-bit capable DACs. hydrogenaud.io. [2021-12-29]. (原始内容存档于2022-03-31). 
  21. ^ US6317065B1,Raleigh, Gregory G. & Vincent K. Jones,“Multiple A to D converters for enhanced dynamic range” 
  22. ^ Christodoulou, Lakis; Lane, John; Kasparis, Takis. Dynamic range extension using multiple A/D converters. 2010 4th International Symposium on Communications, Control and Signal Processing (ISCCSP). 2010-03-01: 1–4. ISBN 978-1-4244-6285-8. S2CID 16501096. doi:10.1109/ISCCSP.2010.5463427. 
  23. ^ 23.0 23.1 Fixed versus Floating Point. www.dspguide.com. [2021-12-29]. (原始内容存档于2021-09-07). 
  24. ^ Moorer, James. 48-Bit Integer Processing Beats 32-Bit Floating-Point for Professional Audio Applications (PDF). www.jamminpower.com. 1999-09 [2013-08-12]. (原始内容存档 (PDF)于2019-02-14). 
  25. ^ 25.0 25.1 25.2 Tomarakos, John. Relationship of Data Word Size to Dynamic Range and Signal Quality in Digital Audio Processing Applications. www.analog.com. 亚德诺半导体. [2021-12-29]. (原始内容存档于2015-02-12) (英语). 
  26. ^ NXP® Semiconductors Official Site | Home. www.nxp.com. [2021-12-29]. (原始内容存档于2021-03-22). 
  27. ^ The Scientist and Engineer's Guide to Digital Signal Processing, Chapter 4 – DSP Software / Number Precision. www.dspguide.com. [2021-12-29]. (原始内容存档于2022-03-31). 
  28. ^ Carletta, Joan. Determining Appropriate Precisions for Signals in Fixed-Point IIR Filters. DAC. 2003. CiteSeerX 10.1.1.92.1266 . 
  29. ^ Dithering in Analog-to-Digital Conversion (PDF). e2v Semiconductors. 2007 [2011-07-26]. (原始内容 (PDF)存档于2011-10-04). 
  30. ^ Kester, Walt. Oversampling Interpolating DACs (PDF). Analog Devices. [2013-08-19]. (原始内容 (PDF)存档于2012-05-19). 
  31. ^ Philips Research. Philips. [2021-12-29] (英语). 
  32. ^ Philips CD100 Stereo Compact Disc Player Manual | HiFi Engine. www.hifiengine.com. [2021-12-29]. (原始内容存档于2022-01-01). 
  33. ^ Sony CDP-101 Stereo Compact Disc Player Manual | HiFi Engine. www.hifiengine.com. [2021-12-29]. (原始内容存档于2022-01-01). 
  34. ^ B.1 First and Second-Order Noise Shaping Loops. www.iue.tuwien.ac.at. [2021-12-29]. (原始内容存档于2022-01-01).