什么是数模转换器？它的工作原理是什么？

2019-09-26

在任何的数字音频系统中，模数和数模转化器都是其中的重要组成部分，但通常情况下，它们都得不到应有的关注。在您的声卡将音频传输到您的DAW时，您可以能不会去想是模数转化器或者是数模转化器驱动的您的监听音箱；并且当您在演奏数字合成器时，是数模转化器将您的音频传输给音箱的这点可能也没有得到过您的过多关注。

但转换器其实真的非常重要——将笔记本电脑直接发出的声音与通过数字端口(如USB)连接了优质的外置转换器的笔记本电脑所发出的声音进行比较，会听到非常明显的区别，连接了外置转换器的声音听起来肯定会好很多。

想要弄明白模数和数模转换器，我们就需要先了解一些基本的音频基础知识。声音由气压的变化组成，有像海浪一样的波峰和波谷，与我们耳朵的听觉机制相互作用。我们的耳朵会将接收到的声波信息传递到大脑，大脑则负责处理这些信息。从恼人的狗吠声到交响乐团的演奏声等等所有的声音，实质上都是形状和高度各异的波。通常情况下，声音越复杂，波的形状就越复杂。从视觉上看，在振幅(水平)与时间的关系图中，音频看起来像一条弯曲的线，我们称之为波形(如图1所示)。

图1：这张图显示的是一支管弦乐队演奏的贝多芬交响曲在被麦克风转换成不同的电压后所产生的气压变化。注意，这是一个非常短的音频片段，通过放大可以更清楚地显示波形的形状。

在黑胶唱片上刻下波形的轮廓就形成了唱片的律动，当我们播放这张唱片时，唱针会跟随这个波形进行播放，这会使唱机匣产生电压变化，产生类似于声音的原始波形，最终驱动扬声器发声。由于扬声器音盆会跟随波形运动，所以它能复制最初压入黑胶唱片的波形。因为上述的每个阶段都会传输一个模拟输入信号的信号——因此便有了“模拟音频”这个术语。

不幸的是，跟乐队成员一样，模拟音频也有局限性。例如，黑胶唱片的爆裂声、滴答声、扭曲的声音和表面噪声会作为不受欢迎的音频“瑕疵”被添加到原始声音中。录音磁带会添加音染，磁带上的灰尘会导致砰砰声和滴答声，磁带录音会有嘶嘶声，等等。因此，尽管扬声器输出的信号与原始录制的信号相似，但由于模拟录制、处理和回放中固有的错误，也不太可能和原始声音一模一样。

耶!数字音频确实存在!

数字音频通过将音频转换为一串数字从录制和播放过程中删除了许多变量，之后通过音频链传递这些数字（我们稍后会为大家解释为什么这会改善声音质量）。模数转换器会将模拟信号转换为数字。图2A显示了最终将转换为数字数据的波形。

图2A. 原始音频

图2B. 用特定的采样速率测量音频电平。

图2C为每个测量样本指定一个数值，存储为数字数据

图2D. 使用平滑滤波器恢复成波形形状

图2：模数转换过程以一致的速率对波形进行采样，并测量每个样本的电平并为其指定数值。

计算机每隔几微秒就会抓拍一次信号（如图2B所示），然后将这一系列抓拍或样本转换成代表信号电平变化的电压电平（如图2C所示）。之后，计算机会对电平进行测量并将它们转换成一串数字（以数字数据的形式）来定义这些电压变化。转换器每秒测量的次数就是采样率，也称为采样频率。

我们将其与典型的音频系统结合起来进行说明。麦克风会拾取音频信号并将其发送到模数转化器来将音频信号转化成数字信号。计算机接收到这一串数字信息后会对其进行处理 - 例如，在播放之前将其延迟以创建数字延迟，或将其存储在硬盘上进行数字录制。

到目前为止一切都没有任何问题，但由于我们听不了数字信号，所以必须将录制或处理的数字数据转换回可以通过扬声器或耳机播放的模拟信号。因此，就需要数模转换器将数字串转换回一系列电压电平。

到这儿也还没结束，因为我们还需要将这一系列离散电压平转换成连续的波形。我们将低通滤波器与数模转换器配合使用，来对阶梯信号进行过滤，从而使尖锐的波形边缘变得平滑（如图2D所示），之后我们就可以将转换好的模拟信号发送到放大器/扬声器组合中了。

为什么数字音频能够保持保真度

我们以将数字信号存储在塑料材质的圆盘上的光盘为例：当我们把光盘放进CD机后，激光就会读取这些数据，然后将其发送到数模转化器，之后数模转换器就会将数字信号转换回模拟信号。因为CD都带有纠错功能，所以即使光盘上有轻微的划痕，它也能识别出来并对丢失的数据进行替换，因此通常不会有跳读的情况发生。在您下载音乐时，即使您的互联网连接中断了，下载引擎也会将这些部分组合成一个可以不间断播放的文件。

对音乐家来说，更重要的是，使用数字音频可以让音频在通过信号链后的音质保持不变。在模拟多轨录音机的时代，当您将您的歌曲混缩到一个模拟双轨录音带时，会引入了额外的嘶嘶声和失真。当您对磁带进行母版制作时，会引入更过的杂音，将音频传输到一个可以压制唱片的金属压模上时，也会引入砰砰声、研磨声和扭曲的声音。在每个音频传输阶段，信号质量都会更加恶化。

使用数字录音，您可以将数字信号混合到立体声或环绕立体声中，从而创建另一组数字。（当然，这些数字也会通过数模转换器进行监听，因此您可以听到正在混缩的内容。）因此，最终的立体声混音将代表您混缩歌曲时所听到的内容。接下来，您可以将通过数字化混合的数字串传到网上（希望是无损的），或将其复制到智能手机的内存中，或者将这些数字信号压入光盘，等等。

您可以在信号链的最初想象模数转化器把声音“风干”了起来，声音直到回到播放系统的数模转化器时才会被重构。这也是数字音频听起来如此纯净的原因：它没有遭受模拟信号所遭受的那些修整。

转化器采样率和分辨率

是时候喝杯咖啡休息一下了，因为我们即将要说到的会涉及到更为晦涩的专业技术。但是大家一定要坚持看下去，因为接下来的内容非常重要。

转换器的采样率是由高精度、稳定的系统时钟所控制的，是数字音频系统最重要的特性之一。如果转换器的采样率比较高的话，那么您也可以向下使用较低的采样率，但如果转换器的采样率比较低的话，您却不能使用较高的采样率了。大多数低成本的转换器的采样率都是96kHz，不过随着技术的发展，192kHz的采样率在现代已经越来越普遍了。

转换过程的另一个方面是位分辨率（通常称为字长），它表示的是模数转化器测量输入信号的准确程度。由于每个样本在那个时刻都会测量信号的电压，因此测量越精确，从模拟音频到数字数据的转换就越准确。就如同尺子的刻度一样，以英寸为刻度的尺子只能只能确切地用英寸测量长度，但是，用十六分之一英寸刻度的尺子来测量长度的话，那么分辨率就可以提高16倍。位数越高，分辨率也就越高。

不同的音频系统分辨率也不尽相同。更高的分辨率需要更多的存储空间来存储大量的数字信号，以及更高的模数转化器精确度来实现这些更高的分辨率。随着内存和转换器变得越来越便宜，设备们的位分辨率也越来越高了。例如，音频贺卡的音频可能只有4位分辨率。早期的数字音频系统使用8位，后来发展到12位。 CD使用16位分辨率，“高分辨率”音频使用24位分辨率。虽然24位音频文件在相同采样率下比16位音频文件多占50％的存储空间，但大多数录音工程师都认为24位的音频文件要比16位音频文件的音质要好很多。（一个有趣的事实：也许人们最初认为CD听起来比比黑胶唱片差的一个原因是，尽管CD具有16位分辨率，但早期的播放器通常使用12位转换器。）

位分辨率越低，失真越大 - 如果你不能准确地测量一个信号，那么你就不能准确地再现它。然而，与物理世界(失真往往随着信号电平的升高而增加)中的失真不同，数字失真会随着信号电平的降低而增加，因为可用于表示音频波形的比特非常少（如图3所示）。

图3:高振幅分辨率与低振幅分辨率——对于固定分辨率，如图以24位为例，相比较低振幅信号（右），您可以设定一个更高精度(位数更高)的高振幅信号(左)。

幸运的是，不管怎样，失真在回放时的电平是非常低的，并且抖动也能进一步降低我们对低失真的感知。此外，录音/混音程序中的音频引擎也不受转换器硬件规则的约束，并且一旦信号进入计算机内，就可以提供本质上无限的分辨率。

为什么数字转换器的动态余量很重要？

虽然您的软件的音频引擎具有几乎无限的动态范围，但处理进出您计算机的音频的转换器却没有。因此，我们要留出些动态余量 - 信号峰值与模数转化器或数模转化器可以处理的最大电平之间的电平差。例如，如果在您录音时信号的峰值在软件的虚拟电平表上达到0，那么说明音频接口的转换器中没有更多的可用动态余量。调高音频接口的电平将产生失真。但如果信号的峰值在软件的虚拟电平表上显示为-6dB，那么就表示在失真前我们有6dB的动态余量。在录音时，许多工程师都会将数字音频电平设置为低于0dBFS的6dB(或更低的峰值电平- 12db或- 15db也非常常见)。这可以适应意料之外的峰值，但是有些人也觉得这些电平达到了模数转化器或数模转化器的“最佳点”，在最高和最低电平时表现可能都不那么好。

在混音时，主输出要留有几dB余量的一个原因是，大多数数字测量仪测量的是数字音频样本的电平。但是，将数字音频转换回模拟可能会产生比样本本身更高的电平值，这会造成样本间失真（如图4所示）。

图4A：正在被采样的原始音频

图4B：提高到0db后的最高采样电平

图4C：经过平滑滤波器后，信号超过0db

图4：（A）中采样的模拟音频波形用红点表示被测样本电平。当通过平滑滤波器(C)重构模拟波形时，将数字音频样本的电平提高到最大可用动态余量(B)可以超过数模转换器的最大动态余量(C)。因此，（C）中曲线的红色部分将被剪裁掉。

除非您通道的电平表具有能够提醒您采样间失真的功能，否则请留出几dB的余量来避免这种情况。此外，您也不需要将电平调到最高，因为在现今的流媒体世界中，诸如YouTube和Spotify等都会调整音频，使其达到一致的感知电平。

数字音频的限制和解决方案

当CD第一次出现的时候，它的宣传口号是“永远完美的声音”—一个谁都会喜欢的营销口号。然而，虽然数字音频总体上要比模拟音频好，但它仍不是完美的。

采样率问题。如果系统不能以足够高的采样频率对信号电平进行采样的话，就很难准确地再现信号。采样率必须至少是进入系统的最高音频频率的两倍，因此44.1kHz是录音的最低的采样率。

输出滤波器音染。如上所述，post-DAC低通滤波器会将阶梯采样转换为平滑连续的信号。但是，滤波器可能会添加自己的音染。

分辨率（量化）错误。 如果数字音频系统能够以1毫伏（mV或1/1000伏特）的精度测量电平，则1mV的电平将被指定为一个数字，2mV的电平将被指定为一个数字，3mV的电平将指定为一个数字，以此类推。现在假设计算机试图测量1.5mV信号 - 计算机无法解析该值，因此它必须指定一个1mV或2mV的值。在这两种情况下，样本与原始输入电平都不能完全对应，这就会产生错误。虽然实际的精确度要比这个例子好得多，但是仍然有可能出错。

非线性。非线性是用来描述如果不同的量化级别之间的间隔不是均等的，那么就会出现误差的情况。让我们回顾下前面的例子，我们假设能够测量到1毫伏的精度。回到前面的例子，我们假设能够测量到1毫伏的精度。但如果存在非线性，转换器可能会将1毫伏信号转换为1.001毫伏，2毫伏信号转换为1.978毫伏，等等。这些误差会改变波形形状，从而导致失真。

动态范围限制。从理论上讲，24位分辨率具有大约144dB的动态范围（每位大约6dB）。但在现实世界中，由于噪声，电路板布局问题，电源限制和制造公差等因素的影响，24位的转换超出了转换器解决高动态范围的能力，所以实际分辨率更可能是20到22位。

抖动。如果提供采样率的系统时钟不稳定，则不会以相同的时间间隔捕获或回放表示数字音频的样本。您可以将其视为“时间失真”，因为您没有在正确的时间听到正确的样本。这会导致细微的失真，这也是在两个不同的数模转换器上回放相同的数字音频可能听起来不同的原因之一 -- 一个可能具有更高的抖动，而另一个具有更低的抖动。

偏移和增益误差。即使没有输入电平，偏移也会产生输出电压。高端的转换器在加工完成后，通常还会对转换器的内部电路进行修整以消除偏移。当输出电压高于或低于理论上的值时，转换器也可能存在增益误差。对于这些问题，目前并没有什么好的解决方法，但是人们在设计高端的转换器时，通常会在最小化电压偏移和增益误差上下很大功夫。

虽然数字音频可能并不完美，但它确是最接近完美的 - 并且还在不断改进。然而，仅仅因为某些东西是“数字的”并不意味着您能享受到数字音频所有的优势。智能手机或其他消费类设备中的转换器与专用音频转换器是不在一个级别上的。

例如，Dangerous Music的Convert-8是一款高端的8通道数模转换器，具有良好的规格参数：114dB动态范围（信噪比），总谐波失真+噪声（unweighted） 0.00188％at + 4dBu，低于0.0004％at + 22dBu，串扰抑制（从一个通道泄漏到另一个通道）在1kHz时超过114dBu，时钟抖动低于16微微秒（从100Hz到40kHz）。如果您不知道这些规格的真正含义的话，只需说它们非常棒就足够了。但请注意，虽然这些参数都是非常明确的，但并非所有公司都会如此严格的规范。例如，它们可能会产生串扰，但哪个频率产生串扰的可能性最低就没有在参数表里提及，所以最重要的是要用耳朵去听，而不是用眼睛去看。

好在现代的转换器芯片的质量要远远优于80年代和90年代。即使是低成本的音频接口也会有可观的规格参数，所以我们在现在很难能找到“糟糕”的专业音频接口，但如果您有足够的预算来购置高端的转换器的话，那么您就能得到开放度更高、声音更通透、更具空气感的声音。虽然数字音频优势多多，但它还是要在模拟世界来回转换 - 而这也是用来区分高端转换器与“所谓好的”转换器的关键。