翻译|音频数字化：它是如何工作的

文章图片

文章图片

如何将声音翻译成没有灵魂的0和1？。我们来看看熟悉的设备：计算机声音、视频、MP3、广播和流媒体、各种算法等等是如何工作的。

本文没有实用价值，纯属娱乐。
一点点物理知识声音是空气中的振动。就像水面上的波浪，在空气中。气压进入耳朵，耳朵里有敏感的部分，可以微妙地感受到空气的振动。这些振动被人们感知为声音。外太空没有声音，因为没有空气。
频率。振动越快，我们感知到的声音就越弱。一个人感知的振动从每秒 20 次到每秒大约 2 万次不等。换句话说，这被称为振荡频率：赫兹。也就是说，我们听到的范围是从 20 赫兹到 20 千赫兹。
相比之下，狗听到的频率为40 赫兹到 60 千赫兹，因此狗的哨声不会被人类感知，但狗却能听到。狗哨的声音只是在 23-54 kHz 的范围内。
振幅。振动越强，声音越大，反之亦然。你可以想象这是池塘表面波浪的高度：可能有小的涟漪（安静的声音），也可能有很大的强大波浪。

将声音分成几段
现在让我们这样做：我们将第二个部分分成 4 个部分，并为每个部分找到幅度值：

我们在一秒钟内测量了四次波的状态。这称为采样。
我们测量了四个点中每个点的幅度值，相对而言，收到了四个数字：+30、-50、-50 和 -60 。从理论上讲，如果我们通过电流并将这四个电压施加到扬声器上，我们将能够再现相同的声音。但是有几个问题：
? 由于我们只在四个地方测量，错过了整个振荡。
?我们最终会得到与原始声音相比非常失真的声音。
以 4 的速率采样，对于声音来说太少了。要获得至少可以理解的语音，需要将一秒分成 8000 段，而对于音乐，通常 41000 段就足够了。
让我们提高采样率：在同一单位时间内将声音切成更小的片段：

现在测量会更加准确，产生的声音也会更加自然。
转换为数字在我们将声音分成小段并测量每个小段的幅度值后，我们可以用表格的形式记录下来：
时间????? 振幅
0.01 秒。 ????5
0.02 秒。 ????7
0.03 秒。 ????10
如果我们把整个声音分成相等的段，那么时间就不能写了，因为我们知道它是如何变化的，在一行中写振幅值就足够了：
5 7 10 … ?21
为了让计算机理解这些数字，让我们把这些数字翻译成二进制数系统。为简单起见，我们假设一个数字恰好占用 1 个字节的内存，但实际上，分配给该数字的字节越多，测量和音质就越准确。翻译后，我们得到：
00000101
00000111
00001010
…
11101011
计算机已经可以理解并以声音的形式重现现这个序列。
现在如何播放声音? 使用扬声器或耳机——任何可以“推动空气”（即产生声波）的东西。在扬声器会产生空气振动。
? 对扬声器施加一些电流。根据电流的强度，扬声器音圈会以不同的方式移动。
? 要获得这种变化的电流，需要一个称为DAC