MP3格式:了解数字音乐的基本知识

在当今世界，MP3这个词已经成为音乐的代名词。几乎每个人都以某种方式体验过MP3——通过你的音乐播放器或手机、互联网、播客或类似的东西听你最喜欢的歌曲。MP3本身已经彻底改变了数字音乐世界，尽管它已经存在了很长一段时间，但它仍然是全球最受欢迎的音乐形式。

现在，即使它是我们每天都在使用的东西，你有没有想过它是如何工作的？这篇文章的目的是告诉你这一点，以及这个过程中涉及的基本原则。

但首先,MP3到底是什么？MP3格式基本上是一种特定于音频的格式，它使用压缩系统来减少音乐文件的大小。MP3代表MPEG Phase 1 Layer 3，其中MPEG为电影专家小组这是一组使用有损压缩显示视频和音频的标准。“有损”压缩意味着在压缩过程中，一些音频数据丢失，导致创建的文件与原始文件不相同。有损压缩算法的简单原理图如下所示:

图1:有损压缩算法的简单原理图

Layer 3是用于压缩音频数据的三种编码方案之一。它使用感知音频编码和心理声学压缩来去除信号中所有不必要的信息。它还增加了一个MDCT(改进的离散余弦变换)，实现了一个滤波器组，使频率分辨率比第二层提高了18倍。这将导致文件的大小减小，音频退化最小。MP3现在使用ID3标签系统的音频文件的所有权，生产和内容的详细信息-一个系统，可以用来编目和管理MP3文件的集合。

现在，让我们回过头来——谁创造了MP3，它的需求是什么?MP3技术是由德国Fraunhofer Gesellschaft公司的工程师在1987年至1991年间开发的，目的是在最大限度地降低音频质量的情况下减小数字音频文件的大小MP3专利的发明者是Bernhard Grill、Karl-Heinz Brandenburg、Thomas Sporer、Bernd Kurten和Ernst Eberlein。

未压缩的音频文件相当大，因为声音非常复杂，将其转换成计算机可以理解的数字格式需要大量数据。MP3通过使用所谓的心理声学模型来缩小文件大小。在这个模型中，大多数人因为声音太低或太高而听不到的音频信号被消除了。通过这样做，可以大大减小文件大小。一个128kbit /s的MP3文件大约是1/11^th在未压缩的CD上，相应文件的大小。这种较小的尺寸可使互联网传输更快，更易于共享和携带，以及减少大容量存储的需求。

原理-压缩算法和心理声学

两种压缩方法用于压缩MP3中的音乐文件。首先，它过滤掉人耳听不到的内容(如果信号频率过高或过低)，然后通过更传统的方式(如“zip”压缩方法)对剩余数据进行编码，以进一步压缩文件。这种压缩技术会导致音频信号数据的丢失，因此被称为有损压缩。

考虑以下两种情况:你听到两个相似的音符一个接一个，时间上非常接近;结果，你的大脑可能只能感知其中的一种。2.你会听到两种不同的声音，但其中一种比另一种响亮得多;结果，你的大脑可能永远不会感知到更安静的信号。对这些听觉现象的研究被称为心理声学。MP3编码利用了这种心理声学现象来改变信号，从而减少了以数字形式表达所需的信息量，大大减小了文件大小。

MP3格式通常被称为感知编解码器，因为它在数学上描述了听觉感知的局限性。任何感知编解码器的基本原则都是，存储人类无法感知的信息几乎没有意义。MP3编码工具分析传入的源信号，将其分解成数学模式，并将这些模式与编码器中存储的心理声学模型进行比较。编码器可以丢弃与存储模型不匹配的大部分数据，而保留匹配的数据。

过程描述

MP3中音频压缩的关键在于比特率——音频文件中每秒编码的比特数。如果比特率低，编码器将丢弃更多的数据，反之亦然。MP3编码器的基本工作原理是将信号分成22个频段，然后分别处理每个频段进行存储。然后这些信号被解码并重新组合以进行回放。

图2:Mp3构建过程的图像

如上所示，如果比特率高，信号可以有效地传递，分辨率更好，但文件大小更大。在比特率较小的情况下，大小减小，但音频分辨率也相应改变。

让我们来分解MP3的构建过程:

·第一步是将源音频划分为称为“帧”的组件，每个帧包含大约一秒钟音频数据的一小部分。这种情况每26毫秒或0.026秒发生一次，即每秒大约创建38帧。

·对信号进行分析，以确定在整个频谱上音频的最佳可能的比特分布。这涉及到根据频率将信号分成不同的波段。

·然后使用心理声学模型将这些帧中的音频压缩到目标位数。比特率用于计算可以分配给每帧的比特数，因此决定了要存储的音频数据量。信号的频带频率与编码器本身的参考模型进行比较，不匹配的将被丢弃。

·剩余的数据通过传统方法和霍夫曼编码压缩冗余空间。

帧集合被组装成一个串行位流，在每个数据帧之前有报头信息。报头包含特定于该框架的指导性“元数据”。每个帧报头包含32位，由同步引用号和帧内容的各种其他标识符(比特率，采样率等)组成。紧接着是帧的音频数据。这一系列的帧构成了标准的MP3文件。
MP3报头，解码

MP3帧报头如下所示:

图3:MP3帧报头结构示意图

帧同步参考- 11位

MPEG音频版本- 2位。这指定它是用MPEG-1还是MPEG-2编码的。
MPEG层- 2位。这指定了帧的特定层。
保护开启/关闭- 1位。如果它是打开的，校验和就跟在报头后面。
比特率- 4位。这包含当前帧的比特率，从一个查找表中获得。
采样率- 2位。这包含音频频率(例如44.1 kHz)，从查找表中获得。
填充位- 1位。这是为了补偿未填充的帧。
特定于应用程序的保留(私有)位- 1位。这允许特定于应用程序的触发器。
信道模式- 2位。这指定通道，可以是单声道，双声道，分割立体声或联合立体声。
模式扩展(用于联合立体声模式)- 2位。用于连接通道数据。
版权(开/关)- 1位。这是为了防止非法复制/盗版文件。
原始(开/关)- 1位
重点- 2位。这被用作一个标志，如果在原始记录中设置，则描述强调位。
音频数据-解码器通过校验和(如果存在的话)继续移动到实际的音频数据帧。

ID3标记出现在比特流的开头，而不是在末尾。这是为了能够显示整个音轨长度的所有数据，而不仅仅是结束，当一个MP3文件正在广播或流媒体，而不是简单地下载。

下面是工作模型的简图:

图4:显示Mp3头工作的框图

解码

大多数MP3编码器软件允许您从任何类型的音频文件(包括另一个MP3)开始，指定编码或导入选项，然后播放压缩的MP3文件。与编码不同，MP3解码(播放)是一个标准化的过程，也是MP3官方定义的一部分，所以不同的播放器不应该给出明显不同的结果。它们显然是解码MP3数据，但也将数字比特流转换为模拟声音并输出到耳机或外部放大器，这样会对播放质量产生影响。

CD vs. MP3

由于压缩方案在压缩音频时是有损的，一般认为MP3的质量不如cd。cd音频格式只能以44.1 kHz采样率运行16位音频，而人们可以用128 kHz采样率的24位分辨率音频文件创建MP3。Layer 3将原始声音数据从1411.2千比特/秒的CD压缩到112-128kbps。因此，通过使用MPEG编码，您可以将CD中的原始声音数据缩小到原来的12倍，而不会牺牲音频质量。

随着互联网和数字音频的迅猛发展，MP3的发展令人印象深刻。从这个意义上说，它对商业、教育和创意音频行业产生了巨大的影响，并继续主导着数字音频的传递和共享市场。