花火学园

 找回密码
 立即注册
查看: 230|回复: 18

【科普向】音频编码与格式的科普

[复制链接]
发表于 2020-2-29 19:17:35 | 显示全部楼层 |阅读模式
本帖最后由 紫菜奶酪喵 于 2020-2-29 19:17 编辑

在本篇科普中,只会对较为主流的编码及格式进行简要的科普,如有错误欢迎(务必)指正。
首先,我们要明白,作为一个存储声音内容的文件,一个音频文件是由声音内容、编码与封装等部分组成。
在potplayer里打开详细信息,
我们可以看到,信息由以下几个部分组成:
1.    音频编码
2.    采样率
3.    位深(位率)
4.    声道数
5.    比特率
那么下面,我们就对这五点进行详细的解释。


一.  音频编码
从信息论的观点来看,描述信源的数据是信息和数据冗余之和,即:数据=信息+数据冗余。音频信号在时域和频域上具有相关性,也即存在数据冗余。将音频作为一个信源,音频编码的实质是减少音频中的冗余。
所有的音频编码都不能做到真正的无损,这里的“无损”“有损”只是相对而言。
相对自然界的信号,音频编码最多只能做到无限接近,至少目前的技术只能这样了,相对自然界的信号,任何数字音频编码方案都是有损的,因为无法完全还原。在计算机应用中,能够达到最高保真水平的就是PCM编码,被广泛用于素材保存及音乐欣赏,CD、DVD以及我们常见的WAV文件中均有应用。因此,PCM约定俗成了无损编码,因为PCM代表了数字音频中最佳的保真水准,并不意味着PCM就能够确保信号绝对保真,PCM也只能做到最大程度的无限接近。我们而习惯性的把MP3列入有损音频编码范畴,是相对PCM编码的。强调编码的相对性的有损和无损,是为了告诉大家,要做到真正的无损是困难的,就像用数字去表达圆周率,不管精度多高,也只是无限接近,而不是真正等于圆周率的值。                                    ——摘自百度百科

1.    有损编码

(1)MP3
MP3是一种音频压缩技术,其全称是动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III),简称为MP3。它被设计用来大幅度地降低音频数据量。利用 MPEG Audio Layer 3 的技术,将音乐以1:10 甚至 1:12 的压缩率,压缩成容量较小的文件,而对于大多数用户来说重放的音质与最初的不压缩音频相比没有明显的下降。它是在1991年由位于德国埃尔朗根的研究组织Fraunhofer-Gesellschaft的一组工程师发明和标准化的。用MP3形式存储的音乐就叫作MP3音乐,能播放MP3音乐的机器就叫作MP3播放器。
MP3是利用人耳对高频声音信号不敏感的特性,将时域波形信号转换成频域信号,并划分成多个频段,对不同的频段使用不同的压缩率,对高频加大压缩比(甚至忽略信号)对低频信号使用小压缩比,保证信号不失真。这样一来就相当于抛弃人耳基本听不到的高频声音,只保留能听到的低频部分,并按照不同的位速进行压缩,提供了在数据大小和声音质量之间进行权衡的一个范围。
举个例子,拿hires的天气之子ost作为源文件:
以192Kbps的比特率和320Kbps的比特率文件大小作为对比
(左:192k 右:320k )
可以看到,比特率越大,文件的体积也越大,真实的听感也就更接近无损的编码。
再从波形图来看,还是拿天气之子的ost来做对比:
天气之子源文件
压缩后(320k)的波形图
可以明显的看到,15k以上的部分,源文件是自然地延伸上去,细节也比较丰富;但mp3这边就像是横砍了一刀,高频细节完全丢失。
换一首歌,我们可以得到相似的情况:
总结:mp3压缩率大,文件体积小,且可以根据码率需求变化文件大小,兼容性好;但是高频细节损失较多。

(2)ogg编码
ogg不算特别流行,且大体与mp3相似,在此不多赘述。

(3)AAC编码
AAC,全称Advanced Audio Coding,是一种专为声音数据设计的文件压缩格式。与MP3不同,它采用了全新的算法进行编码,更加高效,具有更高的“性价比”。利用AAC格式,可使人感觉声音质量没有明显降低的前提下,文件体积更加小巧。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

发表于 2020-3-9 18:58:37 | 显示全部楼层
本帖最后由 k627324240 于 2020-3-9 19:17 编辑
紫菜奶酪喵 发表于 2020-2-29 19:29
2.无损编码
(1)pcm编码
由这张示意图我们可以看出PCM的工作原理:在音频波形上采样并量化编码。

常见的音频无损压缩编码是有限制的,PCM支持的位深高达32bit(其实可以达到64bit,不过感觉应用上32bit算是常见的最高品质了),但不论是FLAC、APE、ALAC还是TTA、TAK等无损格式,最多支持到24bit,这个要提一下,免得有小白“无损压缩”,把32bit的音源给搞坏了。
我倒是知道WavPack编码器( .wv 格式)能做到32bit PCM的无损压缩,但是编码效率(时间和能耗比)很低,而且兼容性很差,基本没多少软件主动支持,在没安装像Foobar2000这样的音频/音乐软件,也没有安装像K-Lite这样的多功能解码包/多媒体播放器的电脑上连播放都是个难题。

关于当前常用的无损格式我个人还是倾向于选择FLAC,兼容性很高,即便你手上的只是刚百元出头只能听个响的随身MP3也能支持的无损格式,最关键的是编码比较快,解码能耗十分低(比MP3格式还低)。
相比之下,APE的兼容性就差一点了,要更贵一点的MP3才能支持,而且在编码和解码的速度、能耗上很吃亏,你可能觉得也就是,但请想象一下你的手机/MP3更快地耗完了电,这一点点的空间优势(除非你很确定你真的需要这种优势,那就用APE也无妨;如果你极端需要这种优势,我更推荐使用WavPack编码)就不值一提了。
至于ALAC,兼容性和APE比半斤八两,好不了哪去,而且压缩率比FLAC差一些,优势在于编码速度和FLAC对比,ALAC还是有可感觉的优势。而且毕竟顶着苹果的名号,相比APE,ALAC的适用面会更广一些(比如作为视频音轨)。

回复
回复

使用道具 举报

 楼主| 发表于 2020-2-29 19:29:51 | 显示全部楼层
2.无损编码
(1)pcm编码
由这张示意图我们可以看出PCM的工作原理:在音频波形上采样并量化编码。
因此,pcm编码是现在最接近无损的一种编码方式。但是PCM也有它的缺点,就是文件体积太大了。
例如这个文件,3分15秒的一首歌就要32.8M(不过比特率也提升了,就相当于用文件体积换质量)
总结:pcm是现阶段最好的编码,能最大程度的还原,但是未经压缩的文件体积很恐怖。


回复
回复

使用道具 举报

 楼主| 发表于 2020-2-29 19:31:50 | 显示全部楼层
(2)FLAC编码
FLAC与MP3不同,MP3是有损音频压缩编码,但FLAC是无损压缩,也就是说音频以FLAC编码压缩后不会丢失任何信息,将FLAC文件还原为WAV文件后,与压缩前的WAV文件内容相同。这种压缩与ZIP的方式类似,但FLAC的压缩比率大于ZIP和RAR,因为FLAC是专门针对PCM音频的特点设计的压缩方式。
这次以天气之子的ost作为对比:

这是wav
这是flac
可以看到文件的体积大幅减小,但数据却并没有损失,将其转换为wav后体积和原wav一样。
总结:flac作为现在最主流的无损编码之一,具有相比PCM更小的体积,但一旦源文件体积巨大,flac也难hold住
flac是无损编码 不是无损音乐!!!
回复
回复

使用道具 举报

 楼主| 发表于 2020-2-29 19:33:30 | 显示全部楼层
(3)ape编码
APE是流行的数字音乐无损压缩格式之一,因出现较早,在全世界特别是中国大陆有着广泛的用户群。与MP3这类有损压缩格式不可逆转地删除(人耳听力不敏感的)数据以缩减源文件体积不同,APE这类无损压缩格式,是以更精炼的记录方式来缩减体积,还原后数据与源文件一样,从而保证了文件的完整性。APE由软件Monkey‘ studio压制得到,开发者为Matthew T.Ashland,源代码开放,因其界面上有只“猴子”标志而出名。相较同类文件格式FLAC,ape有查错能力但不提供纠错功能,以保证文件的无损和纯正;其另一个特色是压缩率约为55%,比FLAC高,体积大概为原CD的一半,便于存储。
作为对比,还是用你的名字的ostflacape两种。
这是flac
这是ape

此外,还有alac这种苹果公司的编码,在这里不赘述了。
总结,无损编码里,ape体积最小,flac最主流,pcm体积最大。
回复
回复

使用道具 举报

 楼主| 发表于 2020-2-29 19:40:12 | 显示全部楼层
这个时候可能有人要问了,你这说的这些不都是格式的名字吗?有什么区别呢?我们来打个比方
格式就是一个箱子,一个容器,里面装着你所有的内容,包括音频啊歌曲信息啊乱七八糟

例如这张图,里面就有歌曲的信息
那编码呢,就是对你要放进去的东西处理一下。以面包为例子
mp3这种有损编码,就相当于把面包压扁放进箱子,的确体积小了,但是面包本身也遭到了损害,就是不好吃了
而pcm这种编码,虽然无损,但是体积太大了,就相当于同样的面包你需要更大的箱子装
flac这种无损压缩编码呢,通过规划箱子里面的空间,以最小的体积塞下了最多的面包
回复
回复

使用道具 举报

 楼主| 发表于 2020-2-29 19:50:41 | 显示全部楼层
二.采样率(三.位深)声音其实是一种能量波,因此也有频率和振幅的特征,频率对应于时间轴线,振幅对应于电平轴线。波是无限光滑的,弦线可以看成由无数点组成,由于存储空间是相对有限的,数字编码过程中,必须对弦线的点进行采样。采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富,为了复原波形,一次振动中,必须有2个点的采样,人耳能够感觉到的最高频率为20kHz,因此要满足人耳的听觉要求,则需要至少每秒进行40k次采样,用40kHz表达,这个40kHz就是采样率。我们常见的CD,采样率为44.1kHz。光有频率信息是不够的,我们还必须获得该频率的能量值并量化,用于表示信号强度。量化电平数为2的整数次幂,我们常见的CD位16bit的采样大小,即2的16次方。采样大小相对采样率更难理解,因为要显得抽象点,举个简单例子:假设对一个波进行8次采样,采样点分别对应的能量值分别为A1-A8,但我们只使用2bit的采样大小,结果我们只能保留A1-A8中4个点的值而舍弃另外4个。如果我们进行3bit的采样大小,则刚好记录下8个点的所有信息。采样率和采样大小的值越大,记录的波形更接近原始信号。
说人话:越大越好(也越占空间)


四.声道数
这。。。没啥好说的
五.比特率


要算一个PCM音频流的码率是一件很轻松的事情,采样率值×采样大小值×声道数 bps。一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的WAV文件,它的数据速率则为 44.1K×16×2 =1411.2 Kbps。我们常说128K的MP3,对应的WAV的参数,就是这个1411.2 Kbps,这个参数也被称为数据带宽,它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率,即176.4KB/s。这表示存储一秒钟采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的音频信号,需要176.4KB的空间,1分钟则约为10.34M,以此类推。
回复
回复

使用道具 举报

 楼主| 发表于 2020-2-29 20:05:56 | 显示全部楼层
无损我们说完了,那么再说说CD和Hi-res小金标。
CD数字声频信号(CDDA)是由索尼和飞利浦在1980年期间作为音乐传播的一个形式来介绍的,它的标准说白了就是44100Hz(44.1khz),16bit。当然,现在基本上大多数音乐都是这个标准。我们在音乐区看到的“自抓”或者“EAC”,就是从CD上直接抓取封装的。
Hi-Res全称为High Resolution Audio,又称为高解析音频,Hi-Res Audio是由索尼提出并定义、由JAS(日本音频协会)和CEA(消费电子协会)制定的高品质音频产品设计标准。Hi-Res音频的目的是表现音乐品质极致和原音重现,获得真实感受原唱者或演奏者在现场演出的临场氛围。高解析音乐是指声音信息量超越CD音质的音乐格式,即采样率大于44.1kHz以及比特深度大于16bit。
所以,千万别被“无损”骗了,也许无损只是指无损编码/封装呢23333333
要真的想享受高品质音乐,在看采样率、位深以及认准小金标之外,我们还可以看一个东西,叫做波形图。
回复
回复

使用道具 举报

 楼主| 发表于 2020-2-29 20:51:43 | 显示全部楼层
波形图这东西,各位在我前面的楼也看到了
怎么看呢。。。我也学的不多,但是高频是最容易看出来的。
找了半天,拿我手上的凉宫春日的忧郁ost来做对比吧
一份是我自己在animate买的中古货 然后自己抓的 cd音质(flac封装)
另一份是从网上找的96khz 24bit的flac(当然其实是32bit)

回复
回复

使用道具 举报

发表于 2020-3-2 14:19:21 | 显示全部楼层
楼主加油,这个系列很有帮助。
回复
回复

使用道具 举报

发表于 2020-3-3 09:51:39 | 显示全部楼层
看不懂。。。。
回复
回复

使用道具 举报

发表于 2020-3-7 01:35:36 | 显示全部楼层

谢谢分享
回复
回复

使用道具 举报

发表于 2020-3-7 10:30:16 | 显示全部楼层
给大佬递茶
回复
回复

使用道具 举报

发表于 2020-3-7 11:07:46 | 显示全部楼层
多谢
回复
回复

使用道具 举报

发表于 2020-3-9 18:47:02 | 显示全部楼层
本帖最后由 k627324240 于 2020-3-9 19:19 编辑
紫菜奶酪喵 发表于 2020-2-29 19:50
二.采样率(三.位深)声音其实是一种能量波,因此也有频率和振幅的特征,频率对应于时间轴线,振幅对应于电 ...

其实可以很简单地解释
PCM的采样率可以理解为细度,采样率越大越细腻,由采样点组成的波形更圆滑,越接近原声
而位深可以理解为精度,位深越大越准确,每个采样点记录的数据越精准,越接近原音
二者组合起来,就是PCM对  声音  的独特定义
回复
回复

使用道具 举报

发表于 2020-3-20 10:37:07 | 显示全部楼层
感觉好深奥啊,我看不懂但又觉得非常厉害
回复
回复

使用道具 举报

发表于 7 天前 | 显示全部楼层
谢谢分享
回复
回复

使用道具 举报

发表于 5 天前 | 显示全部楼层
有点复杂,所以无损封装只是一个面包放起来和以前一样好吃还省了空间,但不一定原本这个面包就好吃,可能只是原本就难吃的低质量面包被放的很好,难吃的部分也和以前一模一样,而无损音乐是指一个好吃的面包,而且被放的很好,这种感觉?
回复
回复

使用道具 举报

发表于 昨天 22:22 | 显示全部楼层
感谢科普,稍后再看
回复
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

简洁模式|手机版|小黑屋|Mayx's Blog|花火学园论坛

GMT+8, 2020-3-30 07:46

Powered by 花火学园

快速回复 返回顶部 返回列表