我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:双彩网 > 帧间压缩 >

有损压缩的常见格式

归档日期:07-02       文本归类:帧间压缩      文章编辑:爱尚语录

  可选中1个或多个下面的关键词,搜索相关资料。也可直接点“搜索资料”搜索整个问题。

  先来明白音频压缩的原理:利用人耳听觉的心理声学特性(频谱掩蔽特性和时间掩蔽特性等)以及人耳对信号幅度、频率、时间的有限分辨能力,编码时凡是人耳感觉不到的频率不编码、不传送,即凡是对人耳辨别声音信号的强度、声调、方位没有贡献的部分(称为不相关部分或无关部分)都不编码和传送。对感觉不到的部分进行编码时,允许有较大的量化失真、并使其处于听阈(即人耳所能听到的最低音量)以下,人耳仍然感觉不到。音频的压缩就是利用这些特点来工作的。 1、等响度曲线

  人的听觉的灵敏度随着频率而改变。即通常两个功率一样但频率不同的音调听起来并不一样响。通过等响度曲线,我们可以看出,人耳对4KHz的频率最灵敏,即在4KHz下能被察觉出来的声音压力水平(响度),在其他频率下并不能被察觉。这就给在一些不太灵敏的频率下失线、屏蔽

  我们上高中物理时学过屏蔽。就是强的声音信号把弱的声音信号覆盖,导致我们无法察觉。而且,当两个声音在时间和频率上很接近时,屏蔽效应就会很强。因此,我们可以在编码时对被屏蔽的部分不编码、不传送。这样,音质依然没有大的损失,人耳也不易察觉。

  对于人类的听觉来说,对声音的感知特性并不是以线形频率为尺度来变化的(人的听觉还没那么好),而是可以用被称为临界频带的一系列有限的频段来表达。简单的说,把整个频带划分成几段,在这每个频段里,人耳的听觉感知是相同的,即心理声学特性都是一样的。

  MP3应该算目前应用最广泛的有损压缩数字音频格式了。它的全称是MPEG(MovingPictureExpertsGroup)AudioLayer-3。1987年德国Fraunhofer研究院研制成功的一种有损压缩数字音频格式,并于1989年取得专利。起初,它并不完善,它更像一个编码标准框架,留待人们去完善。1992年,这一技术并入了MPEG规范,并有了正式名号——MP3。

  MP3文件是由帧(frame)构成的,帧是MP3文件最小的组成单位。什么是帧?还记得最初的动画是怎么做的吗?不同的连续画面切换以达到动态效果,每幅画面就是一个“帧”,不同的是MP3里面的帧记录的是音频数据而不是图形数据。MP3的帧速度大概是30帧/秒。

  每个帧又由帧头和帧数据组成,帧头记录着该帧的基本信息,包括位率索引和采样率索引(这对理解ABR和VBR编码方式很重要)。帧数据,顾名思义就是记录着主体音频数据。

  上面说的都是MP3编码的基础,但事实上,早期的编码器都非常不完善,压缩算法近于粗暴,音质很不理想。MP3的音质有两次飞跃:人体听觉心理学模型(PerceptualModel)的导入和VBR技术的应用。

  PS:VBR是variablebitrate的缩写,意思是可变比率,就是MP3文件压制的时候声音元素较多,比率较高时,将自动减低压缩比特率,在比特率需求比较低时自动升高比特率,这样做的目的是在保证音质基本不被损害的情况下增加文件在线播放时的速度,和减少在本机播放时所占的系统资源……这是Xing发展的算法,他们将一首歌的复杂部分用高Bitrate编码,简单部分用低Bitrate编码。主意虽然不错,可惜Xing编码器的VBR算法很差,音质与CBR相去甚远。幸运的是,Lame完美地优化了VBR算法,使之成为MP3的最佳编码模式。这是以质量为前提兼顾文件大小的方式,推荐编码模式。

  MP3能生存到今天,它的发展仍未止步。2001年6月14日,法国汤姆森与美国RCA两家公司联合推出了一种新的压缩格式:MP3PRO。MP3PRO是基于MP3技术改良而来,它利用了CodingTechnologies公司开发的编解码增强技术,该术称为SBR(SpectralBandReplication)。当制作MP3PRO文件时,编码器将音频分为两部分。一部分是将音频数据中的低频部分分离出来,通过传统的MP3技术编码得出正常的MP3音频流。此举使MP3编码器专注于低频段信号的压缩从而获得更好的质量,而且使原来的MP3播放器也能播放MP3PRO文件。另一部分则是将分离出来的高频信号进行编码并嵌入MP3流中。传统的MP3播放器会将其忽略掉,而新的MP3PRO播放器会将其还原出来并进行组合,得到高质量的全带宽的声音。通过这项技术,使得MP3PRO64Kbps的编码率便可提供128Kbps的MP3相同的质量,且具有相差无几的音质,而体积只有MP3的一半大小。

  PSP就支持MP3PRO,而且支持MP3PRO的格式转换软件也很多,大家可以去网上找找。有兴趣的线强啊。

  Thomson在2004年12月初正式宣布世界上最流行的音乐压缩格式MP3迈进多声道时代。MP3SURROUND是由FraunhoferIIS和Agere联合开发的,使用了binauralCueCoding(BCC)技术心理声学编码,可以在实现多声道环绕的同时保证文件的大小。同时加入的AgereSystems公司则主要负责将多声道MP3格式——MP3SURROUND进行推广。MP3SURROUND技术实现了5.1声道环绕的高品质音频,应用范围相当广泛,可以在网络音乐发布、广播系统、PC视听应用、游戏音效、消费电子产品和车载音响等方面发挥作用。尽管集成了多个声道,但是Thomson表示MP3SURROUND文件相对于普通MP3(采样率相当)并没有太大的增加,相对于其他环绕多声道音频格式就只有它们的一半了。更为重要的,MP3SURROUND提供了良好的兼容性,可以在现有的MP3软件、MP3播放器上正常使用。

  AAC是高级音频编码(AdvancedAudioCoding)的缩写,它是由Fraunhofer研究院、杜比和AT&T共同研发的。AAC是MPEG-2规范的一部分,它适用于从速率8Kbps的单声道电线Kbps多声道的超高质量音频范围内的编码。AAC与MP3相比,增加了诸如对立体声的完美再现、码流效果音扫描、多媒体控制、降噪优化等MP3音频格式所没有的特性,使得在音频压缩后仍能完美地再现CD音质。它还同时支持多达48个音轨、15个低频音轨、更多种采样率和比特率、多种语言的兼容性、更高的解码效率。总之,AAC可以在比MP3文件缩小30%的前提下提供更好的音质。

  增益控制模块用在可变采样率配置中,它由多相正交滤波器PQF(polyphasequadraturefilter)、增益检测器(gaindetector)和增益修正器(gainmodifier)组成。这个模块把输入信号分离到4个相等带宽的频带中。在解码器中也有增益控制模块,通过忽略PQF的高子带信号获得低采样率输出信号。

  滤波器组是把输入信号从时域变换到频域的转换模块,它是MPEG-2AAC系统的基本模块。这个模块采用了改进离散余弦变换MDCT,它是一种线性正交交迭变换,使用了一种称为时域混迭取消TDAC(timedomainaliasingcancellation)技术。MDCT使用KBD(Kaiser-Besselderived)窗口或者使用正弦(sine)窗口,正向MDCT变换可使用下式表示:

  以上两个离散余弦变换公式在《离散函数》和《数理方程》中有详细介绍,只为帮助有兴趣的玩家了解,不必深究。

  在感知声音编码中,TNS模块是用来控制量化噪声的瞬时形状的一种方法,解决掩蔽阈值和量化噪声的错误匹配问题。这种技术的基本想法是,在时域中的音调声信号在频域中有一个瞬时尖峰,TNS使用这种双重性来扩展已知的预测编码技术,把量化噪声置于实际的信号之下以避免错误匹配。

  这是在话音编码系统中普遍使用的一种技术,它主要用来减少平稳(stationary)信号的冗余度。

  无噪声编码实际上就是霍夫曼编码,它对被量化的谱系数、比例因子和方向信息进行编码。

  早年玩MD的朋友都知道SONY专为MD量身定做的ATRAC音频格式算法,后来又广泛应用于SONY的NetworkWalkman和其他便携音频设备。“ATRAC3plus”代表“自适应转换声音编码3+”,是一套基于心理声学原理的音频压缩技术,从ATRAC3格式发展而来,到2002年这项技术才日趋完美。这一技术是把MD随身听的体积缩小到很小的理论基础。

  要分析ATRAC3/ATRAC3+,我们先要谈谈它的大哥——ATRAC算法。当数字音频数据被压缩时,通常都会把一定数量的量化噪音带入信号。为了不让这些信号被人耳感知,通常的做法是,音频编码把信号分解为一组单元,每组单元都对应着特定的时间频率范围。编码器会依据前文提到的心理声学原理来分析,对重要的单元进行高精度编码,对不敏感的单元可以保留一些量化的噪音但不影响人耳的感知质量。解码时,量化频谱会根据比特分配重新建立,然后合成音频信号。

  ATRAC也不例外,但有一些改进。ATRAC还应用了子频带译码和转换译码技术,输入的信号被分配得到不均匀的强调重要低音区的频率分割。另外,ATRAC使用一个可变块长度改变输入的信号,这可以确保在稳定通过时高效的译码,不会在瞬间通过时影响时间的分辨率。具体说,输入的信号在5.5125KHz和11.025KHz被分为3个频带。子频带的分解使用QMF(QuadratureMirrorFilters积分映射过滤器)来完成;这3个频带被MDCT(ModifiedDiscreteCosineTransform变址离散余弦变换——类似于通常的快速傅里叶变换,《高等数学二》和《数理方程》中有相关介绍。)转换成频谱值,MDCT允许块之间有达50%的交迭,使得在维持临界采样时能提高频率解析度。块的长度可以根据信号的种类改变,这就是ATRAC的自适应部分(这一做法主要是为了利用屏蔽掩盖初始量化噪音)。

  当ATRAC算法发展了10年,已经满足不了市场的需求,SONY于2002年8月推出了新的算法——

  ATRAC3/ATRAC3+。其核心算法较ATRAC没有本质的大改变,只是采用了改进的频带分离过滤和MDCT,并使用增益调节、音调成分分离、联合立体声(Joint-Stereo)等技术,使得音频压缩数据的体积进一步缩小。

  AAL是ATRACAdvancedLossless(自适应声学转换高级无损编码)的缩写,是SONY新开发的一个音频压缩格式其特点是无损压缩,不损失一点音频信息,一张CD可以压缩到原来的30%--80%。

  Ogg全称应该是OGG Vobis(ogg Vorbis) 是一种新的音频压缩格式,类似于MP3等现有的音乐格式。但有一点不同的是,它是完全免费、开放和没有专利限制的。OGG Vobis有一个很出众的特点,就是支持多声道,随着它的流行,以后用随身听来听DTS编码的多声道作品将不会是梦想。

  Vorbis 是这种音频压缩机制的名字,而Ogg则是一个计划的名字,该计划意图设计一个完全开放性的多媒体系统。

  Ogg Vorbis文件的扩展名是.OGG。这种文件的设计格式是非常先进的。创建的OGG文件可以在任何播放器上播放,因此,这种文件格式可以不断地进行大小和音质的改良,而不影响旧有的编码器或播放器。

  最高质量,即Q10,体积比aac使用faac编码最高质量Q500体积大差不多一倍。

本文链接:http://twilightranch.com/zhengjianyasuo/198.html