各种音视频编解码学习详解 h264
- 格式:doc
- 大小:665.00 KB
- 文档页数:59
H264编解码协议详解H.264编解码协议,也被称为AVC(Advanced Video Coding),是一种广泛应用于视频压缩的标准。
它是一种基于帧的压缩算法,可以将高质量的视频数据以较低的比特率传输和存储。
以下是H.264编解码协议的详细解释:1.压缩结构H.264使用了多种技术来实现高效率的视频压缩。
它使用了预测编码、变换编码和熵编码等多种技术。
预测编码通过利用帧间和帧内的冗余性,对视频进行空间和时间上的预测。
变换编码则通过对预测误差进行离散余弦变换(DCT),在频域上进行编码。
最后,熵编码使用了熵编码表将变换后的数据进行进一步的压缩。
2.帧结构H264将视频数据划分为一系列的帧,每个帧包含了许多宏块(macroblock)。
其中,关键帧(I帧)是完全独立的帧,它包含了视频的全局信息。
预测帧(P帧)和双向预测帧(B帧)则通过对前一帧和前后一帧进行预测来进行编码。
P帧只依赖前一帧,而B帧则依赖前后两帧。
这种结构可以进一步提高视频压缩的效率。
3.量化参数H.264使用量化参数对预测误差进行编码。
量化参数决定了每个预测误差值的精度,较大的量化参数会导致更高的压缩率,但也会导致较大的失真。
编码器和解码器可以通过动态调整量化参数来平衡压缩率和失真。
4.帧间预测帧间预测是H.264压缩的核心技术之一、它通过对前后帧的像素进行比较,预测当前帧的像素值。
如果在帧间没有大的运动,那么预测误差就会较小,从而达到更好的压缩效果。
帧间预测有多种模式,包括帧间直接模式(inter-direct mode)、帧间双向模式(inter-bidirect mode)和帧间skip模式(inter-skip mode)等。
5.熵编码H.264使用了基于上下文的自适应变长编码(CAVLC)和基于上下文的自适应二进制算术编码(CABAC)两种熵编码技术。
CAVLC主要用于编码量化系数和运动矢量等数据,而CABAC主要用于编码预测模式和其他语法元素。
H264编码原理详解前言•在日常生活中我们知道,电脑中的视频文件先要通过视频采集设备对物体进行采集,然后通过编码核心部件得到mp4,rmvb等格式进行保存。
有没有可能不经过上述核心编码部件采集之后直接进行显示呢?答案是可以的。
那为什么还要进行编码呢?答案是原始采集到的视频数据为YUV格式,这种格式不经过处理的话特别大,对于网络传输和永久保存非常不利,为了解决这个问题,就需要对原原始的视频数据进行压缩处理。
而H264则是目前一种流传广泛,成熟的视频压缩算法。
•先来看一个例子在学习H.264编码之前,我们先了解一下在手机相机拍摄视频的过程,如果Camera采集的YUV图像不做任何处理进行传输,那么每秒钟需要传输的数据量是多少?Camera采集的YUV图像通常为YUV420,根据YUV420的采样结构,YUV图像中的一个像素中Y、U、V分量所占比例为1:1/4:1/4,而一个Y分量占1个字节,也就是说对于YUV图像,它的一个像素的大小为(1+1/4+1/4)Y=3/2个字节。
如果直播时的帧率设置为30fps,当分辨率为1280x720,那么每秒需要传输的数据量为1280720(像素)30(帧)3/2(字节)=39.5MB;当分辨率为1920x720,那么每秒需要传输的数据量接近60MB,这对于手机的存储空间有很大考验,因此,我们就必须在拍摄形成视频文件保存在本地之前对采集的视频数据进行压缩编码。
H26X简介H261•目前国际上制定视频编解码技术的组织有两个,一个是“国际电联(ITU-T)”,它制定的标准有H.261、H.263、H.263+等,另一个是“国际标准化组织(ISO)”它制定的标准有MPEG-1、MPEG-2、MPEG-4等。
•H.261是1990年ITU-T制定的一个视频编码标准,属于视频编解码器。
设计的目的是能够在带宽为64kbps的倍数的综合业务数字网(ISDN forIntegrated Services Digital Network)上质量可接受的视频信号。
【知识点】H264,H265硬件编解码基础及码流分析前⾔⾳视频开发需要你懂得⾳视频中⼀些基本概念,针对编解码⽽⾔,我们必须提前懂得编解码器的⼀些特性,码流的结构,码流中⼀些重要信息如sps,pps,vps,start code以及基本的⼯作原理,⽽⼤多同学都只是⼀知半解,所以导致代码中的部分内容虽可以简单理解却不知其意,所以,在这⾥总结出了当前主流的H.264,H.265编码相关的原理,以供学习.1. 概览1.1. 为什么要编码众所周知,视频数据原始体积是巨⼤的,以720P 30fps的视频为例,⼀个像素⼤约3个字节,如下所得,每秒钟产⽣87MB,这样计算可得⼀分钟就将产⽣5.22GB。
数据量/每秒=1280*720*33*3/1024/1024=87MB因此,像这样体积重⼤的视频是⽆法在⽹络中直接传输的.⽽视频编码技术也就因运⽽⽣.关于视频编码原理的技术可以参考本⼈其他⽂章,这⾥不做过多描述.1.2. 编码技术经过很多年的开发迭代,已经有很多⼤⽜实现了视频编码技术,其中最主流的有H.264编码,以及新⼀代的H.265编码,⾕歌也开发了VP8,VP9编码技术.对移动端⽽⾔,苹果内部已经实现了如H.264,H.265编码,我们需要使⽤苹果提供的VideoToolbox框架来实现它.1.3. 编码分类软件编码(简称软编):使⽤CPU进⾏编码。
硬件编码(简称硬编):不使⽤CPU进⾏编码,使⽤显卡GPU,专⽤的DSP、FPGA、ASIC芯⽚等硬件进⾏编码。
优缺点软编:实现直接、简单,参数调整⽅便,升级易,但CPU负载重,性能较硬编码低,低码率下质量通常⽐硬编码要好⼀点。
硬编:性能⾼,低码率下通常质量低于硬编码器,但部分产品在GPU硬件平台移植了优秀的软编码算法(如X264)的,质量基本等同于软编码。
iOS系统中的硬编码苹果在iOS 8.0系统之前,没有开放系统的硬件编码解码功能,不过Mac OS系统⼀直有,被称为Video ToolBox的框架来处理硬件的编码和解码,终于在iOS 8.0后,苹果将该框架引⼊iOS系统。
视频编解码中的H.264压缩技术视频编解码技术是修炼黑科技不可以绕过的坎,而H.264压缩技术则是其中最为重要的一环。
本文将从什么是H.264开始,逐步深入地介绍它的原理、优点、应用以及未来发展趋势。
一、H.264是什么H.264是一种视频编解码标准,也被称为AVC (Advanced Video Coding)。
由国际电信联盟-电信标准部门(ITUT)和国际标准组织(ISO)联合制定,被广泛应用于数字电视、蓝光光盘、网络视频传输以及移动设备等领域。
二、H.264的原理视频编解码器将原始视频数据编码成文件以便传输或存储,然后解码器将文件还原成原始视频数据。
H.264压缩技术的原理即是在传输或存储视频数据前通过对视频数据进行压缩,以减少传输或存储的带宽和容量,节省空间和成本。
H.264压缩技术的原理在于,利用该技术对视频数据进行逐帧压缩,减少冗余信息,把每一帧视频分割成一些较小的块,并逐个压缩这些块。
在编码时,H.264使用多种技术来减少数据的冗余,例如帧内预测、帧间预测、运动估计等方法。
还可以通过多帧平均来消除噪声,使画面更加清晰,同时保留细节。
三、H.264的优点1. 较高的压缩比例H.264压缩技术相对于先前的技术,具有更高的压缩比率,相同分辨率的视频可以在更小的带宽和存储空间下传输或存储,大大降低了传输和存储成本。
2. 更高的视频品质H.264压缩技术采用多种编码技巧来减少数据冗余,同时压缩视频时也能保证相对较高的视频品质。
经过H.264编码的视频,画面更加清晰,效果更加逼真。
3. 更多的应用场景由于H.264压缩技术具有较高的压缩比、优秀的视频品质以及可广泛适用于不同领域的特点,因此H.264在数字广播、数字视频录像机、视频会议、互联网视频等多个领域广泛应用。
四、H.264的应用1. 数字电视在数字电视领域,H.264已成为主流的视频编解码标准。
采用H.264压缩技术的数字电视信号,可以在有限的带宽下传输。
1Base1.1 声音频率1.2 Frequency1.2.1人耳能听到的声音频率到底是多少振动的物体能使邻近的空气分子振动,这些分子又引起它们邻近的空气分子振动,从而产生声音(Sound),声音以声波的形式传递,这种传递过程叫声辐射(Sound Radiation)。
由于分子振动产生的声波的方向与波传递的方向相同,所以是一种纵波(Iongitudinal wave)。
声波仅存在于声源周围的媒质中,没有空气的空间里不可能有声波。
声音不仅可在空气内传递,也可在水、土、金属等物体内传递。
声音在空气中的传播速度为340m/s(15℃时)。
声波在单位时间内的振动次数称为频率(frequency),单位赫(Hz)。
人耳能够听到的声音的整个范围是20~20000Hz,一般把声音频率分为高频、中频和低频三个频带。
听觉好的成年人能听到的声音频率常在30~16000Hz之间,老年人则常在50~10000Hz之间。
声波在传播过程中,空气层的密部和疏部向前移动,如图1–1。
由于空气的固有弹性,上述那种疏密的压力变化将依次向四外传播,辐射出一系列有规则的波。
声波的波长(wave length)就是这一段路程的长,恰好排列波的一个密部和一个疏部。
波长与声源的振动频率和声音传播的速度有关。
知道了声波的传播速度和频率,就可以算出波长:C=l·f(式中,C为声波的传播速度m/s;l为声波的波长m;f为声波的频率Hz,)振动物体产生的声波,也就是空气里的压缩波,传到我们耳朵里就变成各种乐音、谐音或噪声。
在声音世界里除基音外,大量存在的是复合音,而频率与基音频率成整数倍的所有分音称为谐音(harmonic tone),频率比基音高的所有分音统称泛音(over tone),泛音的频率不必与基音成整数倍关系。
乐音内的各个音在频率上都有一定比例,例如,高8度的音的振动频率是基音的频率的2倍。
如果同时发出两个或两个以上的音,人耳可以听到悦耳的谐音(和声),也可能听到刺耳的噪声。
H.264详解为什么叫H.264H.264是一种视频高压缩技术,全称是MPEG-4 A VC,用中文说是“活动图像专家组-4的高等视频编码”,或称为MPEG-4 Part10。
它是由国际电信标准化部门ITU-T和规定MPEG的国际标准化组织ISO/国际电工协会IEC共同制订的一种活动图像编码方式的国际标准格式,这是我们叫惯了的MPEG中的一种,那为什么叫H.264呢?原来国际电信标准化部门从1998年就H.26L的H.26S两个分组,前者研制节目时间较长的高压缩编码技术,后者则指短节目标准制订部门。
H.26S 的标准化技术的名称为H.263,听起来很耳生,但实质上却早在用了,还被骂得很激烈。
因为,H.263先入为大,一直以MPEG-4大内涵的名字在用。
H.263的全称为MPEG-4 Visual或MPEG-4 Pall Ⅱ,即MPEG-4视频简单层面的基础编码方式。
2001年后,国际电信标准化部门ITU-T和MPEG的上级组织国际标准化组织ISO/国际电气标准会议IEC成立了联合视频组JVT,在H.26L基础进行H.264的标准化。
2002年12月9日~13日,在日本香川县淡路岛举行的MPEG聚会上确定了相关技术的规格。
规格书定稿后,2003年3月17日,H.364的技术格式最终稿国际标准规格(FDIS)被确立。
目前软件和LSI芯片,服务及设备也都进入了使用阶段。
格式书中,列出了比特流规定,解码必要格式,和可供参考的编码记载。
为了不引起误解,ITU-T推荐使用H.264作为这一标准的正式名称。
实际上,MPEG-4里还有MPEG-4 Audio和MPEG-4 System的不同规格。
MPEG-4挨骂是因为MPEG-4 Visual许可收费离谱引起的。
别以为有了专利就可以随意向人要钱了,专利的最终目的的是使全社会的智力资料更合理地使用,防止重复劳动,并不是犒赏最先发明者。
按唯美史观,当社会技术发展到某一阶段时,新技术必然会出现。
音视频编解码技术详解随着网络和移动设备技术的发展,我们使用音视频信息的场景变得越来越多。
例如,在线教育、远程会议、游戏、短视频、直播等等。
但是,音视频数据往往很大,需要对其进行压缩,这就需要用到编解码技术。
本文将介绍音视频编解码的基本概念以及主要技术。
一、音频编解码1. 基本概念音频编解码(Audio Coding)即将音频信号进行压缩和解压缩的过程。
在这个过程中,我们需要一个编码器将原始的音频信号转换为一种压缩格式以减少数据量,然后通过网络或存储介质传输或存储。
接收端或播放端需要一个解码器将压缩的数据恢复为原始音频信号。
2. 编码方式目前,音频编码的主要方式有两种:有损压缩和无损压缩。
有损压缩即是一种把一些无关数据进行抽取,或者把一些本来就与音质有关的数据,运用一些相关算法进行压缩,出现一些数据的丢失和一些畸变,但因为自适应算法的不断优化,以及要求,有损压缩音质已经越来越接近无损压缩。
常见的有损压缩有MP3、AAC、WMA等。
无损压缩即只压缩原始数据的冗余信息,其长度只有原始数据的60%~80%。
常见的无损压缩有FLAC、APE等。
3. 常用编码格式MP3(MPEG-1/2/2.5 Layer III)、AAC、WMA、FLAC、APE、OGG等。
二、视频编解码1. 基本概念视频编解码(Video Coding)即将视频信号进行压缩和解压缩的过程。
在这个过程中,我们需要一个编码器将原始的视频信号转换为一种压缩格式以减少数据量,然后通过网络或存储介质传输或存储。
接收端或播放端需要一个解码器将压缩的数据恢复为原始视频信号。
2. 编码方式目前,视频编码的主要方式有两种:有损压缩和无损压缩。
有损压缩即是一种把一些无关数据进行抽取,或者把一些本来就与视频质量有关的数据,运用一些相关算法进行压缩,出现一些数据的丢失和一些畸变,但因为自适应算法的不断优化,以及要求,有损压缩视频质量已经越来越接近无损压缩。
常见的有损压缩有H.264、AV1、VP9等。
直播⼀:H.264编码基础知识详解⼀、编码基础概念1、为什么要进⾏视频编码?视频是由⼀帧帧图像组成,就如常见的gif图⽚,如果打开⼀张gif图⽚,可以发现⾥⾯是由很多张图⽚组成。
⼀般视频为了不让观众感觉到卡顿,⼀秒钟⾄少需要16帧画⾯(⼀般是30帧),假如该视频是⼀个1280x720分辨率的视频,那么不经过编码⼀秒钟的⼤⼩:结果:1280x720x60≈843.75M所以不经过编码的视频根本没法保存,更不⽤说传输了。
2、视频压缩编码标准视频中存在很多冗余信息,⽐如图像相邻像素之间有较强的相关性,视频序列的相邻图像之间内容相似,⼈的视觉系统对某些细节不敏感等,对这部分冗余信息进⾏处理的过程就是视频编码。
H.26X系列(由ITU[国际电传视讯联盟]主导)H.261:主要在⽼的视频会议和视频电话产品中使⽤H.263:主要⽤在视频会议、视频电话和⽹络视频上H.264:H.264/MPEG-4第⼗部分,或称AVC(Advanced Video Coding,⾼级视频编码),是⼀种视频压缩标准,⼀种被⼴泛使⽤的⾼精度视频的录制、压缩和发布格式。
H.265:⾼效率视频编码(High Efficiency Video Coding,简称HEVC)是⼀种视频压缩标准,H.264/MPEG-4 AVC的继任者。
可⽀持4K分辨率甚⾄到超⾼画质电视,最⾼分辨率可达到8192×4320(8K分辨率),这是⽬前发展的趋势,尚未有⼤众化MPEG系列(由ISO[国际标准组织机构]下属的MPEG[运动图象专家组]开发)MPEG-1第⼆部分:MPEG-1第⼆部分主要使⽤在VCD上,有些在线视频也使⽤这种格式MPEG-2第⼆部分(MPEG-2第⼆部分等同于H.262,使⽤在DVD、SVCD和⼤多数数字视频⼴播系统中MPEG-4第⼆部分(MPEG-4第⼆部分标准可以使⽤在⽹络传输、⼴播和媒体存储上3、编码流程在进⾏当前信号编码时,编码器⾸先会产⽣对当前信号做预测的信号,称作预测信号(predicted signal)预测的⽅式:时间上的预测(interprediction),亦即使⽤先前帧的信号做预测空间上的预测(intra prediction),亦即使⽤同⼀张帧之中相邻像素的信号做预测得到预测信号后,编码器会将当前信号与预测信号相减得到残余信号(residual signal),并只对残余信号进⾏编码,如此⼀来,可以去除⼀部份时间上或是空间上的冗余信息。
H.264 标准详解JVT(Joint Video Team,视频联合工作组)于2001 年12 月在泰国Pattaya 成立。
它由ITU-T和ISO 两个国际标准化组织的有关视频编码的专家联合组成。
JVT 的工作目标是制定一个新的视频编码标准,以实现视频的高压缩比、高图像质量、良好的网络适应性等目标。
目前JVT 的工作已被ITU-T 接纳,新的视频压缩编码标准称为H.264 标准,该标准也被ISO 接纳,称为A VC(Advanced Video Coding)标准,是MPEG-4 的第10 部分。
H.264 标准可分为三档:基本档次(其简单版本,应用面广);主要档次(采用了多项提高图像质量和增加压缩比的技术措施,可用于SDTV、HDTV 和DVD 等);扩展档次(可用于各种网络的视频流传输)。
H.264 不仅比H.263 和MPEG-4 节约了50%的码率,而且对网络传输具有更好的支持功能。
它引入了面向IP 包的编码机制,有利于网络中的分组传输,支持网络中视频的流媒体传输。
H.264 具有较强的抗误码特性,可适应丢包率高、干扰严重的无线信道中的视频传输。
H.264 支持不同网络资源下的分级编码传输,从而获得平稳的图像质量。
H.264 能适应于不同网络中的视频传输,网络亲和性好。
一、H.264 视频压缩系统H.264 标准压缩系统由视频编码层(VCL)和网络提取层(Network Abstraction Layer,NAL)两部分组成。
VCL 中包括VCL 编码器与VCL 解码器,主要功能是视频数据压缩编码和解码,它包括运动补偿、变换编码、熵编码等压缩单元。
NAL 则用于为VCL 提供一个与网络无关的统一接口,它负责对视频数据进行封装打包后使其在网络中传送,它采用统一的数据格式,包括单个字节的包头信息、多个字节的视频数据与组帧、逻辑信道信令、定时信息、序列结束信号等。
包头中包含存储标志和类型标志。
音视频编解码文件格式协议内容详解一、音视频编解码音视频编解码是指将音频或视频信号转换成数字信号,以便能够在计算机或其他数字设备上进行处理、存储和传输。
编码是将原始音视频信号转换成数字信号的过程,而解码则是将数字信号转换回原始音视频信号的过程。
1. 音频编解码音频编解码是将音频信号进行数字化处理的过程。
常见的音频编解码格式有MP3、AAC、WAV等。
其中,MP3是一种有损压缩格式,可以将音频数据压缩至原始数据的10%左右,以减小文件大小和传输带宽。
AAC则是一种更高效的音频编解码格式,被广泛应用于音乐、电影等领域。
2. 视频编解码视频编解码是将视频信号进行数字化处理的过程。
常见的视频编解码格式有MPEG-2、H.264、H.265等。
MPEG-2是一种广泛应用于DVD、数字电视等领域的视频编解码格式。
H.264是一种高效的视频编解码格式,被广泛应用于互联网视频、高清电视等领域。
H.265是H.264的升级版,具有更高的压缩比和更好的视频质量。
二、文件格式文件格式是指音视频数据在存储设备上的组织方式和结构。
不同的文件格式采用不同的存储方式和数据结构,以适应不同的应用场景和需求。
1. 音频文件格式常见的音频文件格式有WAV、MP3、FLAC等。
WAV是一种无损音频文件格式,可以存储原始音频数据,保持音质的完整性。
MP3是一种有损音频文件格式,通过压缩音频数据来减小文件大小。
FLAC是一种无损音频文件格式,可以实现较高的压缩比,同时保持音质的完整性。
2. 视频文件格式常见的视频文件格式有AVI、MP4、MKV等。
AVI是一种常用的视频文件格式,可以存储多种编解码格式的视频数据。
MP4是一种广泛应用于互联网视频的视频文件格式,支持多种编解码格式和多种音频轨道。
MKV是一种开放的视频文件格式,支持多种编解码格式、多种音频轨道和多种字幕轨道。
三、协议内容协议内容是指音视频数据在传输过程中的规范和约定。
不同的协议定义了音视频数据的传输方式、数据格式、错误处理等细节,以确保音视频数据能够在网络中稳定、高效地传输。
音视频编解码文件格式协议内容详解1. 引言在现代多媒体技术中,音视频编解码是一种重要的处理方式。
它将音频和视频信号转换为数字信息,以便在不同设备之间传输和存储。
而音视频文件格式则是用来存储这些数字信息的一种特殊格式。
在音视频传输和存储中,同时使用音频编解码器和视频编解码器来处理音视频数据,以实现高质量的音视频播放和传输。
2. 音频编解码音频编解码是将音频信号转换为数字数据的过程。
音频编码器将音频信号经过一系列算法处理,压缩成较小的数据包,再通过音频解码器进行解码。
常见的音频编解码算法有PCM、MP3、AAC等。
2.1 PCM(脉冲编码调制)PCM是一种广泛应用的音频编码算法,它将模拟音频信号转换为数字数据。
PCM采样音频信号,将其离散化,并进行量化处理,最后将结果存储为数字数据。
MP3是一种常用的有损音频编码算法,通过去除人耳无法察觉的音频信号细节,实现音频数据的压缩。
MP3编码算法在音频质量和存储空间之间进行权衡,适合在互联网输和存储音频文件。
2.3 AACAAC是一种高级音频编码算法,其压缩效率更高,并且质量更好。
AAC编码器能减小音频文件的大小,同时保持音频质量。
由于其高效性和广泛应用性,AAC成为音频文件的主流格式之一。
3. 视频编解码视频编解码是将视频信号转换为数字数据的过程。
视频编码器通过对视频信号进行采样、压缩和量化处理,将视频信号转换为数字数据。
在接收端,视频解码器将数字数据解码,并还原成视频信号进行播放。
3.1 H.264H.264是一种常用的视频编码标准,具有高压缩比和高质量的特点。
它能够提供更好的视频质量,同时减小视频文件的大小。
H.264广泛应用于视频通信、视频会议、流媒体等领域。
H.265是H.264的升级版视频编码标准,也被称为HEVC(High Efficiency VideoCoding)。
H.265相对于H.264可以提供更好的压缩效率,进一步减小视频文件的大小,同时保持高质量的视频播放。
各种音视频编解码学习详解h264 ,mpeg4 ,aac 等所有音视频格式编解码学习笔记(一):基本概念媒体业务是网络的主要业务之间。
尤其移动互联网业务的兴起,在运营商和应用开发商中,媒体业务份量极重,其中媒体的编解码服务涉及需求分析、应用开发、释放license收费等等。
最近因为项目的关系,需要理清媒体的codec,比较搞的是,在豆丁网上看运营商的规范标准,同一运营商同样的业务在不同文档中不同的要求,而且有些要求就我看来应当是历史的延续,也就是现在已经很少采用了。
所以豆丁上看不出所以然,从wiki上查。
中文的wiki信息量有限,很短,而wiki的英文内容内多,删减版也减肥得太过。
我在网上还看到一个山寨的中文wiki,长得很像,红色的,叫―天下维客‖。
wiki的中文还是很不错的,但是阅读后建议再阅读英文。
我对媒体codec做了一些整理和总结,资料来源于wiki,小部分来源于网络博客的收集。
网友资料我们将给出来源。
如果资料已经转手几趟就没办法,雁过留声,我们只能给出某个轨迹。
基本概念编解码编解码器(codec)指的是一个能够对一个信号或者一个数据流进行变换的设备或者程序。
这里指的变换既包括将信号或者数据流进行编码(通常是为了传输、存储或者加密)或者提取得到一个编码流的操作,也包括为了观察或者处理从这个编码流中恢复适合观察或操作的形式的操作。
编解码器经常用在视频会议和流媒体等应用中。
容器很多多媒体数据流需要同时包含音频数据和视频数据,这时通常会加入一些用于音频和视频数据同步的元数据,例如字幕。
这三种数据流可能会被不同的程序,进程或者硬件处理,但是当它们传输或者存储的时候,这三种数据通常是被封装在一起的。
通常这种封装是通过视频文件格式来实现的,例如常见的*.mpg, *.avi, *.mov, *.mp4, *.rm, *.ogg or *.tta. 这些格式中有些只能使用某些编解码器,而更多可以以容器的方式使用各种编解码器。
FourCC全称Four-Character Codes,是由4个字符(4 bytes)组成,是一种独立标示视频数据流格式的四字节,在wav、a vi档案之中会有一段FourCC来描述这个AVI档案,是利用何种codec来编码的。
因此wav、avi大量存在等于―IDP3‖的FourCC。
视频是现在电脑中多媒体系统中的重要一环。
为了适应储存视频的需要,人们设定了不同的视频文件格式来把视频和音频放在一个文件中,以方便同时回放。
视频档实际上都是一个容器里面包裹着不同的轨道,使用的容器的格式关系到视频档的可扩展性。
参数介绍采样率采样率(也称为采样速度或者采样频率)定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。
采样频率的倒数叫作采样周期或采样时间,它是采样之间的时间间隔。
注意不要将采样率与比特率(bit rate,亦称―位速率‖)相混淆。
采样定理表明采样频率必须大于被采样信号带宽的两倍,另外一种等同的说法是奈奎斯特频率必须大于被采样信号的带宽。
如果信号的带宽是100Hz,那么为了避免混叠现象采样频率必须大于200Hz。
换句话说就是采样频率必须至少是信号中最大频率分量频率的两倍,否则就不能从信号采样中恢复原始信号。
对于语音采样:∙8,000 Hz - 电话所用采样率, 对于人的说话已经足够∙11,025 Hz∙22,050 Hz - 无线电广播所用采样率∙32,000 Hz - miniDV 数码视频camcorder、DAT (LP mode)所用采样率∙44,100 Hz - 音频CD, 也常用于MPEG-1 音频(VCD, SVCD, MP3)所用采样率∙47,250 Hz - Nippon Columbia (Denon)开发的世界上第一个商用PCM 录音机所用采样率∙48,000 Hz - miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率∙50,000 Hz - 二十世纪七十年代后期出现的3M 和Soundstream 开发的第一款商用数字录音机所用采样率∙50,400 Hz - 三菱X-80 数字录音机所用所用采样率∙96,000 或者192,000 Hz - DVD-Audio、一些LPCM DVD 音轨、Blu-ray Disc(蓝光盘)音轨、和HD-DVD (高清晰度DVD)音轨所用所用采样率∙ 2.8224 MHz - SACD、索尼和飞利浦联合开发的称为Direct Stream Digital 的1 位sigma-delta modulatio n 过程所用采样率。
在模拟视频中,采样率定义为帧频和场频,而不是概念上的像素时钟。
图像采样频率是传感器积分周期的循环速度。
由于积分周期远远小于重复所需时间,采样频率可能与采样时间的倒数不同。
∙50 Hz - PAL 视频∙60 / 1.001 Hz - NTSC 视频当模拟视频转换为数字视频的时候,出现另外一种不同的采样过程,这次是使用像素频率。
一些常见的像素采样率有:∙13.5 MHz - CCIR 601、D1 video分辨率分辨率,泛指量测或显示系统对细节的分辨能力。
此概念可以用时间、空间等领域的量测。
日常用语中之分辨率多用于图像的清晰度。
分辨率越高代表图像品质越好,越能表现出更多的细节。
但相对的,因为纪录的信息越多,文件也就会越大。
目前个人电脑里的图像,可以使用图像处理软件,调整图像的大小、编修照片等。
例如photoshop,或是photoimpact等软件。
图像分辨率:用以描述图像细节分辨能力,同样适用于数字图像、胶卷图像、及其他类型图像。
常用'线每毫米'、'线每英吋'等来衡量。
通常,―分辨率‖被表示成每一个方向上的像素数量,比如640x480等。
而在某些情况下,它也可以同时表示成―每英吋像素‖ (pixels per inch,ppi)以及图形的长度和宽度。
比如72ppi,和8x6英吋。
视频分辨率:各种电视规格分辨率比较视频的画面大小称为―分辨率‖。
数位视频以像素为度量单位,而类比视频以水平扫瞄线数量为度量单位。
标清电视频号分辨率为720/704/640x480i60(NTSC)或768/720x576i50(PAL/SECAM)。
新的高清电视(HDTV)分辨率可达1 920x1080p60,即每条水平扫瞄线有1920个像素,每个画面有1080条扫瞄线,以每秒钟60张画面的速度播放。
画面更新率fpsFrame rate中文常译为―画面更新率‖或―帧率‖,是指视频格式每秒钟播放的静态画面数量。
典型的画面更新率由早期的每秒6或8张(frame persecond,简称fps),至现今的每秒120张不等。
PAL (欧洲,亚洲,澳洲等地的电视广播格式) 与SECAM (法国,俄国,部分非洲等地的电视广播格式) 规定其更新率为25fps,而NTSC (美国,加拿大,日本等地的电视广播格式) 则规定其更新率为29.97 fps。
电影胶卷则是以稍慢的24fps在拍摄,这使得各国电视广播在播映电影时需要一些复杂的转换手续(参考Telecine转换)。
要达成最基本的视觉暂留效果大约需要10fps的速度。
压缩方法有损压缩和无损压缩在视频压缩中有损(Lossy )和无损(Lossless)的概念与静态图像中基本类似。
无损压缩也即压缩前和解压缩后的数据完全一致。
多数的无损压缩都采用RLE行程编码算法。
有损压缩意味着解压缩后的数据与压缩前的数据不一致。
在压缩的过程中要丢失一些人眼和人耳所不敏感的图像或音频信息,而且丢失的信息不可恢复。
几乎所有高压缩的算法都采用有损压缩,这样才能达到低数据率的目标。
丢失的数据率与压缩比有关,压缩比越小,丢失的数据越多,解压缩后的效果一般越差。
此外,某些有损压缩算法采用多次重复压缩的方式,这样还会引起额外的数据丢失。
∙无损格式,例如WAV,PCM,TTA,FLAC,AU,APE,TAK,WavPack(WV)∙有损格式,例如MP3,Windows Media Audio(WMA),Ogg Vorbis(OGG),AAC帧内压缩和帧间压缩帧内(Intraframe)压缩也称为空间压缩(Spatial compression)。
当压缩一帧图像时,仅考虑本帧的数据而不考虑相邻帧之间的冗余信息,这实际上与静态图像压缩类似。
帧内一般采用有损压缩算法,由于帧内压缩时各个帧之间没有相互关系,所以压缩后的视频数据仍可以以帧为单位进行编辑。
帧内压缩一般达不到很高的压缩。
采用帧间(Interframe)压缩是基于许多视频或动画的连续前后两帧具有很大的相关性,或者说前后两帧信息变化很小的特点。
也即连续的视频其相邻帧之间具有冗余信息,根据这一特性,压缩相邻帧之间的冗余量就可以进一步提高压缩量,减小压缩比。
帧间压缩也称为时间压缩(Temporalcompression),它通过比较时间轴上不同帧之间的数据进行压缩。
帧间压缩一般是无损的。
帧差值(F rame differencing)算法是一种典型的时间压缩法,它通过比较本帧与相邻帧之间的差异,仅记录本帧与其相邻帧的差值,这样可以大大减少数据量。
对称编码和不对称编码对称性(symmetric)是压缩编码的一个关键特征。
对称意味着压缩和解压缩占用相同的计算处理能力和时间,对称算法适合于实时压缩和传送视频,如视频会议应用就以采用对称的压缩编码算法为好。
而在电子出版和其它多媒体应用中,一般是把视频预先压缩处理好,尔后再播放,因此可以采用不对称(asymmetric)编码。
不对称或非对称意味着压缩时需要花费大量的处理能力和时间,而解压缩时则能较好地实时回放,也即以不同的速度进行压缩和解压缩。
一般地说,压缩一段视频的时间比回放(解压缩)该视频的时间要多得多。
例如,压缩一段三分钟的视频片断可能需要10多分钟的时间,而该片断实时回放时间只有三分钟。
除wiki外的资料来源:/csyy/Using/200411/3142.html编解码学习笔记(二):codec类型资料(港台将information翻译为资料)压缩是透过去除资料中的冗余资讯而达成。
就视讯资料而言,资料中的冗余资讯可以分成四类:时间上的冗余资讯(temporal redundancy)在视讯资料中,相邻的帧(frame)与帧之间通常有很强的关连性,这样的关连性即为时间上的冗余资讯。
这即是上一次学习中的帧间压缩。
空间上的冗余资讯(spatial redundancy)在同一张帧之中,相邻的像素之间通常有很强的关连性,这样的关连性即为空间上的冗余资讯。
这即是上一次学习中的帧内压缩。
统计上的冗余资讯(statistical redundancy)统计上的冗余资讯指的是欲编码的符号(symbol)的机率分布是不均匀(non-uniform)的。