当前位置:文档之家› 第讲多媒体数据的压缩与编码

第讲多媒体数据的压缩与编码

第讲多媒体数据的压缩与编码
第讲多媒体数据的压缩与编码

第2讲多媒体数据的压缩与编码

一级学科课程基础课

主讲:于俊清

2

内容提要

?压缩的必要性和可能性?压缩与编码的分类?PCM 与预测编码?无损压缩编码?变换编码

?JPEG ?MPEG

3§2. 1 压缩的必要性和可能性

?从目前计算机的软硬件和通信网络的发展水平及发展趋势来看,可以断言:

?在将来很长的一段时期内,数字化的媒体信息数据以压缩形式存储和传播仍将是唯一的选择

4

压缩的必要性

?信息时代的重要特征是信息的数字化,数字化带来了“信息爆炸”

?数字音频和视频信号的数据量之大是非常惊人?举例说明

5

举例一:音频

?双通道立体声数字音乐光盘(CD-DA ),采样频率为44.1kHz ,采样精度16位/样本?1秒钟的数据量

?44.1*103*16*2/8=0.176MB/S=1378.1kbps

?一个650MB 的CD-ROM ,可存61.55分钟,约1小时的音乐

?MP3压缩后,压缩比约为15:1

?1秒钟的数据量为96kbps

?声音质量接近于数字音乐光盘

6

举例二:标清电视

?标准清晰度SDTV 格式,PAL 制式,每帧数据量?

?720*576*3=1.19MB

?每秒数据量(比特率)

? 1.19*25=29.75MB/S

?一片650M 的CD-ROM 可存帧数

?650/5.93=546帧/片

?一片CD-ROM 节目时间

?650/29.75)=21.84秒/片

7

举例三:高清电视

?全高清电视图像HDTV 格式,PAL 制式,每帧数据量?

?1920*1080*3=5.93MB

?每秒数据量(比特率)

? 5.93*25=148.3MB/S

?一片650M 的CD-ROM 可存帧数

?650/5.93=109.6帧/片

?一片CD-ROM 节目时间

?650/148.3)=4.38秒/片

8

举例四:超高清电视(4K )

?超高清电视图像UltraHDTV 格式,PAL 制式,每帧数据量?

?3840*2160*3=23.73MB(高清视频的4倍)

?每秒数据量(比特率)

?23.73*25=593.26MB/S

?一片650M 的CD-ROM 可存帧数

?650/23.73=27.39帧/片

?一片CD-ROM 节目时间

?650/593.26)=1.1秒/片

9

举例五:卫星

?一个陆地卫星(LandSat-3)的例子

?水平、垂直分辨率分别为2340和3240,四波段、采样精度7位)

?一幅图像的数据量

?2340*3240*7*4=212Mbit

?按每天30幅计

?每天数据量为212*30=6.36Gbit ?每年的数据量高达2300Gbit

10

数据压缩的可能性

?人们研究发现,多媒体数据中存在着大量的冗余

?通过去除冗余数据可以使原始数据极大地减少,从而解决多媒体数据量巨大的问题

?数据压缩就是研究如何利用数据的冗余性来减少数据量的方法

?数据压缩研究的起点

?研究数据的冗余性

11

(1)空间冗余

?静态图像存在的最主要的一种数据冗余?同一景物表面上各采样点的颜色之间往往存在着空间连贯性

?通过改变物体表面像素颜色的存储方式来利用空间连贯性,达到减少数据量的目的

13

(2)时间冗余

?序列图像(电视图像、运动图像)中经常包含的冗余

?序列图像一般为位于一时间轴区间内的一组连续画面

?相邻帧往往包含相同的背景和移动物体?只不过移动物体所在的位置略有不同

?后一帧的数据与前一帧的数据有许多共同的地方

(2)时间冗余

15

3)结构冗余

?有些图像的纹理区,图像的像素值存在着明显的分布模式

?例如

?方格状的地板图案、墙纸等

?己知分布模式,可以通过某一过程来生成图像

17

(4)知识冗余

?有些图像的理解与某些基础知识有相当大的相关性

?例如:人脸的图像有固定的结构,比方说嘴的上方有鼻子,鼻子的上方有眼睛,鼻子位于脸的中线上等等

?这类规律性的结构可由先验知识和背景知识得到,称此类冗余为知识冗余

?根据已有的知识,对某些图像中所包含的物体,可以构造其基本模型,并创建对应各种特征的

图像库,进而图像的存储只需要保存一些特征参数,从而可以大大减少数据量?知识冗余是模型编码主要利用的特性

(4)知识冗余

19

(5)视觉冗余

?视觉系统对图像的亮度和色彩度的敏感性相差很大?随着亮度的增加,视觉系统对量化误差的敏感度降低?人眼的视觉系统把图像的边缘和非边缘区域分开来处理?人类的视觉系统总是把视网膜上的图像分解成若干个空间有向的频率通道后再进一步处理

视觉系统对颜色和亮度的响应特性

20

视觉系统对颜色和亮度的响应特性

21(6)图像区域的相同性冗余

?在图像中的两个或多个区域所对应的所有像素值相同或相近而产生的数据重复性存储

?记录了一个区域中各像素的颜色值,则与其相同

或相近的其他区域就不再需记录其中各像素的值?向量量化(vector quantization)方法就是针对这种冗余性的图像压缩编码方法

发展趋势

?随着对人类视觉、听觉系统和图像模型的进一步研究,人们可能会发现更多的冗余性

?视频数据压缩编码的可能性越来越大,从而推动视频压缩技术的进一步发展

22

23内容提要

?压缩的必要性和可能性?压缩与编码的分类?PCM 与预测编码?无损压缩编码?变换编码?JPEG ?MPEG

24

§2.2压缩与编码的分类

?两种类型的压缩

?无损压缩(lossless compression )?有损压缩(lossy compression )

?三种类型的编码

?熵编码:不考虑数据源的无损压缩技术?源编码:考虑数据源特性的压缩技术

?混合编码:组合熵编码和源编码的有损压缩技术

?按照其作用域在空间域或频率域上

?

空间方法?变换方法?混合方法

?根据是否自适应

?自适应性编码?非适应性编码

?一般来说一个编码方法都有其相应的自适应方法

压缩与编码的分类

27

内容提要

?压缩的必要性和可能性?压缩与编码的分类?PCM 与预测编码?无损压缩编码?变换编码?JPEG ?MPEG

28

§2.3 PCM 与预测编码

?脉冲编码调制(PCM)?增量调制(DM)

?自适应增量调制(ADM )?自适应脉冲编码(APCM )?差分脉冲编码调制(DPCM )?子带编码(SBC )

29

§2.3.1脉冲编码调制

?脉冲编码调制(pulse code modulation ,PCM)是概念上最简单、理论上最完善的编码系统

?PCM 是最早研制成功、使用最为广泛的编码系统,但也是数据量最大的编码系统

?PCM 是对每个采样信号的整个幅度进行量化编码,因此它具有对任意波形进行编码的能力

PCM 编码框架

一个低通滤波器,用来滤除声音频带以外的信号;

可暂时理解为“采样器”可理解为“量化阶大小”生成器或者称为“量化间隔”生成器。

均匀量化与非均匀量化

?均匀量化

?采用相等的量化间隔对采样得到的信号作量化,也称

为线性量化

?非均匀量化

?对输入信号进行量化时,大的输入信号采用大的量化

间隔,小的输入信号采用小的量化间隔,也称为非线

性量化

均匀量化

31

§2.3.2增量调制(DM)

?增量调制

?也称△调制(Delta modulation,DM)

?它是一种预测编码技术,是PCM编码的一种变形

?DM是对实际的采样信号与预测的采样信号之差

的极性进行编码,将极性变成“0”和“1”这两种

可能的取值之一

非均匀量化34

增量调制(DM)

?如果实际的采样信号与预测的采样信号之差的

极性“非负”,则用“1”表示;相反则用“0”

表示,或者相反

?由于DM编码只须用1位对信号(话音)进行编码,

所以DM编码系统又称为“1位系统”

DM波形编码示意图

37DM 的缺点

?斜率过载(slope overload )

?粒度噪声(granular noise )

38

§2.3.3 自适应增量调制(ADM )

?如何使增量调制器的量化阶Δ能自适应?

?根据输入信号斜率的变化自动调整量化阶Δ的大小?以使斜率过载和粒状噪声都减到最小?许多研究人员研究了各种各样的方法

?算法依据

?检测到斜率过载时开始增大量化阶Δ,而在输入信号的斜率减小时降低量化阶Δ

39

§2.3.4自适应脉冲编码(APCM )

?自适应脉冲编码调制(Adaptive Pulse Code Modulation ,APCM)

?根据输入信号幅度大小来改变量化阶大小的一种波形编码技术

?可以是瞬时自适应

?即量化阶的大小每隔几个样本就改变

?也可以在较长时间周期里发生变化

(a )前向自适应

(b )后向自适应

42

§2.3.5差分脉冲编码调制(DPCM )

?差分脉冲编码调制DPCM (Differential Pulse Code Modulation )

?利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术

?基本思想

?根据过去的样本去估算(estimate)下一个样本信号的幅度大小,这个值称为预测值

?对实际信号值与预测值之差进行量化编码?从而减少表示每个样本信号的位数

DPCM 方块图

44

§2.3.6自适应差分脉冲编码调制(ADPCM )

?利用自适应的思想改变量化阶的大小

?即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值

?使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小

ADPCM 方块图

46

§2.3.7 子带编码(SBC )

?使用一组带通滤波器(band-pass filter ,BPF)把输入信号的频带分成若干个连续的频段,每个频段称为子带

?对每个子带中的信号采用单独的编码方案去编码?在信道上传送时,将每个子带的代码复合起来?在接收端译码时,将每个子带的代码单独译码,

然后把它们组合起来,还原成原来的信号

子带编码方块图

48

子带编码的好处

?对每个子带信号分别进行自适应控制,量化阶(Quantization Step )的大小可以按照每个子带的能量电平加以调节

?具有较高能量电平的子带用大的量化阶去量化,以减少总的量化噪声

?可根据每个子带信号在感觉上的重要性,对每个

子带分配不同的位数,用来表示每个样本值

49内容提要

?压缩的必要性和可能性?压缩与编码的分类?PCM 与预测编码?无损压缩编码?变换编码?JPEG ?MPEG

50

§2.4 无损压缩编码(统计编码)

?香农-范诺编码与霍夫曼编码(Huffman )

?算术编码

?行程长度编码(RLE )?词典编码

§2.4.1 统计编码的理论基础

?统计编码的理论基础是信息论?理论依据是变字长编码理论

?编码器的编码输出码字是字长不等的码字

?按编码输入信息符号出现的统计概率,给输出码字分配以不同的字长

?出现大概率的信息符号,赋以短字长的输出码字?出现小概率的信息符号,赋以长字长的输出码字

5152

统计编码的理论基础

?根据信息论的原理,可以找到最佳数据压缩编码方法,数据压缩的理论极限是信息熵

?熵编码

?如果要求在编码过程中不丢失信息量,即要求保存信息熵

?这种信息保持编码又叫做熵编码

53

熵(Entropy )的概念

?熵是信息量的度量方法

?它表示某一事件包含的消息越多,事件发生的可能性就越小,数学上就是概率越小?例如:爆炸性新闻?某个事件的信息量用表示,其中p i 为

第i 个事件的概率,1

0≤

信源S 的熵的定义

?按照香农(Shannon )的理论,信源S 的熵定义为:

∑∑===i i

i i i i I p p p s H )/1(log )(2ηp i 是符号s i 在S 中出现的概率

表示包含在s i 中的信息量,也就是编码所需要的位数

信源S 的熵可以用来表示编码的最小长度

55[例1]

?一幅用256级灰度表示的图像,如果每一个象素点

灰度的概率均为p i =1/256,编码每一个象素点就需要多少位??答案:8位

56

[例2]

?有一幅40个象素组成的灰度图像,灰度共有5级,分别用符号A 、B 、C 、D 和E 表示

?40个象素中出现灰度A 的象素数有15个,出现灰度B 的象素数有7个,出现灰度C 的象素数有7个等等

?如果用3位表示5个等级的灰度值,也就是每个象素用3位表示,编码这幅图像总共需要120位

符号出现的次数

概率A

15

15/40 (0.375)

B 77/40 (0.175)

C 77/40 (0.175)

D 66/40 (0.150)E

5

5/40 (0.125)

表1 符号在图像中出现的次数

[例2]

按照香农理论,这幅图像的熵为:

这就是说每个符号用2.196位表示,40个象素需用87.84位。

196

.2)5/40(log )40/5()7/40(log )40/7()15/40(log )40/15()(222=?+

+?+?= S H [例2]

59香农-范诺编码

?最早阐述和实现这种编码的是Shannon (1948年)和Fano (1949年),因此被称为香农-范诺(Shannon-Fano )算法?采用从上到下的方法进行编码

?按照符号出现的频度或概率排序,例A 、B 、C 、D 和E ?使用递归方法分成两个部分,每一部分具有近似相同的次数

60

香农-范诺编码

A (0.375)

B (0.175)

C (0.175)

D (0.150)

E (0.125)

1

香农-范诺算法编码举例

61香农-范诺编码

A (0.375)

B (0.175)

C (0.175)

D (0.150)

E (0.125)

01

1

1

10

香农-范诺算法编码举例

62

香农-范诺编码

A (0.375)

B (0.175)

C (0.175)

D (0.150)

E (0.125)0

01

1

1

10

编码00

0110110111

香农-范诺算法编码举例

符号出现的次数( p i )log 2(1/p i )分配的代码需要的位数

A 15 (0.375) 1.41500030

B 7 (0.175) 2.51450114

C 7 (0.175) 2.51451014

D 6 (0.150) 2.736911018E

5 (0.125)

3.0000

111

15

表2 香农-范诺算法举例表

?编码得到的总位数为91,压缩比约为1.3 : 1

香农-范诺编码

64

霍夫曼编码

?霍夫曼编码方法于1952年问世

?按照概率出现大小的顺序,对输出码字分配不同

码字长度的变字长编码方法,其输出码字的平均码长最短,与信息熵值接近,编码方法最佳?迄今为止仍经久不衰,广泛应用与各种数据压缩技术中,且仍不失为熵编码中的最佳编码方法

65

霍夫曼编码的步骤

Step 1: 概率统计(如对一幅图像作灰度信号统计)得到n 个不同概率的信息符号

Step 2: 将n 个信源信息符号的n 个概率按概率大小排序

Step 3: 将n 个概率中最后两个小概率相加,这时概率个数减为n -1个

Step 4: 将n-1个概率按大小重新排序

Step 5: 重复(3),将新排序后的最后两个小概率再相加,相加和与其余概率再排序

Step 6: 如此反复重复n-2次,得到只剩两个概率序Step 7: 以二进制码元(0,1)赋值,构成霍夫曼哈夫

曼码字编码结束

霍夫曼编码的步骤

[例3]:霍夫曼编码步骤-1

67

输入

信息符号输入概率

第1步第2步第3步第4步第5步x 1x 2x 3x 4x 5x 6x 7

0.350.200.15

0.100.100.060.04

0.350.20

0.150.100.100.10

0.350.200.200.15

0.10

0.350.250.20

0.20

0.350.25

0.400.40

0.60[例3]:霍夫曼编码步骤-2

68

输入

x 1x 2x 3

x 4x 5x 6x 7

输入概率0.350.200.150.100.100.060.04

第1步0.350.200.150.100.100.10

第2步0.350.200.20

0.150.10

第3步0.350.250.200.20

第4步0.35

0.25

0.40第5步0.40

0.600100011[例3]:霍夫曼编码步骤-3

69

输入

x 1x 2

x 3x 4x 5x 6x 7

输入概率

0.350.200.150.100.10

0.060.04

第1步0.35

0.200.150.100.100.10

第2步0.350.200.200.150.10

第3步0.350.250.200.20

第4步0.350.25

0.40第5步0.40

0.60010001110110001[例3]:霍夫曼编码步骤-4

70

输入

x 1x 2

x 3x 4x 5x 6x 7

输入概率

0.350.200.150.100.10

0.060.04

第1步0.35

0.200.15

0.100.100.10

第2步0.350.200.20

0.150.10第3步0.350.250.200.20

第4步0.350.25

0.40第5步0.40

0.60010001110110001000100111011[例3]:霍夫曼编码步骤-5

71

输入

x 1x 2x 3x 4x 5

x 6x 7

输入概率0.350.200.150.100.100.060.04

第1步0.350.200.15

0.100.100.10

第2步0.350.200.20

0.150.10第3步0.350.250.200.20

第4步0.350.25

0.40第5步0.40

0.600100011101100010001001110110001011111010011[例3]:霍夫曼编码步骤-6

72

输入

x 1x 2x 3x 4x 5

x 6x 7

输入概率0.350.200.150.10

0.100.060.04

第1步0.350.200.15

0.100.100.10第2步0.350.200.20

0.15

0.10

第3步0.350.250.200.20

第4步0.350.25

0.40第5步0.40

0.600100011101100010001001110110001011111010011001001001111011101111

[例3]:霍夫曼编码步骤-7

73

输入x 1x 2x 3

x 4x 5

x 6x 7输入

概率

0.35

0.200.150.10

0.100.060.04

第1步0.350.200.15

0.100.100.10第2步0.350.200.20

0.15

0.10

第3步0.350.250.200.20

第4步0.35

0.25

0.40第5步0.40

0.600100011101100010001001110110001011111010011001001001111011101111霍夫

曼码码长223

334

4

74

采用霍夫曼编码时有两个问题值得注意:

?霍夫曼码没有错误保护功能

?在译码时,如果码串中没有错误,那么就能一个接一个地正确译出代码?如果出错,无法查出

?霍夫曼码是可变长度码

?很难随意查找或调用压缩文件中间的内容,然后再译码,这就需要在存储代码之前加以考虑

75课堂作业

1. 信息符号及其概率如下:

求其Huffman 编码、信息熵和平均码长。

76

§2.4.2算术编码

?算术编码在图像数据压缩标准(如JPEG)中扮演了重要的角色

?在算术编码中,消息用0到1之间的实数进行编码,算术编码用到两个基本的参数

?符号的概率?编码间隔

77

[例4]

?假设信源符号为{00, 01, 10, 11},这些符号的概率分别为{ 0.1, 0.4, 0.2, 0.3 },根据这些概率可把间隔[0, 1)分成4个子间隔:[0, 0.1), [0.1, 0.5), [0.5,

0.7), [0.7, 1)。

符号概率初始编码间隔000.1[0, 0.1)010.4[0.1, 0.5)10

0.2

[0.5, 0.7)

110.3[0.7 ,1)

表3 信源符号、概率和初始编码间隔[例4]

算术编码过程举例

输入0.10.5

0.7

0100

0110

11

100.5

0.7000.5

0.52110.514

0.52000.514

0.5146100.5143

0.51442110.514384

0.5144201

0.5143876

0.514402

输出

步骤

输入符号

编码间隔

编码判决

110[0.5, 0.7)符号的间隔范围[0.5, 0.7) 200[0.5, 0.52)[0.5, 0.7)间隔的第一个1/10311[0.514, 0.52)[0.5, 0.52)间隔的最后一个1/10400[0.514, 0.5146)[0.514, 0.52)间隔的第一个1/105

10[0.5143, 0.51442)

[0.514, 0.5146)间隔的第五个1/10

开始,二个1/10

611[0.514384, 0.51442)[0.5143, 0.51442)间隔的最后3个

1/10701

[0.5143836,

0.514402)

[0.514384, 0.51442)间隔的4个

1/10,从第1个1/10开始

8

从[0.5143876, 0.514402)中选择一个数作为输出:0.5143876

表4 编码过程

算术编码译码过程举例

输入0.10.5

0.7

01

00

0110

11

100.5

0.7

000.5

0.52

110.514

0.52

000.514

0.5146

100.5143

0.51442

110.514384

0.51442

01

0.5143876

0.514402

编码

表5 译码过程

步骤

间隔

译码符号

译码判决

1[0.5, 0.7)100.51439在间隔[0.5, 0.7)

2[0.5, 0.52)000.51439在间隔[0.5, 0.7)的第1个1/103[0.514, 0.52)110.51439在间隔[0.5, 0.52)的第7个1/104

[0.514, 0.5146)000.51439在间隔[0.514, 0.52)的第1个

1/105[0.5143, 0.51442)100.51439在间隔[0.514, 0.5146)的第5个

1/106[0.514384,

0.51442)110.51439在间隔[0.5143, 0.51442)的第7

个1/107[0.51439,

0.5143948)

01

0.51439在间隔[0.51439, 0.5143948)的

第1个1/10

8

译码的消息:10 00 11 00 10 11 01

832. 假设信源符号为{00,01,10,11},这些符号的概率分别为{0.2,0.1,0.3,0.4},求输入信号{10 11 00 01 10 01 00}的算术编码,请写出详细的解题步骤。

课堂作业

84

算术编码需要注意的几个问题

?由于实际的计算机的精度不可能无限长,运算中出现溢出是一个明显的问题

?多数机器都有16位、32位或者64位的精度?可使用比例缩放方法解决

?算术编码器对整个消息只产生一个码字(在间隔[0, 1)中的一个实数),因此译码器在接收到表示这个实数的所有位之前不能进行译码?一种对错误很敏感的编码方法

?如果有一位发生错误就会导致整个消息译错

85§2.4.3行程编码(RLE-Run Length Encoding )

RLE 编码的概念

86

§2.4.4词典编码(Dictionary Encoding )

?词典编码(Dictionary Encoding )的根据是数据本

身包含有重复代码这个特性

?例如,文本文件和光栅图像就具有这种特性

?词典编码法的种类很多,归纳起来大致有两类

87

第一类词典法(基本思想)

?查找正在压缩的字符序列是否在以前输入的数据中出现过

?用已经出现过的字符串替代重复的部分,它的输出仅仅是指向早期出现过的字符串的“指针”

第一类词典法编码的概念

89

第二类词典法(基本思想)

?从输入的数据中创建一个“短语词典

(dictionary of the phrases )”

?这种短语不一定具有具体含义的短语,它可以是任意字符的组合

?编码数据过程中当遇到已经在词典中出现的

“短语”时,编码器就输出这个词典中的短语的“索引号”,而不是短语本身

第二类词典法编码的概念

《数据压缩与编码》课程教学大纲1

《数据压缩与编码》课程教学大纲 课程类型:专业限选课课程代码: 课程学时: 46学分: 2 适用专业:电子信息工程专业 开课时间: 三年级二学期开课单位: 电气与电子工程学院 大纲执笔人: 吴德林大纲审定人:杨宁 一、课程性质、任务: 人类社会已进入信息时代,网络是信息时代的重要产物,大量数据的存贮、处理特别是传输,是影响网络系统效率的重要因素之一,数据压缩技术对提高网络通信能力和效率提供了有力的支持。课程的目的在于学习数据通信基本原理和了解数据通信网络。 通过本课程的学习,学生能够掌握数据压缩的基本知识、基本方法;掌握数据压缩技术及经典算法,包括信源的数字化方法、基本的统计编码方法、预测编码的理论与实现方法、HUFFMAN方法、算术编码方法、字典压缩技术、文本压缩技术、图像压缩技术;理解和实验基本图像JPEG压缩编码或EZW/SPIHT压缩编码。 二、课程教学内容 1)教学内容、目标与学时分配 (一)理论教学部分

2、实验要求指:必做或选做 2) 教学重点与难点 1、重点:数据压缩的基本概念、数据压缩的常用方法与算法,数据编码技术、图像压缩技术以及视频压缩技术。。 2、难点:视频压缩与小波分析技术 三、课程各教学环节的基本要求 1)课堂讲授: 多媒体、PPT课件 2)实验(实训、实习):

3)作业: 问答题,计算题 4)课程设计: 5)考试 5.1 考试方法:(考试;考查;闭卷;开卷;其它方法) 闭卷考试 5.2 各章考题权重 第一章 5% 第二章 10% 第三章 10% 第四章 20% 第五章 20% 第六章. 20% 第七章 10% 第八章 5% 5.3 考试题型与比例 Eg:填空:20% ;判断题:10% ;单项选择:20% ;问答题:40%;分析题:10% 四、本课程与其他课程的联系 先修课程: 微机原理与程序设计、C 语言程序设计、数据结构、算法设计与分析。 五、建议教材及教学参考书 教材:吴乐南著:《数据压缩(第3版)》,电子工业出版社,2012年 参考书:魏江力.JPEG2000图像压缩基础、标准和实践.电子工业出版社,2004

常用工具软件 多媒体数据压缩及编码技术

常用工具软件多媒体数据压缩及编码技术 在计算机获取原始的声音、图形图像以及视频影像时,其数据量是十分庞大的。如果数据不进行压缩处理,存放该数据文件时将十分困难,并且即使存储下来也是比较浪费存储介质的。例如,一张600MB的光盘也只能存储几十秒的真彩视频影像。 因此,用户需要对所获取的声音、图形图像以及视频影像数据进行压缩。其压缩主要包含下列两种方法。 ●无损压缩 多媒体原始信源数据存在大量的冗余,如动态视频图像帧内像素之间的空间相关性和帧与帧之间的时间相关性都很大,故而原始信源数据有很多的冗余,采用去掉冗余的压缩方法。 ●有损压缩 利用人的视觉对于边缘急剧变化不敏感和对图像的亮度信息敏感、对颜色分辨率弱的特点以及听觉只能听到20Hz~20KHz等特征实现数据压缩,舍弃一些非主要的细节,从而使由压缩数据恢复的图像、声音仍有令人满意的质量的方法。 数据压缩技术的研究已经有许多年了,从PCM编码理论开始,到现在的ADPCM、JPEG、MPEG-1、MPEG-2、H.261等,已经产生了多种针对不同用途的压缩算法、实现手段和相关的数字硬件及软件。目前,被国际社会广泛认可和应用的通用压缩编码标准大致有如下4种。 ●H.261编码 由CCITT(国际电报电话咨询委员会)通过的用于音频视频服务的视频编码解码器(也称Px64标准),它使用两种类型的压缩:一帧中的有损压缩(基于DCT)和用于帧间压缩的无损编码,并在此基础上使编码器采用带有运动估计的DCT和DPCM(差分脉冲编码调制)的混合方式。这种标准与JPEG及MPEG标准间有明显的相似性,但关键区别是它是为动态使用设计的,并提供完全包含的组织和高水平的交互控制。 ●JPEG编码 JPEG(全称是Joint Photogragh Coding Experts Group(联合照片专家组))是一种基于DCT 的静止图像压缩和解压缩算法,它由ISO(国际标准化组织)和CCITT(国际电报电话咨询委员会)共同制定,并在1992年后被广泛采纳后成为国际标准。 它是把冗长的图像信号和其它类型的静止图像去掉,甚至可以减小到原图像的百分之一(压缩比100:1)。但是在这个级别上,图像的质量并不好;压缩比为20:1时,能看到图像稍微有点变化;当压缩比大于20:1时,一般来说图像质量开始变坏。 ●MPEG编码 MPEG是Moving Pictures Experts Group(动态图像专家组)的英文缩写,实际上是指一组由ITU和ISO制定发布的视频、音频、数据的压缩标准。它采用的是一种减少图像冗余信息的压缩算法,它提供的压缩比可以高达200:1,同时图像和音响的质量也非常高。现在通常有三个版本:MPEG-1、MPEG-2、MPEG-4以适用于不同带宽和数字影像质量的要求。它的三个最显著优点就是兼容性好、压缩比高(最高可达200:1)、数据失真小。 ●DVI编码 DVI视频图像的压缩算法的性能与MPEG-1相当,即图像质量可达到VHS的水平,压缩后的图像数据率约为1.5Mb/s。为了扩大DVI技术的应用,Intel公司最近又推出了DVI算法的软件解码算法,称为Indeo技术,它能将为压缩的数字视频文件压缩为五分之一到十分之一。

信源编码(数据压缩)课程课后题与答案(第二章)

信源编码 Assignment of CH2 1、(a)画出一般通信系统结构的组成框图,并详细说明各部分的作用或功能; 信源信源编码信道编码调制 噪声信道传输 , 信宿信源解码信道解码解调 图1、一般数字通信系统框图 各部分功能: 1、信源和信宿:信源的作用是把消息转换成原始的电信号;信宿的作用是 把复原的电信号转换成相应的消息。 . 2、信源编码和信源解码:一是进行模/数转换,二是进行数据压缩,即设法降低信号的数码率;信源解码是信源编码的逆过程。 3、信道编码和信道解码:用于提高信道可靠性、减小噪声对信号传输的影响;信道解码是信道编码的反变换。 4、调制和解调:将信息调制为携带信息、适应在信道中传输的信号。数字 " 解调是数字调制的逆变换。 5、信道:通信的通道,是信号传输的媒介。 (b)画出一般接收机和发射机的组成框图,并分别说明信源编解码器和信道编 解码器的作用; … 高频振荡器高频放大调制高频功放天线

" 音频功放 信 号 图2、一般发射机框图(无线广播调幅发射机为例)

天线 信号放大器混频器解调器音频放大器 信 号 本地振荡器 图3、一般接收机框图(无线广播调幅发射机为例) 信源编解码器作用:它通过对信源的压缩、扰乱、加密等一系列处理,力求 用最少的数码最安全地传输最大的信息量。信源编解码主要解决传输的有效性问题。 信道编解码器作用:使数字信息在传输过程中不出错或少出错,而且做到自 动检错和尽量纠错。信道编解码主要解决传输的可靠性问题。 (c)信源编码器和解码器一般由几部分组成,画出其组成图并给以解释。 信源编码器 时频分析量化熵编码 信道传输 时频分析反量化熵解码 信源解码器 图 4、信源编解码器框图 时频分析部分:信源编码器对信源传送来的信号进行一定方法的时域频域分析,建立一个能够表达信号规律性的数学模型,从而得知信号中的相关性和多余度,分析出信号数据中可以剔除或减少的部分(比如人感知不到的高频率音频信号或者看不见的色彩信号等等),以决定对后续数据的比特分配、编码速率等处理问题。 量化部分:根据时频分析的结果,为了更加简洁地表达利用该模型的参数, 减少精度,采取相应量化方法对信号进行量化,减小信号的多余度和不相关性,

数据压缩

一、名词解释 1、数据压缩:以最小的数码表示信源所发的信号,减少容纳给定消息集合或数据采样集合的信号空间。 2、数据压缩比:将压缩前每个信源符号(取样)的编码位数(mlog)与压缩后平均每符号的编码位数(l)之比,定义为数据压缩比。 3、均匀量化:把输入信号的取值域按等距离分割的量化称为均匀量化。 4、最优量化(MMSE准则):使均方误差最小的编码器设计方法称为最小均方误差(MMSE)设计。以波形编码器的输入样值与波形解码器的输出样值之差的均方 误差作为信号质量的客观评判标准和MMSE的设计准则。(能使量化误差最小的所谓最佳量化器,应该是非均匀的。) 5、信息熵定义:信息量的概率平均值,即随机变量的数学期望值,叫做信息熵或者简称熵。 6、统计编码定义:主要利用消息或消息序列出现概率的分布特性,注重寻找概率与码字长度间的最优匹配,叫做统计编码或概率匹配编码,统称熵编码。 7、变长编码:与等长编码相对应,对一个消息集合中的不同消息,也可以用不同长度码字来表示,这就叫做不等长编码或变长编码。 8、非续长码:若W中任一码字都不是另一个码字的字头,换句换说,任何一个码字都不是由另一个码字加上若干码元所构成,则W称为非续长码、异字头码或前缀码。 9、游程长度:是指字符(或信号采样值)构成的数据流中各字符重复出现而形成字符串的长度。 10、电视图像的取向:我国彩色电视制式采用逐行倒相的PAL-D制。 11、HVS的时间掩蔽特性:指随着时间变化频率的提高,人眼对细节分辨能力下降的特性。 12、HVS的空间掩蔽特性:指随着空间变化频率的提高,人眼对细节分辨能力下降的特性。 13、HVS的亮度掩蔽特性:指在背景较亮或较暗时,人眼对亮度不敏感的特性。 14、CIF格式:是常用的标准图像格式。是一种规范Y、Cb、Cr色差分量视频信号的像素分辨率的标准格式。像素。 15、SIF格式:是一种用于数字视频的存储和传输的视频格式。 16、压扩量化:由于低电平信号出现概率大、量化噪声小;高电平信号虽然量化噪声变大,但因为出现概率小,总的量化噪声还是变小了,从而提高量化信噪比。这种方法叫做压缩扩张量化。(压扩量化用一个非线性函数变换先将信号“压缩”后再均匀量化,它和非线性量化器完全等效。) 17、信号压缩系统的复杂度:指实现编解码算法所需的硬件设备量,典型地可用算法的运算量及需要的存储量来度量。 18、离散信源:被假设为由一系列随机变量所代表,往往用随机出现的符号表示,称输出这些符号集的源为信源,如果取值于某一离散集合,就叫做离散信源。 19、互信息量:对两个离散随机时间集X和Y,事件yj的出现给出关于xi的信息量,即为互信息量。 20、联合熵:两个变量X和 Y 的联合熵定义为:

huffman编码译码实现文件的压缩与解压

数据结构 课程设计 题目名称:huffman编码与解码实现文件的压缩与解压专业年级: 组长: 小组成员: 指导教师: 二〇一二年十二月二十六日

目录 一、目标任务与问题分析 (2) 1.1目标任务 (2) 1.2问题分析 (2) 二、算法分析 (2) 2.1构造huffman树 (2) 2.1.1 字符的统计 (2) 2.1.2 huffman树节点的设计 (2) 2.2构造huffman编码 (3) 2.2.1 huffman编码的设计 (3) 2.3 压缩文件与解压文件的实现 (3) 三、执行效果 (4) 3.1界面 (4) 3.2每个字符的编码 (4) 3.3操作部分 (5) 3.4文件效果 (6) 四、源程序 (7) 五、参考文献 (16)

huffman编码与解码实现文件的压缩与解压 一、目标任务与问题分析 1.1目标任务 采用hu ffm an编码思想实现文件的压缩和解压功能,可以将任意文件压缩,压缩后也可以解压出来。这样即节约了存储空间,也不会破坏文件的完整性。 1.2问题分析 本问题首先应该是利用哈夫曼思想,对需要压缩的文件中的个字符进行频率统计,为了能对任意的文件进行处理,应该所有的文件以二进制的方式进行处理,即对文件(不管包含的是字母还是汉字)采取一个个的字节处理,然后根据统计的频率结果构造哈夫曼树,然后对每个字符进行哈夫曼编码,然后逐一对被压缩的文件的每个字符构建的新的哈夫曼编码存入新的文件中即得到的压缩文件。解压过程则利用相应的哈夫曼树及压缩文件中的二进制码将编码序列译码,对文件进行解压,得到解压文件。 二、算法分析 2.1构造huffman树 要利用哈夫曼编码对文本文件进行压缩,首先必须知道期字符相应的哈夫曼编码。为了得到文件中字符的频率,一般的做法是扫描整个文本进行统计,编写程序统计文件中各个字符出现的频率。由于一个字符的范围在[0-255]之间,即共256个状态,所以可以直接用256个哈夫曼树节点即数组(后面有节点的定义)空间来存储整个文件的信息,节点中包括对应字符信息,其中包括频率。 2.1.1 字符的统计 用结构体huffchar来存放文件字符的信息。其中有文件中不同字符出现的种类Count、字符data。 struct huffchar{ //存放读入字符的类; int Count;//字符出现的个数; char data;//字符; }; 函数实现: bool char_judge(char c)//判断字符出现的函数; void char_add(char c)//添加新出现的字符; void read_file_count() //文件的读取 2.1.2 huffman树节点的设计 用结构体huff_tree来存储结点信息,其中有成员频率weight、父亲节点parent、左儿子节点lchild、右儿子节点rchild。

多媒体数据压缩编码的国际标准

多媒体数据压缩编码的国际标准 国际标准化协会( ISO),国际电子学委员会(IEC),国际电信协会(ITU)等国际组织,于90年代领导制定了三个重要的多媒体国际标准,①JPEG标准,②H.261标准;③MPEG 标准。 我们在概述中只对这三个标准的制定做简单的介绍: 静态图像压缩编码的国际标准(JPEG)联合图像专家小组,多年来一直致力于标准化工作,他们开发研制出,连续色调、多级灰度、静止图像的数字图像压缩编码方法。这个压缩编码方法称为JPEG算法。JPEG算法被确定为JPEG国际标准,它是国际上,彩色、灰度、静止图像的第一个国际标准。JPEG标准是一个适用范围广泛的通用标准。它不仅适于静图像的压缩;电视图像序列的帧内图像的压缩编码,也常采用JPEG压缩标准。 在JPEG编码中用到了我们已学过的变换编码、预测编码和熵编码等原理和方法。这一章前面几节讲的内容是这一部分的基础。因此我们把重点放在JPEG的编码算法的具体实现上。 JPEG 标准定义了两种基本压缩算法:一是:基于DCT 变换有失真的压缩算法。二是:基于空间预测编码DPCM的无失真压缩算法。 我们将重点讲述基于DCT变换有失真的压缩算法。

1.基于离散余弦变换(DCT)的有失真压缩编码 (1)基于DCT的有失真编码处理过程图 基于DCT解码器处理步骤 首先来看"基于DCT的编码器处理步骤"图。从这幅图我们可以看出JPEG编码的处理过程,从总的来说是这样的:对于一幅图像首先将其分成许多个"8×8"的小块,也就是每个小块有8×8=64个像素;分成多少个小块要看图像的分辨率,分辨率高,分的块就多,分辨率小,分的块就少。然后对(每一个)8×8的块进行DCT变换(二维),经过DCT变换后就得到频域的64个离散余弦变换系数,得到64个离散余弦变换系数后,要对这64个系数进行量化,量化是根据"表说明"也就是量化表进行的,量化表是JPEG组织根据人的眼睛视觉特性规定好的,直接用量化表去除得到的64个系数就是量化,量化后得到的仍是一个(8×8)64的系数,而这一系数已是低频集中在左上角的一个8×8的系数了。最后再利用熵编码表对其进行熵编码,熵编码后的到的就是已压缩的图像数据。这是一个总的过程,我把刚才说的归纳如下:(2)基于DCT的有失真编码处理总过程:

信源编码和信源解码

信源编码和信源解码 字、符号、图形、图像、音频、视频、动画等各种数据本身的编码通常称为信源编码,信源编码标准是信息领域的基础性标准。无论是数字电视、激光视盘机,还是多媒体通信和各种视听消费电子产品,都需要音视频信源编码这个基础性标准。 大家用电脑打字一定很熟悉,当你用WORD编辑软件把文章(DOC文件)写完,存好盘后,再用PCTOOLS工具软件把你的DOC文件打开,你一定能看到你想象不到的东西,内容全是一些16进制的数字,这些数字叫代码,它与文章中的字符一一对应。现在我们换一种方法,用小画板软件来写同样内容的文章。你又会发现,用小画板软件写出来的BMP文件,占的内存(文件容量)是DOC文件的好几十倍,你知道这是为什么?原来WORD编辑软件使用的是字库和代码技术,而小画板软件使用的是点阵技术,即文字是由一些与坐标位置决定的点来组成,没有使用字库,因此,两者在工作效率上相差几十倍。[信源]->[信源编码]->[信道编码]->[信道传输+噪声]->[信道解码]->[信源解码]->[信宿] 目前模拟信号电视机图像信号处理技术就很类似小画板软件使用的点阵技术,而全数字电视机的图像信号处理技术就很类似WORD编辑软件使用的字库和代码技术。实际上这种代码传输技术在图文电视中很早就已用过,在图文电视机中一般都安装有一个带有图文字库的译码器,对方发送图文信号的时候只需发送图文代码信息,这样可以大大地提高数据传输效率。 对于电视机,显示内容是活动图像信息,它哪来的“字库”或“图库”呢?这个就是电视图像特有的“相关性”技术问题。原来在电视图像信号中,90%以上的图像信息是互相相关的,我们在模拟电视机中使用的Y/C(亮度信号/彩色信号)分离技术,就是利用两行图像信号的相关性,来进行Y/C分离。如果它们之间内容不相关,Y/C信号则无法进行分离。全数字信号电视也一样,如果图像内容不相关,则图像信号压缩也就要免谈。如果图像内容有相关性,那么上一幅图像的内容就相当于下一幅图像的“图形库”,或一幅图像中的某部分就是另一部分的“图形库”,因此,下一幅图像或图像中某一个与另一个相关的部分,在发送信号时,只需发送一个“代码”,而传送一个“代码”要比送一个“图形库”效率高很多,显示时也只需把内容从“图形库”中取出即可,这就是MPEG图像压缩的原理。 利用电视信号的相关性,可以进行图像信号压缩,这个原理大家已经明白,但要找出图像相关性的内容来,那就不是一件很容易的事情,这个技术真的是太复杂了。为了容易理解电视图像的相关性,我们不妨设想做一些试验,把图像平均分成几大块,然后每一块,每一块的进行比较,如果有相同的,我们就定义它们有相关性;如果没有相同的,我们继续细分下去,把每大块又分成几小块,一直比较下去,最后会发现,块分得越细,相同块的数目就越多,但分得太细需要的代码也增多,所以并不是分得越细越好。我们在看VCD的时候经常发现,如果VCD读光盘数据出错,就会在图像中看到“马赛克”,这些“马赛克”就是图像分区时的最小单位,或把数码相片进行放大,也可以看到类似“马赛克”的小区,这就是数码图像的最小“图形库”,每个小“图形库”都要对应一个“代码”。 在单幅图像中找出相关性的几率并不是很大的,所以对单幅图像的压缩率并不很大,这个通过观察数码相片的容量就很容易明白,如果把寻找相关性的范围扩大到两幅图像,你就会发现,具有相关性的内容太多了,这是因为运动物体对于人的眼睛感觉器官来说,是很慢

第10讲 信源编码的性能指标

第10讲 信源编码的性能指标 1. 无失真信源编码的冗余度压缩原理 为了压缩冗余度,必须改造信源输出符号的统计特性。一方面要尽量提高任一时刻输出符号的概率分布的均匀性,另一方面要尽量消除前后输出符号的统计相关性。因此,无失真信源编码的实质是将信源尽可能地改造为均匀分布的无记忆信源。这种信源的通信效率是最大的。改造后的新信源是由原信源和编码器共同组成的,称为编码后的信源。设f 是信源S 的一个编码,X 是编码后的信源,则三者之间的关系表示如下 f S X ??→ 信源编码f 所用的码元可以与信源S 的符号不同,一般是某个信道的输入符号。 从数据处理这个角度来看,编码f 是一个数据处理器,输入信源S 的数据,输出信源X 的数据。从通信的角度看,编码f 是一个信道,输入信源S 的数据,输出信源X 的数据。 无失真信源编码的目的是无损压缩,即用尽可能少的数据表示数据中的所有信息,不能破坏数据原有信息。这相当于提高信息传输效率,使之接近于1。因此,度量无失真编码的压缩性能可以看编码后信息传输效率,称为编码效率。编码效率越接近于1,无损压缩性能越好。下面介绍信源编码的5个性能指标,包括平均码长、码率、编码效率、编码冗余度和压缩率。 2. 平均码长 平均码长是信源编码的一个关键的性能指标。在已知信源熵的前提下,根据平均码长,可以计算出无损压缩编码的码率和编码效率。 定义2.1 设f 是一个N-分组码,各码字的码长分别记为,1i l i q ≤≤,对应的N 长分组的概率为i p ,则f 的平均码长定义为 11(/ q i i i L p l N ==∑码元信源) 注:在有的教材中,当平均码长的单位转化为“比特/信源”时,称为编码速率。本课程用不到这个概念。 讨论:用平均码长估计编码后的数据长度 设S 是一个离散无记忆信源,:f S C →是信源S 的一个编码,其平均码长为L 。令12n s s s s =?是一个信源序列。假设用f 对该数据进行编码,试估计编码后码元序列的长度。 对于信源数据12n s s s s =?,我们令L i 表示信源符号s i 所对应的码字f (s i )的长度,则编码后的数据长度为12+++n L L L 。我们把L i 视为随机变量,则对于任何i ,我们有[]i E L L =。 因为S 是离散无记忆的,所以{L i }是独立同分布随机序列。根据辛钦大数定理,我们有

第讲多媒体数据的压缩与编码

第2讲多媒体数据的压缩与编码 一级学科课程基础课 主讲:于俊清 2 内容提要 ?压缩的必要性和可能性?压缩与编码的分类?PCM 与预测编码?无损压缩编码?变换编码 ?JPEG ?MPEG 3§2. 1 压缩的必要性和可能性 ?从目前计算机的软硬件和通信网络的发展水平及发展趋势来看,可以断言: ?在将来很长的一段时期内,数字化的媒体信息数据以压缩形式存储和传播仍将是唯一的选择 4 压缩的必要性 ?信息时代的重要特征是信息的数字化,数字化带来了“信息爆炸” ?数字音频和视频信号的数据量之大是非常惊人?举例说明 5 举例一:音频 ?双通道立体声数字音乐光盘(CD-DA ),采样频率为44.1kHz ,采样精度16位/样本?1秒钟的数据量 ?44.1*103*16*2/8=0.176MB/S=1378.1kbps ?一个650MB 的CD-ROM ,可存61.55分钟,约1小时的音乐 ?MP3压缩后,压缩比约为15:1 ?1秒钟的数据量为96kbps ?声音质量接近于数字音乐光盘 6 举例二:标清电视 ?标准清晰度SDTV 格式,PAL 制式,每帧数据量? ?720*576*3=1.19MB ?每秒数据量(比特率) ? 1.19*25=29.75MB/S ?一片650M 的CD-ROM 可存帧数 ?650/5.93=546帧/片 ?一片CD-ROM 节目时间 ?650/29.75)=21.84秒/片

7 举例三:高清电视 ?全高清电视图像HDTV 格式,PAL 制式,每帧数据量? ?1920*1080*3=5.93MB ?每秒数据量(比特率) ? 5.93*25=148.3MB/S ?一片650M 的CD-ROM 可存帧数 ?650/5.93=109.6帧/片 ?一片CD-ROM 节目时间 ?650/148.3)=4.38秒/片 8 举例四:超高清电视(4K ) ?超高清电视图像UltraHDTV 格式,PAL 制式,每帧数据量? ?3840*2160*3=23.73MB(高清视频的4倍) ?每秒数据量(比特率) ?23.73*25=593.26MB/S ?一片650M 的CD-ROM 可存帧数 ?650/23.73=27.39帧/片 ?一片CD-ROM 节目时间 ?650/593.26)=1.1秒/片 9 举例五:卫星 ?一个陆地卫星(LandSat-3)的例子 ?水平、垂直分辨率分别为2340和3240,四波段、采样精度7位) ?一幅图像的数据量 ?2340*3240*7*4=212Mbit ?按每天30幅计 ?每天数据量为212*30=6.36Gbit ?每年的数据量高达2300Gbit 10 数据压缩的可能性 ?人们研究发现,多媒体数据中存在着大量的冗余 ?通过去除冗余数据可以使原始数据极大地减少,从而解决多媒体数据量巨大的问题 ?数据压缩就是研究如何利用数据的冗余性来减少数据量的方法 ?数据压缩研究的起点 ?研究数据的冗余性 11 (1)空间冗余 ?静态图像存在的最主要的一种数据冗余?同一景物表面上各采样点的颜色之间往往存在着空间连贯性 ?通过改变物体表面像素颜色的存储方式来利用空间连贯性,达到减少数据量的目的

数据压缩试题库

第一章 填空题: 1、信源编码主要解决传输的问题,信道编码主要解决传输的问题。 2、数据压缩的信号空间包括、、。 3、数据压缩按其压缩后是否产生失真可划分为 和两大类。 第二章 填空题: 1、脉冲编码调制包括、、三个步骤。 2、连续信号的多种离散表示法中,我们最常用的取样方法是。 3、若要将取样信号准确地恢复成原信号,取样频率必须满足定理。 4、黑白电视信号的带宽大约为5MHz,若按256级量化,则按奈奎斯特准则取样时的数据速率为。如果电视节目按25帧/s发送,则存储一帧黑白电视节目数据需内存容量。 5、量化器可分为和两大类。 6、量化器的工作特性可分为、、三个区域。 6、按照处理方法是否线性来判断,我们认为量化过程本身是。 7、我国数字电话网中压扩量化的对数函数采用曲线。 8、信号质量的主观度量方法中最常用的判决方法是。 9、对信号压缩系统的性能评价应从几个性能指标上综合评价,这些性能指标包括、、、。 简答题: 1、量化误差和噪声的本质区别是什么? 2、简述压扩量化的工作过程? 3、数据压缩中的“二次量化”是指什么?它和模数转换时的量化有什么区别? 证明题:

1、试导出以均方误差最小定义的最佳量化方法中量化判决电平k d 和量化输出电平k y 的表达式。 2、证明M-L 量化器的最小量化误差为:{}{}∑-=+≤<-=1 012 2min J k k k k d x d p y x E ε 第三章 填空题: 1、离散无记忆平稳信源的冗余度隐含在 。 2、对于联合信源,其冗余度除了各自本身的冗余度外还隐含在 。 3、离散有记忆信源的的理论极限是 。 4、在限失真编码理论中,使限失真条件下比特数最少的编码称为 。 问答题: 1、什么是平均自信息量(信息熵),平均条件自信息量(条件熵)以及平均互信息量?它们之间有什么关系? 2、简述率失真函数的基本含义,并指出它对信源编码的指导意义。 3、什么是最大离散熵?它对数据压缩有什么指导意义? 证明题: 2、证明 ()()|H Y X H Y ≤,并简述它对数据压缩的意义。 3、证明:()()()Y |X H X H Y X I -=;。 第四章 填空题: 1、统计编码主要是利用消息或消息序列 的分布特性,注重寻找 的最优匹配。 2、长度为L 1,L 2,…,L n 的m 进制唯一可译码存在的充分必要条件是 。

数据压缩与编码技术

数据压缩与编码技术 ①多媒体数据压缩编码的种类 多媒体数据压缩方法根据不同的依据可产生不同的分类。通常根据压缩前后有无质量损失分为有失真(损)压缩编码和无失真(损)压缩编码。 无损压缩:利用信息相关性进行的数据压缩并不损失原信息的内容。是一种可逆压缩,即经过文件压缩后可以将原有的信息完整保留的一种数据压缩方式,如RLE压缩,huffman 压缩、算术压缩和字典压缩。 有损压缩:经压缩后不能将原来的文件信息完全保留的压缩,是不可逆压缩。如静态图像的JPEG压缩和动态图像的MPEG压缩等。有损压缩丢失的是对用户来说并不重要的、不敏感的、可以忽略的数据。 无论是有损压缩还是无损压缩,其作用都是将一个文件的数据容量减小,又基本保持原来文件的信息内容。压缩的反过程-----解压缩,将信息还原或基本还原。 压缩编码的方法有几十种之多,如预测编码、变换编码、量化与向量编码、信息熵编码、子带编码、结构编码、基于知识的编码等。其中比较常用的编码方法有预测编码、变换编码和统计编码。没有哪一种压缩算法绝对好,压缩效率高的算法,其具体的运算过程相对就复杂,即需要更长的时间进行转化编码操作。 图1.3 音频信号的压缩方法 ②多媒体数据压缩编码的国际标准 国际电活电报咨询委员会CCITT和ISO联合定的数字化图像压缩国际标淮,主要有三个标准:用于计算机静止图像压缩的JPEG、用于活动图像压缩的MPEG数字压缩技术和用于会议电视系统的H.261压缩编码。 (1)J PEG标准 联合图像专家小组,多年来一直致力于标准化工作,他们开发研制出,连续色调、多级灰度、静止图像的数字图像压缩编码方法。这个压缩编码方法称为JPEG(Joint Photographic Experts Group)算法。JPEG算法被确定为JPEG国际标准,它是国际上,彩色、灰度、静止图像的第一个国际标准。JPEG标准是一个适用范围广泛的通用标准。它不仅适于静图像的压缩;电视图像序列的帧内图像的压缩编码,也常采用JPEG压缩标准。采用JPEG标准可以得到不同压缩比的图像,在使图像质量得到保证的情况下,可以从每个像素24bit减到每个像素1bit甚至更小。

数据压缩与信源编码第四章

第四章 1、详细解释下面概念:(a)绝对掩蔽门限;(b)临界频带;(c)听觉门限;(d)掩蔽效应。(a)绝对掩蔽门限:被掩蔽音单独存在时的听阈分贝值,或者说在安静环境中能被人耳听到的纯 音的最小值称为绝对掩蔽门限。 (b)临界频带:当噪声掩蔽纯音时,起作用的是以纯音频率为中心频率的一定频带宽度内的噪声 频率。如这频带内的噪声功率等于在噪声中刚能听到的该纯音的功率,则这频带就称为听觉临界 频带。 (c)听觉门限:刚刚能引起感觉的最小刺激量,称为感觉阈下限;能产生正常感觉的最大刺激量 ,称为感觉阈上限。刺激强度不允许超过上限,否则,不但无效而且还会引起相应听觉器官的损 伤。 (d)掩蔽效应:一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象 称为人耳的“掩蔽效应”。 2、详细说明:(a)什么是心理声学模型,它的输入和输出分别是什么? 心理声学模型是对人听感的统计性质的数学表述模型,它解释人各种听感的生理原理。输入是声 音信号,输出是编码数据流。 (b)心理声学模型在音频编码中的作用? 心理声学原理应用到音频压缩技术中,使获得低比特传输速率和透明音质成为可能。 3、(a)MPEG-1音频编码分几层,各层在编码效率、算法复杂度和算法延迟上有和区别?三层,MPEG-1 Layer1采用每声道192kbit/s,每帧384个样本,32个等宽子带,固定分割数据块。 MPEG-1 Layer2采用每声道128kbit/s,每帧1152个样本,32个子带,属不同分帧方式。MPEG-1 Layer3采用每声道64kbit/s,用混合滤波器组提高频率分辨率,按信号分辨率分成6X32或18X32个

多媒体数据压缩编码技术

多媒体数据压缩编码技术 多媒体数据压缩编码技术 1. 多媒体数据压缩的可行性 (1)多媒体视频信号存在空间冗余和时间冗余。 (2)人眼对图像的细节分辨率、运动分辨率和对比度分辨率的感觉都存在着一定的界限。 2. 多媒体数据压缩方法 (1) 熵编码详细内容 熵编码在解压缩过程中重新构造出与原始数据完全一致的数据,因此是一种无损压缩方法。它把已压缩的数据流看做是简单的数字序列,而忽略该数据的语义,因此熵编码适用于不考虑其自身具体特点的媒体。 (2) 源编码详细内容 源编码用于把原始数据中的相关数据与不相关数据分开的场合。该方法要考虑原始数据的语义,通过消除不相关数据以达到对初始数据流的压缩。源编码常常是有损方法,其原始数据流与已编码的数据流相似但不相同。 (3) 混合编码详细内容 混合编码是熵编码和源编码技术的组合,通常是几种不同的熵编码和源编码技术组织在一起构成一种新的混合编码

方法。 3.多媒体数据国际标准 (1) H.261 详细内容 由CCITT (国标电报电话咨询委员会)通过的用于音视频服务的视频编码解码器,主要适用于视频电话和视频电视会议。它使用一帧中的有损压缩和用于帧间压缩的无损编码两种类型的压缩,并在此基础上使编码器采用带有运动估计的DCT (离散余弦变换)和DPCM 的混合方式。 2) JPEG 详细内容 JPEG (Joint Photographic Experts Group )联合图像专家组,是一种基于DCT (离散余弦变换)的静止图像压缩和解压缩算法,它由ISO (国际标准化组织)和CCITT (国标电报电话咨询委员会)共同制定,并在1992 年后被广泛采纳后成为国际标准。用于连续色调、多级灰度、彩色/ 单色静态图像压缩 (3) 混合编码详细内容 MPEG 是Moving Pictures Experts Group (动态图像专家组)的英文所写,实际上是指一组由ITU 和ISO 制定发布的视频、音频数据的压缩标准。包括MPEG 视频、MPEG 音频和MPEG 系统(视音频同步)三个部分。MPEG 压缩标准是针对运动图像而设计的,基本方法是:在单位时间

信息压缩与编码概述

多媒体压缩与编码概述 一、多媒体数据压缩技术 随着多媒体、视频图象、文档映象等技术的出现,数据压缩成了网络管理员的一个重要课题。数据压缩基本上是挤压数据使得它占用更少的磁盘存储空间和更短的传输时间。压缩的依据是数字数据中包含大量的重复,它将这些重复信息用占用空间较少的符号或代码来代替。 多媒体数据之所以能够压缩,是因为视频、图像、声音这些媒体具有很大的压缩力。以目前常用的位图格式的图像存储方式为例,在这种形式的图像数据中,像素与像素之间无论在行方向还是在列方向都具有很大的相关性,因而整体上数据的冗余度很大;在允许一定限度失真的前提下,能对图像数据进行很大程度的压缩。 在多媒体计算系统中,信息从单一媒体转到多种媒体;若要表示,传输和处理大量数字化了的声音/图片/影像视频信息等,数据量是非常大的。例如,一幅具有中等分辨率(640*480像素)真彩色图像(24位/像素),它的数据量约为每帧7.37Mb。若要达到每秒25帧的全动态显示要求,每秒所需的数据量为184Mb,而且要求系统的数据传输速率必须达到184Mb/s,这在目前是无法达到的。对于声音也是如此。若用16位/样值的PCM编码,采样速率选为44.1kHz,则双声道立体声声音每秒将有176KB的数据量。由此可见音频、视频的数据量之大。如果不进行处理,计算机系统几乎无法对它进行存取和交换。因此,在多媒体计算机系统中,为了达到令人满意的图像、视频画面质量和听觉效果,必须解决视频、图像、音频信号数据的大容量存储和实时传输问题。解决的方法,除了提高计算机本身的性能及通信信道的带宽外,更重要的是对多媒体进行有效的压缩。 二、数据压缩技术的分类 数据压缩的分类方法繁多。有人统计,仔细分来可达30至40种,到目前为止尚未统一。多数学者认同的比较一致的分类方法,是将数据压缩分为在某种程度上可逆的与实际上不可逆的两类,这样更能说明他们的区别。 (1)可逆压缩 可逆压缩也叫做无失真编码或无造神编码,而不同专业文献作者还采用了另一些术语。香农在创立信息论时,提出把数据看做是信息和冗余的组合。冗余度压缩的工作机理,是去除(至少是减少)那些可能是后来插入数据中的冗余度,因而始终是一个可逆的过程。(2)不可逆压缩 不可逆压缩就是有失真的编码,信息论中叫熵压缩。 熵压缩的一个简单的例子,是在检测采样值设置某个门限;只有当采样值超过指定的门限时,才传输数据。如果这种事件不常出现,就会实现信号空间的较大压缩,但是记得原始采样值就不可能精确恢复。即丢失了信息。 根据编码原理进行分类,大致有编码、变换编码、统计编码、分析-合成编码、混合编码和其他一些编码方法。其中统计编码是无失真的编码,其他编码方法基本上都是有失真的编码。 预测编码是针对空间冗余的压缩方法,其基本思想是利用已被编码的点的数据值,预测邻近的一个像素点的数据值。预测根据某个模型进行。如果模型选取得足够好的话,则只需存储和传输起始像素和模型参数就可代表全部数据了。按照模型的不同,预测编码又可分为线性预测、帧内预测和帧间预测。 变换编码也是针对空间冗余和时间冗余的压缩方法。其基本思想是将图像的光强矩阵

数据压缩与信源编码第五章

第五章 1、(a)人类视觉特性中空间频率灵敏度、对比度灵敏度和色彩灵敏度分别表示什么意思?答:空间:从空间频率域来看,人眼是一个低通型线性系统,分辨景物的能力是有限的。由于瞳孔有一定的几何尺寸和一定的光学像差,视觉细胞有一定的大小,所以人眼的分辨率不可能是无穷的,HVS对太高的频率不敏感。对比度:它是相对于亮度变化的一种量度,一般来讲它与激励信号的相对亮度幅度成正比,它与激励的颜色、空间频率和时间频率有关。色彩:这是人类的一中明视觉,基本参数有色调。亮度和饱和度。 (b)JPEG编码算法是如何利用这些灵敏度特性的? 答:JPEG压缩编码算法的主要计算步骤如下:用正向离散余弦变换(FDCT)把空间域图变成频率域图;用加权函数对DCT系数量化,以使人的视觉系统最佳,Z字形扫描(zigzag scan);用差分脉冲编码调制(DPCM)对直流系数(DC)编码;用行程长度编码(RLE)对交流系数(AC)编码;熵编码:使用霍夫曼可变字长编码器进行编码;组成位数据流,以形成帧图像 2、(a)图像编码算法常用的知名算法有那些? 答:行程编码压缩算法、哈夫曼编码压缩算法、LZW压缩算法及离散余弦变换 (b)图像编码算法的关键技术有那些? 答: (c)为什么图像可以进行压缩? 答:数字图像如果不进行压缩,数据量是比较大的,这无疑对图像的存储、处理、传送带来很大的困难。事实上,在图像像素之间,无论在行方向还是列方向,都存在一定的相关性。也就是说,在一般图像中都存在很大的相关性,即冗余度。静态图像数据的冗余包括:空间冗余、时间冗余、结构冗余、知识冗余和视觉冗余、图像区域的相同性冗余、纹理的统计冗余等。图像压缩编码技术就是利用图像数据固有的冗余性和相干性,将一个大的图像数据文件转换为较小的同性质的文件。根据压缩后文件能否准确恢复原文件,将图像压缩编码技术分为无失真编码技术和有失真编码技术。 (d)就现有图像压缩技术而言,压缩比多大时仍然可以保持良好的图像质量? 答:5:1 3、(a)画出JPEG图像编解码算法的框图,并详细解释其算法; 答:图片共享到群里 详解:1)整个文件的大体结构JFIF格式的JPEG文件(*.jpg)的一般顺序为:SOI(0xFFD8) APP0(0xFFE0) [APPn(0xFFEn)]可选DQT(0xFFDB) SOF0(0xFFC0) DHT(0xFFC4) SOS(0xFFDA) 压缩数据EOI(0xFFD9) 2)字的高低位问题JPEG文件格式中,一个字(16位)的存储使用的是Motorola 格式, 而不是Intel 格式。也就是说, 一个字的高字节(高8位)在数据流的前面, 低字节(低8位)在数据流的后面,与平时习惯的Intel格式不一样。. 3)读出哈夫曼表数据a)理论说明在标记段DHT内,包含了一个或者多个的哈夫曼表。对于单一个哈夫曼表,应该包括了三部分:1哈夫曼表ID和表类型这个字节的值为一般只有四个0x00、0x01、0x10、0x11。0x00表示DC直流0号表;0x01表示DC直流1号表;0x10表示AC交流0号表;0x11表示AC交流1号表。2不同位数的码字数量,JPEG文件的哈夫曼编码只能是1~16位。这个字段的16个字节分别表示1~16位的编码码字在哈夫曼树中的个数。3编码内容这个字段记录了哈夫曼树中各个叶子结点

视频编码与压缩技术发展史

视频编解码与压缩技术发展史 杨超2009级计算机科学与技术2班200930583011 【摘要】:正1两个阶段网络视频是多媒体技术与互联网技术相结合的产物,其发展可分为两个阶段:非流式传输阶段与流式传输阶段。在非流式传输阶段,受到互联网带宽、传输技术及多媒体技术的制约,用户通过网络体验多媒体应用必须将全部的媒体文件下载完毕,而后在本地运行。虽然在此过程中需要应用网络环境及多媒体技术,但其漫长的下载速度让人无法忍受,故衍生出流式传输方法,以及各种视频压缩技术 【关键词】:多媒体技术非流式传输网络环境流媒体技术网络视频多媒体应用互联网技术相结合流媒体传输阶段视频压缩 编码技术的两个阶段 网络视频是多媒体技术与互联网技术相结合的产物,其发展可分为两个阶段:非流式传输阶段与流式传输阶段。 在非流式传输阶段,受到互联网带宽、传输技术及多媒体技术的制约,用户通过网络体验多媒体应用必须将全部的媒体文件下载完毕,而后在本地运行。虽然在此过程中需要应用网络环境及多媒体技术,但其漫长的下载等待过程往往使人心烦不已。随着应用的推动,技术的进步,流式传输阶段应需而至。 流式传输阶段是在多媒体技术和网络传输技术进步的条件下产生,它的主要特征是采用了流媒体技术(Streaming Media)——在网络上的多媒体内容经算法压缩、编码后以基数据流的形式传输,配合特定的网络控制和辅助协议,利用缓冲技术,在客户端只获取部分数据情况下,实现无间断实时顺序播放。作为一种新兴的网络技术,流媒体传输涵盖了数据采集、视/音频编解码、存储、传输、播放等多个学科,是现代网络、多媒体及相关技术的综合应用。 标准的历史演进 作为一种多学科技术综合应用的实践,流媒体的发展经历了漫长的历程,直到现在,仍然是非流式传输与流式传输并存。在流媒体传输众多的技术当中,编/解码、压缩技术的地位十分关键,其发展对网络多媒体应用有着重要推动作用。 1988年,国际标准化组织(ISO/IEC)的活动图像编码专家组(MPEG)成立,目的在于制定“活动图像和音频编码”标准。 1993年,MPEG推出其第一个国际标准MPEG-1(用于VCD和MP3格式的压缩编码); 1994年,MPEG-2标准出台(DVD的编码标准),带动了广播级的数字电视的发展。 到1999年,MPEG-4标准的第一版出台,由于它提供了低码率、高质量的音视频压缩、编码方案,推动了网络视频的进一步发展,而后续MPEG小组与ITU-T合作推出的MPEG/AVC/H.264标准相比之前的编码、压缩标准更是可以减省50%的码率,能在更窄的带宽条件下实现高质量的流媒体播放效果,这使其风靡全球。与此同时,国际电信联盟(ITU-T)的视频编码专家组(VCEG)也推出了H.261、H.263等压缩,编/解码国际标准,旨在推动视讯电话和视频会议的发展。而H.323与H.324

图像编码与压缩技术

图像编码与压缩技术 摘要:本文首先介绍了图像编码的可行性,随后阐述了图像编码压缩的发展历程,介绍了图像编码压缩的方法,并对图像压缩方法进行了比较,最后对图像编码压缩技术进行了展望。 Abstract In this paper, we first introduce the feasibility of image coding, then describes the development process of image coding and compression, image compression coding method is introduced, and the image compression methods are compared, finally, the image compression coding technology is prospected. 关键字:图像编码压缩;变换编码;行程编码;高压缩比 一.引言 图像是客观对象的一种相似性的、生动性的描述或写真,是人类社会活动中最常用的信息载体[1]。据统计,一个人获取的信息大约有75%来自视觉[2],所以说图像对于人类生活来说十分重要,一种好的图像处理方法能使人类生活更加便捷和丰富多彩。图像的大小,图像通过什么方式传输,图像储存在哪里等因素都会引起图像的失真,所以必须对图像进行一些处理,这些处理主要是利用数学运算加工图像,减少图像的失真,便于图像传输和保存,使人们收到清晰的图像。图像编码与压缩技术是数字图像处理最重要的技术之一。 随着科技的快速发展,人们对信息的需求量和质量要求的提高,图像编码与压缩技术变得越来越重要。图像的数据量非常大,因此图像的存储和传输也随着变得困难。利用数字图像编码技术处理图像后,这些问题也就迎刃而解了。图像中包含很多冗余信息,如空间冗余、知识冗余、信息熵冗余、视觉冗余等,而人眼识别不了这种信息,根据这一现象,压缩图像数据的难度不大。 二.图像编码与压缩技术的发展历程 图像编码与压缩技术发展历程现阶段可以分为三个时期。第一阶段,图像编码压缩技术刚刚开始研究,实验设备、技术等方面的并不发达,人们对图像编码压缩的研究重心放在这方面的理论知识上,在实验上的研究进展不大。在这一阶段,许多关于图像编码压缩理论知识方面的研究成果被提出,如霍夫曼(Hufman)编码、预测编码和变换编码[3]。 第二阶段,人们对图像压缩编码的热情日益高涨,意识到仅在纸上推理是远远不够的,研究这们技术的最终目的还是使其能应用到生活实际中来,便捷人们的生活,加上科技的发展,实验条件的改善,此时,研究者们逐渐将重心放在实验中对图像压缩编码的研究。1966年,J.B.O Neal花费大量时间和精力,,通过实验研究分析差分脉冲编码调制和脉冲编码调制,并得出它们之间的差异。在这次实验中的大量实验数据为他之后对线性预测码的研究提供了条件,并取得了很好的成绩,促进了图像编码压缩技术的发展。1969年是数字图像编码与压缩技术发展历史中的一个加速点,在这一年,在众人的呼声中,第一次图像编码会议顺利召开。在这次会议上研究者们相互交流,共同探讨,促进了数字图像编码与压缩技术算法的研究快速发展,人们增强了对数字图像编码压缩的热情。在这次会议之后,许多图像编码压缩方法陆续被成功研究并推行,如离散哈德玛变换、离散斜变换等[4]。这些编码压缩方法在生活被广泛应用,便捷了人们的生活,节约了成本。但是因为实验方面的研究刚刚起步,

相关主题
文本预览
相关文档 最新文档