- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
① 扫描输入文本图像 ② 图像预处理 ③ 图像版面的分析和理解 ④ 图像的行切分和字切分 ⑤ 基于单字图像的特征选择和提取 ⑥ 基于单字图像特征的模式识别 ⑦ 将被分类的模式赋予识别结果 ⑧ 识别结果的编辑修改后处理
从单个字符中提取统 计特征或结构特征,是 整个识别中最重要的步 骤。
特征提取的好坏,直 接决定识别的性能在特 征提取前,常进行归一 化、细化处理。
第7章 模式识别技术
7
7.1.1 印刷体字符识别
1. 识别流程:
① 扫描输入文本图像 ② 图像预处理 ③ 图像版面的分析和理解 ④ 图像的行切分和字切分 ⑤ 基于单字图像的特征选择和提取 ⑥ 基于单字图像特征的模式识别 ⑦ 将被分类的模式赋予识别结果 ⑧ 识别结果的编辑修改后处理
从学习得到的特征库 中找到与待识别字符相 似度高的字符。
然后,对文本区域进行识 别处理,对表格区域进行专 用的表格分析及识别处理, 对图像区域进行简单的压缩 或存储。
第7章 模式识别技术
5
7.1.1 印刷体字符识别
1. 识别流程:
① 扫描输入文本图像 ② 图像预处理 ③ 图像版面的分析和理解 ④ 图像的行切分和字切分 ⑤ 基于单字图像的特征选择和提取 ⑥ 基于单字图像特征的模式识别 ⑦ 将被分类的模式赋予识别结果 ⑧ 识别结果的编辑修改后处理
归一化的相关函数:
R(i,j)取极大值1。
Ri, j
Si, j m, n T m, n
mn
Si, j m, n2 T m, n2
mn
mn
一种模式识别的方法——模板匹配法
模板匹配中常用特征
灰度特征:适用于无变形、无破损的场合。
方向轮廓特征 统计特征 矩特征 局部特征 点特征 Gabor纹理特征 形态特征
① 扫描输入文本图像
通 过 扫 描 仪 、 CCD 或 传 真 机 等 获得,一般是灰度或黑白图像。
② 图像预处理 ③ 图像版面的分析和理解
倾斜校正、去噪、二值化、分 割等。
④ 图像的行切分和字切分
⑤ 基于单字图像的特征选择和提取
⑥ 基于单字图像特征的模式识别
⑦ 将被分类的模式赋予识别结果
⑧ 识别结果的编辑修改后处理
第7章 模式识别技术
4
7.1.1 印刷体字符识别
1. 识别流程:
① 扫描输入文本图像 ② 图像预处理 ③ 图像版面的分析和理解 ④ 图像的行切分和字切分 ⑤ 基于单字图像的特征选择和提取 ⑥ 基于单字图像特征的模式识别 ⑦ 将被分类的模式赋予识别结果 ⑧ 识别结果的编辑修改后处理
首先,对图像进行总结分 析,标示文本的段落,图表, 表格区域。
13
一种模式识别的方法——模板匹配法
相似度度量公式:
D i,
j
MM
S i,
j
m, n
T
m, n2
m1 n1
第7章 模式识别技术
14
一种模式识别的方法——模板匹配法
相似度度量公式:
M
Di, j
M Si, j m, n T m, n2
0R(i, j)1;
m1 n1
Si,j(m,n)=T(m,n);
方向轮廓信息通过字符的外围特征 来描述,符合人的感官认知过程。
根据以上特征,可以检测字符串凹凸结构,结合字符长宽 比来分割单个字符。基本流程如下:1)读取二值化字符图 像;2)上下轮廓求取;3)检测凹结构;4)检测凸结构;5)确 定凹凸结构组;6)切分调整;7)切分图像。
常用的字符切分方法:滴水算法、Viterbi算法、基于细化 的算法、储水区算法、基元合并法和形态检测法等。
质量较低、背景较复杂的字符区域,字符分辨率一般较 低,可能有背景干扰,会造成字符残缺、粘连等现象,需要 进一步采用特定的方法进行单字分割。
第7章 模式识别技术
11
7.1.1 印刷体字符识别
2. 字符切分方法
一串字符存在如下结构和形态特征:1)单个字符长度比例 一致;2)多个数字和英文字符轮廓存在凹凸结构;3)多数 情况下字符不会出现重叠交叉。
为了提高识别速度, 常采用树分类器。
第7章 模式识别技术
8
7.1.1 印刷体字符识别
1. 识别流程:
① 扫描输入文本图像 ② 图像预处理 ③ 图像版面的分析和理解 ④ 图像的行切分和字切分 ⑤ 基于单字图像的特征选择和提取 ⑥ 基于单字图像特征的模式识别 ⑦ 将被分类的模式赋予识别结果 ⑧ 识别结果的编辑修改后处理
第7章 模式识别技术
第7章内容
7.1 字符识别 7.2 车牌识别 7.3 工件识别 7.4 条码识别 7.5 医学图像识别
第7章 模式识别技术
2
7.1 字符识别
印刷体字符识别 手写体字符识别
联机识别 脱机识别
低识
别
难 度 高
第7章 模式识别技术
3
7.1.1 印刷体字符识别
1. 识别流程:
先将图像切割为行(列), 再从字符图像中分离出单个 字符。
当图像质量很差时,不易 进行简单的分割,常与识别 过程相结合。
随着单字识别率的增高, 切割错误在所有错误中占的 比重不断上升,怎样实现字 符的正确分割成为需要认真 解决的问题。
第7章 模式识别技术
6
7.1.1 印刷体字符识别
1. 识别流程:
⑦ 将被分类的模式赋予识别结果
⑧ 识别结果的Байду номын сангаас辑修改后处理
第7章 模式识别技术
10
7.1.1 印刷体字符识别
2. 字符切分的方法
目前,字符识别的方法大多停留在单字识别上,因此需 要对获得的字符区域进行二次分割,以得到单个的字符区域。
正常情况下的高质量图像字符区域,采用形态分割的方 法就可以将单字区域分割出来。例如,采用3.5节介绍的图 像投影法。
对单字识别的结果, 利用语义、词频、语 义等先验知识进行识 别结果的确认或纠错。
第7章 模式识别技术
9
7.1.1 印刷体字符识别
1. 识别流程:
① 扫描输入文本图像
② 图像预处理
③ 图像版面的分析和理解
④ 图像的行切分和字切分
核
⑤ 基于单字图像的特征选择和提取
心 技
⑥ 基于单字图像特征的模式识别
术
第7章 模式识别技术
12
7.1.1 印刷体字符识别
3. 字符识别方法
识别的方法多集中在 分类器和分类方法上, 包括:模板匹配、神 经网络、聚类支持向 量机等。
广义上,任何一种模 式识别的方法都可以 用来进行字符识别。
开始
模板训练?
模板特征提取
样本特征提取
特征匹配 辨识结果
结束
第7章 模式识别技术