6-第四章_1 最近邻法

格式：doc
大小：295.01 KB
文档页数：7

下载文档原格式

《模式识别基础》课程标准

《模式识别基础》课程标准（执笔人：刘雨审阅学院：电子科学与工程学院）课程编号：08113英文名称：Pattern Recognition预修课程：高等数学，线性代数，概率论与数理统计，程序设计学时安排：40学时，其中讲授32学时，实践8学时。

学分：2一、课程概述（一）课程性质地位模式识别课基础程是军事指挥类本科生信息工程专业的专业基础课，通信工程专业的选修课。

在知识结构中处于承上启下的重要位置，对于巩固已学知识、开展专业课学习及未来工作具有重要意义。

课程特点是理论与实践联系密切，是培养学生理论素养、实践技能和创新能力的重要环节。

是以后工作中理解、使用信息战中涉及的众多信息处理技术的重要知识储备。

本课程主要介绍统计模式识别的基本理论和方法，包括聚类分析，判别域代数界面方程法，统计判决、训练学习与错误率估计，最近邻方法以及特征提取与选择。

模式识别是研究信息分类识别理论和方法的学科，综合性、交叉性强。

从内涵讲，模式识别是一门数据处理、信息分析的学科，从应用讲，属于人工智能、机器学习范畴。

理论上它涉及的数学知识较多，如代数学、矩阵论、函数论、概率统计、最优化方法、图论等，用到信号处理、控制论、计算机技术、生理物理学等知识。

典型应用有文字、语音、图像、视频机器识别，雷达、红外、声纳、遥感目标识别，可用于军事、侦探、生物、天文、地质、经济、医学等众多领域。

（二）课程基本理念以学生为主体，教师为主导，精讲多练，以用促学，学以致用。

使学生理解模式识别的本质，掌握利用机器进行信息识别分类的基本原理和方法，在思、学、用、思、学、用的循环中，达到培养理论素养，锻炼实践技能，激发创新能力的目的。

（三）课程设计思路围绕培养科技底蕴厚实、创新能力突出的高素质人才的目标，本课程的培养目标是：使学生掌握统计模式识别的基本原理和方法，了解其应用领域和发展动态，达到夯实理论基础、锻炼理论素养及实践技能、激发创新能力的目的。

模式识别是研究分类识别理论和方法的学科，综合性、交叉性强，涉及的数学知识多，应用广。

第四章近邻法则和聚类

按贝叶斯决策法则：按最近邻法则：以概率1决策为m 以概率P(ωm| X)决策为m
当P(ωm| X)接近于1，即当最小错误概率非常小时，近邻法则的结果和最小错误率的Bayes法则的结果几乎相同，而其错误率也比较小，这说明两种方法同样“好”。而当各类的后验概率接近于时，两种决策规则的分类结果就相差比较大了，但两者的错误率都接近 1 1 ， c 说明两种方法同样“坏”。虽然需要更详细的理论分析，但粗略的感觉是：最近邻法则有比较好的结果并不是偶然的。
1 c
4.1.2 K-近邻法则
最近邻法可以扩展成找测试样本的k个最近样本作决策依据的方法。其基本规则是，在所有N个样本中找到与测试样本的k个最近邻者，其中第个个类别所占个数为gi(X),i＝1，…，c，决策规则：
gi ( x) 则决策X∈ω 。如果gj ( x) max i j
k近邻一般采用k为奇数，跟投票表决一样，避免因两种票数相等而难以决策。
譬如A类有10个训练样本，因此有10个模板，B类有8 个训练样本，就有8个模板。任何一个待测试样本在分类时与这18个模板都算一算相似度，如最相似的那个近邻是B类中的一个，就确定待测试样本为B类，否则为A类。因此原理上说近邻法是最简单的。但是近邻法有一个明显的缺点就是计算量大，存储量大，要存储的模板很多，每个测试样本要对每个模板计算一次相似度，因此在模板数量很大时，计算量也很大的。那么有一个如此明显缺点的方法还有没有存在的必要性呢？这就要看其是否有优点，所以对近邻法的优点也要弄清楚。结论是:在模板数量很大时其错误率指标还是相当不错的。这就是说近邻法有存在的必要。
当最近邻法所使用的训练样本数量 N不是很大时，其错误率是带有偶然性的。图中所示一维特征空间中两类别情况。X表示一特测试样本，而X'是所用训练样本集中X的最邻近者，则错误是由X与X'分属不同的类别所引起的。由于X'与所用训练样本集有关，因此错误率有较大偶然性。

近邻法

N A1
（2）采用抽样的办法，使之能自适应选择k；
“科研反哺教学”，将自己的研究工作融入课堂；
6.3.2 核近邻法（续）
贝叶斯决策器
学习方法
4 3 2
分类错误率 5.5% 4.6% 4.1%
KNN （k=3） BKNN 贝叶斯决策器
KNN
1 0 -1
三种方法的分类错误率比较
BKNN
-2 -3 -4 -4
本人解决方案：
NN (Fix, 1951)
KNN (Yu,2002) (Peng,2004) BNN (Homes,2002)
定义最优核距离 (本章) 核化 (本章)
BKNN (本章)
（1）推导出“最优核距离”：
1 rko x , xl rko x, xl N A1 1 NA B x, xi , xl B x, xi , xl N i 1 A i 1
J. Peng. Adaptive Quasiconformal Kernel Nearest Neighbor Classification. IEEE Trans PAMI[J]. 2004, 26(5): 656 - 661.
Rd
x1 , t1 1 x5 , t5 1 1
6.1.1 关于近邻法
1951年Fix和Hodges首次提出
第 w1 类
第 w2 类
最经典的模式识别方法之一方法简单，便于理论分析
x
x1
x4
是其它模式识别方法的标尺
“距离”的度量方式有很多种
近邻法原理示意图
6.1.2 近邻法应用实例：人脸表情识别
欲解决的问题：
七类表情

KNN讲解

成绩和毕业设计成绩4个维度（属性）作为探讨学生就业状态的主要影响因素。
2024/7/18
23
2024/7/18
24
2024/7/18
25
计算相似度
设两个特征向量分别为X=（x1,x2,...,xn）和Y=(y1,y2,...yn)
2024/7/18
26
将需要预测的学生的特征向量与训练集中的所有特征向量，用上述公式计算出距离，将各个距离值排序，将最距离小的排在前面，最后取前k个样本，得出在这k个样本中，国企、外企、私企所占比例，比例最大的就是该预测样本所属于的类别。
2024/7/18
27
传统KNN算法实验结果
2024/7/18
28
2024/7/18
29
2024/7/18
30
改进
1、样本特征加权处理
传统的方法认为样本各个特征（属性）的作用是相同的，即权重相同，无法体现各特征与分类间的关系。如果有些特征与分类相关度很高，有些很低，则其分类误差就会较大。
，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。该算法只计算“最近的”邻居样本，如果某一类的样本数量很大，那么可能目标样本并不接近这类样本，却会将目标样本分到该类下，影响分类准确率。
2024/7/18
14
(3)样本库容量依赖性较强； (4)K值不好确定；
(1)从降低计算复杂度的角度当样本容量较大以及特征属性较多时，KNN算
法分类的效率就将大大降低。可以采用以下方法进行改进。 ✓如果在使用KNN算法之前对样本的属性进行约简，删除那些对分类结果影响较小（不重要）的属性，则可以用KNN算法快速地得出待分类样本的类别，从而可以得到更好的效果。

模式识别_第6章_近邻法

行分类，剪辑掉X(NT)中被错误分类的样本。
, xNT
进
若 y0 ( x ) X ( NR)是 x X ( NT )的最近邻元，剪辑掉
11
从上面可以看出近邻法有方法简单的优点，但也存在这一些缺点：（1）存储量和计算量都很大；（2）没有考虑决策的风险，如果决策的错误代价很大时，会产生很大的风险；（3）以上的分析——渐近平均错误率，都是建立在样本数趋向无穷大的条件下得来的，在实际应用时大多是无法实现的。
12
6.3 改进的近邻法
13
6.2 剪辑最近邻方法
对于两类问题，设将已知类别的样本集X(N)分成参
照集X(NR)和测试集X(NT)两部分，X(NR)X(NT)=，
它们的样本数各为NR和NT，NR+NT=N。利用
参照集X(NR) y中的样本 , yNR 1 , y2 , 采用最近邻规则对
已知类别的测试集X(NT)中的每个样本 x1 , x2 ,
(6) 判xω 2 (5)看xm属于哪一类：xmω 2
4
(4)找出最小距离 dm(x)=min{di(x)}
最近邻方法
NN 分类思想: k-NN
6.1 最近邻决策规则—kN Ni
i 1 c
对待识别模式 x, 分别计算它与
个已知类别的样本 x
(i ) j的距离,取k个最近邻样本,这
k个样本中哪一类最多, 就判属哪一类。
N
lim P(i x N ) P(i x )
7
最近邻法则可以看成是一个随机化决策 —— 按照概率 P(i x) 来决定 x 的类别。定义：
P(m x) max P(i x)
i 1,2,
,c
按最小错误率的Bayes决策法则：以概率1决策 m ；按最近邻决策法则：以概率的后验概率分别为

最近邻法和k-近邻法

最近邻法和k-近邻法一.基本概念：最近邻法：对于未知样本x，比较x与N个已知类别的样本之间的欧式距离，并决策x 与距离它最近的样本同类。

K近邻法：取未知样本x的k个近邻，看这k个近邻中多数属于哪一类，就把x归为哪一类。

K取奇数，为了是避免k1=k2的情况。

二.问题分析：要判别x属于哪一类，关键要求得与x最近的k个样本（当k=1时，即是最近邻法），然后判别这k个样本的多数属于哪一类。

可采用欧式距离公式求得两个样本间的距离s=sqrt（（x1-x2）^2+(y1-y2)^2）三.算法分析：该算法中任取每类样本的一半作为训练样本，其余作为测试样本。

例如iris中取每类样本的25组作为训练样本，剩余25组作为测试样本，依次求得与一测试样本x距离最近的k 个样本，并判断k个样本多数属于哪一类，则x就属于哪类。

测试10次，取10次分类正确率的平均值来检验算法的性能。

四.MATLAB代码：最近邻算实现对Iris分类clc;totalsum=0;for ii=1:10data=load('iris.txt');data1=data(1:50,1:4);%任取Iris-setosa数据的25组rbow1=randperm(50);trainsample1=data1(rbow1(:,1:25),1:4);rbow1(:,26:50)=sort(rbow1(:,26:50));%剩余的25组按行下标大小顺序排列testsample1=data1(rbow1(:,26:50),1:4);data2=data(51:100,1:4);%任取Iris-versicolor数据的25组 rbow2=randperm(50); trainsample2=data2(rbow2(:,1:25),1:4);rbow2(:,26:50)=sort(rbow2(:,26:50));testsample2=data2(rbow2(:,26:50),1:4);data3=data(101:150,1:4);%任取Iris-virginica数据的25组rbow3=randperm(50);trainsample3=data3(rbow3(:,1:25),1:4);rbow3(:,26:50)=sort(rbow3(:,26:50));testsample3=data3(rbow3(:,26:50),1:4);trainsample=cat(1,trainsample1,trainsample2,trainsample3);%包含75组数据的样本集testsample=cat(1,testsample1,testsample2,testsample3);newchar=zeros(1,75);sum=0;[i,j]=size(trainsample);%i=60,j=4[u,v]=size(testsample);%u=90,v=4for x=1:ufor y=1:iresult=sqrt((testsample(x,1)-trainsample(y,1))^2+(testsample(x,2)-trainsample(y,2))^2+(testsampl e(x,3)-trainsample(y,3))^2+(testsample(x,4)-trainsample(y,4))^2); %欧式距离newchar(1,y)=result;end;[new,Ind]=sort(newchar);class1=0;class2=0;class3=0;if Ind(1,1)<=25class1=class1+1;elseif Ind(1,1)>25&&Ind(1,1)<=50class2=class2+1;elseclass3=class3+1;endif class1>class2&&class1>class3m=1;ty='Iris-setosa';elseif class2>class1&&class2>class3m=2;ty='Iris-versicolor';elseif class3>class1&&class3>class2m=3;ty='Iris-virginica';elsem=0;ty='none';endif x<=25&&m>0disp(sprintf('第%d组数据分类后为%s类',rbow1(:,x+25),ty));elseif x<=25&&m==0disp(sprintf('第%d组数据分类后为%s类',rbow1(:,x+25),'none'));endif x>25&&x<=50&&m>0disp(sprintf('第%d组数据分类后为%s类',50+rbow2(:,x),ty));elseif x>25&&x<=50&&m==0disp(sprintf('第%d组数据分类后为%s类',50+rbow2(:,x),'none'));endif x>50&&x<=75&&m>0disp(sprintf('第%d组数据分类后为%s类',100+rbow3(:,x-25),ty));elseif x>50&&x<=75&&m==0disp(sprintf('第%d组数据分类后为%s类',100+rbow3(:,x-25),'none'));endif (x<=25&&m==1)||(x>25&&x<=50&&m==2)||(x>50&&x<=75&&m==3)sum=sum+1;endenddisp(sprintf('第%d次分类识别率为%4.2f',ii,sum/75)); totalsum=totalsum+(sum/75);enddisp(sprintf('10次分类平均识别率为%4.2f',totalsum/10));测试结果：第3组数据分类后为Iris-setosa类第5组数据分类后为Iris-setosa类第6组数据分类后为Iris-setosa类第7组数据分类后为Iris-setosa类第10组数据分类后为Iris-setosa类第11组数据分类后为Iris-setosa类第12组数据分类后为Iris-setosa类第14组数据分类后为Iris-setosa类第16组数据分类后为Iris-setosa类第18组数据分类后为Iris-setosa类第19组数据分类后为Iris-setosa类第20组数据分类后为Iris-setosa类第23组数据分类后为Iris-setosa类第24组数据分类后为Iris-setosa类第26组数据分类后为Iris-setosa类第28组数据分类后为Iris-setosa类第30组数据分类后为Iris-setosa类第31组数据分类后为Iris-setosa类第34组数据分类后为Iris-setosa类第37组数据分类后为Iris-setosa类第39组数据分类后为Iris-setosa类第41组数据分类后为Iris-setosa类第44组数据分类后为Iris-setosa类第45组数据分类后为Iris-setosa类第49组数据分类后为Iris-setosa类第51组数据分类后为Iris-versicolor类第53组数据分类后为Iris-versicolor类第54组数据分类后为Iris-versicolor类第55组数据分类后为Iris-versicolor类第57组数据分类后为Iris-versicolor类第58组数据分类后为Iris-versicolor类第59组数据分类后为Iris-versicolor类第60组数据分类后为Iris-versicolor类第61组数据分类后为Iris-versicolor类第62组数据分类后为Iris-versicolor类第68组数据分类后为Iris-versicolor类第70组数据分类后为Iris-versicolor类第71组数据分类后为Iris-virginica类第74组数据分类后为Iris-versicolor类第75组数据分类后为Iris-versicolor类第77组数据分类后为Iris-versicolor类第79组数据分类后为Iris-versicolor类第80组数据分类后为Iris-versicolor类第84组数据分类后为Iris-virginica类第85组数据分类后为Iris-versicolor类第92组数据分类后为Iris-versicolor类第95组数据分类后为Iris-versicolor类第97组数据分类后为Iris-versicolor类第98组数据分类后为Iris-versicolor类第99组数据分类后为Iris-versicolor类第102组数据分类后为Iris-virginica类第103组数据分类后为Iris-virginica类第105组数据分类后为Iris-virginica类第106组数据分类后为Iris-virginica类第107组数据分类后为Iris-versicolor类第108组数据分类后为Iris-virginica类第114组数据分类后为Iris-virginica类第118组数据分类后为Iris-virginica类第119组数据分类后为Iris-virginica类第124组数据分类后为Iris-virginica类第125组数据分类后为Iris-virginica类第126组数据分类后为Iris-virginica类第127组数据分类后为Iris-virginica类第128组数据分类后为Iris-virginica类第129组数据分类后为Iris-virginica类第130组数据分类后为Iris-virginica类第133组数据分类后为Iris-virginica类第135组数据分类后为Iris-virginica类第137组数据分类后为Iris-virginica类第138组数据分类后为Iris-virginica类第142组数据分类后为Iris-virginica类第144组数据分类后为Iris-virginica类第148组数据分类后为Iris-virginica类第149组数据分类后为Iris-virginica类第150组数据分类后为Iris-virginica类k近邻法对wine分类：clc;otalsum=0;for ii=1:10 %循环测试10次data=load('wine.txt');%导入wine数据data1=data(1:59,1:13);%任取第一类数据的30组rbow1=randperm(59);trainsample1=data1(sort(rbow1(:,1:30)),1:13);rbow1(:,31:59)=sort(rbow1(:,31:59)); %剩余的29组按行下标大小顺序排列testsample1=data1(rbow1(:,31:59),1:13);data2=data(60:130,1:13);%任取第二类数据的35组rbow2=randperm(71);trainsample2=data2(sort(rbow2(:,1:35)),1:13);rbow2(:,36:71)=sort(rbow2(:,36:71));testsample2=data2(rbow2(:,36:71),1:13);data3=data(131:178,1:13);%任取第三类数据的24组rbow3=randperm(48);trainsample3=data3(sort(rbow3(:,1:24)),1:13);rbow3(:,25:48)=sort(rbow3(:,25:48));testsample3=data3(rbow3(:,25:48),1:13);train_sample=cat(1,trainsample1,trainsample2,trainsample3);%包含89组数据的样本集test_sample=cat(1,testsample1,testsample2,testsample3); k=19;%19近邻法newchar=zeros(1,89);sum=0;[i,j]=size(train_sample);%i=89,j=13[u,v]=size(test_sample);%u=89,v=13for x=1:ufor y=1:iresult=sqrt((test_sample(x,1)-train_sample(y,1))^2+(test_sample(x,2)-train_sample(y,2))^2+(test_ sample(x,3)-train_sample(y,3))^2+(test_sample(x,4)-train_sample(y,4))^2+(test_sample(x,5)-train _sample(y,5))^2+(test_sample(x,6)-train_sample(y,6))^2+(test_sample(x,7)-train_sample(y,7))^2+ (test_sample(x,8)-train_sample(y,8))^2+(test_sample(x,9)-train_sample(y,9))^2+(test_sample(x,10)-train_sample(y,10))^2+(test_sample(x,11)-train_sample(y,11))^2+(test_sample(x,12)-train_sa mple(y,12))^2+(test_sample(x,13)-train_sample(y,13))^2); %欧式距离newchar(1,y)=result;end;[new,Ind]=sort(newchar); class1=0; class 2=0; class 3=0;for n=1:kif Ind(1,n)<=30class 1= class 1+1;elseif Ind(1,n)>30&&Ind(1,n)<=65class 2= class 2+1;elseclass 3= class3+1;endendif class 1>= class 2&& class1>= class3m=1;elseif class2>= class1&& class2>= class3m=2;elseif class3>= class1&& class3>= class2m=3;endif x<=29disp(sprintf('第%d组数据分类后为第%d类',rbow1(:,30+x),m));elseif x>29&&x<=65disp(sprintf('第%d组数据分类后为第%d类',59+rbow2(:,x+6),m));elseif x>65&&x<=89disp(sprintf('第%d组数据分类后为第%d类',130+rbow3(:,x-41),m));endif (x<=29&&m==1)||(x>29&&x<=65&&m==2)||(x>65&&x<=89&&m==3)sum=sum+1;endenddisp(sprintf('第%d次分类识别率为%4.2f',ii,sum/89));totalsum=totalsum+(sum/89);enddisp(sprintf('10次分类平均识别率为%4.2f',totalsum/10));第2组数据分类后为第1类第4组数据分类后为第1类第5组数据分类后为第3类第6组数据分类后为第1类第8组数据分类后为第1类第10组数据分类后为第1类第11组数据分类后为第1类第14组数据分类后为第1类第19组数据分类后为第1类第20组数据分类后为第3类第21组数据分类后为第3类第22组数据分类后为第3类第26组数据分类后为第3类第27组数据分类后为第1类第28组数据分类后为第1类第30组数据分类后为第1类第33组数据分类后为第1类第36组数据分类后为第1类第37组数据分类后为第1类第43组数据分类后为第1类第44组数据分类后为第3类第45组数据分类后为第1类第46组数据分类后为第1类第49组数据分类后为第1类第52组数据分类后为第1类第54组数据分类后为第1类第56组数据分类后为第1类第57组数据分类后为第1类第60组数据分类后为第2类第61组数据分类后为第3类第63组数据分类后为第3类第65组数据分类后为第2类第66组数据分类后为第3类第67组数据分类后为第2类第71组数据分类后为第1类第72组数据分类后为第2类第74组数据分类后为第1类第76组数据分类后为第2类第77组数据分类后为第2类第79组数据分类后为第3类第81组数据分类后为第2类第82组数据分类后为第3类第83组数据分类后为第3类第84组数据分类后为第2类第86组数据分类后为第2类第87组数据分类后为第2类第88组数据分类后为第2类第93组数据分类后为第2类第96组数据分类后为第1类第98组数据分类后为第2类第99组数据分类后为第3类第104组数据分类后为第2类第105组数据分类后为第3类第106组数据分类后为第2类第110组数据分类后为第3类第113组数据分类后为第3类第114组数据分类后为第2类第115组数据分类后为第2类第116组数据分类后为第2类第118组数据分类后为第2类第122组数据分类后为第2类第123组数据分类后为第2类第124组数据分类后为第2类第133组数据分类后为第3类第134组数据分类后为第3类第135组数据分类后为第2类第136组数据分类后为第3类第139组数据分类后为第3类第140组数据分类后为第3类第142组数据分类后为第3类第144组数据分类后为第2类第145组数据分类后为第1类第146组数据分类后为第3类第148组数据分类后为第3类第149组数据分类后为第2类第152组数据分类后为第2类第157组数据分类后为第2类第159组数据分类后为第3类第161组数据分类后为第2类第162组数据分类后为第3类第163组数据分类后为第3类第164组数据分类后为第3类第165组数据分类后为第3类第167组数据分类后为第3类第168组数据分类后为第3类第173组数据分类后为第3类第174组数据分类后为第3类五：问题和收获：该算法的优缺点总结为：优点：算法简单且识别率较高；缺点：算法需要计算未知样本x与周围每个样本的距离，然后排序选择最近的k个近邻，计算量和时间复杂度高。

近邻法

i

则有Bayes条件错误率
P * (e | x) 1 P(m | x)
因此 P* P * (e | x) p ( x) dx

对于两类问题，由前面公式
N
lim PN (e | x) 1 P (i | x)
2 i 1
2
4.5.1最近邻法二、最近邻法的错误率分析
4.5.1最近邻法二、最近邻法的错误率分析
图4.14示出近邻法的上下界。一般地，最近邻法的错误率落在图中的阴影区域中。 c类别最近邻
分类器可能渐近误差率
4.5.1最近邻法二、最近邻法的错误率分析

4.5.1最近邻法二、最近邻法的错误率分析

可以证明以下关系式成立
c P* P P * (2 P*) c 1

其中P*为贝叶斯错误率，c为类数。
上式实际上给出了最近邻法渐近平均错误率P的范围，指出它在Bayes错误率P* c 和 P * (2 P*) 之间。 c 1

4.5.1最近邻法二、最近邻法的错误率分析
c i 1
知样本x，只要比较x与 N N i 个已知类别的样本之间的欧氏距离，并决策x与离它最近的样本同类。
4.5.1最近邻法
二、最近邻法的错误率分析

近邻法的错误率很难计算，因为训练样本集的数量总是有限的，有时多一个少一个训练样本对测试样本分类的结果影响很大。如图中所示
4.5.1最近邻法二、最近邻法的错误率分析
P* P * (e | x) p(x)dx [1 P(m | x)] p(x)dx 0
此时P = P*。
4.5.1最近邻法二、最近邻法的错误率分析

机器学习理论与方法知到章节答案智慧树2023年同济大学

机器学习理论与方法知到章节测试答案智慧树2023年最新同济大学第一章测试1.机器学习是研究发现数据模型的算法并利用这些模型做出决策。

（）参考答案:对2.机器学习通常要经过数据选择，模型训练，模型优化矫正等过程。

（）参考答案:对3.决策树模型是一种典型的聚类模型。

（）参考答案:错4.决策树是随机森林模型的子结构。

（）参考答案:对5.以下哪种情况适合使用SVM算法（）。

参考答案:单细胞分类6.关于机器学习的基本流程，下列顺序正确的是（）。

参考答案:建模—评价—改进7.监督式学习根据输出形式可分为（）。

参考答案:分类和回归8.机器学习根据学习方式可分为（）。

参考答案:监督学习;无监督学习;强化学习;半监督学习9.朴素贝叶斯适合下列哪种场景分析（）。

参考答案:消费者细分;情感分析10.机器学习根据模型性质可分为（）。

参考答案:非线性模型;线性模型第二章测试1.若非零矩阵A满足A=O，则A+E与A-E均可逆（）参考答案:对2.矩阵的特征值为（）参考答案:-13.设P(A)=0.4，P(B)=0.7，事件A，B相互独立，则P(B-A)=（）参考答案:0.424.已知离散型随机变量X可取值{-3,-1,0,2},且取这些值的概率依次为，则b的取值为2 （）参考答案:对5.若随机变量X服从N(5,4)的分布，若P(X＞c)=P(X＜c)，则c=（）参考答案:56.事件A，B，C至少有一个发生可以表示为。

（）参考答案:对7.事件A与B互不相容，是指P(AB)=P(A)P(B) 。

( )参考答案:对8.下列关于矩阵的运算法则正确的是（）。

参考答案:(AB)C=A(BC);(A+B)C=AC+BC;(A t)t=A9.假设A和B都是同阶可逆矩阵，且A为对称矩阵，则下列等式成立的为（）。

参考答案:(AB t)-1=A-1(B-1)t10.假设感染了新冠病毒的病人中感到身体发热的概率为0.88，病人感染新冠病毒的概率为0.001，病人发热的概率为0.02，则如果检测到一个病人发热，则判断他感染了新冠病毒的概率为（）。

模式识别(6)近邻法

§6.2 k－近邻法
从样本点x开始生长，不断扩大区域，直到包含进k个训练样本点为止，并且把测试样本点x的类别归为这最近的k个训练样本点中出现频率最大的类别。
k－近邻法的错误率
最近邻法和k-近邻法的错误率上下界都是在一倍到两倍贝叶斯决策方法的错误率范围内。
在k →∞的条件下，k-近邻法的错误率要低于最近邻法。在k →∞的条件下，k-近邻法的错误率等于贝叶斯误差率。
1按近邻法分类这两类最多有多少个分界面2画出实际用到的分界面b2a2b3b4b1a3a1?按最近邻法对任意两个由不同类别的训练样本构成的样本对如果它们有可能成为测试样本的近邻则它们构成一组最小距离分类器它们之间的中垂面就是分界面因此由三个a类与四个b类训练样本可能构成的分界面最大数量为3412
模式识别
➢从以上讨论可以看出，当N→∞时，最近邻法的渐近平均错误率的下界是贝叶斯错误率，这发生在样本对某类别后验概率处处为1的情况或各类后验概率相等的情况。
最近邻法的错误率
最近邻法的错误率
最近邻法的错误率高于贝叶斯错误率，可以证明
以下关系式成立：
P* P P*(2 C P*) C 1
最近邻法的错误率
有以下两种例外情况△P＝0：
P(ω1|X)＝1 P(ω1|X)＝P(ω2|X)＝1/2。
最近邻法的错误率
请想一下，什么情况下P(ω1|X)＝1或P(ω2|X)=1? P(ω1|X)= P(ω2|X)会出现什么什么情况？
➢一般来说，在某一类样本分布密集区，某一类的后验概率接近或等于1。此时，基于最小错误率贝叶斯决策基本没错，而近邻法出错可能也很小。 ➢而后验概率近似相等一般出现在两类分布的交界处，此时分类没有依据，因此基于最小错误率的贝叶斯决策也无能为力了，近邻法也就与贝叶斯决策平起平坐了。

近邻法

快速搜索近邻法，包括两个阶段：
1. 样本集的分级分解 2. 搜索
改进方法
其基本思想是将样本集按邻近关系分解成组，其基本思想是将样本集按邻近关系给出每组的质心所在，以及组内样本至该质心给出每组的的最大距离。这些组又可形成层次结构，即组又分子组，因而待识别样本可将搜索近邻的范围从某一大组，逐渐深入到其中的子组，直至树的叶结点所代表的组，确定其相邻关系。这种方法着眼于只解决减少计算量，但没有达到减少存储量的要求。
k k
4
决策规则
if g j (x ) = min gi (x ) then x ∈ ω j
i
NNC
最近邻法在原理上最直观，方法上也十分简单，明显的缺点就是计算量大，存储量大。 ‖·‖ 表示某种距离（相似性）度量，常用欧氏距离作为相似性度量。
5
最近邻法错误率分析
C P ≤ P ≤ P (2 − P* ) C −1
D ( x, M p ) > B + D ( x i , M p )
改进方法
则xi不是x的最近邻
D(xi,Mp)
xi
13
树搜索算法
1. 2. 3. 4. 5.
改进方法
6.
置B=∞，L=0，p=0 将当前结点的所有直接后继结点放入一个目录表中，并对这些结点计算D(x,Mp) 根据规则1从目录表中去掉step2中的某些结点如果目录表已无结点则置L=L-1，如果L=0则停止，否则转Step3。如果目录表有一个以上的结点，则转step5 在目录表中选出最近结点p’为当前执行结点。如果当前的水平 L 是最终水平，则转 Step6 ，否则置 L=L+1 ，转 Step2 对当前执行结点p’中的每个xi，根据规则2决定是否计算 D(x, xi)。若D(x, xi)<B，则置NN=i和B= D(x, xi)，处理完当前执行结点中的每个xi后转Step3 当算法结束时，输出x的最近邻xNN和与xNN的距离B

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

.第四章用距离函数进行模式识别
§1 最小距离分类器 1] 单中心点情况
2
()(21)2
()i j i
T
T
T
T i i
i i i i i j i x x Z x D D D x Z x Z x x Z Z Z ω∀≠<=----⇒∈=-=‖‖
决策函数：)1(2
T
T i i i i Z Z Z d x x =-是x 的线性函数。

()()i j i d x x d j i x ω>∀≠⇒∈
分界面：()()i j d x d x =
2] 多中心点情况
i ω:
i N 个中心，12...i N
i i i Z Z Z ，，
， x 到i ω的距离min ,1,2...l
i l i i x Z D l N -==‖‖
,1()max ()()1,2,...2){()}(i j i
T
l
l T l
i l i
i i i
i j i
j i x x Z z z l N D D d x x d x j x d i ωω∀≠⇒∈=-=>∀≠⇒∈<
3] 最近邻分类器（NNC ）
非参数分类器
()(|)(|)()i i i i x p p x p d x ωωω==
【结论】当样本数趋近于无穷大的时候，X 的最近邻将无限趋近于X ，即：+∞→N ，有：('|)(')lim N N N P X X X X δ→+∞
=-
证明：当+∞→N 时，X 的最近邻'N X 落在以X 为中心的球Ps 内的概率为： (')'0N N Ps P X dX =>⎰
一个样本在球Ps 外的概率为：(1)Ps - N 个独立样本在球Ps 外的概率为：(1)N
Ps - 当N +∞→时，则0)1(→-Ps N
则结论成立。

NCC 错误率
*
*
*(2)
1
M P P P P M ≤≤-- 其中：*
P 为最小错误率Bayes 分类器的平均错误率； P 为最近邻分类器的平均错误率；
M 为类别数。

证明：(1) Bayes 分类器的平均错误率：
对于单个样本X ，若P(ωb |X )=max P(ωi |X ) i=1,2,…,m 则x ∈ωb 则：P*(e |X)=1- P(ωb |X)
P*=*(|)()[1(|)]()b P e X P X dx P X P X dX ω=-⎰⎰
(2) 最近邻分类器的平均错误率：
(|)(){lim (|)}()N N N P P e X P X dx P e X P X dx ⎰⎰→+∞
==
(|)(|,')('|)'N N N N
N e X e X X P X X dX P
P =⎰
1
(|,')1(|)(|')M N N i i N i P e X X P X P X ωω==-∑
1
11
21
lim (|)lim [1(|)(|')]('|)'
[1(|)(|')]{lim ('|)}'
[1(|)(|')](')'
1(|)
lim ('|)(')
()()M
N i i N N N N N i M
i i N N N N i M
i i N N N i M
i i N N N P e X P X P X P X X dX P X P X P X X dX P X P X X X dX P X P X X X X f x x x dx ωωωωωωδωδδ→+∞
→+∞
=→+∞
===→+∞
=-=-=--=-=--∑⎰∑⎰∑⎰∑0
0()
'N f x x X x X
===⎰
21
[1(|)]()M
i i P P X P X dX ω==-∑⎰
(3) 最近邻分类器的平均错误率一定大于Bayes 分类器的平均错误
率，但有相等的时候。

即：P ≥P* “=”
[A 最容易的情况]
当P(ωb |x)=1 P(ωi |x)=0 i ≠b
Bayes P*=[11]()0P X dX -=⎰
NNC P= 2
[11]()0P X dX -=⎰
[B 最难的情况] 当P(ωi |x)=
M
1
Bayes P*=11[1]()1P X dX M M
-
=-⎰ NNC P=⎰∑-=-M
dx x P M 1
1)(])1(1[2
最容易和最困难的情况，用Bayes 分类器和NNC 分类器具有相同的结果。

(4) 证明
*
*
(2)1
M P P P M ≤-- 21
[1(|)]()M
i i P P X P X dX ω=↑=-∑⎰
即： 222
1
(|)(|)(|)M
i b i i i b
P X P X P X ωωω=≠↓=+↓∑
∑ 约束条件*(|)1(|)(|)b i i b
P e X P X P X ωω≠=-=∑
2(|)[(|)*(|)]
2(|)0
(|)
i i i b
i b
i i J P X P X P e X J P X i b
P X ωλωωλω≠≠↓=--∂=-=≠∂∑∑
当(|)2
i P X i b λ
ω=
≠时 2
(|)i i b
P X ω≠∑↓
(|)(1)
*(|)
2
2*(|)
1
i i b
P X M P e X P e X M λ
ωλ≠=-==
-∑约束条件：得：
2
2222
2
2*(|)
(|)21
(|)(|)(|)*(|)[1*(|)](1)12*(|)*(|)1
i i b
i i b
i b P e X P X i b M P X P X P X P e X P e X M M
P e X P e X M λ
ωωωω≠≠==≠-=+=-+-=-+-∑∑∑当时
取得最小值
21
222
[1(|)]()[2*(|)*(|)]()1
2**(|)()2**
11
M
i i P P X P X dx
M
P e X P e X P X dX
M M M P P e X P X dX P P M M ω==-≤--=-≤---∑⎰⎰⎰ 22
2
**(|)()[*(|)][*(|)*]()*(|)()*0
P P e x P x dx
Var P e x P e x P P x dx P e x P x dx P ==-=-≥⎰⎰⎰
得到：**(2*)1
N M
P P P P M →+∞
≤
≤--
4] K 近邻法(KNNC ，qNNC)
K 个最近邻，K 个近邻中距哪一类样本多，就把X 分到哪一类
5]最近邻点的改进
缺点：存贮量大，计算量大
1．剪辑（Editing ）
(1) N NR NT χχχ=⋃
(2) 以NR χ中样本为标准，对NT χ中样本进行测试，得到NTE χ。

(3) 以NTE χ为样本做NNC 好处：（1）')()(E N N P e P e <
（2）TE N N ↓<↓计算量存储量 2. 凝聚（Condensing ）。