最新奥鹏大工20春《数据挖掘》大作业题目及要求参考答案
- 格式:doc
- 大小:77.50 KB
- 文档页数:5
网络教育学院
《数据挖掘》课程大作业
大工20春《数据挖掘》大作业题目及要求
参考答案
第一大题:讲述自己在完成大作业过程中遇到的困难,解决问题的思路,以及相关感想,或者对这个项目的认识,或者对Python与数据挖掘的认识等等,300-500字。
KNN算法原理相对比较简单,也比较容易理解由于KNN并没有显式的学习过程,因此,当数据量比较大时,相比其他模型,其计算资源和时间的消耗将比较大。由于涉及到距离的计算,当样本的分布密度不均衡时,K值的确定会相对比较麻烦。在编码过程中,我想到了几个问题或者是需要改进的地方:一是数据的降维问题,维数太多可能出现维度灾难,那么在维度达到多少的时候需要降维(这次我没有降维)。二是投票法的问题,当两种标签的训练数据量差别较大时,单纯使用投票法很可能得到错误的标签,应该考虑加权。第三点跟第二点有一定联系,就是两种标签的数据量差距很大的时候,怎样避免过拟合的情况发生。
第二大题:完成下面一项大作业题目。
2020春《数据挖掘》课程大作业
题目一:Knn算法原理以及python实现
一.KNN简介
1.KNN算法也称为K邻近算法,是数据挖掘分类技术之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。
2.KNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的
特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 KNN算法在类别决策时,只与极少量的相邻样本有关。由于KNN算法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。
二.KNN算法介绍
KNN的全称是K Nearest Neighbors,意思是K个最近的邻居,从这个名字我们就能看出一些KNN算法的蛛丝马迹了。K个最近邻居,毫无疑问,K的取值肯定是至关重要的。那么最近的邻居又是怎么回事呢?其实啊,KNN的原理就是当预测一个新的值x的时候,根据它距离最近的K个点是什么类别来判断x属于哪个类别。听起来有点绕,还是看看图吧。
KNN原理1
图中绿色的点就是我们要预测的那个点,假设K=3。那么KNN算法就会找到与它距离最近的三个点(这里用圆圈把它圈起来了),看看哪种类别多一些,比如这个例子中是蓝色三角形多一些,新来的绿色点就归类到蓝三角了。
KNN原理2