数据挖掘中聚类分析技术的研究与应用
- 格式:pdf
- 大小:110.34 KB
- 文档页数:2
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
科技情报开发与经济
SCI-TECHINFORMATIONDEVELOPMENT&ECONOMY2008年第18卷第6期
TheImplementationofStoreProcedureCalledbytheApplicationPrograminJava
CHANGChun-yan
ABSTRACT:ThispaperintroducessomemethodsforcallingSQLServerstoreprocedureintheapplicationprogram,andgivestheconcreteimplementingproceduresinJavaprogrammingenvironment.KEYWORDS:SQLServer;storeprocedure;Java
出版社,2003:253-254.[2]刘独玉,罗彬.基于MSSQLServer的存储过程的研究与应用[J].四川轻化工学院学报,2001,6(2):25-32.[3]
郭琳.浅谈在ASP中调用SQLServer存储过程[J].四川职业技术学
院学报,2006(4):22-24.
(责任编辑:戚米莎)
───────────────
第一作者简介:常春燕,女,1976年2月生,2006年毕业于中北大学(硕士),助教,太原理工大学轻纺工程与美术学院,山西省晋中市榆次区,030600.
数据挖掘是计算机行业发展最快的领域之一。以前数据挖掘只是结合了计算机科学和统计学而产生的一个让人感兴趣的小领域,如今,它已经迅速扩大成为一个独立的领域。数据挖掘的强大力量之一在于它具有广泛的方法和技术,以应用于大量的问题集。数据挖掘是一个在大型数据集上进行的自然行为,其最大的目标市场应该是整个数据仓库、数据集市和决策支持业界。
1数据挖掘过程
有些人认为数据挖掘只是采摘和应用基于计算机的工具来匹配出
现的问题,并自动获取解决方案,这其实是一种误解。事实上,数据挖掘是一个反复的过程。合理的数据挖掘过程应包括以下步骤:
1.1数据收集
数据收集是关于数据是怎样产生和收集的。数据收集完成后取样的
分布是完全未知的,但我们要理解数据收集是怎样影响它的理论分布的。
1.2
数据预处理
数据预处理包括至少两个常见的任务:
(1)异常点检测。异常点是与众不同的数值,这些数值和大多数观察值不一致。一般来讲,异常点是由测量误差、编码和记录误差产生的,有时也来自于自然的异常值。对异常点有两种处理办法:一是把检测并最终去处异常点作为预处理阶段的一部分;二是寻找不受异常点影响的健壮性建模方法
(2)比例缩放、编码和选择特征。
1.3模型评估
选择并实现适当的数据挖掘技术是这一阶段的主要任务,通过建立
几个模型,并从中选择最好的模型。
1.4解释模型和得出结论
在大多数情况下数据挖掘模型应该有助于决策,因此要对这种模型
进行说明,使模型有用。2数据挖掘技术
数据挖掘技术从传统意义上说是指数据的统计分析技术,数据统计
分析技术的内容多种多样。数据挖掘中采用的传统数据分析技术主要包含线性分析和非线性分析、回归分析、逻辑回归分析、单变量分析、多变量分析、时间序列分析、最近邻算法和聚类分析等。数据挖掘中的现代挖掘技术按照其不同的技术特点,可以分为规则型、神经网络型、遗传算法型和粗糙集型等。
2.1聚类分析
聚类的样本是用度量指标的一个向量表示。同类中的样本比属于不
同类的样本彼此具有更高的相似性。聚类算法尤其适合用来探讨样本间的相互关联关系,从而对一个样本结构做一个初步的评价。
数据挖掘中经常采用的聚类方法有:分层聚类、划分聚类、密度聚类、网格聚类和模型聚类等。
2.2
k_means算法
k_means算法是划分聚类中较流行的一种算法,它是一种迭代的聚
类算法,迭代过程中不断移动簇集中的对象,直至得到理想的簇集为止,每个簇用该簇中对象的平均值来表示。利用k_means算法得到的簇,簇中对象的相似度很高,不同簇中对象之间的相异度也很高。算法的主要步骤为:
(1)从n个数据对象随机选取k个对象作为初始簇中心;(2)计算每个簇的平均值,并用该平均值代表相应的簇;(3)根据每个对象与各个簇中心的距离,分配给最近的簇;
(4)转第二步,重新计算每个簇的平均值。这个过程不断重复直到满足某个准则函数不再明显变化或者聚类的对象不再变化才停止。
一般,k_means算法的准则函数采用平方误差准则,定义为:
E=∑ki=1∑p∈cip-mi
2
其中,E是数据集中所有对象与相应类聚中心的均方差之和,p为给定的数据对象,mi为聚类Ci的均值
(p和m均是多维的)。文章编号:1005-6033(2008)06-0156-02
收稿日期:2007-12-12
数据挖掘中聚类分析技术的研究与应用
刘艳霞
(太原理工大学计算机学院,山西太原,030024;山西大同大学工学院计算中心,山西大同,037003)
摘
要:对数据挖掘中聚类分析方法的概念、功能及其算法做了深入研究,并将其应用
于学生成绩数据管理,对某高职院校学生成绩进行了数据挖掘。关键词:数据挖掘;聚类分析;k_means算法;教学管理中图分类号:TP274
文献标识码:A
156
k_means算法对于大型数据库是相对可伸缩的和高效的,算法的时间复杂度为○(tkn),其中t为迭代次数。一般情况下结束于局部最优解。但是,k_means算法必须在平均值有意义的情况下才能使用,对分类变量不适用,事先还要给定生成簇的个数,对噪声和异常数据比较敏感,不能对非凸面形状的数据进行处理。
3
聚类分析在教学管理中的应用
3.1
高职教学管理简介
我国高职院校大多是从中等专业学校升格而成立的,所以在教学管
理过程中仍部分延用中等专业学校的方法,如有关课程设置的问题中,按照教育部门的规定要设置若干门公共必修课(邓小平理论、外语、高等数学等)。另外,根据专业性质,设置门数不等的专业基础课及专业课,再有实习、课程设计和毕业实习和毕业设计。
在教学质量管理过程中,虽然对每位教师进行工作量、教学质量的评价,但由于专业性质的不同,仅根据学生的考试成绩不能正确评价教师的教学水平,还应该从多方面综合评价。
3.2高职教学管理的数据挖掘问题
目前,高校毕业生的就业压力非常大,所以用人单位在选择毕业生
时除了有一些相关的证书和教师评语外,也非常注重学生的在校学习成绩。教学管理部门对每个学生每学期的成绩加以记录,但并不对其以往的成绩进行统计,以致学生和学校对学生每学期成绩都没有总体上的认识,从而不能真正有针对性地提高教学质量。
此外,由于近年某些行业技术的重大变革,相应的专业课需要做些调整,而两三年前制定的教学大纲明显过时。所以,适时发现学生的特点,给某些成绩非常差的学生提出预警,对特征相似的学生采取更为有效的针对性培养方法,是教学管理者应该面对和解决的问题。
3.3数据准备3.3.1
数据选择
本文所论及的数据挖掘,其数据来源于山西工业职业技术学院2004
级493名高职生前3个学期的学习成绩,数据以书面形式存在。为了保证数据的完整性和准确性,首先必须做好原始数据的选择和整理工作。学生的原始成绩每学期均有7~9门考试或考查课,成绩均为百分制。
3.3.2数据预处理
依据高职院校学生的数据规模,使用MicrosoftSQLServer2000作为
数据挖掘平台。经过对原始数据的整理,包括收集原始数据表并将其转化为数据库的基本表的形式,共13个班级、39张表,每个表对应于一张原始成绩单;将数据表中缺失值给予适当的补值处理;将非百分制课程成绩进行数据转换。
3.3.3建立数据挖掘库
原始数据经过整理后,就可以加载到挖掘库中。以其中的一个班级
(综采G041)的成绩为例进行说明。
第一学期成绩单对应于表zcg0411,其中包括8门课成绩;第二学期成绩单对应于表zcg0412,包括8门课成绩和电工实习和综采电气实习,成绩为等级制;第三学期成绩单对应于表zcg0413,包括6门课成绩和地质课程设计,成绩为等级制。3个学期共计25门课。其他的班级情况与此类似。如果直接将3个学期累计的课程加载到挖掘库中,数据的特征变量较多,分析结果时比较困难,难以寻找规律,所以,根据课程性质将其
分为四大类:公共文科课程、公共理科课程、专业基础课程和专业课,将3个学期的课程分别划归这四大类,再计算其平均值。因为体育课成绩与个人的身体条件有关,所以对其进行了剪枝处理。由于采用基于距离的数据挖掘技术,为便于计算,不至于产生溢出,将百分制的计分采用简单的小数缩放技术进行标准化,之后便可将数据加载至挖掘库中(表wjk),表wjk有6个字段:id:学生学号,字符型,长度为10;name:学生姓名,字符型,长度为8;ggw:公共文科平均成绩,浮点型;ggl:公共理科平均成绩,浮点型;zyjc:专业基础课平均成绩,浮点型;zyk:专业课平均成绩,浮点型。
3.4k_means的应用
利用k_means算法对表wjk进行聚类分析,经过反复对照,最终将聚
类数设置为7,其中:
类1基本对应于学习成绩较差的一类学生,除公共文科外其他科目均不及格;类2基本对应于公共理科成绩较差、其他成绩均为中等的一类学生;类3基本对应于成绩均为最差的一类学生;类4基本对应于专业课较差、其他成绩均为中等的一类学生;类5基本对应于学习成绩较好的一类学生;类6基本对应于专业基础课成绩较差、其他成绩为中等的一类学生;类7基本对应于成绩为中等的一类学生。实例数分别为
61,38,41,77,98,63,115。
从挖掘结果分析,该校学生的公共理科成绩普遍偏低。
4结语
数据挖掘可以从大量的历史数据中提取出可信的、新颖的、有效的
并能被人理解的模式和知识,数据挖掘是一种数据决策形式。将数据挖掘手段应用于教学管理,使得校方更能全面了解学生学习情况,并由此做出必要而有效的决策。
参考文献
[1]MargaretHDunham.DATAMININGintroductoryandAdvancedTopics[M].北京:清华大学出版社,2003:3-17;65;138.[2]邵峰晶,与忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社,2003:203-260.
[3]
陈治国,张春元.基于聚类分析的学生等级制成绩评定方法[J].电
脑知识与技术,2006(1):131-132.
(责任编辑:戚米莎)
───────────────
第一作者简介:刘艳霞,女,1973年12月生,1996年毕业于兰州大学计算数学及其应用软件专业,现为太原理工大学计算机学院2005级硕士研究生,讲师,山西大同大学工学院计算中心,山西省大同市矿区新平旺,037003.
ResearchonandApplicationofClustering
TechnologyinDataMining
LIUYan-xia
ABSTRACT:Thispaperresearchestheconcepts,functionssandalgorithmsofclusteringindatamining,appliesitinthedataofstudentsperformancemanagement,andcarriesoutthedatamininginstudentsperformanceofcertainhighervocationalcollege.
KEYWORDS:datamining;clustering;k_meansalgorithm;teachingmanagement
刘艳霞数据挖掘中聚类分析技术的研究与应用本刊E-mail:bjb@mail.sxinfo.net
信息技术
157