大工20春《数据挖掘》大作业题目及要求

  • 格式:doc
  • 大小:714.65 KB
  • 文档页数:7

下载文档原格式

  / 7
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

网络教育学院

《数据挖掘》课程大作业

题目:参考资料可以加作者

姓名:

学习中心:

第一大题:讲述自己在完成大作业过程中遇到的困难,解决问题的思路,以及相关感想,或者对这个项目的认识,或者对Python与数据挖掘的认识等等,300-500字。

第二大题:完成下面一项大作业题目。

2020春《数据挖掘》课程大作业

注意:从以下5个题目中任选其一作答。

题目一:Knn算法原理以及python实现

要求:文档用使用word撰写即可。

主要内容必须包括:

(1)算法介绍。

(2)算法流程。

(3)python实现算法以及预测。

(4)整个word文件名为 [姓名奥鹏卡号学习中心](如

戴卫东101410013979浙江台州奥鹏学习中心[1]VIP )作业提交:

大作业上交时文件名写法为:[姓名奥鹏卡号学习中心](如:戴卫东101410013979浙江台州奥鹏学习中心[1]VIP)

以附件形式上交离线作业(附件的大小限制在10M以内),选择已完成的作业(注意命名),点提交即可。如下图所示。

注意事项:

独立完成作业,不准抄袭其他人或者请人代做,如有雷同作业,成绩以零分计!

题目二:朴素贝叶斯算法原理以及python实现

要求:文档用使用word撰写即可。

主要内容必须包括:

(1)算法介绍。

(2)算法流程。

(3)python实现算法以及预测。

(4)整个word文件名为 [姓名奥鹏卡号学习中心](如

戴卫东101410013979浙江台州奥鹏学习中心[1]VIP )作业提交:

大作业上交时文件名写法为:[姓名奥鹏卡号学习中心](如:戴卫东101410013979浙江台州奥鹏学习中心[1]VIP)

以附件形式上交离线作业(附件的大小限制在10M以内),选择已完成的作业(注意命名),点提交即可。如下图所示。

注意事项:

独立完成作业,不准抄袭其他人或者请人代做,如有雷同作业,成绩以零分计!

题目三:SVM算法原理以及python实现

要求:文档用使用word撰写即可。

主要内容必须包括:

(1)算法介绍。

(2)算法流程。

(3)python实现算法以及预测。

(4)整个word文件名为 [姓名奥鹏卡号学习中心](如

戴卫东101410013979浙江台州奥鹏学习中心[1]VIP )作业提交:

大作业上交时文件名写法为:[姓名奥鹏卡号学习中心](如:戴卫东101410013979浙江台州奥鹏学习中心[1]VIP)

以附件形式上交离线作业(附件的大小限制在10M以内),选择已完成的作业(注意命名),点提交即可。如下图所示。

注意事项:

独立完成作业,不准抄袭其他人或者请人代做,如有雷同作业,成绩以零分计!

题目四:中华古诗词分析

要求:编写程序爬取中华古诗词网站

https:///authors/上诗人的诗词信息,至少500

首诗词,抽取诗词信息的诗人名字、朝代、诗词标题、诗

词内容存储在json文件中,自选某一角度完成对诗词的处

理分析。如:

(1)杜甫、李白的诗词用字、用词的对比分析;

(2)唐宋代表性诗词的用词对比分析;

(3)使用sklearn对不同诗人的诗词进行训练,训练得到的模型能用于对诗词的作者的判别。对比不同算法判别的准确率。

(4)整个word文件名为 [姓名奥鹏卡号学习中心](如

戴卫东101410013979浙江台州奥鹏学习中心[1]VIP )

作业提交:

大作业上交时文件名写法为:[姓名奥鹏卡号学习中心](如:戴卫东101410013979浙江台州奥鹏学习中心[1]VIP)

以附件形式上交离线作业(附件的大小限制在10M以内),选择已完成的作业(注意命名),点提交即可。如下图所示。

注意事项:

独立完成作业,不准抄袭其他人或者请人代做,如有雷同作业,成绩以零分计!

题目五:歌词分析

要求:自选有音乐歌词的网站,编写爬虫程序下载不同类型的歌曲歌词,至少3种以上类型,每种类型至少100首歌曲,抽

取其中的歌曲名称、歌曲类型、歌词信息存储在json文件

中,自选某一角度对歌词进行处理分析。如:

(1)不同类型的歌曲用词分析,如下图所示(自行学习使

用jieba库和wordcloud库的使用)。

(2)使用sklearn库对不同类型的歌词进行训练,训练得

到的模型能用于对歌词类型的判别。对比不同算法判别的准

确率。

(3)整个word文件名为 [姓名奥鹏卡号学习中心](如

戴卫东101410013979浙江台州奥鹏学习中心[1]VIP )

作业提交:

大作业上交时文件名写法为:[姓名奥鹏卡号学习中心](如:戴卫东101410013979浙江台州奥鹏学习中心[1]VIP)

以附件形式上交离线作业(附件的大小限制在10M以内),选择已完成的作业(注意命名),点提交即可。如下图所示。

注意事项:

独立完成作业,不准抄袭其他人或者请人代做,如有雷同作业,成绩以零分计!