基于LDA的主题分类系统研究

格式：pdf
大小：1.49 MB
文档页数：2

下载文档原格式

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

度来去除燥声，而ＴＦ．ＩＤＦｆ６］在这计算词汇重要度方面表现优果如图２所示，可以推断出在该网站上，老人的饮食结构和心
异，可以通过对文档集进行非重要词过滤，同时保留重要度脑疾病是最受关注的，老人保健和运动相关主题其次。
最高的那部分即可。
３数据分析
３．１Baidu Nhomakorabea 题分类结果
本文系统使用ｐｙｔｈｏｎ开发，其中算法部分利用ｓｃｉｋｉｔ—
Ｎｏ．３
２．２用ＴＦ—ＩＤＦ改进系统
３．２数据可视化
对于ＬＤＡ来说，可以发现潜在的主题，但是在分析过程
“一图胜千言”是数据可视化在数据分析等领域作用
中会有很大的噪声，这些噪声并不是常见的停用词，而是一的简短体现，便于我们得知其中隐藏的各种联系，进而便于
些在文档中出现的某些干扰词，所以需要从 “大局观”的角展示和做出决策。主题分类输出的南丁格尔玫瑰图可视化结
ＬＤ主题建模的核心思想认为，一篇档的生成是一个
的分词处理比拉丁系语言难度更大。和大部分西方语言不 “以一定概率选择了某个丰题，并从这个丰题中以一定概率
同，书面汉语的词语之间没有明显的空格标记，句子是以字选择某个词语 ”的过程。在ＬＤＡ中参数ｆａｌｓｅｒ［１ｆａｌｓｅＮ串的形式出现。把字串变为词串难点在与消除歧义口Ｊ，本文用户凭经验事先给定，ＬＤＡ的概率图模型可以得到联合分布
（，，（１）Ｉ，）＝
Ⅳ
（】）
．
ｆＩ（ｊ）（ｚ，Ｉ）（，ｆ）（Ｉ）
，，＝ｌ
求解的常用方法包含ＥＭ算法、Ｇｉｂｂｓ￣ｔ样法等。本文
向量化，为随后的计算做准备。２文本主题分类２．１ＬＤＡ主题模型
采用Ｇｉｂｂｓ抽样法１，其核心思想为每次只排除当前维度，然后给定其他维度的变量值采样，再用这些采样来估算出当前维度的值。不断重复迭代Ｅ述过程直到收敛，得到待
主题挖掘的完整应用，通过爬虫来抓取特定网站的数据，在
数据预处理（包括分词、去停用词、词频计算、特征向量化）
后，利用ＬＤＡ主题分类算法进行处理，并通过对分类过程优
化和算法改进，得到良好的主题分类效果，最终利用玫瑰
图等可视化方式推送给用户，进而将结果利用在知识存储、
推荐系统、数据分析等场景。本文最后以某老人健康网站为
例，应用该系统展示分类效果。
１数据采集与预处理
１．１获取数据源
获取数据源的方式多种多样，为了面向数据不断积累的
互联网，本节设计了爬虫组件来灵活获取数据源。爬虫”Ｊ，是
ＬＤＡ为３层贝叶斯概率模型『４】，包含文章、主题、词语３层估参数。
作者简介：郭英杰（１９９３一），男，山西长治人，硕士研究生；研究方向：Ｗｅｂ４￣息技术与自然语言处理一６ｌ一
第３期２０１８年２月
无线互联科技 ·软件透视
按照一定规则来自动抓取万维网信息的程序或者脚本，是获
取信息的有效方式之一。本文设计了基于双阻塞队列的并行
化爬虫策略，对某老人健康网站持续爬取，截至当前积累了
１６４３０篇有关老人养老、健康等方面的文章。
１．２文本预处理
图１ＬＤＡ的概率图模型
对于文本预处理来说，首先需要对文本分词，对于中文
自然语言处理是机器学爿中的热门领域，随着Ｉｎｔｅｒｎｅｔ结构，… 种无监督的机器学算法。在ＬＤＡｔ｝］，主题是指在
上数据产出的速度越来越快，文本挖掘广泛用于特征抽取、文本集合内具有隐含卡｝｛关性的测语的组合，适用于文字信息
第３期２０ｌ８年２月
无线互联科技
ＷｉｒｅｌｅｓｓＩｎＬｅｒｎｅｔＴｅＣｈｎｏ１Ｏｇ
基于ＬＤＡ的主题分类系统研究
ＮＯ．３ｃｂ１’ＵａｒＹ，２０１８
郭英杰，千博
（西安电子科技大学机电工程学院，陕西西安７１００７１）
摘要：当前人类处于信息爆炸的时代，对于海量的文本数据，可以利用人工智能的工具来提高教据分析处理的效率，来挖掘海量数据的宝藏。文章主要对文本的主题分类算法进行研究，通过改进分类方法并提出可视化方案，使主题分类具有更好的应用价值。首先通过利用ＬＤＡ主题分类算法进行处理，并提出了一些改进方法使分类效果更优，并最终生成可视化的主题分类结果，进而用于推荐系统、数据挖掘、数据分析等领域。关键词：自然语言处理；主题分类；数据可视化
使用Ｊｉｅｂａ分析系统，其ｐｙｔｈｏｎ版本最高可以完成１．５ＭＢ每率公式：
秒的分词速度。其次对于原始文本来说，带有很多噪声，这时运用停用
词过滤的技术进行文本预处理【３】。停用词除了不会让日常用词等噪声影响分析结果外，同时也极大降低了计算规模。预处理的最后一步，就是建立词袋模型，这是对语料集的特征
语义关系挖掘、文本聚类等领域，并且在实践的基础上对文的提炼和归纳。ＬＤＡ建模过程的概率图模型如图ｌ所示，其
本挖掘的算法进行了丰富的研究和改进。本文给出一个基于中，阴影部分里的圆圈表示观测变量，阴影外的圆圈表示隐
文档主题生成模型（ＬａｔｅｎｔＤｉｒｉｃｈｌｅｔＡｌｌｏｃａｔｉｏｎ，ＬＤＡ）的含变量，箭头表示变量之间的关联。

基于LDA的主题分类系统研究

相关主题

文档推荐

最新文档