基于LDA的主题分类系统研究

  • 格式:pdf
  • 大小:1.49 MB
  • 文档页数:2

下载文档原格式

  / 2
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

度来去除燥声,而TF.IDFf6]在这计算词汇重要度方面表现优 果如图2所示,可 以推断出在该网站上,老人的饮食结构和心
异 ,可 以通过对文档集进行非重要词过滤,同时保留重要度 脑疾病是最受关注的,老人保健和运 动相关主题其次。
最 高 的那 部分 即 可。
3 数据分析
3.1Baidu Nhomakorabea 题 分 类结 果
本文 系统使用python开发 ,其 中算法 部分利用scikit—
No.3
2.2 用TF—IDF改进 系统
3.2 数 据 可 视 化
对于LDA来说,可以发现潜在的主题 ,但是在分析过程
“一图胜千言”是数据可视化 在数据分析等领域作用
中会有很大的噪声,这些噪声并不是常见的停用词,而是一 的简短体现 ,便于我们得 知其中隐藏的各种联系,进而便于
些在文档 中出现 的某 些干 扰词,所 以需要从 “大局观”的角 展示和做 出决策 。主题分类输 出的南丁格尔玫瑰图可视化结
LD 主题 建 模 的核 心思 想认 为,一篇 档 的生 成 是 一个
的分词 处理 比拉丁系语言难 度更 大。和大 部分西方语言不 “以一定概率选择了某个丰题 ,并从这个丰题中以一定概率
同,书面汉语 的词语之 间没有明显 的空格标记 ,句子 是以字 选 择 某 个词 语 ”的过 程 。在 LDA中参 数 falser[1 falseN 串的形式 出现 。把字串变为词 串难 点在与消除歧义口J,本文 用户凭经验事先给定,LDA的概率图模 型可以得到联合分布
( , ,(1)I , )=

(】)

fI ( j ) (z , I ) ( ,f ) ( I )
,,=l
求 解 的 常 用 方 法 包 含 EM 算 法 、Gibbs ̄t样 法 等 。本 文
向量化 ,为随后的计算做准备。 2 文本主题分类 2.1 LDA主题 模 型
采用Gibbs抽 样法 1,其核心思想为每次只排 除当前维度 , 然后给定其他维度 的变 量值 采样 ,再用这些 采样来估 算出 当前 维度的值 。不 断重复迭代 E述过 程 直到收敛 ,得到待
主 题 挖 掘 的完 整 应 用 ,通 过 爬 虫 来 抓 取特 定 网 站 的数 据 ,在
数据预处理 (包括分词、去停用词、词频计算、特征向量化)
后,利用LDA主题分类算法进行处理 ,并通过对分类过程优
化 和 算 法 改 进 ,得 到 良好 的 主 题 分 类 效 果 ,最 终 利 用 玫 瑰
图等可视化方式推 送给用户,进而将结果利用在知识存储、
推荐系统、数据分析等场景。本文最后 以某 老人健康网站为
例 ,应 用该 系 统 展 示 分类 效 果 。
1 数 据 采集 与 预 处 理
1.1 获取 数 据 源
获取数据源的方式 多种多样,为了面向数据不断积累的
互联 网 ,本节 设 计了爬 虫 组件 来 灵活 获取 数 据 源 。爬 虫”J,是
LDA为3层 贝叶斯概率模 型『4】,包含文章、主题、词语3层 估 参 数 。
作 者 简 介 :郭 英 杰 (1993一 ),男,山西长 治人 ,硕 士研 究生 ;研 究 方 向:W eb4 ̄息 技 术 与 自然语 言处 理 一 6l一
第 3期 2018年 2月
无 线 互 联 科 技 ·软 件 透 视
按照一定规 则来 自动抓取万维网信息的程序或者脚本 ,是获
取信息的有 效方式之一。本文设计了基于双 阻塞队列的并行
化爬虫策略,对某老人健康网站持 续爬取 ,截至当前积 累了
16 430篇有关老人养老、健 康等方面的文章。
1.2 文 本 预 处 理
图1 LDA的概 率 图模 型
对 于文本预处理 来说 ,首先需要对 文本分 词,对于中文
自然 语 言处 理 是 机 器 学 爿 中的 热 门领 域 ,随 着 Internet 结 构 ,… 种 无 监 督 的机 器 学 算 法 。在 LDAt}],主 题 是 指在
上 数 据产 出 的速 度 越 来 越快 ,文 本挖 掘 广 泛 用于 特 征 抽取 、 文本集合内具有隐含卡}{关性的测语的组合,适用于文字信息
第 3期 20l8年 2月
无 线 互 联 科 技
Wirele ss In Lernet TeChno1Og
基 于LDA的主题分类 系统研究
NO.3 cb1’UarY,2018
郭英杰 ,千 博
(西安 电子科技 大学 机 电工程学院,陕西 西安 710071)
摘 要:当前人类处于信息爆炸的时代,对于海量 的文本数据,可以利用人工智能的工具来提 高教据分析处理的效率,来挖掘 海量数据的宝藏。文章主要对文本的主题分类算法进行研 究,通过改进分类方法并提 出可视化 方案,使 主题分类具有更好的 应用价值。首先通过利用LDA主题分类算法进行处理 ,并提 出了一些改进方法使分类效 果更优,并最终 生成可视化的主题分 类结果,进而用于推荐系统、数据挖掘 、数据分析等领域。 关 键 词 :自然语 言处 理 ;主 题 分 类;数据 可视 化
使用Jieba分析系统,其python版本最高可以完成 1.5 MB每 率 公式 :
秒 的 分词 速 度 。 其次对于原始 文本来说 ,带有很多噪声,这时运用停用
词过滤 的技术进行文本预 处理【3】。停用词除了不会让 日常用 词 等 噪 声 影 响 分析 结 果外 ,同时 也 极 大 降低 了计 算规 模 。预 处 理 的 最后 一 步 ,就 是建 立 词 袋 模 型 ,这 是 对 语 料 集 的特 征
语义关系挖 掘、文本聚类等领域 ,并且在实践的基础上对 文 的 提 炼 和归 纳 。LDA建 模 过 程 的概 率 图模 型 如 图 l所 示 ,其
本挖掘的算法进行了丰富的研究和改进。本文给出一个基于 中,阴影部分里的圆圈表 示观测变 量,阴影外的圆圈表示 隐
文档主题生 成模型 (Latent Dirichlet Allocation,LDA)的 含变量,箭头表示变量之 间的关联。