- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
权利要求书2页 说明书6页 附图1页
CN 109800288 A
CN 109800288 A
权 利 要 求 书
1/2 页
1 .一种基于知识图谱的科学研究热点分析与预测方法,其特征在于该方法具体步骤包 括:
步骤1 .关键词提取与对齐; 步骤2 .分析关键词共现网络,确定研究主题: (2-1)词频计算: 结合词频g指数和实际数据的词频分布情况作为选取中高频词的依据,以1~5年的等 长时间距离 划分时间窗 ,统计每个时间窗中出现的中高频 词词频次数并计算 词频变化情 况,并按核心词,新兴词,突变词本身的特点进行识别; (2-2)确定研究主题: 中高频关键词在同一个项目中的频率作为关键词之间的联系密切程度,利用ochiia系 数计算关键词相关矩阵 ;以欧式距离衡量点间距离 ,聚类关键词形成词簇 ,确定研究主题 ;
2
ቤተ መጻሕፍቲ ባይዱ CN 109800288 A
权 利 要 求 书
2/2 页
演进存在的规律和内部共性以预测未来的主题交叉情况; (4-2)分析包含主题间因果关系的主题变化情况: 对存在显著Granger因果关系的主题对,对所有主题对应用霍克斯过程模型,通过建立
某一主题历史行为与另一主题当前行为的关系计算主题之间的影响强度,构建主题影响网 络;表示因果关系的影响显著性的P值小于0 .05的,表示主题对存在显著Granger因果关系;
通过度量在不同时间窗下主题所处象限情况和主题内核心词、新兴词、突变词分布情 况 ,确定热点研究主题、突变研究主题和新兴研究主题 :在战略坐标图中 ,位于第一象限的 主题为核心研究主题,其主题内部联系紧密,内部结构稳定;第二象限的主题为成熟研究主 题,内部结构稳定,但与其他主题联系松散;第三象限的主题内部结构松散,研究不够成熟; 第四象限的主题为活跃主题,但与其他主题联系比较紧密,是潜在的发展主题;通过向心度 和密度了解所有研究主题的结构概况;
两个关键词词组ei、ej分别由m、n个单词构成 ,α为每个词在关键词词组中的权重占比 ; b .构建关键词共词网络,计算相似关键词集W中任意两个关键词实体ei、ej的邻居相似 性simNB ,根据simNB对相似关键词集进行初步划分,选取simNB大于设定值的关键词集作为备 选词集,进一步通过关键词的内部单词结构和在共现网络中共现邻居结构相似度高的两个
代理人 朱月芬
(51)Int .Cl . G06F 16/33(2019 .01) G06F 16/36(2019 .01)
(10)申请公布号 CN 109800288 A (43)申请公布日 2019.05.24
( 54 )发明 名称 一种基于知识图谱的科学研究热点分析与
预测方法 ( 57 )摘要
3 .如权利要求1所述的一种基于知识图谱的科学研究热点分析与预测方法,其特征在 于:所述的步骤1中关键词对齐的具体方法是:
a .以经过分词、去停用词处理的摘要作为word2vec的训练数据,生成词向量,计算每个 关键词词组中每个词的词向量x加权平均和作为关键词向量,得到任意两个关键词实体ei、 ej的词相似性simKW:simKW(ei ,ej)=simKW(αi,1xi,1+…+αi,mxi,m ,αj,1xj,1+…+αj,nxj,n) ;
本发明涉及一种基于知识图谱的科学研究 热点分析与预测方法。本发明方法通过关键词的 共 词关 系确定研究 主题 ,并根据高频的 核心 词 , 中、高频的突变词和新生词分布情况划分热点研 究主题、突变研究主题、新兴研究主题和一般研 究主题,最后从主题间的内在交叉关系和主题的 变化情况两个 角度出发 ,解读知识图谱的研究主 题结构和趋势以预测其中三大研究主题的未来 发展。本发明方法首先进行关键 词提取与对齐 , 然后分析关键 词共现网络 ,确定研究 主题 ,构建 完整科学知识图 谱 ,最 后解读知识图 谱 ,探 测主 题演进趋势。本发明方法对主题趋势的挖掘更有 针对性,分析结果更加客观准确。
( 19 )中华人民 共和国国家知识产权局
( 12 )发明专利申请
(21)申请号 201910058235 .9
(22)申请日 2019 .01 .22
(71)申请人 杭州师范大学 地址 311121 浙江省杭州市余杭区仓前街 道余杭塘路2318号
(72)发明人 张子柯 李丽霞 任卓明
(74)专利代理机构 杭州君度专利代理事务所 (特殊普通合伙) 33240
不同时间窗的主题影响网络通过对比 和追踪核心词、突变词、新生词的变化 ,识别核心 主题、突变主题以及新兴主题的变化情况和趋势,通过社会网络分析法可视化三大类型演 进的内部影响结构,对研究主题变化情况的分析和对未来趋势进行推断。
2 .如权利要求1所述的一种基于知识图谱的科学研究热点分析与预测方法,其特征在 于:步骤1中所述的关键词提取是根据已提供的关键词创建关键词表,对英文的题目、摘要 进行分词和去停用词,以双向最大匹配算法匹配关键词表从而抽取关键词词串;双向最大 匹配法算法使 用正向最大匹配法 和逆向最大匹配法进行 切分 ,以 大粒度词优先 、非 词表词 最少为原则的分词结果选取关键词。
A关键词与B关键词的ochiia系数:
(2-3)可视化主题结构: 计算衡量主题T与其他主题间关键词相互作用情况的向心度ST和主题T内关键词紧密程 度的密度DT,并通过战略坐标图可视化所有研究主题的主题结构,战略坐标图以向心度ST为 横坐标,以密度DT为纵坐标:
其中 ,O为ochiia 系数 ,k和l为主题T的内部关键词 ,w为不属于主题T的关键词 ,Q为总词 数,q为主题T内的关键词数量;
步骤3 .构建完整科学知识图谱: 对项目 所 属学科 、项目申 请时间等其他结构化数 据进行数 据融合 ,保证每个关键 词对 应到其所 属学科 ,构建完整的 科学 知识图 谱 ,涉 及的 知识 加工手段包括知识推理 、质量评 估; 步骤4 .解读知识图谱,探测主题演进趋势: (4-1)挖掘主题间交叉关系和内部结构变化: 所有主题下的关键词频率将通过该主题涉及的总关键词频率进行归一化,利用KL散度 计算主题之间的 信息增益 ;KL值为0时 ,两大研究主题的关键词分布则完全相同 ;通过观察 每个时间窗下三大研究主题类型中所有主题的KL值,得到任意两个主题在不同时间窗下的 主题交叉情况和所有主题在演进过程中的内部结构变化幅度,挖掘出三大类型的研究主题