- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
9
2018/8/14
方法的融合
基于规则的方法较为严格,但文字较少的主题块提取不 出来,这方面Bayes方法就要好得多,将两种方法的链接型 网页进行求交集,确定为链接型网页,不用做后续处理,减 少了运算量。 主题块的提取采用两种方法的融合,同时又根据实验数 据添加了一些规则: * 两者都认为是主题块的确定为主题块 * 文字数和链接数都比较多或都比较少时,概率方法的判断 较为准确 * 文字数较多的情况下,规则的方法较为准确 * 一级域名的判断为链接型
பைடு நூலகம்10
2018/8/14
结果处理
* 模板化的方法 * 如果一个网页里都是非主题型块,则为非主题 网页。若含有主题块,则为主题型网页。 对于一个网页中的主题块:因为用的 Htmlparser 递归生成的块,很多块都是嵌套的, 因此只考虑最底层的分块节点,若不是主题块, 再考虑上一层,以减小分块的粒度。
8
2018/8/14
剪枝器(3)
Method3:<P>(粒度较小) * 非链接文字数要大于15 * 链接文字比总的文字数不能超过0.3 * 包含如下关键词的一般都不是主题块,如: 版权所有,Copyright,服务热线,投诉热 线,举报电话,郑重声明,来电咨询,匿名 发表,发帖子,上一页,下一页,专题推荐 等等,将其去除。
为分块节点 * Method2: <P>
5
2018/8/14
语义分析器
* Method1:基于规则 语义信息:链接数,链接文字数/非链接文字数 * Method2:基于概率,Bayes方法 语义信息: 特殊标签是否出现 :<p> , <br>,<h1> 标点符号 :含有较多的句号 信息量 :用非链接文字的长度作为度量 链接数 链接文字与非链接文字比 * Method3:<P> 语义信息:非链接文字数,链接文字数/总文字数,关键词
13
2018/8/14
谢谢!
14
2018/8/14
SEWM2008 主题型网页发现和网页内容 信息块发现
大连理工大学信息检索研究室 孙晓玲 叶正
1
2018/8/14
主要内容
•系统模块结构 •主要的算法模块 •方法的融合
•总结与展望
2
2018/8/14
系统模块结构
HTML文档 HTML解析器 过滤器 分块器 语义分析器 输出内容块 剪枝器
HtmlParser 类的应用
3
2018/8/14
过滤器
* 递归的遍历DOM树把网页中的无用节点去掉 * <script> <style> <img> <--!.*-->
<noscript> <select>
4
2018/8/14
分块器
分块结点决定了分块的粒度 * Method1:
以<table > <tr> <td> <div> 四个标签
6
2018/8/14
剪枝器(1)
Method1:规则(粒度较大) 若非链接文字数小于350,链接数大于70,(实验得 到的比较好的值)则判断为导航型,即非主题型。 对于其余的再进行判断:根据块的大小设定阈值T
T Size(node)
节点越小,则认为此节点越可能是噪音节点,则给此节点 设定较小的阈值,使得其更可能被判断为噪音信息;而对于 越大的节点,认为此节点越可能是主题信息,可以设置较大 的阈值,使得其更容易被保留下来。 根据节点的链接文字/非链接文字长度的比值来判断。
11
2018/8/14
提交的结果
* Result1: 模板化方法+规则与概率方法的融合
* Result2:
模板化方法+简单的<P>方法+规则与概率方法 的融合
12
2018/8/14
总结与展望
• 位置信息:阈值的设定;内容块的判定等 • 有效的网页去噪方法:第二次过滤:移除广告, 导航栏,空表,还有版权信息等信息 • 论坛类的网页:内容相关性判定 • 更多的特征
7
2018/8/14
剪枝器(2)
Method2:Bayes 1)对特征进行定量的描述,统计各个语义块对应各个特 征的属性值 特殊标签:出现与否 标点符号:主要考虑句号的个数4个以上 信息量:文字长度大于350 链接数:大于20个 非链接文字/链接文字数:大于0.3 2)利用贝叶斯公式,计算不同特征对语义块是主题 块的支持概率 3)对于要判断的语义块,求各个特征的支持概率,然 后取平均,若大于阈值,则为主题块。