新媒体舆情监控系统方案

  • 格式:pptx
  • 大小:1.54 MB
  • 文档页数:46

下载文档原格式

  / 46
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

结构化
数据挖掘
商业竞争 社会舆情 品牌口碑
情报
语义标注和结构化转换
语义标注
第一步:语义标注 第二步:自动算出采集规则
第三步:采集规则发布给协同化爬虫 第四步:采集和结构化转换
内容的作者
内容
后续:入库和文本挖掘
原文发布时间
原文转发数
原文评论数
发布时间
转发数
评论数
网络爬虫采集云
北京
上海
网络爬虫
服务器数据中心
公关人员
· 监测企业话题 · 预警负面信息 · 搜藏精华信息 · 追踪敏感话题 · 监测竞争对手
市场人员 · 分析品牌、媒介
· 寻找领袖意见 · 监测营销效果 · 行业热门话题
· 监测用户反馈意见
· 分析产品活跃领袖 市场人员 意见 · 监测竞品动态
· 对比竞品
1. 现状分析
2. 系统功能与架构
3. 成功案例 4. 应用场景
3、网络是社会信息的集散地,也是社会舆论的放大器。很多言 论,是通过网络放大、推进、炒作并形成舆论的。
1. 现状分析
2. 系统功能与架构
3. 成功案例 4. 应用场景
系统整体架构
系统网络架构
数据清洗整合转换
数据集运算 数据清洗整合 文本分类和搜索
目标网站
协同化信息采集 信息采集网络
统计报表 舆情监测 应用逻辑
层叠式 分类器集群
舆 情 监 控 系 统
文本分类 信息管理和平台管理
访问控制
全文搜索
舆情监控系统特点
微博舆情监控特征
社会化媒体 新浪微博 腾讯微博 搜狐微博 人人网 其它社交网站 信息采集
社会化媒体特征 快速传播
内置浏览器引擎以采集动态网页内容,弥补普通网络爬虫的不足
场景2:负面信息研判
经过研判模型,对采集数据进行分析,筛选,清洗,整合,剔重, 分类获得与“我”相关,正负面及热点舆情信息。
场景3:危机公关
微博上全面舆情监控、 危机公关
行业内意见领袖和关 键节点人物的渠道资 源管理
快速分析客户关系
Thank you!
舆情 监控
网络爬虫
XML/HTTP Web Service API
深圳
广州
网络爬虫
网络爬虫
五大功能特色
数据采 集全 危机预 数据筛
警快
选准
监测纬 度多
数据分 析强
数据采集全
系统爬虫
自主研发专为舆情系 统设计的智能网络爬
覆盖15万站点的舆论来源
覆盖主流搜索引擎
虫系统,可以实现高
质量的抓取,还支持 对新浪微博、腾讯微 博、搜狐微博等主要
和结构化
转换 • 技术实
现3
动态网页数据采集
HTML不见了
大片的JS代码
人在浏览器上看到的
网络爬虫看到的
无法搜索
内嵌浏览器渲染 自动模拟用户点击 所见即所得采集方式
碎片化信息的结构化转换
人口地理特性
性别,城市
影响力
社交媒体传播角色
碎片化的内容 转发传播关系
路径分析,社交图谱
新鲜度
实效影响
碎片化内容 丰富的语义数据
新闻
平面媒体
wenku.baidu.com……
搜索引擎汇集了绝大部分的网络舆论
微博平台信息的实时
抓取。
论坛/社区
博客/微博
。借助搜索引擎,我们实现了更全面
的网络舆论监测。
数据筛选准
• 基于机器学习的垃圾过滤机制可以过滤微博博文广告、水 信息过滤 贴等无效垃圾信息。
• 根据微博博文内容的匹配程度确定是否重复、去重的级别; 智能去重 根据不同的需要特色分为:URL去重、标题去重、正文去 重三个级别。 • 自动提取任意复杂网页中的标题、内容、作者、发布时间 内容聚合 等信息,自动跟踪博文分页;对于论坛信息自动分析主贴、
碎片化
海量数据 去中心化 ……
基于语义标注的精确采集,将碎片化信息结构化转换,便于挖掘深层情报
基于云计算框架的跨地域协同化网络爬虫,应对海量的社会化媒体
技术实现
• 技术实
• 技术实
现2 动态网页 碎片化信 息的结构 化转换 语义标注
现1 数据采集
网络爬虫 采集云 • 技术实 现4
新媒体舆情监控系统方案
1. 现状分析
2. 系统功能与架构
3. 成功案例 4. 应用场景
如何应对舆情监控难点
如何第一时间掌握到“与我相关”的重大事件? 如何能准确地收集到“我最需要”的舆情信息? 如何能不留死角的全网监控到舆情信息? 如何防止网上“神不知鬼不觉”的舆情发生?


影响力:提及媒体的价值占行业整体价 值的比例 美誉度(正负面):品牌的正面或积极 舆论占自身舆论总量的比值
推荐率:媒体、网民在发表针对某品牌
的舆论时,明确对该品牌进行推荐的舆论 占自身舆论总量的比值
监测纬度广
网络爬虫技术:通过网
站内搜索:通过模
络爬虫进行页面数据抓
取。
拟用户行为,进行
站内关键字搜索, 如新浪微博。
回帖及作者信息等。
数据分析强
网络舆论的声量分析
舆论信息数量 博客/微博:浏览量、评论量 新闻/平面媒体:转发量 论坛/社区:浏览量、回复量
q网络舆论的环境分析
载体分布量:新闻、论坛、平媒、博 客、微博等载体分布 媒体排行:媒体、网民发布声量、转 载等排行
网络舆论的度量分析
关注度:品牌提及信息占行业的比率


媒体快发,迅速将自己的声音大过媒体进
行传播 抢发正面、删除负面、终结谣言 有问题自己说,少让别人传
应对方法之媒体关系 纸媒、广播、电视、网络、手机等 全方位整合营销
舆情监控的意义
1、当今社会,互联网已经成为中国主流舆论场,占据第一影响 力位置。
2、越来越多的企业危机来自于互联网。
成功案例
广西电信舆情监测平台 新疆电信舆情监控系统 四川联通舆情监控系统
1. 现状分析
2. 系统功能与架构
3. 成功案例 4. 应用场景
场景1:微博客服
被动服务

了解客户服务需求,快 速响应客户需求
主动服务

监测信息覆盖整个微博 平台,哪里需要客户服 务,客服帐号的发言就 第一时间出现在哪里
如何防止网上有害信息泛滥和舆情失控?
如何追溯网上重点内容的传播途径? 如何化解网络危机? 如何应对网络突发公共事件?


如何全面掌握社情民意?
如何为上级部门推送网络舆情简报?
如何应对舆情事件
应对方法之未雨绸缪 参考新闻五要素(人、事、时、地、因) 准备危机防控预案
应用方法之快速反应 根据危机防控预案,快速分类处置 常见、特殊事件的基调和处理流程
搜索引擎搜索:根据关 键字及站点通过搜索引 擎进行搜索。
通过网络爬虫技术、站内搜索、搜索引 擎多纬度数据采集,建立数据库。
危机预警快
• 短信预警
快速预警
• 邮件预警 • 弹窗预警
• 信息权重
判断标准
• 载体权重
• 相似性 • 正负权重 • 声量变化
舆情监控适用范围
企 业
客服人员
· 监测解答用户问题