。
· 如何第一时间了解到“与我相关”的重大事件?
· 如何能准确的收集到“我最需要”的舆情信息?
· 如何能不留死角的在全网监控到这些舆情信息?重要的信息“不漏报”!
· 如何防止网上“神不知、鬼不觉”的事情发生?随时知道网上在“干什么”!
· 如何防止网上有害信息泛滥传播和舆情失控,防止他们形成气候
· 如何追溯网上重点内容的传播途径?互联网舆情能“查得清”!
· 如何预判这些舆情信息的未来走势?
· 如何有效引导,以及对网络舆论危机的积极化解?
· 如何应对网络突发的公共事件
· 如何全面掌握社情民意
· 如何为上级相关部门推送网络舆情简报和专报?
在透析互联***点、网民习惯和偏好基础上,充分运用自身搜索引擎技术、全文检索技术、相似性排重技术、自然语言智能处理技术、内容管理、互联网技术以及电子政务和电子商务软件开发优势,研发网络舆情监控系统。旨在网络互联网上各层次各角落各形式信息,深层次挖掘网络舆情价值,全天候并及时提供最新网络舆情资讯。以丰富翔实的信息、形象直观的图表,自动化的舆情预警,并递送网络舆情、舆情分析、统计数据、舆情报告。
该系统对舆情的处理按照信息采集、舆情过滤、自动分类、相似性排重、舆情分析、舆情展示的流程推进,整个系统由三部分组成,分别是信息采集子系统、舆情处理分析子系统和舆情管理子系统。
信息采集子系统
信息采集是舆情工作的首要任务,互联网传播特点和网民行为特征要求系统全面获取网络信息,信息时效性要求系统及时采集到网络信息。
内置数千个影响程度大、传播面广、网民参与度高的网站,实时抓取信息,从广度和深度两层面实现信息采集;
1)各大门户网站:由资讯性质网站和网络媒体构成,如新浪网、雅虎网、网易、搜狐网……
2)各大行业网站:由行业性质网站构成,如行业资讯网站、政府门户网站、行业企业网站……
3)交互性质网站:有各种形式的论坛、贴吧、BBS、留言板构成,如水木清华BBS、天涯、新浪BBS……
4)个体式媒体:由各大博客网站及个人主页、空间构成,如博客网、新浪博客、网易博客……
5)各大搜索引擎网站:同步百度和Google的搜索结果。
优先级信息采集,因各网站的影响力不同配置不同优先等级,优先级高的网站优先采集信息,从信息源影响力角度确保重要舆情及时传递;
信息采集形式全面;
信息预处理:
系统按照各信息源表现出的网页形式呈现采集信息,网页上包含大量的广告、图片、链接,这些不是舆情关注的价值信息,还给系统的高效运行、检索增加负担。同时数据呈现按照各自信息源排列规则出现,需要系统分别去识别标题、来源、作者、发布时间、正文等,要求对信息预处理形成统一格式供后续的决策分析。预处理包含以下环节:
· 超链分析
· 编码识别
· URL去重
· 锚文本处理
· 垃圾信息过滤
· 关键字抽取
· 关键信息提取
· 正文抽取
· 自动摘要
舆情处理分析子系统
1、双重过滤机制
第一重过滤:自动过滤出与“我”有关的舆情;
第二重过滤:自动排除与“我”有关舆情中不具有舆情价值的信息;
双重过滤系统将重要舆情过滤出来,将不具备舆情价值的信息排除掉,更有利于舆情影响和舆情价值的分析,舆情工作变得有的放矢。
2、自动分类
基于内容对经过双重过滤处理后的重要舆情自动分类,无需人工干预,准确率达到85%以上。先设置分类关键词,每一个关键词都设置一个相应的优先级分值。对收集到的文章内容进行分析,分别对标题和内容进行匹配,统计匹配的次数,然后根据设定好的关键字匹配模型对每个关键字进行分值计算。分值超过一定分值的都将自动处理所对应的处理,匹配分值最高的关键字就自动分类。
3、相似性排重
采用“文章相似性技术”根据文档内容的匹配程度确定是否重复,比利用网页标题和大小等规则判断具有更强的准确性、实用性以及运行效率。采用中文分词技术对文章关键字比较计算,得出文章相似度,相似度高于0.75以上的文章系统默认处理为“已处理”,无需再进行任何操作,相似度位于 0.5-0.75 之间的相似转载文章需要用户在页面进行再次确认,确保文章无漏处理。
4、数理统计、趋势分析及报表报告生成
生成统计报表
统计论坛相关数据自动生成相关统计报表,并可导出EXCEL表格。如每日主要论坛点击报告、每日主要论坛热帖排名、每日博文排名。
近期热点
包括近期热点专题、近期热点关键词、近期热门文章、热门新词、自动舆情新词发现功能。
舆情趋势
来源载体分布、来源站点分布、单个/多个关键词热度曲线图、主题/关键词热度的整体趋势、文章的转载量日均/总体趋势分析、舆情信息的地域分布、网民检索行为分析。
突发事件分析
对突发事件进行预警,跨时间、跨空间综合分析,获知事件发生全貌。
舆情统计报告
根据舆情分析引擎处理后生成报告,用户可通过浏览器浏览,提供信息检索功能,根据指定条件对热点话题、倾向性进行查询,并浏览信息的具体内容,提供决策支持。
舆情管理子系统
舆情管理子系统是舆情的显示系统,采用多种形式将用户关注的舆情分门别类地呈现给用户,用户浏览舆情即洞悉网络舆论发展的全貌。
1、登录首页
登陆首页设计体现出人性化特点,登陆首页是用户经常使用的页面,按照用户的操作习惯部署首页,一键式展示用户最常用功能和最关注舆情。
最常用功能如查找、舆情操作等;最关注舆情如本地热点舆情、当日国内焦点,也可因用户偏好和操作习惯而手工设置显示最关注的舆情。另外首页还将展示一些基础统计数据,如当日采集舆情数、非舆情数、排重数、总舆情数等。
2、本地相关新闻
功能描述:热点分析(文章热度分析、关键词分析)通过转载、回复、点击数进行判断处理。我们暂时确定为新闻按转载次数确定是否是舆情,论坛和博客按点击数多少确定是否是舆情。
3、最关注舆情
最关注舆情是个性化舆情的展示。舆情工作者根据个人工作范围或工作重点对网站、分类类别权重赋值,按照权重高低显示最关注舆情。
4、国内焦点
舆情是有主次之分的。重要舆情也就是焦点舆情需要突出显示,供用户优先浏览。我们在考察网民习惯、网络信息爆发力和网络信息周期基础上,总结出一套判定焦点舆情的办法,将按照焦点舆情判定规则处理后的舆情分新闻、论坛及博客类别分类显示于此供浏览。
5、高级检索
提供普通和高级两种检索方式。可按网站、类别、时间段、关键词等条件进行专项化全文检索,并可生成查询时间和次数、关键词查询频率等查询统计数据。另外还将结合检索关键词,随时补充全文检索库中的关键词,有机结合个人操作习惯。
高级检索还具备一个亮点。用户可自己定制个性化查询方案,方案设定条件为关键词、网站(可以多选)和时间(当日/昨天/最近一周等)。
6、舆情预警、IP追踪
经过分析出现重大负面信息时,系统将启动预警机制,迅速报警提示。
7、分站浏览
对系统中舆情按网站分类浏览,可以选择某一个网站的某个栏目详细浏览。同时可以对显示的舆情进行操作(设置影响、入简报、专题、收藏、删除)。
8、分类浏览
对系统中舆情按不同的分类浏览,可以选择某一种类别详细浏览。同时可以对显示的舆情进行操作(设置影响、入简报、专题、收藏、删除等)。
9、专题报道
专题报道记录一个事件的始末,高潮和影响。通过专题开始时间、结束时间、某个时间段的文章总数、评论总数、转载总数等条件分析出专题发展转折点,形成一条专题的发展线路图,便于对专题做整体把握。
10、舆情简报
每日生成一份当日舆情简报。用户在手工处理舆情时,把重点关注的或有参考价值的舆情加入当日简报。舆情简报支持共享,可以查询、浏览、邮件分发和下载(Word格式)。
11、我的收藏
类似于平时浏览网页时,把信息增加到IE收藏夹里的功能,用户在浏览或者操作本系统时,可以把自己关注的或与自己有关的舆情添加到自己的收藏夹中,并且可以浏览或者维护自己的收藏夹。
同时,在查看收藏的舆情时,系统还会进行相似性分析,将相似的舆情检索出来,为用户全面了解舆情提供支持。
12、报表
系统生成各种形式的报表。报表包括图表和数据表格,图表包括饼图、折线图、直方图等,如总量图、趋势图等;数据表格是对舆情信息的数理统计,以数字的形式记录各项舆情数据。
另外用户可以自己需求定制报表模版,比如日报、周报、月报等。
13、热度分析
通过对文章转载量、点击数、回复数来分析热度。相关数据存入数据库,并自动检查链接是否存活。
14、转载与传播
分析网路舆情传播路径,并通过反向解析技术解析出URL所对应的网站名称。
15、短信接口
通过定制热点发现在规则,及时自动发现舆情热点。并以短信的方式及时通知舆情监控人员,以帮助舆情监控人员随时随时把握舆情动态。
16、舆情协同办公平台
通过分配不同的舆情监控人员的相关权限,方便各监控人员各司其职,更为高效地把握舆情动态。
17、系统管理
系统管理是对整个系统后台的配置,包括对信息采集子系统的配置、对部门和人员的配置、对权限的配置。