中文(中国)
2)系统框架
3)系统功能
频道管理
频道管理是定义采集任务信息与提取信息的管理模块,不同的采集站点通过频道划分归类。频道可以包含一个或多个任务。用户可以根据分类需要或习惯把一些相关站点作为一类放在一起,定义为一个频道。
l抓取配置:为采集任务定义优先级、分配采集器、设定更新周期等运行设置。
l调度配置:设定抓取任务为自动或定时抓取。
l解析配置:设定抓取任务的页面解析规则和元数据提出规则。
采集器管理
添加采集器的ip、端口等内容,为采集服务的检测提供基础配置管理。
任务导出
用户可以应用采集导出功能将采集任务下载的站点数据以XML文件的形式导出,并且整合到其它业务系统中。采集导出提供按任务、页面发布时间、导出每页记录数、文件类型、是否包含图片等组合条件导出数据的功能。
索引库管理
可创建多个索引库,每个索引库可添加多个索引项。系统采用中文分词技术,可对索引项进行分词设置、模糊匹配等。
同义词管理
用户可以通过词典管理功能为索引过程建立同义词典,具体操作包括新建同义词、删除同义词和查找同义词。
索引设置
对索引库进行基本的配置,包括索引库路径,服务器地址等。提供系统定时自动处理索引库操作的功能。
分类树管理
用户在分类数管理中可定义父分类也可定义子分类。在定义好的分类树中,可移动分类在分类树中的位置,但是分类只能在同级间移动,不能越级移动,如果父分类被移动,那么该父分类下的所有子分类也跟着被移动。
分类规则管理
分类规则管理中可定义分类规则的多种属性,包括分类间的关系、是否生效、关键词、来源、文件类型。
分类信息发布管理
可对分类下的信息的发布情况进行管理。
信息导出管理
用户可以将所定义的分类下的信息导出来,存放到自己的文件目录中。
4)系统特点
松耦合性架构,支持各功能模块的扩展应用
由于数据采集和内容检索的广泛性应用,系统设计采用松耦合的架构,各功能模块相对独立,使得采集、索引既作为搜索服务系统的核心业务,也可被其他业务系统整合。
多机采集、分布式部署,适应大规模采集任务
系统支持一机或多机模式下实现采集任务,用户可以通过注册的方式声明一台新的采集器。当采集任务过大时,采用采集器和数据库的分布式部署,可处理海量数据。
基于超链分析等技术,实现对各种数据的有效处理
能够对多种网页类型的信息进行采集,包括:静态网页,如html、xml、shtml等;动态网页以及由JavaScript生成的动态超链信息。
提供不同信息类型的解析
包括动态网页信息与静态网页信息的解析附件、链接采集支持自定义抓取规则,就目前的经验来看,正则表达式、通配符的方式是一种比较简洁的涵盖链接范围的表达方式,除此之外,考虑到需要逻辑判断的情况,即一条正则表达式不能完全表达,可通过动态脚本来完成逻辑。
多种页面解析方式,系统维护简单、易用
利用XPATH反向生成工具和在线验证等方式,实现所见即所得的元数据抽取规则设置,改善只有技术人员才能维护的状况,提高系统维护简易性。
多种信息导出方式,支持信息再利用
选择采集任务与CMS栏目的对应关系,经过权限验证后以CMS提供的Web服务接口方式导出信息。
针对外部系统索取数据过程,有两种方式可获取信息,一种是XML导出的方式,一种是Web服务接口方式。

