一、数据网关
数据网关:内容源数据库的支持(目前仅限于MYSQL、MSSQL、ORACLE、TRS等)Doc、TXT、PDF等非结构化文档。
二、UST智能搜索引擎及后台管理系统
后台管理:配置维护检索系统相关参数,性能调优。
分词模块:实现多粒度中文分词功能。
索引模块:提供增量索引、重建索引等功能。
摘要模块:根据文档及其分词结果,生成相关数据供摘要系统使用。
检索服务:根据检索词,检索出相关文档。
检索代理:搜索系统入口,负责调度检索、摘要、快照、意图识别、拼音纠错等模块协同工作。
排重模块:根据文档内容排重,算出相似文档。
词典维护模块:扩展行业词典。
分类模块:搜索结果自动分类,并可以按照分类再次检索。
聚类模块:搜索结果自动聚类。
人工影响排序:搜索结果排序可以人工干预。
Cache模块:根据搜索引擎相关规律,利用缓存减少计算以及硬盘IO量,提高系统性能。
系统群集服务:针对海量数据做检索服务器的群集功能。
三、前台应用服务系统
字段搜索服务:在检索多个字段时按照字段进行搜索。
短语、词组服务:在搜索词中可以输入短语和词组。
多条件组合服务:按照元数据的多条件进行组合减速如时间,作者,名词+关键字等。
快照服务:提供呈现文档原内容的接口。
相关搜索服务:根据用户输入搜索串,向用户推荐相关搜索串。
智能搜索提醒:在输入搜索词时,自动提醒相关搜索词。
拼音纠错服务:在搜索中国时,使用拼音zongguo,系统会自动提示你搜索的可能是zhongguo。
热词模块:自动记录系统搜索词,按照规则取得搜索热度较高的词供系统调用。
相关性呈现服务:搜索结果的相关新闻只显示最新的一条,其他相关新闻通过页面的相应功能查看。
技术优势
外网搜索引擎:众多内容型网站为了保持数据的最新,不得不花费大量的人力进行内容更新。紫新报通智能搜索引擎系统系统可以锁定需要的网站,进行定时采集此网站的最新内容;可以节省大量的人力成本,而且可以保证信息的全面性,同时结合搜索技术在海量的信息库中快速找到需要的信息。
高应用扩展性:可以根据用户需求快速配置成为不同类型的垂直搜索引擎,如成为商机搜索、产品信息及其他各类需要的信息。只需普通技术人员便可以实现。