中文(中国)
一、概述
文本挖掘是指从海量非结构化自然语言文本数据中,抽取相关的、潜在的、新颖的、有价值的信息的计算机信息处理技术,是由机器学习、数理统计、自然语言处理等多种技术交叉形成的。文本挖掘一般包含输入文本结构化、文本模式分类、输出评价和解译等过程。从某种意义上讲,文本挖掘是数据挖掘技术的一个分支。文本挖掘技术是应对互联网和企业中非结构化数据激增的利器。
非结构化数据是可获取数据的主流
互联网中的信息以非结构化数据为主,而且冗余庞杂,各种有害和垃圾信息混杂其中。人们越来越依赖于利用搜索引擎从互联网获取有用信息,这种强烈的需求在推动搜索引擎技术发展的同时,也进一步凸显出海量数据与用户获取能力间的尖锐矛盾。据统计,随着信息化的推进,企业数据以每年约200%的速度增长,其中80%是文件、邮件和图片等非结构化的形式,如何有效地利用这些数据,转化为对企业决策有用的信息,已经成为衡量企业竞争力的重要方面。
文本挖掘技术有广泛的应用领域
典型的文本挖掘任务包括文本的分类、聚类、词条提取、情感分析、文档摘要,以及词条关联建模等,期望通过这些手段从自然语言构成的文本中提取精炼的有用的信息。这些技术的典型应用是海量文本的检索,为行业领域应用提供准确的语义层的文本索引。此外,在安全领域的纯文本分析、商业数据分析、网络媒体文本分析,以及生物医学和分子生物学领域都有广泛的应用。广阔的应用前景和巨大的商业价值,使该项技术已经成为当前自然语言处理研究的热点和信息技术行业中最为活跃的增长点。
二、智海文本挖掘组件的构成
智海创讯结合多年在文本分析和智能检索领域的技术积累和当前文本挖掘技术的最新研究成果,研发了实用化的『智海』文本挖掘组件。该组件包括了智能分词、关键词提取、信息提取、文本分类、文本聚类、文档摘要、相关性分析、倾向性分析、语义解析、海量文本检索等十大功能构件。这些构件实现了较为完备文本挖掘底层算法,性能稳定高效。构件间可无缝连接封装,为上层应用提供方便易用的调用接口,构成不同应用的文本分析核心组件。
三、组件的运行环境
提供CAPI和SOAPAPI两种调用方式,方便其嵌入其他应用软件和服务中。
组件支持的操作系统有:WindowsSever2008/2003/2000/NT,WindowsXP/7,以及Linux2.4以上版本。
四、组件的功能和性能
智能分词
采用基于规则和统计相结合的分词技术,将中文的汉字序列切分为符合语境语有意义的词,可用于文献检索、搜索引擎等诸多领域,能提高检索的准确度。
内嵌分词歧义规则库
准确识别人名、地名、组织机构名
支持GB18030和UTF8两种编码和中英文两种语言
分词速度达到500KB/S
关键词提取
基于自然语言处理技术,对文本向量空间进行去噪、降维、特征提取等处理,从文章和短语中提取关键词。
大规模知识库支撑
基于统计模型和规则结合
基于统计的多种文本相似度计算方法
提取结果描述性强
文本分类
在给定的分类体系下,基于统计学习的文本分类技术,根据文本的内容自动确定文本关联的分类项目。
多种预处理组件
多种特征选择算法,文档频率、信息增益、互信息法等
分类算法支撑KNN、朴素贝叶斯、SVM、Boosting等多种方法
分类速度达到1M/S
分类准确率一般能达到90%
文本聚类
作为一种无监督的学习方法,文本聚类通过统计方法和一定的领域知识规则对于大量文本进行簇划分,获得文本的语义类别信息。
多种相似度距离算法选择
根据不同应用设定不同参数,产生不同的聚类模型
能有效鉴别和处理文本数据集中的奇异值
多种聚类方法选择,K-Means、BIRCH、DBScan等
文本摘要
根据统计方法和不同类型文本摘要的模型自动地进行提取文摘,文摘是全面准确地反映某一文献中心内容地简单连贯的短文。
对不同文档类型能自适应的选择不同的摘要模型
能对自动摘要抽取结果进行语义修饰,明显增强摘要的可解释性
对新闻、论文等类型文本的摘要提取性能优异
相关性分析
文档相关性分析是基于文档相似度模型,对于多篇文档进行自动分析,给出它们之间的相似度,从而可以判断文档是否相似或者强关联。
可扩展的领域规则和词库
组件可扩展性强,提供标准稳定的API
对于1M左右的两篇文本计算时间小于3S
应用场合包括重复检测、事件关联、文本聚类等
倾向性分析
通过计算机技术和自然语言模型对于文本所包含的情感倾向、观点及其强度进行自动分析和挖掘。
大规模情感词库,包括情感词和相关倾向度
情感描述模型库
支持词、句子和文档的倾向性分析
智海信息检索
支持高性能海量信息检索,提供多种检索接口和模式,召回率和准确率可以根据应用的不同进行调整,是非结构化数据信息管理的必备工具。
支持全量、增量、实时和分布等多种信息索引方式
提供关键词、短语、布尔运算等多种查询方法
内含相关的基于自然语言处理的文本分析工具
提供输入提示、纠错、相关搜索等多种工具
五、组件的应用价值
智海文本挖掘组件可以广泛地适用于:信息资源开发利用,智能搜索引擎、情报分析和服务、信息安全监、互联网信息增值服务等诸多应用领域。当前在我国现有条件下,其应用价值集中在:
为信息内容安全监管提供智能技术
随着博客、微博、电子邮件、论坛社区、社交网络、即时通信等互联网技术和应用的普及,互联网信息内容日益庞杂。这些通信方式在增进人与人沟通的同时,由此诱发的社会问题也日益增多。世界各国政府和相关机构越来越重视对网络信息内容安全的监管,智海文本挖掘组件可以作为海量信息内容分析的智能化工具,能有效提高监管的效率,降低监管成本。
推动行业信息资源管理和利用的智能化和高效化
我国政府和企业的信息化建设已逐步从基础的业务信息管理阶段,进入到更高层次的信息资源整合、决策信息管理阶段。政府需要整合各种平台的信息资源,消除信息孤岛,建立综合信息利用平台;企业需要整合行业信息和企业内部信息提高经营效益,为企业战略决策服务。智海文本挖掘组件可以作为整合结构和非结构信息的基础构件,提供智能检索和挖掘分析的手段,放大信息资源的增值效用。
为互联网信息增值服务提供不可或缺技术支撑
在当前海量网络信息传播的形势下,一些行业性、独占性、高增值的信息资源日益得到信息用户的青睐。能否有效高质的信息处理能力和及时、个性、智能的信息服务手段已成为拥有上述信息资源的内容提供商所必需面对的挑战。智海文本挖掘组件能够支持智能化自动化的信息增值加工,是想智能检索和知识关联,帮助内容提供商降低信息增值加工成本,拓展智能服务,提高最终信息用户的使用体验。

