全文检索
全文检索是一种将文件中所有文本与检索项匹配的文字资料检索方法,全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。
全文检索是计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找,类似于通过字典的检索字表查字的过程。
功能上全文检索系统需要具有建立索引,处理查询返回结果集,增加索引,优化索引结构等功能。结构上具有索引引擎,查询引擎,文本分析引擎和对外接口等。
全文检索的功能
1. “企业级安全”的搜索引擎
企业搜索在安全方面的要求远远高于互联网搜索。企业内部的各种信息内容带有明显的安全级别属性和部门归属属性。几乎每个企业都严格规定了什么样的信息可以给什么样的人阅读,某种信息归属哪个部门发布与存储。
2. 多操作系统、多平台、多数据库支持
支持的操作系统、应用服务器、数据库如下:操作系统 Windows、Linux、Unix、应用服务器 Tomcat、 Weblogic、Websphere Resin、Apache、IIS、数据库 Mysql、Sql Server、Oracle、DB2等等。其它必备环境 JDK1.5 以上版本
3. 支持多数据源采集
通过指定文件服务器、数据文档目录等方式,灵活管理数据来源,根据不同目录或来源划分为后续安全管理提供自动级别信息。根据内容来源,判断是否需要进行文档格式化分析,将数据库直接读取的结构化信息和半结构化网页信息通过分析模块和元数据描述进行统一。
除了基于非结构化数据进行采集外,还可对PDF、WORD、HTML、TXT、各种图片等四十多种文件格式自动采集。同时根据用户需要本系统也支持采集其它各类数据源,例如:XML文件、其它数据池等。
4. 智能化的检索服务
采用相关度分析技术,使相关度较高的结果排在结果列表的前面,相关度较低的结果排在后面,并屏蔽无用和错误的信息;构造强大的语义规则库,使系统能够正确地判断与检索词相关的同义词、近似词、上位词、下位词,帮助用户判断结果的相关度,并进行进一步的查询;支持完善的信息分类体系,对检索结果自动分类或者信息聚类;提供智能化的概念扩展查询等。通过这些技术,能够满足大多数智能化搜索需求。
5. 强大的信息海量数据实时索引和管理功能
能提供了快速检索功能(在千万级数据下,全文检索能在1秒钟之内完成),同时也有着高效的海量数据处理能力。每小时能处理百万的数据库数据,或是几十万篇的文档。包括中文的分词和建立数据索引。
6. 中文语言处理技术
中文语言处理是搜索引擎必须具备的技术之一,应用中文语言处理技术才能使搜索结果更加符合用户习惯,更加接近用户的期望结果。
7. 健壮可靠的系统,按需扩展
针对大型应用系统和海量数据的环境,提供多机分布式或双机互备的服务体系结构,通过把企业内部各种内容分布到不同服务器,可实现用户的应用层实现透明访问,支持松耦合自动切换的双机备份策略,提高系统的运行可靠性。分布式架构允许通过增加硬件的方式增加系统处理能力。
8. 支持多种语言开发接口,与其他系统无缝集成
支持的语言包括.NET,JAVA,PHP等。可与各类WEB应用进行无缝集成,同时提供完善的二次开发API手册帮助及应用示例。
9. 操作简易、维护方便