大汉JSEARCH全文检索
在信息化飞速发展的今天,越来越多用户的核心业务数据都存储在数据库中。为方便用户对海量信息的检索和对所需信息实现快速精准定位,网站检索功能由此应运而生。但传统的网站信息检索系统不够完善,具有诸多的缺点,如:缺乏对检索数据的数据智能分析;缺少对相关信息主次排序功能;系统对平台、网络等各种复杂环境的适应能力不强,导致系统受环境的影响较大;检索引擎查询算法较为落后;不支持非结构化数据的检索等,使网站信息检索功能大打折扣。
大汉JSEARCH全文检索系统充分利用Java的跨平台特性,采用纯Java开发,可运行于Windows、UNIX(包括LINUX)等各种平台下,系统利用HTML文档的“结构特征”,相关检索结果反馈能够根据用户对检索引擎的命中结果的判别执行更加符合用户意图的查询,且支持非结构化文件和关系数据库的全文检索,可满足各种类型用户对全文检索的需求。
· 纯Java技术跨平台设计,安装部署方便,不受操作系统条件限制。
· 支持对非结构化数据文件格式,如MS OFFICE(Word / Excel / PowerPoint)、HTML、RTF、PDF、TXT和其他文本文件等的检索。
· 支持结构化文件检索(如XML等),并对操作的行为进行日志记录。
· 支持关系型数据库检索接口,支持ORACLE、MS SQL SERVER、SYBASE、DB2、MySQL等主流数据库系统。
· 内置中文自然语言词法分析处理技术,极大地提高了搜索的准确性和查全率。
· 提供自动分类、自动聚类、关键词自动标引、自动文摘、信息过滤、关联规则挖掘等多种实用功能。
· 采用智能中文切词技术,避免中文检索的歧义与多义现象,同时采用相关性算法对网页进行排序,保证检索相关性最高的页面放在最前面。
· 支持对检索结果信息中的关键字的飘红效果。
· 支持“与、或、非”等多条件逻辑组合检索,支持二次智能检索,支持排序。
· 支持多种语言编码,内核支持GB2312 / GBK / GB18030编码,BIG5编码,UTF8编码;
· 高效的数据和索引压缩技术,服务器磁盘空间膨胀率低。
· 多线程设计,并发访问性能高,系统资源占用率低,对服务器硬件资源要求低。
· 支持防SQL注入功能和避免防火墙对其参数的过滤功能,保障安全防护的同时,实现强大功能检索机制。
· 完善的备份机制,按时间段定时对索引进行备份,有效的保证了索引数据的安全。
· 支持检索结果输出页面模版自定义,满足表现多样性;检索结果包括智能动态摘要、独有的网页快照,以及多种检索结果排序方式等。能够极大的方便用户对检索结果的浏览查看,提高用户对检索效果的满意度。
· 支持对站群多索引库的创建与信息检索功能。解决因某一站点索引文件的出错而影响其他站点的使用的问题。
· 基于Web的系统管理平台:全文检索系统采用标准的B/S架构,系统管理员可以通过浏览器登陆Web管理界面对整个系统的各项功能进行管理和系统维护,操作简单易用。
· 提供规范、开放的应用编程开发接口,满足不同应用开发的需要。
· 可以和大汉版通JCMS或其他内容管理系统无缝集成,对门户站点检索更加得心应手。