大汉JGET信息采集系统
面对互联网海量的信息,政府机关、企事业单位和研究机构都迫切希望获取与自身工作相关的有价值信息,如何方便快捷地获取这些信息就变得至关重要了。如果采用原始的手工收集方式,费时费力且毫无效率,面对越来越多的信息资源,劳动强度和难度可想而知。因此,现代的政府和企业都迫切需要一种能够提供高质量和高效运作的信息采集解决方案。
大汉JGET信息采集系统针对不同行业用户的应用需求,以监测抓取Internet信息为目的,实现在用户自定义规则下,自动从互联网中抓取指定信息。抓取的信息可存入独立数据库或通过接口发送至其他系统,用于内部使用或外网发布,实现信息及时全面地共享。
精确度高
用户可以按照自身需要自行选择、设定监测的目标网站和特定信息源,实施24小时不间断监测和采集,信息动态始终处于掌握之中。系统支持将网页中的信息内容按日期、标题、作者、栏目进行提取,过滤网页中的无用信息。扩展抓取采集范围可以精确到特定网站、特定栏目、特定页面、特定区域。
易用性好
系统参数设置简单,一次设置多次使用。采用精确抓取时针对不同用户应用要求,可设定“所见即所得”的拖拽选取信息内容方式。设置过程直观、便捷。系统能将收集的信息进行精确的自动分类与整理,按照用户要求进行快速推送。
灵活性强
系统具有很强的灵活性,可按需选择目标站点,并根据形势的变化,随时更换目标站点。用户可直接到某一网站抓取用户想要的特定栏目下的信息,它仅仅要求用户设定特定的抓取条件,用户需要的内容就会自动被抓取和保存下来,从而实现由用户上网找信息转变为信息自动流向用户的方式。
实施部署容易
系统用户界面友好,抓取服务器在Windows平台下运行,实施部署过程简单,即装即用。系统稳定性很高,可以在“7天×24小时”运行模式下长时间地运行。
采集内容全面
适应网站内容格式的多变性,能完整地获取需要采集的页面,遗漏少,网页采集内容的完整性在99% 以上。
抓取速度快
系统支持多线程处理技术,支持运行多条线程的同时抓取。可快速高效地对目标站点或栏目进行信息采集,大大加快了信息的抓取速度,保证在同等单位时间内信息的抓取量成倍数增长。
性能指标
每分钟可以抓取上百个最新网页,每小时可以同时监控5万个以上的网页(受网络带宽的限制),支持上千个网站的并发采集。与大汉内容管理系统无缝集成,同时提供标准的第三方应用系统接口,方便进行二次开发。