PukkaNewsCollectorTM 帕科新闻采集系统
PukkaNewsCollectorTM新闻采集系统可以对互联网新闻内容进行自动快速采集,并可以根据用户定义的任务配置,批量而精确地抽取目标网络媒体栏目中的新闻或者文章,转化为结构化的记录(标题,作者,内容,采集时间,来源,分类,相关图片等),保存在本地数据库中,用于内部使用或外网发布,快速实现外部信息的获取。
本系统对目标网站进行信息自动抓取,支持RSS新闻采集和HTML新闻采集,可以采集页面内多种类型的数据,如文本信息,URL,数字,日期,图片等。
功能特点:
- 用户对每类信息自定义来源与分类
- 可以下载图片与各类文件,如PDF,Flash等
- 支持命令行和纯服务格式,可以Windows任务计划器配合,定期抽取目标网站
- 支持记录HASHCODE等唯一索引,避免相同信息重复入库
- 支持智能替换功能,可以将内容中嵌入的所有的无关部分如广告去除
- 支持多页面文章内容自动抽取与合并
- 数据直接进入数据库而不是文件中,因此与利用这些数据的网站程序或者桌面程序之间没有任何耦合
- 支持数据库表结构完全自定义,充分利用现有系统
- 支持多个栏目的信息采集可用同一配置一对多处理
- 提供基于 Web的在线内容编辑,可以方便灵活的进行内容调整和预览
- 保证信息的完整性与准确性,绝不会出现乱码
- 提供基于XSLT的模板和帕科自定义格式的模版,从而提供灵活方便标准的模版,方便运营商设计自己的界面
- 支持各种主流数据库,如MSSQL、Access、MySQL、Oracle、DB2、Sybase等
功能架构
系统功能架构如下图所示

系统优势
帕科新闻采集系统每天自动采集指定网站的新闻内容,扩大内容来源与数量
平且可以轻松整合不同地区与行业的新闻,形成专题 ,从而节约采编人员大量的时间,从而让他们可以有更多的精力来从事其他的事情
迅速提高本网站信息量与浏览量,并轻松拥有海量信息输入。
- 可靠性 -- 抽取结果是精确的和结构化的,没有脏数据。
- 稳定性 -- 它能持续几个星期不间断地执行抽取任务而不发生任何错误。
- 易用性 -- 简洁的图形用户界面。只需点击开始按钮去执行抽取任务,然后获得数据库结果,而无需过多的设置与学习。
- 快捷 – 本新闻采集系统能够快速地抓取目标网页上的数据。对于一个需要20工时的任务,它能在1个小时内完成。您能够节省许多宝贵时间,从而取得竞争优势。
- 精确的结果 -- 人工进行大量复制与粘贴网页中数据的工作的错误率是很高的,而且无法一天24小时连续不停地工作!本系统能帮您获得人工无法取得的最精确的结果,我们的目标是达到100%的精确。
- 低廉的价格 --相比您雇用人工去手动复制目标网站的内容,然后粘贴到数据库里面,使用本系统能为您节省成千上万的工时和金钱。
运行环境
标准软件运行环境
Windows 2003服务企业版
SQLServer 2000或者更高版本数据库 |