智能采集器v1.0.0版本是采用C++加wxWidgets开发的GUI图像界面,使用zengl编程语言作为采集规则的脚本语言。本采集器目前是专门针对Destoon系统v4.0 GBK或UTF8的版本。运行平台:WindowsXP ,W...

    智能采集器v1.0.0版本是采用C++加wxWidgets开发的GUI图像界面,使用zengl编程语言作为采集规则的脚本语言。本采集器目前是专门针对Destoon系统v4.0 GBK或UTF8的版本。运行平台:WindowsXP ,Windows7,Windows8

    采集器的下载地址为:http://pan.baidu.com/share/link?shareid=326717&uk=940392313 (此为百度盘的共享链接地址) 。进入该链接可以看到"智能采集器各个版本的可执行文件压缩包"请下载最新的版本,最新版本为v1.0.5

    采集器的使用视频教程下载地址为:http://pan.baidu.com/share/link?shareid=324246&uk=940392313 。进入该链接可以看到"智能采集器v1视频教程.rar",该压缩包中存放了exe格式的视频教程。这个视频教程有70多兆(录像时长49分钟)。

    因为视频教程里已经详细介绍了使用方法,这里就不多说了,来看下本程序的目录结构,下载的压缩包解压后得到如下文件(这里以v1.0.0为例,其他的版本请查看栏目中的对应文章):

    在这个目录中"智能采集器2013PC桌面版.exe"是主程序,"zengl.dll"是zengl脚本的编译器,例如本目录中的"初始化脚本.zl"就是程序启动时会执行的zengl脚本,初始化脚本.zl的文件内容如下:

//本脚本采用zengl编程语言的语法 初始化管理URL 在本采集器中也就是采集上传接口的文件名

use builtin;

bltSetInitManageUrl('zengl_caiji.php'); //不加http协议头 //这里注释写错了,应该是接口的文件名
bltSetModulePath('article','Module/资讯模块规则.zl'); //设置资讯模块规则路径,以.zl结尾
bltSetModulePath('quote','Module/行情模块规则.zl'); //行情模块规则
bltSetModulePath('special','Module/专题模块规则.zl'); //专题模块规则
bltSetModulePath('info','Module/招商模块规则.zl'); //招商模块规则
bltSetModulePath('brand','Module/品牌模块规则.zl'); //品牌模块规则
bltSetModulePath('mall','Module/商城模块规则.zl'); //商城模块规则
bltSetModulePath('group','Module/团购模块规则.zl'); //团购模块规则
bltSetModulePath('sell','Module/供应模块规则.zl'); //供应模块规则
bltSetModulePath('buy','Module/求购模块规则.zl'); //求购模块规则
bltSetModulePath('exhibit','Module/展会模块规则.zl'); //展会模块规则
bltSetModulePath('job','Module/人才招聘模块规则.zl'); //人才招聘模块规则
bltSetModulePath('know','Module/知道模块规则.zl'); //知道模块规则
bltSetModulePath('photo','Module/图库模块规则.zl'); //图库模块规则
bltSetModulePath('video','Module/视频模块规则.zl'); //视频模块规则
bltSetModulePath('down','Module/下载模块规则.zl'); //下载模块规则
 

    当然,你完全可以不去理会这些.zl结尾的脚本文件,直接按照视频教程输入网址,然后点开始,就可以睡觉去了。当然能理解并修改这些脚本的话,就可以自定义采集规则,否则就要等作者更新了。

    "libcurl.dll"是采集器使用的抓包动态库,zlib1.dll是和压缩有关的动态库,两个PHP文件,"mydetectTitle.php""zengl_caiji.php"是需要上传到服务端网站根目录下的接口文件,其中"mydetectTitle.php"负责将网站的分类信息反馈给采集器,"zengl_caiji.php"则负责将采集器上传过来的数据发布到网站中。这些在视频教程中提到过。

    area.xml文件里存放了391个地区数据,test.xml文件是系统获取网站分类信息时创建的临时文件。.xpm结尾的文件如checked.xpm等文件都是采集器图形界面中的小图标的特殊格式。splash.png是采集器的启动画面。debuglogs.txt文件里存放的是当zengl脚本编译出错时的信息(例如语法错误等)。正则表达式测试.txt是点击采集器工具栏里的测试按钮时会用到的文件。你可以将采集目标网站的源代码复制到该文件中,然后就可以在测试对话框中反复测试正则表达式(采集的本质就是利用正则表达式从页面中提取出有用的信息再经过加工过滤,就得到需要的信息了),得到正则表达式后,就可以将其写入采集规则的zengl脚本文件中。mylogs.txt是采集过程中的日志文件(请勿删除)。

    db目录中存放的是每个网站的分类信息和采集的数据的数据库文件,以及网站的模块数据等,这些都在视频教程里有详细介绍。

    Module目录中存放的是各个模块的采集规则文件,如下图:

    这些zengl脚本文件都是修改后立即生效的,因为采集器会自动编译生成对应的.zlc中间代码文件,并通过内置zengl虚拟机来运行中间代码。

    下面是程序的启动画面:

    机器人的启动画面可以单击画面来让其消失,或者等个几秒,它自动会消失。

    至于采集的具体方法请查看视频教程,zengl脚本的语法将在后面的章节中给出,大家先有个感性的认识。

    如果转载请注明来源 http://www.zengl.com   , OK , 先到这里,休息,休息一下 O(∩_∩)O~

上下篇

下一篇: 智能采集器v1.0.0 使用入门

上一篇: 暂无

相关文章

zengl脚本语法 第四章采集入门篇

zengl脚本语法 第七章内建函数枚举(二)

zengl脚本语法 第六章内建函数枚举

智能采集器 4月23日更新采集脚本

智能采集器 v1.2.2共享版

智能采集器v1.0.3