×

火车头采集教程

火车头采集教程(火车头采集器v8编写采集规则怎么弄)

admin admin 发表于2023-10-03 07:32:02 浏览44 评论0

抢沙发发表评论

本文目录

火车头采集器v8编写采集规则怎么弄

火车头的规则很难设置的,不像八爪鱼采集器那样简单你应该是新手吧,建议你用八爪鱼采集器,到网上看一下四分钟的教程照着操作一次就会了。希望我的回答能帮到你

如何使用火车头采集器采集网页图片详细图文教程

  火车头采集器采集信息分两个步骤:  1,采网址。这一步也是就告诉软件,有多少个网页需要去采,并给出具体的网页地址。  2,采内容。有了网址之后,就可以去这个网址上采集信息了,但网页上信息众多,软件不知道你想采哪些。在采内容部分,就要做规则了。告诉软件我想采什么。  1,采网址。  网页上的产品信息就是所想采的,即为目标。  在采集链接页面里,输入采集地址的列表页,这里要注意无用链接的过滤。  然后点击测试按钮测试所填信息的正确性:  测试正确以后,我们对地址进行扩展,现在我们只不过是采了一张列表页的文章地址,还有其它的列表要需要采集,其它的列表页就在它的分页上,我们观察这些分布的链接形式,找出规律,然后批量填入网址规则。  2,内容的采集  经过上面的处理,目标产品页的链接都已经能够采到,下面我们进入内容的采集。  明确好要采集的内容以后,我们开始编写采集规则,火车头采集内容是采集网页的源代码,因此我们要打开产品页的源代码,找到我们要采集信息所在的位置。比如,Description字段的采集:  找到Description的位置,找到之后,如何填写采集规则呢,很简单,只要将采集目标的开始字符串与结束字符串填入采集的对应位置。这里我们选取《span》Description:《/span》作为开始字符串,《/span》为结束字符串。值得注意的是,开始字符串必须在本页面是唯一的,并且在其它产品页面也存在这个字符串。本页面唯一能使软件找到要采集的位置,其它页面通用,保证软件能够采到其它页面的数据。  填完以后并不表示就能采集正确了,还需测试一下,排除一些无用数据,排除可在HTML标签排除和内容排除中进行。测试成功后,这样一个标签就制作好了。  这里我们使用通配符来实现这一要求。我们把不通用的地方用(*)通配符来表示任意。而要采集的地址我们用参数(变量)来表示。最后我们将这段内容变为:《li id=“current“》(*)Compare Prices(*)《a href=““ onClick=“(*)“》Product Details,填入模块,并测试是否成功。  如果测试没有成功,那说明你填入的内容还不符合唯一且通用的标准,还需要调试。测试成功以后,可以保存,进入标签的制作了。  这里的标签制作与上面的是一样的,找到要采集信息的所在地,填入开始结束字符串,并做好过滤,唯一的不同的在于所属页面选项里要选择刚才制作好的模块,这里就不赘述,直接显示结果了。  这样标签就制作完成了。点击更新以后,去掉发布选项,就可以进行任务的采集了。

火车头采集器怎么采集今日头条文章

第一步采集网址,下载好火车头采集器后打开,新建一个任务,任务名随意。把需要采集的网站文章列表页网址添加到起始网址。从图中看出该列表页有34页,每页有N篇文章。2列表页会一级网址,添加多级网址获取,从而获取二级网址(文章页网址)设置列表分页获取,3个地方分别是:分页源代码前面和后面还有中间位置。这一步用于获取列表页面链接,因为有34个列表页面。设置完保存。网址获取选项,这一步用于获取列表页上面文章页的链接,根据自己需要设置需要截取的部分和根据网址的结构设置包含与不包含某些字符。为空即没限制,设置完保存。设置好链接采集规则后,可以测试网址,看测试结果调整规则。看图可以看到采集链接规则从起始链接到全面列表页再到列表页上的文章页链接都已经成功采集。第二步是采集内容,首先修改标题规则,在页面源代码里面找到标题的代码,把标题前后代码负责过去截取出标题。保存。修改内容采集规则,跟标题规则差不多,也是源代码里面找到内容的前后代码。这里内容会有一些其他html标签,所以得添加一个html标签排除的规则。完成后,测试看一下结果,从测试结果来调试规则,直到测试结果是自己想要的内容为止。第三步是采集导出。前面1、2两步把规则设置好,最后就要把文章导出了。先做一个导出的模版。然后选择方式二,把每一篇文章都分别记录到一个txt文本,保存位置自己选择,模板选择刚刚做好的导出模版.保存的文件名用文章标题为命名。其他默认,保存。把采集网址,采集内容,发布3个选项框都勾选,然后开始采集。完成后文本就自动生成在刚刚保存的文件夹里面了。火车头采集器采集文章教程到此就完成了,由于每个网站都是不一样的,所以这里只能用一个网站演示,只是一个方法思路,自己采集文章还需要灵活变通。

火车头采集下来怎么发布到网站上

1、运行火车头软件,点击发布到发布窗口界面;2、点击添加,依次选择发布接口,选择网站编码、填写后台路径、(因为是免登陆接口)选择不需要登录&