下面以凤凰中医甲亢的常识http://zhongyi.ifeng.com/jiakang/jkdcs/为例,要采集的是每个页
面文章的链接。打开网址点击页面数2、3、4。它每个页面的链接是有变化的。
一、第一步采集网址,这里地址格式的页数是变量,用星号代替。等差数列这里采集3页,设置完
后点击添加,再点击完成。(这里是多页采集,如果只采集一个页面用“单条网址”就可以了)
如下图:
二、a、第二步网址提取,即通过源代码截取每页第一篇文章开头标签到最后一篇文章结束标签,
如http://zhongyi.ifeng.com/jiakang/jkdcs/甲亢的常识第一篇文章“甲亢的危害到底有哪些呢
?”在源代码查找它。并找到它的开始标签(<div class="ne_lis">)。如下图
b、同样在http://zhongyi.ifeng.com/jiakang/jkdcs/甲亢的常识的最后一篇文章“大人有甲亢
小孩会不会有甲亢”查找它的结束标签(<div class="lin_st">)。如下图:
3、最后填写如下:其中的“必须包含”一般写文章的链接。填完后点击保存(简单说就是查找要
采取这个页面开始和结束的标签,而且必须是唯一。)
4、完成上面的两个步骤,点击“测试网址采集”进行采集网址。
5、测试得到如下,最后点击“导出一级节点”导出采集的链接。
百度云盘下载http://pan.baidu.com/s/1gebVr3P"火车采集器(包含上面的采集任务)。