• 网页模板 http://www.lmlblog.com/wo/share/

火车采集器采集文章链接图文教程

maolai 933次浏览 0个评论

下面以凤凰中医甲亢的常识http://zhongyi.ifeng.com/jiakang/jkdcs/为例,要采集的是每个页面文章的链接。打开网址点击页面数2、3、4。它每个页面的链接是有变化的。

一、第一步采集网址,这里地址格式的页数是变量,用星号代替。等差数列这里采集3页,设置完后点击添加,再点击完成。(这里是多页采集,如果只采集一个页面用“单条网址”就可以了)如下图:

火车添加采集网址

二、a、第二步网址提取,即通过源代码截取每页第一篇文章开头标签到最后一篇文章结束标签,如http://zhongyi.ifeng.com/jiakang/jkdcs/甲亢的常识第一篇文章“甲亢的危害到底有哪些呢?”在源代码查找它。并找到它的开始标签(<div class="ne_lis">)。如下图

第一篇文章链接

第一篇文章的开始标签

b、同样在http://zhongyi.ifeng.com/jiakang/jkdcs/甲亢的常识的最后一篇文章“大人有甲亢小孩会不会有甲亢”查找它的结束标签(<div class="lin_st">)。如下图:

最后一篇文章结束标签

3、最后填写如下:其中的“必须包含”一般写文章的链接。填完后点击保存(简单说就是查找要采取这个页面开始和结束的标签,而且必须是唯一。)

区域提取网址

4、完成上面的两个步骤,点击“测试网址采集”进行采集网址。

测试网址采集

5、测试得到如下,最后点击“导出一级节点”导出采集的链接。

测试地址采集

点击下载火车采集器(包含上面的采集任务)。


本文由MAOLAI博客编辑整理发布,欢迎分享,转载请注明出处!
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址