请选择 进入手机版 | 继续访问电脑版

蓝天采集社区

 找回密码
 立即注册
搜索
热搜: 采集 cms
开启左侧

示例教程:文章采集

[复制链接]
admin开发者 发表于 2019-10-7 12:00:08 | 显示全部楼层 |阅读模式
采集文章流程:列表页 → 获取内容页网址 → 内容页字段分析

起始页网址
http://shili.skycaiji.com/article.html为例,所有文章都在该列表中,即起始页为该网址
可添加多个起始页(例如列表分页)

1.png


内容页网址
点击“保存”后我们在“内容页网址”中测试抓取内容页网址

2.png


默认抓取所有网址(包括样式和js文件)
有些网址不包含域名(因为程序是直接抓取html源码的),可以在“采集器设置”中选中“自动补全网址”
我们只需要采集文章页面,通过分析文章网址的格式大致为“article/news/show/id/数字.html”
直接在“结果网址过滤>>必须包含”中输入“article/news/show/id/”,保存测试看看

3.png


如需精准还可以输入正则“article/news/show/id/\d+\.html”(\d+是匹配数字)
想过滤某些网址在“不能包含”中输入,例如过滤掉25、27、29的文章,输入:“25|27|29”即可

如果列表页布局比较复杂有很多个文章列表区域,而我们仅需要获取某个区域的文章,使用“从选定区域中提取网址”,新手推荐“xpath”获取形式,可在“获取内容>>测试>>测试抓取数据>>分析网页”中输入列表页网址,点击页面元素即可获取相应的xpath值

如果内容页链接不能直接获取(通过js生成)或者需要拼接成新网址,可以在“匹配内容网址”中设置

获取内容
分析出内容页网址后,我们需要抓取文章的标题、正文等信息则要添加字段来匹配出数据
新手推荐使用“xpath”匹配,在“测试>>分析网页”中输入一个文章链接
分析页面中点击获取到标题xpath:“//*[@id="title"]/h1[1]”,正文xpath:“//*[@id="content"]”
分别添加字段:标题、正文,获取方式选择“xpath匹配”,将获取到的xpath值填入即可

4.png

5.png


保存后点击测试抓取数据,效果:

6.png


正文中包含很多html标签,如需过滤可使用“数据处理>>html标签过滤”功能

如需采集分页内容,请参考文章分页教程

本示例已上传至云平台“http://www.skycaiji.com/Collect/rule/detail/id/100114”,如有细节方面问题请在本帖内回复!
回复

使用道具 举报

三少爷家的佣人 发表于 2020-4-27 19:07:11 | 显示全部楼层
为什么我一步一步照着做,测试的时候采集不到内容 sssss.jpg
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|蓝天采集社区

GMT+8, 2020-12-2 23:05 , Processed in 0.022532 second(s), 26 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表