请选择 进入手机版 | 继续访问电脑版

蓝天采集社区

 找回密码
 立即注册
搜索
热搜: 采集 cms
开启左侧

示例教程:小说采集

[复制链接]
admin开发者 发表于 2019-10-7 20:10:25 | 显示全部楼层 |阅读模式
小说采集流程:小说列表页→单本小说章节列表页→小说章节页
小说比文章多了一级网址,可以将单本小说章节列表页视为文章列表页,小说章节页视为文章内容页,多出来的是小说列表页即小说名称列表
那么小说列表页就是起始页,当然你也可以将单本小说章节列表作为起始页(类似于文章采集),本教程重点讲解多本小说采集

http://shili.skycaiji.com/novel.html为例,将其设置为起始页网址
分析出单本小说章节列表网址规则为:
  1. novel/index/show/id/\d+\.html
复制代码
注意不能直接将规则填入到“内容页网址获取”中,因为“内容页网址获取”表示的是最后一级页面即小说的章节内容页
此处匹配出的网址是章节列表页,应该添加为“多级网址”再匹配出内容页网址

xiaoshuo1.png


xiaoshuo2.png


保存后测试抓取内容页网址

xiaoshuo3.png


如图所示从起始页中抓取到了2本小说,每本小说抓取到了32条网址(此时抓取到的是全部链接,包含样式和js文件链接,需要过滤出章节网址)
进入http://shili.skycaiji.com/novel/index/show/id/1.html分析出章节网址规则:
  1. novel/chapter/show/id/\d+\.html
复制代码

这时就可以将规则填入“内容页网址获取》结果网址过滤》必须包含”中,保存后再测试:

xiaoshuo4.png


成功抓取到所有章节链接

接下来就是抓取章节的标题、正文了,点击上图的分析,即可直接在页面中点击元素获取xpath值
获取到的标题xpath://*[@id="title"]/h1
正文xpath://*[@id="content"]
分别添加字段:标题、正文,获取方式选择“xpath匹配”,将获取到的xpath值填入即可

xiaoshuo5.png


xiaoshuo6.png


保存后测试抓取数据:

xiaoshuo7.png


如果章节有分页,可以参考文章分页教程

本示例已上传至云平台“http://www.skycaiji.com/Collect/rule/detail/id/100110”,如有细节方面问题请在本帖内回复!
回复

使用道具 举报

哦了个哦 发表于 2019-10-31 15:30:49 | 显示全部楼层
您好,请问一下怎么把书名发布到表生成自增ID,然后抓取内容页发布的时候把书本的ID和章节内容存到另外一张表呢
回复 支持 反对

使用道具 举报

hjun0907 发表于 2020-1-9 17:21:59 来自手机 | 显示全部楼层
没有小说发布插件
回复 支持 反对

使用道具 举报

hjun0907 发表于 2020-1-11 19:40:54 来自手机 | 显示全部楼层
没有wmcms小说插件
回复 支持 反对

使用道具 举报

jscmcc 发表于 2020-1-13 11:00:25 | 显示全部楼层
这个你要在数据库中建格式相同的数据表  ,然后在写个触发器  详细的去了解数据库开发手册
回复 支持 反对

使用道具 举报

hjun0907 发表于 2020-1-13 11:47:41 来自手机 | 显示全部楼层
感觉这个采集器与狂雨小说里面的采集器差不多
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|蓝天采集社区

GMT+8, 2020-3-29 04:14 , Processed in 0.021236 second(s), 26 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表