蓝天采集社区

 找回密码
 立即注册

扫一扫,访问微社区

搜索
热搜: 采集 cms
查看: 374|回复: 9

采集器取消了自动补全网址,还是会自动补全

[复制链接]

1

主题

1

帖子

15

积分

新手上路

Rank: 1

积分
15
发表于 2018-8-30 23:38:14 | 显示全部楼层 |阅读模式
之前设置了补全网址,然后改了不补全网址了,但是还是自动补全了,用内容替换页去不掉网址,有人知道怎么回事吗?
回复

使用道具 举报

19

主题

562

帖子

1804

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1804
发表于 2018-8-31 21:33:24 | 显示全部楼层
嗯,这是个bug
暂时解决》内容替换:
  1. <a href="([^\"]+)"
复制代码
  1. <a href="填写域名$1"
复制代码

回复 支持 反对

使用道具 举报

1

主题

10

帖子

63

积分

注册会员

Rank: 2

积分
63
发表于 2018-9-9 13:41:44 来自手机 | 显示全部楼层
我也遇到了,弄得我死去活来,各种检查也没搞定。原来真是bug啊
回复 支持 反对

使用道具 举报

1

主题

10

帖子

63

积分

注册会员

Rank: 2

积分
63
发表于 2018-9-9 13:48:45 来自手机 | 显示全部楼层
admin 发表于 2018-8-31 21:33
嗯,这是个bug
暂时解决》内容替换:

我为了这个弄了两个小时,死去活来啊,不懂正则表达式,所以内容替换弄不好。
我采集到的是a标签内容磁力链接,补全网址之后就不能用了,应该怎么替换呢?
回复 支持 反对

使用道具 举报

19

主题

562

帖子

1804

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1804
发表于 2018-9-9 21:38:49 | 显示全部楼层
链接不在a标签中就不会自动补齐
你直接提取链接即可,比如规则写
  1. <a href="[内容1]">
复制代码
回复 支持 反对

使用道具 举报

1

主题

10

帖子

63

积分

注册会员

Rank: 2

积分
63
发表于 2018-9-10 21:17:40 来自手机 | 显示全部楼层
admin 发表于 2018-9-9 21:38
链接不在a标签中就不会自动补齐
你直接提取链接即可,比如规则写

谢谢建议,只是因为链接有很多,而且分段标题,单独采集很难后期组合。
所以我整段采集然后整体做处理比较现实。
最后唯一的问题就是磁力链接在 a标签内被强制补齐。

我现在是采集后,在数据库中批量替换关键词来处理的。如果后续能修复网址补全这个问题就太好了。
回复 支持 反对

使用道具 举报

1

主题

10

帖子

63

积分

注册会员

Rank: 2

积分
63
发表于 2018-9-11 14:42:35 来自手机 | 显示全部楼层
admin 发表于 2018-9-9 21:38
链接不在a标签中就不会自动补齐
你直接提取链接即可,比如规则写

这个我知道,因为数据特点,这样会造成后面数据处理的麻烦,所以只能整体采集。
不过,数据库替换也还好,采集完成后一键批量处理。
回复 支持 反对

使用道具 举报

19

主题

562

帖子

1804

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1804
发表于 2018-9-13 21:48:54 | 显示全部楼层
暂时解决不了,后期修复
回复 支持 反对

使用道具 举报

1

主题

2

帖子

19

积分

新手上路

Rank: 1

积分
19
发表于 2018-9-21 23:32:37 | 显示全部楼层
我的好像没遇到过这样的问题呢、取消了就取消了
回复 支持 反对

使用道具 举报

19

主题

562

帖子

1804

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1804
发表于 2018-11-22 14:26:18 | 显示全部楼层
qijianchuan 发表于 2018-9-21 23:32
我的好像没遇到过这样的问题呢、取消了就取消了

已经修复了
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|蓝天采集社区  

GMT+8, 2018-12-14 04:43 , Processed in 0.029414 second(s), 23 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表