请选择 进入手机版 | 继续访问电脑版

蓝天采集社区

 找回密码
 立即注册
搜索
热搜: 采集 cms
查看: 1132|回复: 10

采集中断、自动采集无效、图片下载不了,解决方法!

[复制链接]

22

主题

609

帖子

1945

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1945
发表于 2019-3-19 23:03:03 | 显示全部楼层 |阅读模式
因为web服务器有运行时间限制,所以只要采集执行时间太长都会导致程序中断,需要修改web服务器的超时时间
IIS服务器
桌面>计算机>右键>管理>服务和应用程序>IIS>根目录>FastCGI 设置>双击"php-cgi.exe">活动超时

1.jpg    2.jpg

apache服务器:
apache目录\conf\extra\httpd-default.conf,修改Timeout

nginx服务器:
nginx目录\conf\nginx.conf,修改 fastcgi_connect_timeout

修改以上的参数值可让采集不再中断,修改完后记得重启服务器!
其他服务器请自行百度
如果你是虚拟主机无法修改配置,唯一方法就是设置采集数量,每次不要采集太多,一般web服务器运行时间为30秒,尽量不要超时!


回复

使用道具 举报

0

主题

4

帖子

14

积分

新手上路

Rank: 1

积分
14
发表于 2019-5-28 09:42:34 | 显示全部楼层
zmh886 发表于 2019-5-27 21:46
我用的是直接弄个网页自刷新执行采集,可以做到无人值守一直抓取。
代码大概如下:设置的2分钟采集间隔, ...

你这个还是要开个页面一直开机抓取,应该做到服务器后台计划任务自动抓取,这样就是真的无人值守。
回复 支持 1 反对 0

使用道具 举报

2

主题

11

帖子

94

积分

注册会员

Rank: 2

积分
94
发表于 2019-3-21 17:48:52 | 显示全部楼层
貌似采集数量设置少一些可以采集,可以2000-4000-6000一个一个试试
回复 支持 反对

使用道具 举报

2

主题

11

帖子

94

积分

注册会员

Rank: 2

积分
94
发表于 2019-4-7 12:27:51 | 显示全部楼层
还有人有解决的方法没?都不行
回复 支持 反对

使用道具 举报

0

主题

4

帖子

14

积分

新手上路

Rank: 1

积分
14
发表于 2019-5-27 16:19:22 | 显示全部楼层
后台采集为啥不做成 php守护进程的方式。我看代码里面有  应该加入命令行启动守护进程。前台点击后台采集就把任务提交到队列里面有队列去执行
回复 支持 反对

使用道具 举报

0

主题

4

帖子

14

积分

新手上路

Rank: 1

积分
14
发表于 2019-5-27 18:17:19 | 显示全部楼层
今天试了一下,中断的几率太高了,无法做到无人值守的抓取。还是应该使用队列加守护的方式
回复 支持 反对

使用道具 举报

5

主题

20

帖子

83

积分

注册会员

Rank: 2

积分
83
QQ
发表于 2019-5-27 21:46:59 | 显示全部楼层
本帖最后由 zmh886 于 2019-5-27 21:48 编辑
老码农 发表于 2019-5-27 18:17
今天试了一下,中断的几率太高了,无法做到无人值守的抓取。还是应该使用队列加守护的方式 ...

我用的是直接弄个网页自刷新执行采集,可以做到无人值守一直抓取。
代码大概如下:设置的2分钟采集间隔,下面代码设置的125秒刷新一次。
  1. <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
  2. <meta http-equiv="refresh" content="125">


  3. <div id='numDiv'>...</div>
  4. <script src="http://www.lz2.cc/caiji/index.php?s=/admin/Task/collect&id=3"></script>
  5. <script type="text/javascript">
  6. var num=125;
  7. var interval=setInterval(function(){
  8. if(num==0){
  9. clearInterval(interval);
  10. }
  11. numDiv.innerHTML=num--;
  12. numDiv.innerHTML=numDiv.innerHTML+"秒后刷新本页面";
  13. },1000);
  14. </script>
  15. </body>
复制代码

[url=http://www.lz2.
回复 支持 反对

使用道具 举报

0

主题

4

帖子

38

积分

新手上路

Rank: 1

积分
38
发表于 2019-5-28 16:11:17 | 显示全部楼层
老码农 发表于 2019-5-28 09:42
你这个还是要开个页面一直开机抓取,应该做到服务器后台计划任务自动抓取,这样就是真的无人值守。 ...

采用自动采集方式,然后把触发采集地址添加到定时访问url任务里面!就可以实现自动采集。就是停止运行也可以采集!
回复 支持 反对

使用道具 举报

0

主题

4

帖子

14

积分

新手上路

Rank: 1

积分
14
发表于 2019-5-29 10:27:30 | 显示全部楼层
之前用tp5的queue做过队列自动采集的。有卡死的情况不稳定。后来加了supervisor好多了。这块蓝天应该借鉴一下
回复 支持 反对

使用道具 举报

5

主题

20

帖子

83

积分

注册会员

Rank: 2

积分
83
QQ
发表于 2019-5-30 22:03:04 | 显示全部楼层
老码农 发表于 2019-5-28 09:42
你这个还是要开个页面一直开机抓取,应该做到服务器后台计划任务自动抓取,这样就是真的无人值守。 ...

今天发现我的方法还有个小问题,必须是先登录管理员,才能使用这样指定任务的方式采集。
[url=http://www.lz2.
回复 支持 反对

使用道具 举报

*滑块验证:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|蓝天采集社区

GMT+8, 2019-6-25 00:02 , Processed in 0.027873 second(s), 26 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表