请选择 进入手机版 | 继续访问电脑版

蓝天采集社区

 找回密码
 立即注册
搜索
热搜: 采集 cms
开启左侧

【求助】关于 td class 的 xpath 怎么写?

[复制链接]
ybenter 发表于 2020-6-11 14:49:07 | 显示全部楼层 |阅读模式
本帖最后由 ybenter 于 2020-6-12 11:20 编辑


在HTML代码中,"x40"是不变的,现在我想要写一段xpath,在网页中提取所有【我要提取的文字】,请问怎么写?


<td class='x40' style='overflow:hidden;'>【我要提取的文字】</td>


谢谢!


补充内容:
我用的服务器是阿里云 CentOS 8.0
安装和运行蓝天采集器没有任何问题。
但xpath和正则都不能采集到数据。
是不是 CentOS 8.0 限制了采集器?

回复

使用道具 举报

goda 发表于 2020-6-11 16:09:00 | 显示全部楼层
用正则更好
  1. <td class='x40' style='overflow:hidden;'>[内容]</td>
复制代码
回复 支持 反对

使用道具 举报

 楼主| ybenter 发表于 2020-6-11 16:18:42 | 显示全部楼层

不会写正则。。。
回复 支持 反对

使用道具 举报

goda 发表于 2020-6-11 16:31:50 | 显示全部楼层
很好学的,看看 deerchao.cn/tutorials/regex/regex.htm
回复 支持 反对

使用道具 举报

 楼主| ybenter 发表于 2020-6-11 16:35:48 | 显示全部楼层
goda 发表于 2020-6-11 16:31
很好学的,看看 deerchao.cn/tutorials/regex/regex.htm

好的,我学学。谢谢~!
回复 支持 反对

使用道具 举报

 楼主| ybenter 发表于 2020-6-12 11:23:38 | 显示全部楼层
补充内容:
我用的服务器是阿里云 CentOS 8.0
安装和运行蓝天采集器没有任何问题。
但xpath和正则都不能采集到数据。
是不是 CentOS 8.0 限制了采集器?
回复 支持 反对

使用道具 举报

goda 发表于 2020-6-13 21:24:24 | 显示全部楼层
采集器能正常用和系统没关系吧?你测试抓取源码看看有内容不
回复 支持 反对

使用道具 举报

 楼主| ybenter 发表于 2020-6-15 21:58:29 | 显示全部楼层
本帖最后由 ybenter 于 2020-6-15 22:00 编辑

解决了,是我不会写xpath和正则导致的问题。

蓝天采集器和CentOS都没有问题。

另外告诉大家,在服务器上采集速度很快。(商业采集器,例如:后羿采集器等,不交钱速度慢)
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|蓝天采集社区

GMT+8, 2020-8-13 05:13 , Processed in 0.021511 second(s), 23 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表