全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 957|回复: 10

[Windows VPS] 爬虫大佬进来看看 这个书籍的详细信息部分该怎么抓取

[复制链接]
发表于 2021-9-19 11:48:26 | 显示全部楼层 |阅读模式
本帖最后由 小心二次元 于 2021-9-19 19:37 编辑

https://book.kongfz.com/247990/3896087752/

这里f12看是无序列表 有的书信息不全 怎么才能按字段把信息抓取出来 比如 作者 出版社 这样分开提取 出来



终于搞成这样了 现在有没有比较优雅的方法转成字典
发表于 2021-9-19 12:00:20 来自手机 | 显示全部楼层
xpath 定位作者 出版时间等 然后提取子节点数据
发表于 2021-9-19 11:50:47 来自手机 | 显示全部楼层
不都是一个结构里面的数据吗?结构化数据,if else判断提取就行
发表于 2021-9-19 12:00:34 | 显示全部楼层
正则 css xpath 都可以啊
发表于 2021-9-19 12:01:06 来自手机 | 显示全部楼层
取所以的ul把,匹配标识
发表于 2021-9-19 12:02:13 | 显示全部楼层
提供一个思路,
先把  detail-list1 的内容搞到,然后 get_all 所有的 li 标签,每个li标签都转成文字(.text()),之后在分割字符串  :  ,实现信息的数组化

我思路是用python爬,其他的语言借鉴即可
发表于 2021-9-19 12:15:17 | 显示全部楼层
我想法跟楼上一样.. 得到detail-list1 的text
直接正则   /.+:.+\n/g   匹配全部.
发表于 2021-9-20 12:46:32 来自手机 | 显示全部楼层
我想看哈国富论  有不有正规的地方能搞到电子版
发表于 2021-9-20 12:47:35 | 显示全部楼层
我连什么是爬虫都不知道。
 楼主| 发表于 2021-9-20 21:26:19 | 显示全部楼层
Ryen 发表于 2021-9-20 12:46
我想看哈国富论  有不有正规的地方能搞到电子版

https://b-ok.cc/s/?q=%E5%9B%BD%E5%AF%8C%E8%AE%BA
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-4-25 17:41 , Processed in 0.064466 second(s), 9 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表