爬虫大佬进来看看这个书籍的详细信息部分该怎么抓取

小心二次元 · 发表于 2021-9-19 11:48:26

本帖最后由小心二次元于 2021-9-19 19:37 编辑

https://book.kongfz.com/247990/3896087752/

这里f12看是无序列表有的书信息不全怎么才能按字段把信息抓取出来比如作者出版社这样分开提取出来

终于搞成这样了现在有没有比较优雅的方法转成字典

asan1148 · 发表于 2021-9-19 12:00:20

xpath 定位作者出版时间等然后提取子节点数据

tonyma · 发表于 2021-9-19 11:50:47

不都是一个结构里面的数据吗？结构化数据，if else判断提取就行

盯裆猫 · 发表于 2021-9-19 12:00:34

正则 css xpath 都可以啊

van · 发表于 2021-9-19 12:01:06

取所以的ul把，匹配标识

JustDoing · 发表于 2021-9-19 12:02:13

提供一个思路，
先把 detail-list1 的内容搞到，然后 get_all 所有的 li 标签，每个li标签都转成文字（.text()）,之后在分割字符串 : ，实现信息的数组化

我思路是用python爬，其他的语言借鉴即可

teardrops · 发表于 2021-9-19 12:15:17

我想法跟楼上一样.. 得到detail-list1 的text
直接正则 /.+:.+\n/g 匹配全部.

Ryen · 发表于 2021-9-20 12:46:32

我想看哈国富论有不有正规的地方能搞到电子版

雪丫鬟 · 发表于 2021-9-20 12:47:35

我连什么是爬虫都不知道。

小心二次元 · 发表于 2021-9-20 21:26:19

Ryen 发表于 2021-9-20 12:46
我想看哈国富论有不有正规的地方能搞到电子版

https://b-ok.cc/s/?q=%E5%9B%BD%E5%AF%8C%E8%AE%BA

		自动登录	找回密码
密码			注册

[Windows VPS] 爬虫大佬进来看看 这个书籍的详细信息部分该怎么抓取