全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 1192|回复: 19

【已解决】小说爬虫疑问

[复制链接]
发表于 2020-9-7 19:42:48 | 显示全部楼层 |阅读模式
本帖最后由 cgi 于 2020-9-8 09:59 编辑

我用python 写的脚本  获取了目录页面所有的 章节,然后下载的时候总是会下载红框里的章节,并不是从第一章开始下载的,有老哥指点一下吗。我相信LOC 肯定有爬虫大佬

用了@laogui 老哥说的方法 然后搜了一下 following-sibling 定位准确一些

www.biqudu.net小说下载.rar

923 Bytes, 下载次数: 24

www.biqudu.net下载一本小说.rar

953 Bytes, 下载次数: 5

问题已解决

发表于 2020-9-7 19:44:20 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
 楼主| 发表于 2020-9-7 19:45:59 | 显示全部楼层
h20 发表于 2020-9-7 19:44
这种MJJ都是收费咨询

好吧。我再去b站看看
发表于 2020-9-7 19:54:09 | 显示全部楼层
大概看了下,你的解析写的有问题,第一个穿的就是红框里的网址,肯定下载的也是那里的
发表于 2020-9-7 20:09:14 | 显示全部楼层
43行改为
  1. for href in href_s[12:]:
复制代码
发表于 2020-9-7 20:13:20 | 显示全部楼层

这样没从根本上解决问题,换个小说又要换,而且那部分内容还少了
发表于 2020-9-7 20:18:59 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2020-9-7 20:19:14 | 显示全部楼层
本帖最后由 518 于 2020-9-7 20:22 编辑
vagrantear 发表于 2020-9-7 20:13
这样没从根本上解决问题,换个小说又要换,而且那部分内容还少了


好吧  那就改为
  1. for href in href_s[min(12,len(href_s)//2):]:
复制代码
发表于 2020-9-7 20:20:54 | 显示全部楼层
期待大佬出现。我赶紧mark一下。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-3-29 18:51 , Processed in 0.068822 second(s), 11 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表