全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 2940|回复: 43

[全球爬虫论坛] python获取的网页和浏览器的结果不一致

[复制链接]
发表于 2022-8-17 13:02:56 | 显示全部楼层 |阅读模式
本帖最后由 深海空间 于 2022-8-18 20:15 编辑

根据32楼mjj提醒, 使用http.cliens是可以正常获取页面的, 但是使用requests就不行了, 用的同一套 proxies和headers....,有大佬一起研究下是什么原因吗?我就想用requests来爬

-------------------------------------------------------------------------------------------------

最近想冲刺一下考研, 所以就上去P站看考研的视频(咳咳咳)
使用python获取网页源码的时候发现用re匹配不到结果
最后我把python爬下来的内容用浏览器打开看看,发现直接提示
no valid source are available for the video
了, 加了cookie和UA也是一样, 代理和浏览器用的是同一个, mjj有啥解决思路嘛?

地址: cn.po删rnhub.com/view_video.php?viewkey=ph620dd32bd1ec4

p站程序员把mp4完整视频的链接放在了html页面里并赋值为 media_4,只要把这个值提取出来就可以拿到视频完整直链(非m3u8切片), 但是现在请求下的页面有问题, 找不到这个值, 这个值不是由JS生成的,是直接放在html页面的




正常的返回网页结果应该有 media_4 这个关键词的
用python的话返回时这个样子的



-------------------------------------------------------------------------------------------------

我用python请求返回来的是张这样的, html页面开头有好几行注释, 正常的不应该会有这么多注释




发表于 2022-8-17 13:05:23 来自手机 | 显示全部楼层
换个姿势,用selenium 或者puppeteer
发表于 2022-8-17 13:08:34 | 显示全部楼层
2楼正解,稍微有点反爬的re处理都比较麻烦
发表于 2022-8-17 13:30:30 来自手机 | 显示全部楼层
大概率是js加载的数据 直接上selenium
发表于 2022-8-17 13:33:19 | 显示全部楼层
selenium多慢啊, 要是js渲染的就去解这个js
发表于 2022-8-17 15:00:54 | 显示全部楼层
虽然 我不会
但是你这个提问方式我就很喜欢
发表于 2022-8-17 15:10:54 | 显示全部楼层
Mr.lin 发表于 2022-8-17 13:33
selenium多慢啊, 要是js渲染的就去解这个js

这个是大佬,我梦想着自己的JS能到这个水平
 楼主| 发表于 2022-8-17 15:50:29 | 显示全部楼层
dragonfsky 发表于 2022-8-17 13:30
大概率是js加载的数据 直接上selenium

感觉不是通过JS加载页面的, 我在chrome上右键查看源代码时是可以看到哪些内容, 通过xhr加载的话源代码看不到的
 楼主| 发表于 2022-8-17 16:36:06 | 显示全部楼层
Mr.lin 发表于 2022-8-17 13:33
selenium多慢啊, 要是js渲染的就去解这个js

不是JS渲染的, 关键信息都放在这个路径的html页面里
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-4-19 08:33 , Processed in 0.078455 second(s), 10 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表