[全球爬虫论坛] python获取的网页和浏览器的结果不一致

深海空间 · 发表于 2022-8-17 13:02:56

本帖最后由深海空间于 2022-8-18 20:15 编辑

根据32楼mjj提醒, 使用http.cliens是可以正常获取页面的, 但是使用requests就不行了, 用的同一套 proxies和headers....，有大佬一起研究下是什么原因吗？我就想用requests来爬

-------------------------------------------------------------------------------------------------

最近想冲刺一下考研, 所以就上去P站看考研的视频(咳咳咳)
使用python获取网页源码的时候发现用re匹配不到结果
最后我把python爬下来的内容用浏览器打开看看,发现直接提示
no valid source are available for the video
了, 加了cookie和UA也是一样, 代理和浏览器用的是同一个, mjj有啥解决思路嘛?

地址: cn.po删rnhub.com/view_video.php?viewkey=ph620dd32bd1ec4

p站程序员把mp4完整视频的链接放在了html页面里并赋值为 media_4,只要把这个值提取出来就可以拿到视频完整直链(非m3u8切片), 但是现在请求下的页面有问题, 找不到这个值, 这个值不是由JS生成的,是直接放在html页面的

正常的返回网页结果应该有 media_4 这个关键词的
用python的话返回时这个样子的

-------------------------------------------------------------------------------------------------

我用python请求返回来的是张这样的, html页面开头有好几行注释, 正常的不应该会有这么多注释

hous135 · 发表于 2022-8-17 13:05:23

换个姿势，用selenium 或者puppeteer

Unique · 发表于 2022-8-17 13:08:34

2楼正解，稍微有点反爬的re处理都比较麻烦

dragonfsky · 发表于 2022-8-17 13:30:30

大概率是js加载的数据直接上selenium

Mr.lin · 发表于 2022-8-17 13:33:19

selenium多慢啊, 要是js渲染的就去解这个js

CapitalTeemo · 发表于 2022-8-17 14:54:07

js逆向

榆榆不可及 · 发表于 2022-8-17 15:00:54

虽然我不会
但是你这个提问方式我就很喜欢

Tankie · 发表于 2022-8-17 15:10:54

Mr.lin 发表于 2022-8-17 13:33
selenium多慢啊, 要是js渲染的就去解这个js

这个是大佬，我梦想着自己的JS能到这个水平

深海空间 · 发表于 2022-8-17 15:50:29

dragonfsky 发表于 2022-8-17 13:30
大概率是js加载的数据直接上selenium

感觉不是通过JS加载页面的, 我在chrome上右键查看源代码时是可以看到哪些内容, 通过xhr加载的话源代码看不到的

深海空间 · 发表于 2022-8-17 16:36:06

Mr.lin 发表于 2022-8-17 13:33
selenium多慢啊, 要是js渲染的就去解这个js

不是JS渲染的, 关键信息都放在这个路径的html页面里

		自动登录	找回密码
密码			注册