本帖最后由 深海空间 于 2022-8-18 20:15 编辑
根据32楼mjj提醒, 使用http.cliens是可以正常获取页面的, 但是使用requests就不行了, 用的同一套 proxies和headers....,有大佬一起研究下是什么原因吗?我就想用requests来爬
-------------------------------------------------------------------------------------------------
最近想冲刺一下考研, 所以就上去P站看考研的视频(咳咳咳)
使用python获取网页源码的时候发现用re匹配不到结果
最后我把python爬下来的内容用浏览器打开看看,发现直接提示
no valid source are available for the video
了, 加了cookie和UA也是一样, 代理和浏览器用的是同一个, mjj有啥解决思路嘛?
地址: cn.po删rnhub.com/view_video.php?viewkey=ph620dd32bd1ec4
p站程序员把mp4完整视频的链接放在了html页面里并赋值为 media_4,只要把这个值提取出来就可以拿到视频完整直链(非m3u8切片), 但是现在请求下的页面有问题, 找不到这个值, 这个值不是由JS生成的,是直接放在html页面的
正常的返回网页结果应该有 media_4 这个关键词的
用python的话返回时这个样子的
-------------------------------------------------------------------------------------------------
我用python请求返回来的是张这样的, html页面开头有好几行注释, 正常的不应该会有这么多注释
|