全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
楼主: 深海空间

[全球爬虫论坛] python获取的网页和浏览器的结果不一致

[复制链接]
 楼主| 发表于 2022-8-17 20:28:53 | 显示全部楼层
Chiser 发表于 2022-8-17 19:35
如果你右键查看网站源代码没有上述关键词,那就换个姿势,或者考虑手机模式下,说不定有惊喜 ...

右键查看源代码有这个关键字,用python请求的话就找不到,ua和cookie都改了还是一样,不太清楚他是怎么把python和浏览器区分出来的,也没被cf拦住
发表于 2022-8-17 21:06:36 | 显示全部楼层
应该没区分啊,我用postman直接get都有

 楼主| 发表于 2022-8-17 22:25:40 | 显示全部楼层
badyun 发表于 2022-8-17 21:06
应该没区分啊,我用postman直接get都有

我用python的话
发表于 2022-8-17 22:28:30 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2022-8-17 23:06:16 | 显示全部楼层
是js计算的,需要把动态生成的那段js运行一下,就能得到m3u8地址
 楼主| 发表于 2022-8-17 23:29:24 | 显示全部楼层
红A 发表于 2022-8-17 23:06
是js计算的,需要把动态生成的那段js运行一下,就能得到m3u8地址

不是, 你打开我帖子里的链接, 再打开chrome调试工具, 刷新页面, 然后在console里打印media_4这个值, 这个是写死在html页面的一个mp4格式的直链(非m3u8切片)

发表于 2022-8-17 23:42:47 | 显示全部楼层
用python试了下.   抓回来的 源码有 media_4

你确认下get 发出的http头吧
发表于 2022-8-17 23:49:12 | 显示全部楼层
postman直接调都有,肯定不是js算的

 楼主| 发表于 2022-8-18 00:18:35 | 显示全部楼层
本帖最后由 深海空间 于 2022-8-18 00:30 编辑
teardrops 发表于 2022-8-17 23:42
用python试了下.   抓回来的 源码有 media_4

你确认下get 发出的http头吧


见鬼了, 就两行代码, 不应该会出错的啊

发表于 2022-8-18 00:26:24 来自手机 | 显示全部楼层
深海空间 发表于 2022-8-18 00:18
见鬼了, 就两行代码, 不应该会出错的啊

请求头问题吧……
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-5-2 07:41 , Processed in 0.065687 second(s), 8 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表