全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 1433|回复: 7

[疑问] 爬取油管上up主视频标签页的所有链接

[复制链接]
发表于 2021-5-1 22:52:44 | 显示全部楼层 |阅读模式
本帖最后由 laogui 于 2021-5-1 23:19 编辑

获取有图比上up主的所有视频链接
代码地址:https://paste.ubuntu.com/p/Dhfy5ywwZq/
环境:python3,相关依赖自行安装
将代码下载保存为ytb_getuservideo_urls.py文件

用法:
python ytb_getuservideo_urls.py url
url:up主个人页面中"视频"标签对应的链接

具体例子参考代码中顶部注释
爬取的链接保存在ytb_video_urls.txt文件中

代码自用,写得烂,存在bug,仅供参考
代码自用,写得烂,存在bug,仅供参考
代码自用,写得烂,存在bug,仅供参考

下载好的视频链接,如何方便下载?
可参考:https://hostloc.com/thread-767847-1-1.html

有大佬说到ytb-dl可以下载频道全部视频,利用--sleep-interval SECONDS 和  -max-sleep-interval SECONDS 可以控制每次下载视频间隔
那为什么还要造轮子呢?
小小鸡,15G硬盘,6T流量,经常下载4k、2k资源,一次性下载存储不了全部视频
因此个人做法是:
1、将所有视频链接爬取下来
2、写shell脚本,分批循环下载
 楼主| 发表于 2021-5-1 22:55:26 | 显示全部楼层
发表于 2021-5-1 22:58:07 | 显示全部楼层
我也在搞,可以参考一下大佬的
发表于 2021-5-1 23:00:07 | 显示全部楼层
ytdl本身就支持下载整个频道的全部视频
 楼主| 发表于 2021-5-1 23:03:25 | 显示全部楼层
本帖最后由 laogui 于 2021-5-1 23:04 编辑
宣传 发表于 2021-5-1 23:00
ytdl本身就支持下载整个频道的全部视频


ytdl应该没办法控制每次下载时间间隔,容易导致IP被拉黑

只有小鸡,15G硬盘,经常下载4k、2k资源
个人做法是:
1、将所有视频链接爬取下来
2、写shell脚本,分批循环下载,同时控制时间间隔
发表于 2021-5-1 23:05:46 | 显示全部楼层
laogui 发表于 2021-5-1 23:03
ytdl应该没办法控制每次下载时间间隔,容易导致IP被拉黑

只有小鸡,15G硬盘,经常下载4k、2k资源

有--sleep-interval SECONDS 和  -max-sleep-interval SECONDS 可以控制
 楼主| 发表于 2021-5-1 23:08:42 | 显示全部楼层
chenliqin123 发表于 2021-5-1 23:05
有--sleep-interval SECONDS 和  -max-sleep-interval SECONDS 可以控制

学习了,还真没用过这两参数,多谢指点
我主要是硬盘小,15G硬盘,6T流量,一次性下载不了全部视频,所以分批搞
发表于 2021-5-1 23:15:30 | 显示全部楼层
https://pan.laoda.de/s/GQHo 供参考
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-11-26 08:45 , Processed in 0.058936 second(s), 8 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表