全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 1251|回复: 10

这个站资料能扒不

[复制链接]
发表于 2021-12-15 12:40:55 | 显示全部楼层 |阅读模式
比如这个页面
http://read.nlc.cn/OutOpenBook/OpenObjectBook?aid=403&bid=17912.0
发表于 2021-12-15 12:46:49 | 显示全部楼层
爬这个站?茶好喝
发表于 2021-12-15 12:47:48 | 显示全部楼层


我猜楼主问的应该是 扒这个网站的内容 刑不刑,            
发表于 2021-12-15 13:05:46 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2021-12-15 14:03:19 | 显示全部楼层
  1. import requests
  2. import re

  3. def get_filename_from_cd(cd):
  4.     """
  5.     Get filename from content-disposition
  6.     """
  7.     if not cd:
  8.         return None
  9.     fname = re.findall('filename=(.+)', cd)
  10.     if len(fname) == 0:
  11.         return None
  12.     return fname[0]


  13. cookies = {
  14.     'JSESSIONID': 'fa496ef8-4c46-49ba-b74c-dfc4c66a1970',
  15. }

  16. headers = {
  17.     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:95.0) Gecko/20100101 Firefox/95.0',
  18.     'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8',
  19.     'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
  20.     'Accept-Encoding': 'gzip, deflate',
  21.     'Connection': 'keep-alive',
  22.     'Upgrade-Insecure-Requests': '1',
  23. }

  24. session = requests.Session()
  25. index = session.get("http://read.nlc.cn/OutOpenBook/OpenObjectBook?aid=403&bid=17912.0", headers=headers, cookies=cookies).text
  26. token = re.findall(r"tokenKey="(.*)" timeKey="(.*)" timeFlag", index)
  27. myreader = token[0][0]
  28. ktime = token[0][1]
  29. headers = {
  30.     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:95.0) Gecko/20100101 Firefox/95.0',
  31.     'Accept': '*/*',
  32.     'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
  33.     'Accept-Encoding': 'gzip, deflate',
  34.     'myreader': myreader,
  35.     'Range': 'bytes=0-1',
  36.     'Connection': 'keep-alive',
  37.     'Referer': 'http://read.nlc.cn/static/webpdf/lib/WebPDFJRWorker.js?h=0.29527337592322755',
  38. }

  39. pdf = session.get("http://read.nlc.cn/menhu/OutOpenBook/getReader?aid=403&bid=17912.0&kime=" + ktime + "&fime=" + ktime, allow_redirects=True, headers=headers, cookies=cookies)
  40. filename = get_filename_from_cd(pdf.headers.get('content-disposition'))
  41. open(filename, 'wb').write(pdf.content)
复制代码
发表于 2021-12-15 14:05:23 | 显示全部楼层
工具人上
zsbd
发表于 2021-12-15 14:11:07 | 显示全部楼层
这是国图最近发出来的古籍
免费在线看的
发表于 2021-12-15 15:00:33 | 显示全部楼层
爬       请你 喝茶                        
发表于 2021-12-15 15:12:53 | 显示全部楼层
非常刑,非常可拷
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-3-29 13:06 , Processed in 0.062216 second(s), 9 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表