全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
楼主: joF3hzd97uHgKu

搞了个爬虫框架

[复制链接]
发表于 2021-4-28 15:57:03 来自手机 | 显示全部楼层
js爬虫效率有点低吧,取决于浏览器,应该改成node
发表于 2021-4-28 16:03:03 | 显示全部楼层
当然是请求方式多样些 get post header自定义之类的
 楼主| 发表于 2021-4-28 16:15:01 | 显示全部楼层
adminplus 发表于 2021-4-28 15:57
js爬虫效率有点低吧,取决于浏览器,应该改成node

用浏览器效率是比较低。

直接发送请求不好模拟页面内的 JS 动态。

这是 爬取质量和爬取效率的选择,在这里我选了质量。

抓取速度的话一台机器
2H   8GB 每天可以抓取 10万个页面,
2H 16GB 每天可以抓取 100 万个页面(浏览器比较吃内存)
 楼主| 发表于 2021-4-28 16:16:03 | 显示全部楼层
yingaoyun 发表于 2021-4-28 16:03
当然是请求方式多样些 get post header自定义之类的

使用浏览器模拟访问的,不需要这些吧,浏览器自动就替你做好了。
发表于 2021-4-28 16:16:52 | 显示全部楼层
支持大佬分享干货
发表于 2021-4-28 16:18:12 来自手机 | 显示全部楼层
能带上网页内容变化监控就好了
 楼主| 发表于 2021-4-28 16:20:49 | 显示全部楼层
dbug 发表于 2021-4-28 16:18
能带上网页内容变化监控就好了

现在就有监控 和 通知,就是通知是通知到本机的,还不能通知到别的地方。

你是需要通知到微信之类的吗?
发表于 2021-4-28 16:29:49 来自手机 | 显示全部楼层
我也在做一个爬虫框架,不过做着做着没啥动力弃坑了。大概就是可以在web界面拖拽来编写抓取规则流程,生成一个抓取规则流水线。然后让服务器去自动根据规则去抓取。抓取的引擎有两种,一种是直接http请求的,效率高,但是无法解析js。另一种是用selenium无头浏览器模拟访问的。两种引擎配合可以实现复杂的抓取。后端服务器支持分布式agent去捉取,主要是解决ip问题。大概这样,做了一点点,就懒得做下去了。
 楼主| 发表于 2021-4-28 16:39:57 | 显示全部楼层
eMGG 发表于 2021-4-28 16:29
我也在做一个爬虫框架,不过做着做着没啥动力弃坑了。大概就是可以在web界面拖拽来编写抓取规则流程,生成 ...

想法差不多。

主要是限制除了 IP 就是 验证码 了。

Web 界面拖拽自动生成规则 这个我想的是 直接生成代码,这样方便微调(不像规则那么死板)。

我追求的是灵活性 和 质量,不太追求大规模爬取。
发表于 2021-4-28 16:48:21 来自手机 | 显示全部楼层
客户端渲染的页面直接爬接口。速度快很多
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-5-4 06:12 , Processed in 0.063320 second(s), 8 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表