搞了个爬虫框架

adminplus · 发表于 2021-4-28 15:57:03

js爬虫效率有点低吧，取决于浏览器，应该改成node

yingaoyun · 发表于 2021-4-28 16:03:03

当然是请求方式多样些 get post header自定义之类的

joF3hzd97uHgKu · 发表于 2021-4-28 16:15:01

adminplus 发表于 2021-4-28 15:57
js爬虫效率有点低吧，取决于浏览器，应该改成node

用浏览器效率是比较低。

直接发送请求不好模拟页面内的 JS 动态。

这是爬取质量和爬取效率的选择，在这里我选了质量。

抓取速度的话一台机器
2H 8GB 每天可以抓取 10万个页面，
2H 16GB 每天可以抓取 100 万个页面（浏览器比较吃内存）

joF3hzd97uHgKu · 发表于 2021-4-28 16:16:03

yingaoyun 发表于 2021-4-28 16:03
当然是请求方式多样些 get post header自定义之类的

使用浏览器模拟访问的，不需要这些吧，浏览器自动就替你做好了。

柯林斯 · 发表于 2021-4-28 16:16:52

支持大佬分享干货

dbug · 发表于 2021-4-28 16:18:12

能带上网页内容变化监控就好了

joF3hzd97uHgKu · 发表于 2021-4-28 16:20:49

dbug 发表于 2021-4-28 16:18
能带上网页内容变化监控就好了

现在就有监控和通知，就是通知是通知到本机的，还不能通知到别的地方。

你是需要通知到微信之类的吗？

eMGG · 发表于 2021-4-28 16:29:49

我也在做一个爬虫框架，不过做着做着没啥动力弃坑了。大概就是可以在web界面拖拽来编写抓取规则流程，生成一个抓取规则流水线。然后让服务器去自动根据规则去抓取。抓取的引擎有两种，一种是直接http请求的，效率高，但是无法解析js。另一种是用selenium无头浏览器模拟访问的。两种引擎配合可以实现复杂的抓取。后端服务器支持分布式agent去捉取，主要是解决ip问题。大概这样，做了一点点，就懒得做下去了。

joF3hzd97uHgKu · 发表于 2021-4-28 16:39:57

eMGG 发表于 2021-4-28 16:29
我也在做一个爬虫框架，不过做着做着没啥动力弃坑了。大概就是可以在web界面拖拽来编写抓取规则流程，生成 ...

想法差不多。

主要是限制除了 IP 就是验证码了。

Web 界面拖拽自动生成规则这个我想的是直接生成代码，这样方便微调（不像规则那么死板）。

我追求的是灵活性和质量，不太追求大规模爬取。

纱雾 · 发表于 2021-4-28 16:48:21

客户端渲染的页面直接爬接口。速度快很多

		自动登录	找回密码
密码			注册