全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 4406|回复: 40

搞了个爬虫框架

[复制链接]
发表于 2021-4-28 15:26:57 | 显示全部楼层 |阅读模式
鉴于市面上没有让自己满意的网页爬取软件,于是自己搞了一个(现在主要是在内部用)。


发这个帖子主要是想问问:大家一般对爬虫、网页监控或者其他的网络工具都有什么功能要求?


下面是我们开发软件的一些说明:

使用 electron 框架开发的,语言肯定就是 JavaScript 了[部分模块使用其他软件开发的]

桌面软件,支持 windows mac Linux【也许需要 “云” 支持?运行部署到 Docker 中???】

* 数据提取 (爬虫)
* 网页内容监控(类似:OpenWebMonitor)
* 关键词分析 (实际上是输入一个关键词,提取百度 和 Google 搜索引擎 前 n 条内容返回,还可以提取 相关搜索 词)
* 网页内容分析(分析单个页面,获取网页内容、图片、视频之类的数据)
* OCR 识别(有些页面防止的价格信息、手机号之类的可能是图片,并不是数字,可以使用 OCR 来识别出具体的内容)
* 验证码识别(可以识别 简单 的图片验证码【不能识别很多大网站的验证码】,可能这个功能并不会发布出来)


URL 访问使用的是真实的浏览器(当前在 mac、Linux 上使用的是Chrome, windows 上是 Edge),因此可以执行页面的 JS 代码。

实际上数据提取也是执行用户指定的 js 代码(用户的 js 代码是在浏览器访问页面的上下文内执行,因此可以访问到页面的所有内容)

主要缺点也是:需要用户自己会写 js 代码.(只需要会 数据提取的代码就可以了,不需要关心调度和存储)

数据提取代码的例子可以看 https://github.com/QiYuTechOrg/extract 【里面有 百度 和 Google 搜索结果的提取代码】
发表于 2021-4-28 15:28:33 来自手机 | 显示全部楼层
支持开源,虽然已经有工具了
发表于 2021-4-28 15:30:07 | 显示全部楼层
感谢大佬分享干货
发表于 2021-4-28 15:31:20 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
 楼主| 发表于 2021-4-28 15:33:05 | 显示全部楼层
我是坏虫 发表于 2021-4-28 15:31
搭建最好简单点,比如需要的依赖好找点,94imm我搞了好几天才安装好 ...

桌面软件,不需要搭建啊

下载到桌面、点击就运行
发表于 2021-4-28 15:36:53 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2021-4-28 15:46:31 | 显示全部楼层
首先不需要桌面软件,
其次支持的脚本多一点, 内置好分布式调度啊, 告警啊 什么的
 楼主| 发表于 2021-4-28 15:52:13 | 显示全部楼层
锦安 发表于 2021-4-28 15:46
首先不需要桌面软件,
其次支持的脚本多一点, 内置好分布式调度啊, 告警啊 什么的 ...

你的意思是最好是 Web 版本的(可以通过浏览器直接管理)?

支持的脚本多一点?没明白这个啥意思,是兼容多一些常用软件的意思吗(比如:Wordpress 之类的)?
发表于 2021-4-28 15:56:21 来自手机 | 显示全部楼层
不懂,能有破解版7.6火车头一半的功力就行了。。


您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-4-23 18:22 , Processed in 0.060924 second(s), 9 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表