全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 1744|回复: 27

昨天摸索了一天,总算用scrapy把爬虫写好了

[复制链接]
发表于 2021-12-17 11:45:36 | 显示全部楼层 |阅读模式
本帖最后由 mikasa 于 2021-12-17 13:22 编辑

不得不说框架自带的异步多线程就是快,比自己手撸强多了。要爬的数据量大概在5t-8t的样子,但我没有大盘鸡来装。目前只能靠着40g硬盘的小鸡一边下一边上传一边删

另外问一下,存储大量(几十万条)格式化信息是用csv好还是json好啊

edit: 40g的鸡鸡硬盘刷满挂了
发表于 2021-12-17 11:47:20 | 显示全部楼层
盲猜用json?
发表于 2021-12-17 11:48:20 | 显示全部楼层
csv吧..不行就把json编码成base64 信息尽可能多点盘不是问题 不够就多加几t

你的json是数组 还是一个json是一条 N行代表N篇内容?
发表于 2021-12-17 11:51:19 | 显示全部楼层
csv似乎相对而言更通用一点,也方便阅读
 楼主| 发表于 2021-12-17 11:53:24 | 显示全部楼层
晴晴晴 发表于 2021-12-17 11:48
csv吧..不行就把json编码成base64 信息尽可能多点盘不是问题 不够就多加几t

你的json是数组 还是一个json ...

n行,每行代表一篇
 楼主| 发表于 2021-12-17 11:57:39 来自手机 | 显示全部楼层
smrik 发表于 2021-12-17 11:51
csv似乎相对而言更通用一点,也方便阅读

不打算阅读,后期打算导入到数据库里,目前先用文件暂时存一下
发表于 2021-12-17 12:15:29 来自手机 | 显示全部楼层
mikasa 发表于 2021-12-17 11:57
不打算阅读,后期打算导入到数据库里,目前先用文件暂时存一下

用mongodb呗,跟csv格式差不多
 楼主| 发表于 2021-12-17 12:17:11 来自手机 | 显示全部楼层
ttp 发表于 2021-12-17 12:15
用mongodb呗,跟csv格式差不多

嗯,我了解一下,先放到文件是因为数据库我还没系统了解过
发表于 2021-12-17 12:49:23 | 显示全部楼层
临时到Vultr开通一台大盘鸡,按小时付费的,用完就可以删除了。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2026-5-14 02:44 , Processed in 0.072949 second(s), 10 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表