全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 1256|回复: 11

请问下, JSON对象 怎么快速入库 和 日后 快速拔出呢?

[复制链接]
发表于 2023-6-5 13:13:33 | 显示全部楼层 |阅读模式
有些数据 api 返回  JSON对象, 重复内容不少, 但是每一次都有不同的地方, 基本每隔15 分钟就要跑一次了, 虽然最新的一次数据和15分钟前的数据有可能一致  如何确认数据不会重复呢? 而且方便日后做搜索 寻找 数据呢?
发表于 2023-6-5 13:55:13 | 显示全部楼层
用redis来进行存储和检索就行了


https://paste.org.cn/PdtfjB87AH
发表于 2023-6-5 13:48:42 | 显示全部楼层
扫一眼标题,还以为在说什么色色的呢:

对象 日后 拔出

缓存一下上次获得的json(或者其MD5),下次拿到后按字面(或者MD5)比对一下,一样的话就无需进一步解析了
 楼主| 发表于 2023-6-5 14:04:29 | 显示全部楼层
NiDiPiZiNaFongQ 发表于 2023-6-5 13:48
扫一眼标题,还以为在说什么色色的呢:

对象 日后 拔出

还是用心 标题了, 但是MJJ们都害羞, 不敢回复。 还以为这样 就多人回复了。
发表于 2023-6-5 14:06:21 | 显示全部楼层
JSON大起来就肾虚了
只能当作传递工具
 楼主| 发表于 2023-6-5 14:07:35 | 显示全部楼层
jqbaobao 发表于 2023-6-5 14:06
JSON大起来就肾虚了
只能当作传递工具

多大 才算大啊?
这个api 24 小时跑的,  
发表于 2023-6-5 14:09:29 | 显示全部楼层
每次获取生成一个md5
发表于 2023-6-5 14:19:05 | 显示全部楼层
白水泉 发表于 2023-6-5 14:07
多大 才算大啊?
这个api 24 小时跑的,

JSON ,几MB还行,几百MB开始性能就下降很明显了。个人感觉是这样
发表于 2023-6-5 14:32:31 | 显示全部楼层
每次都会变动的地方存数据库里面的,从里面找几个关键词做判断是否重复。
比如
https://hostlob.com
定时爬取最近回复的帖子列表,那里面有一些是变动了,有一些是没有变动的帖子。
只更新变动的,怎么做判断呢


根据帖子id,和帖子回复数量,两个关键词做判断,这两东西有变动就爬取新内容存储,没有变动的就不爬
发表于 2023-6-5 14:34:43 来自手机 | 显示全部楼层
用set方法去重啊
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2025-12-19 12:42 , Processed in 0.143600 second(s), 11 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表