全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 1252|回复: 18

求文本批量去重复的技巧

[复制链接]
发表于 2021-7-19 00:54:49 | 显示全部楼层 |阅读模式
mjj=全球主机交流&aaa交流区ccc
mjj=全球主机&aaa灌水区ccc
mjj=全球主机&aaa交流区ccc
mjj=全球梅吉吉&aaa交流区ccc
mjj=你是梅吉吉&aaa交流区ccc

文本格式如上

第二行和第三行的mjj=的参数相同了 但aaa和ccc之间又不同
我的目的是把mjj参数的内容(行)批量去重复 只保留上面一行的
有没有什么办法能搞定?
记事本txt文件 百万行内容
 楼主| 发表于 2021-7-19 01:13:04 | 显示全部楼层

反正就是记事本里的  什么方法都行 只要达到目的 别太高深的 适合菜鸟的哈
发表于 2021-7-19 01:16:51 来自手机 | 显示全部楼层
可以给你写个脚本
发表于 2021-7-19 01:20:50 | 显示全部楼层
几百万行。。。我建议用TXTkiller先把txt分割好几部分再一一去重复,不然我怕你电脑承受不住
 楼主| 发表于 2021-7-19 01:30:29 | 显示全部楼层
zixi 发表于 2021-7-19 01:20
几百万行。。。我建议用TXTkiller先把txt分割好几部分再一一去重复,不然我怕你电脑承受不住 ...

如果分割开了 还能去重吗 a和b两个txt的重复呢
发表于 2021-7-19 01:37:02 | 显示全部楼层
z6045670 发表于 2021-7-19 01:30
如果分割开了 还能去重吗 a和b两个txt的重复呢

这个应该看脚本或者去重的软件了,反正你一下子打开几百万行代码,同时再一一对比,电脑基本承受不住。。。我这个只是个小建议,如果有其他更高效的方法那可以忽略了。
发表于 2021-7-19 01:42:39 | 显示全部楼层
如果&后面内容保留,你这第2、3行咋处理?保留哪个?
如果&后面内容无关紧要,先RegEX删除&到行尾;然后去重就简单了,我用UltraEdit排序就完事。
发表于 2021-7-19 01:45:48 | 显示全部楼层
M级别的条目hash表应该还handle得住,mjj=的参数作为key,raw data作为value边扫边加表,遇重复的跳过; 遍历所有条目后再遍历hash表dump value到新文件
发表于 2021-7-19 02:05:33 | 显示全部楼层
文件有多大啊?不太大的话 按照8楼的 UltraEdit就搞定了
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-3-29 05:14 , Processed in 0.066935 second(s), 9 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表