Discussion

Software Developer @golang @react

Apr 21, 2021

海量数据去重

起因有个哥们，有 5000G 数据需要去重。这么大数据其实挺不好处理的，尤其是超不注意就内存/磁盘炸裂。所以，如何做到性能、内存、磁盘之间的平衡，就是这个问题的难题…… 其实这个问题让我想起「编程珠玑」中的一篇内容…… 方案刚开始大家觉得使用使用 redis 的 hash 能力来处理，set/hash 都可以，但是不管是直接丢字符串，还是将字符串 hash 计算后存储，其实都会比较耗费内存。并且 hash 后的数据还会存在一定概率 hash 碰撞，此时更不好处理了。于是在我们小群里面进...

mozz.in1 min read

Responses

No responses yet.

Search Hashnode

海量数据去重

Responses

Recent in Forum