起因 有个哥们,有 5000G 数据需要去重。 这么大数据其实挺不好处理的,尤其是超不注意就内存/磁盘炸裂。 所以,如何做到性能、内存、磁盘之间的平衡,就是这个问题的难题…… 其实这个问题让我想起「编程珠玑」中的一篇内容…… 方案 刚开始大家觉得使用使用 redis 的 hash 能力来处理,set/hash 都可以,但是不管是直接丢字符串,还是将字符串 hash 计算后存储,其实都会比较耗费内存。并且 hash 后的数据还会存在一定概率 hash 碰撞,此时更不好处理了。 于是在我们小群里面进...
mozz.in1 min readNo responses yet.