今天面试被问到,有一个大文件100G,里面都是手机号码,如何快速找出重复数最多的前三个?
分治思想 or 哈希
很简单,以号码id hash分桶,然后每个桶号码计数取top3,最后合并取top即可
@giskpu 雇佣1000个人,数一数。创造GDP大家又都有工作
位图法或布隆过滤器