怎样对上亿条记录,快速去冗余,除了HASA

怎样对上亿条记录,快速去冗余,除了HASA

怎样对上亿条记录,快速去冗余,除了HASA
怎样对上亿条记录,快速去冗余,除了HASA,HASH
HASH很慢,而且数据量打了,会内存不够
分批,多次hash?
分批,多次hash?
数据库?.
楼主应该把需求描述的更清.
楼主应该把需求描述的更清楚一些。

Perl的hash算法本身已经够高效了。就凭那么只言片语,除了二楼建议的多次hash,想不出还有什么办法。
用归并法外排序吧。大概思.
用归并法外排序吧。大概思路是:先将所有记录分割成数个主存能够容纳的小文件,然后逐个对这些小文件中的记录进行内排序和去冗余,最后将这些小文件两两合并(当然合并的过程中还要去冗余),直到最后合并成一个文件。不知道perl有没有现成的模块可用。