怎样对上亿条记录,快速去冗余,除了HASA

genome

1^# genome 发表于 2007-01-24 18:54

怎样对上亿条记录,快速去冗余,除了HASA
怎样对上亿条记录,快速去冗余,除了HASA,HASH
HASH很慢,而且数据量打了,会内存不够

helper

2^# helper 发表于 2007-01-24 19:46

分批,多次hash?
分批,多次hash?

beckheng

3^# beckheng 发表于 2007-01-24 22:07

数据库?.

alvingao

4^# alvingao 发表于 2007-01-26 11:01

楼主应该把需求描述的更清.
楼主应该把需求描述的更清楚一些。

Perl的hash算法本身已经够高效了。就凭那么只言片语，除了二楼建议的多次hash，想不出还有什么办法。

5451vs5451

5^# 5451vs5451 发表于 2007-01-26 12:12

用归并法外排序吧。大概思.
用归并法外排序吧。大概思路是：先将所有记录分割成数个主存能够容纳的小文件，然后逐个对这些小文件中的记录进行内排序和去冗余，最后将这些小文件两两合并（当然合并的过程中还要去冗余），直到最后合并成一个文件。不知道perl有没有现成的模块可用。