如何处理文件中重复数据

andylei

UID: 1924
帖子: 33
积分: 75
在线时间: 1 小时

1^# andylei 发表于 2008-09-05 14:45

如何处理文件中重复数据

我想编辑一些文件，但是编辑后文件里会有一些重复的数据，需要做个校验删除重复的行，想请教各位高手有没有好办法介绍如何快速删除这些数据。

例如：

file1.txt:

1  2  2 3  abc
2  2  3  4 bbk
3  3  4  4 ddd
.
.
.
a b  c  4  ujh

如果对这个文件做个添加操作，加一行“1  2  2 3  abc” ，那么就和第一行的重复了，想删除第一行，有什么方法可以快速做到吗？

谢谢了！

forlorngenius

UID: 32353
帖子: 42
积分: 96
在线时间: 2 小时

2^# forlorngenius 发表于 2008-09-05 15:13

如果不考虑排序的话。就直接写完，然后用shell的sort + uniq

ulmer

UID: 6072
帖子: 148
积分: 340
在线时间: 1 天 6 小时

3^# ulmer 发表于 2008-09-05 15:15

It's very simple.
If the file is not large, read each line from the file and put the line into
a hash. The hash's key will store uniq line.