如何处理文件中重复数据

如何处理文件中重复数据

我想编辑一些文件,但是编辑后文件里会有一些重复的数据,需要做个校验删除重复的行,想请教各位高手有没有好办法介绍如何快速删除这些数据。

例如:

file1.txt:

1  2  2 3  abc
2  2  3  4 bbk
3  3  4  4 ddd
.
.
.
a   b  c  4  ujh

如果对这个文件做个添加操作,加一行“1  2  2 3  abc” , 那么就和第一行的重复了,想删除第一行,有什么方法可以快速做到吗?



谢谢了!
如果不考虑排序的话。就直接写完,然后用shell的sort + uniq
It's very simple.
If the file is not large, read each line from the file and put the line into
a hash. The hash's key will store uniq line.