如何快速删除Linux文件中的重复数据行

2016-02-19 16:20 4 1 收藏

下面图老师小编跟大家分享一个简单易学的如何快速删除Linux文件中的重复数据行教程，get新技能是需要行动的，喜欢的朋友赶紧收藏起来学习下吧！

【 tulaoshi.com - Linux教程】

Linux系统操作中，如果文件中的数据过多，想要删除重复数据行是非常麻烦的，查找不方便，那么有什么方法能够快速删除文件重复数据行呢？下面图老师小编就给大家介绍下如何删除文件重复数据行，一起来看看吧。

一、去掉相邻重复的数据行

代码如下：

$cat data1.txt | uniq

输出：

beijing

wuhan

beijing

wuhan

二、去掉所有重复的数据行

代码如下：

$cat data1.txt | sort | uniq

注：

只有uniq命令的话，只是把相邻的重复的数据行去掉。

如果先 sort 的话，就会把所有重复的数据行变成相邻的数据行，再 uniq 的话，就去掉所有重复的数据行了。

输出：

beijing

wuhan

附：data1.txt

代码如下：

［root@syy ~］# cat data1.txt

beijing

wuhan

beijing

wuhan

注：在过滤日志中的IP地址很有用。

Linux下删除大数据文件中部分字段重复的行

最近写的一个数据采集程序生成了一个含有1千多万行数据的文件，数据由4个字段组成，按照要求需要删除第二个字段重复的行，找来找去linux下也没找到合适的工具，sed/gawk等流处理工具只能针对一行一行处理，并无法找到字段重复的行。看来只好自己python一个程序了，突然想起来利用mysql，于是进行乾坤大挪移：

1. 利用mysqlimport --local dbname data.txt导入数据到表中，表名要与文件名一致

2. 执行下列sql语句（要求唯一的字段为uniqfield）

代码如下：

use dbname;

alter table tablename add rowid int auto_increment not null;

create table t select min（rowid） as rowid from tablename group by uniqfield;

create table t2 select tablename .* from tablename，t where tablename.rowid= t.rowid;《/p》《p》drop table tablename;

rename table t2 to tablename;

上面就是Linux删除文件重复数据行的方法介绍了，本文介绍了多种情况下删除文件重复数据行的方法，希望对你有所帮助。

来源:http://www.tulaoshi.com/n/20160219/1611725.html

上一篇： windows 7系统如何删掉IE搜索栏
下一篇：建立tcp/ip连接vc6实现客户端（发送数据）

看过《如何快速删除Linux文件中的重复数据行》的人还看了以下文章更多>>

如何去除数据表中的重复数据

标签：编程语言网络编程

通常情况下，一个我们在做一个产品的时候，一开始可能由于设计考虑不周或者程序写的不够严谨，某个字段上的值产生重复了，但是又必须去掉，这个时候就稍微麻烦了一点，直接加一个UNIQUE KEY肯定是不行了，因为会报错。现在，我们来采用一种变通的办法，不过可能会丢失一些数据 :) 在这里，我们设定一个表，其结构如下： mysql ...

Oracle数据库重复数据删除的三种情况

标签：编程语言网络编程

在对数据库进行操作过程中我们可能会遇到这种情况，表中的数据可能重复出现，使我们对数据库的操作过程中带来很多的不便，那么怎么删除这些重复没有用的数据呢？重复数据删除技术可以提供更大的备份容量，实现更长时间的数据保留，还能实现备份数据的持续验证，提高数据恢复服务水平，方便实现数据容灾等。重复的数据可能有这样两种情况，...

excel2007如何标记重复数据

标签： excel

excel2007如何标记重复数据将下图的工作表的重复数据进行标记。如图所示： 1、首先打开excel2007工作表，用鼠标框选选中可能存在重复数据或记录的单元格区域。单击开始选项卡中的条件格式打开菜单，在突出显示单元格规则子菜单下选择重复值，打开。 2、在左边的下拉列表中选择重复，在设置为下拉列表中选择需要设...

excel删除重复行

标签：电脑入门

首先要看我们用的是excel那款软件，是excel2003还是2007还2010。通常2007和2010都是类似的，所有我们只需要了解excel2003和2007的操作方法即可， excel2003的操作方法一：步骤一：如果是两行数据都是一样的话，如图所示：步骤二：首先选中表中的所有记录，选中之后，选择菜单栏上面的数据筛选在下拉列表中选择高级筛选选项，如图所示：...

Excel 2007中对重复数据的巧妙处理

标签：电脑入门

在使用Excel处理大量数据时，经常会遇到重复数据，尽管我们一遍遍地认真、仔细核对，但出现错误还是难以避免。在Excel 2007中这个问题就能轻松解决。 1、数据输入时避免重复在输入学籍号、身份证号码等数据时，我们可以通过如下方法解决： (1)首先选中要输入数据的固定区域，如A2:A10单元格区域，然后打开开始标签页，在条件格式下拉菜单...

查看更多精彩>>