注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

云之南

风声,雨声,读书声,声声入耳;家事,国事,天下事,事事关心

 
 
 

日志

 
 
关于我

专业背景:计算机科学 研究方向与兴趣: JavaEE-Web软件开发, 生物信息学, 数据挖掘与机器学习, 智能信息系统 目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学

网易考拉推荐

Linux下大文件的排序和去重复  

2010-07-08 20:39:39|  分类: linux&shell |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
| Linux, sort, uniq, 去重复

Linux下我们用 sortuniq 的命令来实现去重复行。


去重复行
简单的用法如下,如一个文件名:happybirthday.txt    cat happybirthday.txt (显示文件内容)    Happy Birthday to You!  Happy Birthday to You!  Happy Birthday Dear Tux!  Happy Birthday to You!    cat happybirthday.txt|sort (排序)    Happy Birthday Dear Tux!  Happy Birthday to You!  Happy Birthday to You!  Happy Birthday to You!    cat happybirthday.txt|sort|uniq (去重复行)    Happy Birthday Dear Tux!  Happy Birthday to You!


去大文件重复行

但有时碰到一个大文件时(例如G级的文件),用上面的命令时报错,提示空间不足。我尝试了一下,最后是用 split 命令把大文件分割为几个小文件,单独排完序后再合并 uniq 。

split -b 200m  happybirthday.big Prefix_    用-b参数切割happybirthday.big,小文件为200M。切割后的文件名前缀是Prefix_

切割后的文件名如

Prefix_aa    Prefix_ab

再分别sort

sort Prefix_aa >Prefix_aa.sort    sort Prefix_ab >Prefix_ab.sort

再用 sort -m合并,再 uniq

cat Prefix_aa.sort Prefix_ab.sort |sort -m |uniq

这是好早前碰到的一个问题了。没记错的话应该是这么回事。~

sort 与 uniq 命令还有许多有用的参数,如sort -m、uniq -u、uniq -d等。sort 与 uniq的组合是很强大的。

~完。

  评论这张
 
阅读(1796)| 评论(0)
ight face Re : 2" eight:40 < 阅读(阅读(阅读(阅读( ====ass="nbc-================07">阅读(&n  lignyodfoc_04
;_zoom:1bar小文件c芮看蟮摹

" classlign:l
bgc0 fc0dBlope====c芮看蟮膒e===06883939441&< ;visibspaty:=qbblo;margi:0; &nbho;&aic cus=ovblockpe=====0h44
~完pe===0芮看蟮膒e===06883 ogTagTitle"yodfoc__ sr _zoom:1barc芮看蟮膒e===lope===06883939441& mqbb$_n_04
clope==== " c20150408_ad "><2em;" #style="display:non" class="toLofter < a href="#" target=dif"mqbb$_n_focus="true">pe=====" classlignf ha 衣4 f ha 衣 pe=====" cr fc06 meborder="0" bor萍
lign mqb