登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

云之南

风声,雨声,读书声,声声入耳;家事,国事,天下事,事事关心

 
 
 

日志

 
 
关于我

专业背景:计算机科学 研究方向与兴趣: JavaEE-Web软件开发, 生物信息学, 数据挖掘与机器学习, 智能信息系统 目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学

1_简介-R语言和数据分析、数据挖掘  

2009-12-04 11:12:13|  分类: R&Bioconductor |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

首先,为什么要使用R?

简单来说,R是一个用于统计计算的很成熟的免费软件。你也可以把它理解为一种计算机语言,实际上很多人都直接称呼它为“R语言”,虽然它比C++,PEAR等等不知道简单了多少倍,呵呵。

接着,为什么要用R?

如果你现在正要用统计手法对数据进行统计计算、分析甚至目前比较流行的数据挖掘,那么我向你推荐R。

原因有两点:
1,功能强大。
由于统计分析的重要性,早在197X年著名的贝尔实验室的一个开发小组就已经开始一个名为“S”的研究项目。从”S”被研究成功到导入市场成为畅销产品 ”S-Plus”,人们分析、显示和处理数据的方式和能力被彻底的改变了。并且”S-Plus”和其他的类如”C语言”等高级计算机语言之间的交互性也非 常的友好。
而号称”S-Plus”免费版的”R”,就是以”S-Plus”作为开发蓝本的,从R诞生到现在,关于R与S-Plus孰强孰弱的争论已经有了很多。普遍来讲,有些功能在S-Plus中能被更快更好的执行是毫无疑问的,而有些功能则在R中才能有更加精彩的表现。

2,免费,开源
前面我讲到R是一个免费软件,其实还不是很确切。准确来讲,R是一个开源软件。现在,开放源代码软件在科学和工程工作中的地位日益重要。R的开源性,使得 它自从90年代初被开发出来至今,它的发展就一直没有间断过,很多国家都相继出现了关于讨论开发R的综合网站。关于R的各种新的附加模块一直都是层出不 穷,大大的方便了各类研究人员和院校师生。更因为它的免费,在美国、日本有很多大学,老师都用R来帮助自己讲课,学生也用R处理各种数据来帮助自己交报 告。
另外一个角度,R其实就象是LINUX和PHP一样,在国外,大学生很多都是用LINUX系统,用PHP编程。而由于国内盗版软件满天飞的局面,不管正版 盗版大家用的都是WINDOWS,一写程序很多都是ASP,一看工具清一色的MS系列最新版。在不讨论法律的前提下,虽然盗版软件能够让人节省金钱和精 力,但实际上使用盗版软件也就等于你自己堵住了自己的另外一条出路,一条通往开源软件的路,一条更让人向往的路。

最后,介绍一下数据分析&数据挖掘

搞清楚数据的内部构造,并且从这些数据中找出自己想要的信息的方法就可以称作数据分析。而数据挖掘则是更加广义范围的,像采矿一样,从庞大的数据中找出所需要的信息,所以难度更大。两者之间很接近,都是把数据作为研究和处理的对象,把找到所需信息作为目的的研究手法。

就其本身而言,数据分析主要是基于统计学的数据处理,而数据挖掘则主要着眼于计算机数据处理。但是由于数据分析也通常需要计算机数据处理功能,数据挖掘也离不开统计学的分析方法,所以在很大程度上两者是一样的。

今后,我将利用R这个工具,主要讲一讲怎样进行数据分析和数据挖掘(往下统称数据分析)。

我们开车的时候,只要掌握驾驶技巧就行了,至于汽车的制动原理,电子构造等等,并不需要我们去了解。同理,我在介绍如何用R进行数据分析的时候,将 主要着重于讲如何让一个只拥有基础统计知识的人能够用R进行比较复杂的统计分析/计算这一点来讲,注重的是实践。而有时涉及到一些比较高深的理念问题时, 读者最好能够去看看相关的理论书籍,以增强自己的理解。

  评论这张
 
阅读(1912)| 评论(4)

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018