登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

云之南

风声,雨声,读书声,声声入耳;家事,国事,天下事,事事关心

 
 
 

日志

 
 
关于我

专业背景:计算机科学 研究方向与兴趣: JavaEE-Web软件开发, 生物信息学, 数据挖掘与机器学习, 智能信息系统 目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学

有了一元回归为什么还要做多元回归  

2010-08-30 22:11:16|  分类: R&Bioconductor |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

http://yihui.name/cn/2008/11/why-use-multiple-regression/

http://yihui.name/cn

一个数据,同一个梦想?不一定。有人学了很久回归,却没有理解多元回归到底是要干嘛。

x和y正相关?一个完美的回归

> summary(lm(y ~ x))    Call:  lm(formula = y ~ x)    Residuals:        Min        1Q    Median        3Q       Max  -0.633978 -0.229549 -0.004557  0.208477  0.821191     Coefficients:              Estimate Std. Error t value Pr(>|t|)  (Intercept)  0.65277    0.05837  11.184  < 2e-16 ***  x            0.17580    0.02521   6.973 3.65e-10 ***  ---  Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1     Residual standard error: 0.294 on 98 degrees of freedom  Multiple R-squared: 0.3316,  Adjusted R-squared: 0.3248  F-statistic: 48.63 on 1 and 98 DF,  p-value: 3.646e-10

若有个控制变量则情况就反过来了

> summary(lm(y ~ x + z))     Call:  lm(formula = y ~ x + z)    Residuals:        Min        1Q    Median        3Q       Max  -0.420562 -0.157195  0.008745  0.152034  0.432706     Coefficients:              Estimate Std. Error t value Pr(>|t|)  (Intercept)  0.20056    0.06235   3.217  0.00176 **  x           -0.68557    0.09013  -7.606 1.82e-11 ***  z            0.72498    0.07433   9.753 4.57e-16 ***  ---  Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1     Residual standard error: 0.21 on 97 degrees of freedom  Multiple R-squared: 0.6626,  Adjusted R-squared: 0.6556  F-statistic: 95.23 on 2 and 97 DF,  p-value: < 2.2e-16

数据来源:文件下载链接

#png(width = 500, height = 400)  set.seed(711)  x = seq(0, 4, length = 100)  y = -x + jitter(rep(1:5, each = 20), 2)  z = rep(1:5, each = 20)  #par(mar = c(4, 4, 0.1, 0.1))  plot(x, y)  abline(lm(y ~ x), col = "red")  plot(x, y, pch = 20, col = z)  lines(lowess(x, y, f = 0.1), col = "red")  summary(lm(y ~ x))  summary(lm(y ~ x + z))  #dev.off()

注意本例中局部平滑函数lowess()函数的应用。


爷还想看:
2010/01/05 -- t检验方差不齐有多重要 (6)
2009/12/26 -- 杯具欣赏:他们眼中的统计学 (13)
2009/12/08 -- 最近跟R core们经常打照面 (9)
2009/12/04 -- 2009第一场雪和第二届中国R语言会议 (43)
2009/10/10 -- R的第五万次SVN修改:看看R大佬们的工作时间分布 (9)
< xmlnamespace prefix ="ie7" />.

Posted by 谢益辉 at 23:47 Tagged with: lowess(), R, 多元回归, 控制变量
.
2 Responses to “有了一元回归为什么还要做多元回归”
Comments (2) .
cloud_wei 说:
2008/11/12 于 13:36

局部平滑函数lowess()是为了说明上面所谓完美的回归其实是完全没有解释意义的吧?另外,光滑函数好像有很多种,不知如何正确使用?


回复
谢益辉 说:
2008/11/14 于 04:12

lowess()只用了局部的样本信息去构造回归模型,这样避免全局影响,可以观察到随着自变量的增大,因变量在局部怎样变化。本例说明的是,用一条直线拟合y和x的关系并不恰当,因为lowess()展现的是循环波动上升的趋势,而不是直线上升。数据背后真实的规律是,控制z变量之后,y和x是显著的负相关。


回复
.
Leave a Reply

Name (required)

E-mail (required)

URI

Your Comment

  评论这张
 
阅读(1841)| 评论(0)

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018