登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

云之南

风声,雨声,读书声,声声入耳;家事,国事,天下事,事事关心

 
 
 

日志

 
 
关于我

专业背景:计算机科学 研究方向与兴趣: JavaEE-Web软件开发, 生物信息学, 数据挖掘与机器学习, 智能信息系统 目前工作: 基因组, 转录组, NGS高通量数据分析, 生物数据挖掘, 植物系统发育和比较进化基因组学

巴氏距离(Bhattacharyya distance, Bhattacharyya 系数)  

2010-03-01 21:04:35|  分类: 数理统计 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

 

http://en.wikipedia.org/wiki/Bhattacharyya_coefficient

http://blog.chinaunix.net/u2/61062/showart_1950751.html

马氏距离有很多优点。它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关;由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。它的缺点是夸大了变化微小的变量的作用。
采用巴氏距离特征选择的迭代算法,可以获得最小错误率上界。当特征维数高时,为了减少巴氏距离特征选择计算时间,对样本先进行K-L变换,将特征降低到中间维数。然后进行巴氏距离特征选择,降低到结果的维数。用基于MNIST手写体数字库的试验表明,该文方法比单纯用巴氏距离特征选择计算时间大大减少,并比主分量方法(即单纯使用K-L变换)特征选择的错误率小得多

 

在统计学中,巴氏距离(巴塔恰里雅距离 / Bhattacharyya distance)用于测量两离散概率分布。它常在分类中测量类之间的可分离性。

在同一定义域X中,概率分布p和q的巴氏距离定义如下:其中(1)离散概率分布和(2)连续概率分布

巴氏距离(Bhattacharyya distance, Bhattacharyya 系数) - fhqdddddd - 流浪云南 巴氏距离(Bhattacharyya distance, Bhattacharyya 系数) - fhqdddddd - 流浪云南

 

BC是巴氏系数(Bhattacharyya coefficient)。

 

 

欧式距离和马氏距离和巴式距离(转)

欧氏距离:(∑(Xi-Yi)2)1/2,即两项间的差是每个变量值差的平方和再平方根,目的是计算其间的整体距离

即不相似性。

我们熟悉的欧氏距离虽然很有用,但也有明显的缺点。它将样品的不同属性(即各指标或各变量)之间的差别等

同看待,这一点有时不能满足实际要求。例如,在教育研究中,经常遇到对人的分析和判别,个体的不同属性对

于区分个体有着不同的重要性。因此,有时需要采用不同的距离函数。

如果用dij表示第i个样品和第j个样品之间的距离,那么对一切i,j和k,dij应该满足如下四个条件:

①当且仅当i=j时,dij=0

②dij>0

③dij=dji(对称性)

④dij≤dik+dkj(三角不等式)

显然,欧氏距离满足以上四个条件。满足以上条件的函数有多种,本节将要用到的马氏距离也是其中的一种。

第i个样品与第j个样品的马氏距离dij用下式计算:

dij=(xi一xj)'S-1(xi一xj)

其中,xi和xj分别为第i个和第j个样品的m个指标所组成的向量,S为样本协方差矩阵。

马氏距离有很多优点。它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关;由标准化数据和中

心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的

干扰。它的缺点是夸大了变化微小的变量的作用。

In statistics, the Bhattacharyya distance measures the similarity of two discrete probability distributions. It is normally used to measure the separability of classes in classification.

For discrete probability distributions p and q over the same domain X, it is defined as:

巴氏距离(Bhattacharyya distance, Bhattacharyya 系数) - fhqdddddd - 流浪云南

where:

巴氏距离(Bhattacharyya distance, Bhattacharyya 系数) - fhqdddddd - 流浪云南

is the Bhattacharyya coefficient. For continuous distributions, the Bhattacharyya coefficient is defined as:

巴氏距离(Bhattacharyya distance, Bhattacharyya 系数) - fhqdddddd - 流浪云南

In either case, 巴氏距离(Bhattacharyya distance, Bhattacharyya 系数) - fhqdddddd - 流浪云南 and 巴氏距离(Bhattacharyya distance, Bhattacharyya 系数) - fhqdddddd - 流浪云南. DB need not obey the triangle inequality, but 巴氏距离(Bhattacharyya distance, Bhattacharyya 系数) - fhqdddddd - 流浪云南 does obey the triangle inequality.

For multivariate Gaussian distributions pi = N(mi,Pi),

巴氏距离(Bhattacharyya distance, Bhattacharyya 系数) - fhqdddddd - 流浪云南,

where mi and Pi are the means and covariances of the distributions, and

巴氏距离(Bhattacharyya distance, Bhattacharyya 系数) - fhqdddddd - 流浪云南.

Note that the first term in the Bhattacharyya distance is related to the Mahalanobis distance.(巴式距离和马氏距离之间的关系)

  评论这张
 
阅读(9976)| 评论(0)

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018