2009年4月22日星期三

概率论 & 统计学

在国内,概率论与数理统计是数学下的一个二级学科。这个分类多少受到了前苏联的影响。这里就涉及到了 数学,概率论与统计学之间的关系。

现代的概率论的确是一个数学分支。概率论在很长的一段时间,并没被大家承认是一个数学的分支,其原因就在于没有严格的数学基础。数学分支都是建立在一些公理基础上的演绎的体系。而概率论直到1933年才由著名的数学家kolmogorov建立了公理化体系,主要的数学基础是测度论。从此以后,概率论突飞猛进,包括 概率极限理论,随机过程论,随机分析等很多分支,所用到的数学知识也越来越多,像 泛函分析,微分几何,微分方程,拓扑学,数论,优化理论等。

而统计学就比较特别了,和数学不同的是统计学是一门归纳的学科。从而,很多人就认为统计学不能列入数学的范围。但是统计学有很需要数学特别是概率论的知识。事实上,概率论提供了一个度量不确定性的方法,而统计学利用这个工具从实际数据里提取感兴趣的信息。很有意思的是,一些著名统计学家,很多都是出身数学的,数学上的造诣都很深的。例如,早期的Fisher,就很有数学的天赋,他的很多证明是从几何的观点得出的。而且Fisher还把优化的思想引入到参数估计体系了,提出了一些标准(无偏性,相合性等),接着Neyman-Pearson把优化思想发展到假设检验理论。优化的思想已经渗透到了统计学的各个分支。

2009年4月21日星期二

随机效应模型是什么?

随机效应模型(random effects models)是经典的线性模型的一种推广,就是把原来(固定)的回归系数看作是随机变量,一般都是假设是来自正态分布。如果模型里一部分系数是随机的,另外一些是固定的,一般就叫做混合模型(mixed models)。

虽然定义很简单,对线性混合模型的研究与应用也已经比较成熟了,但是如果从不同的侧面来看,可以把很多的统计思想方法综合联系起来。概括地来说,这个模型是频率派和贝叶斯模型的结合,是经典的参数统计到高维数据分析的先驱,是拟合具有一定相关结构的观测的典型工具。

随机效应最直观的用处就是把固定效应推广到随机效应。注意,这时随机效应是一个群体概念,代表了一个分布的信息 or 特征,而对固定效应而言,我们所做的推断仅限于那几个固定的(未知的)参数。例如,如果要研究一些水稻的品种是否与产量有影响,如果用于分析的品种是从一个很大的品种集合里随机选取的,那么这时用随机效应模型分析就可以推断所有品种构成的整体的一些信息。这里,就体现了经典的频率派的思想-任何样本都来源于一个无限的群体(population)。

同时,引入随机效应就可以使个体观测之间就有一定的相关性,所以就可以用来拟合非独立观测的数据。经典的就有重复观测的数据,多时间点的记录等等,很多时候就叫做纵向数据(longitudinal data),已经成为很大的一个统计分支。

上述两点基本上属于频率派,分析的工具也很经典,像极大似然估计,似然比检验,大样本的渐近性等。但是,应该注意到把固定的参数看做是随机变量,可是贝叶斯学派的观念。当然,mixed models 不能算是完全的贝叶斯模型,因为贝叶斯学派要把所有的未知的参数都看作是随机的。所以有人把它看做是半贝叶斯的 or 经验贝叶斯的。在这个模型上,我们可以看到两个学派很好的共存与交流,在现代的统计方法里两种学派互相结合的例子也越来越多。

众所周知,随机效应有压缩(shrinkage)的功能, 而且可以使模型的自由度(df) 变小。这个简单的结果,对现在的高维数据分析的发展起到了至关重要的作用。事实上,随机效应模型就是一个带惩罚(penalty)的一个线性模型,有引入正态随机效应就等价于增加的一个二次惩罚。有趣的是,著名的岭回归(ridge regression) 就是一个二次惩罚,它的提出解决了当设计矩阵不满秩时最小二乘估计(LSE)无法计算以及提高了预测能力。于是,引入随机效应或者二次惩罚就可以处理当参数个数p 大于观测个数n的情形,这是在分析高维数据时必须面对的问题。当然,二次惩罚还有一个特性,如:计算简便,能选择相关的predictors,对前面的几个主成分压缩程度较小等。

2009年4月16日星期四

闲话“无偏”

在统计的教科书上,经常可以看到“无偏”(unbiased)这个词。例如 无偏估计,无偏检验,最小方差无偏估计等等。而在实际中不同的人会对这个词有着不同的理解。
根据偶的了解,unbiased 最早是由R. A. Fisher引入到参数估计理论里,主要用于建立若干评价一个估计量性能好坏的标准(像 无偏性,相合性,有效性)。当然,无偏性只是众多标准里的一种,但是却最被大家所熟知。我认为最主要的一个原因是其定义简单-期望值等于真实值,数学上好比较好处理-容易推倒数学结论。另外,可能就是大众心里普遍愿意接受一个没有系统偏差的估计量。在很多人的眼里,有系统偏差似乎是一个很不好的结果,很不完美,而无偏则刚好相反(貌似天朝人都喜欢完美的说,不知老外如何?)。这样的认识事实上有点主观臆断了,不够理性了。举个简单的例子,真实的参数为0,现在用一个服从伯努利分布的随机变量(以0.5概率等于100,以0.5概率等于-100)去估计.显然着是一个无偏估计,可是其效果就很差了。所以,千万不能把无偏性神圣化了。
其实,具体的统计问题对应不同的评价标准,然后在此标准下再去寻找优化的解。例如,在回归分析里,大家发现用LS得到的回归系数的估计虽然是无偏的,但是方差较大,从而导致模型的预测能力较差,所以有人就提出了一些有偏的估计,提高模型的预测能力。比较有名的方法有:ridge estimate,Lasso, SCAD, elastic net 等。可以看到在现在的统计理论里,有偏越来越受到大家的关注。

2009年4月11日星期六

关于统计的几则名言

在终极的分析中,一切知识都是历史;在抽象的意思下,一切科学都是数学;在理性的基础上,所有判断都是统计学。

对统计学的一知半解常常造成不必要的上当受骗,对统计学的一概排斥往往造成不必要的愚昧无知。

不确定性知识 + 所含不确定性度量的知识 = 可用的知识

数据分析 = 回答特定问题 + 提供新研究方向的信息


note:都是在《女士品茶》那本书上找来的,感觉很有哲理,概括了很多思想,可能对我们的学习研究有帮助。
比如像最后一条,告诉我们分析数据不仅仅是为了回答某个特定的问题,统计分析不单是其他学科的一种验证性的工具,而是要在数据分析中,发现一些新的想象和问题,从而促使其他学科的进一步发展。当然也会促使自身的发展。

关于极大似然法的几点随想

极大似然法(ML)是著名统计学家R. A. Fisher提出的。定义非常的简单,从数学上来看很像密度函数,最早主要用于点估计理论,特别在大样本理论下具有很好的性质(如Fishe信息量等)。一直到现在都是参数模型下估计理论的重要组成部分。Likelihood 方法的提出和发展使其成为统计学里和频率派,贝叶斯学派并列的一个学派,且在Fisher时代占据了统计学的主导地位。

其实我们现实生活之中经常也在使用关于极大似然的思想,就是根据表面的一些观察来推断真实的情形。特别在一些破案的故事中,破案人就要利用观察到的信息来推断最有可能的作案情况。这里就可以把真实的情况看作是参数,手头的信息看作是观察数据,目的就是推断真实的参数。当然,有时候还会利用一些所谓的先验信息,例如 嫌疑人的前科等,这种情况又可以有Bayes的思想来解释了。

可以看到ML法是很巧妙的,在经典的统计理论中独占鳌头,包括后来Neyman发展的似然比检验理论,真的可以说是家喻户晓。很多做应用的学者,对ML法的确是爱不释手。然而,事物总不可能是十全十美,ML法在某些问题上的表现得不尽人意了。著名统计学家Efron曾经写过一篇文章《Maximum Likelihood and decision theory》,他指出ML是对summary of data 比较适合,但是对于 parameter estimation 就存在一些问题了。牛人的文章还是值得一读的。

尤其是在当数据的观测个数(n)比较小,模型里的参数个数(p)却比较多,在用经典的ML效果就比较差了(估计的风险,预测的能力等)。现在科学技术的发展,产生了大量的上述类型的数据,一般就叫高维数据(high dimensioanl data),想在生物医生领域的芯片技术,分子标记技术,生物图像技术都给我们带来了这样的数据。于是,统计学家就提出了带有惩罚的极大似然方法,发展了很多新的参数估计和变量选择的新方法,成为了研究的热点方向。最早好像是在90年代初在小波分析中采用了压缩方法(shrinkage method),其直观的想法就是“滤波”- 把noise过滤掉,把真实的signal保留下来。现在有一种流行的说法就是 feature selection。

2009年4月3日星期五

体育比赛中的一些统计知识

统计学的确是涉及面极广的一门学科,只要有数据的地方就有统计学的用武之地。谁叫统计学是能够处理不确定性的惟一学科呢!想到这里就替咋们学统计的人骄傲啊!

大家都说体育比赛的成绩决定于自身的水平高低以及临场发挥,心理素质等多种因素。像临场发挥,情绪波动,比赛时的环境等都是随机因素。所以比赛的成绩 (结果)就是一个随机变量。如果没有随机性的话,任何比赛就没有悬念,当然也就没有人看比赛了。这里随机性给观众带来的看比赛的快乐。如果要得到一个选手的真实水平,那就要得到多次的成绩,这样变可以得到一个平均水平以及稳定性(方差)。一个好的选手当然是高水平加高稳定性(即方差小)。比较典型的就是足球联赛,NBA篮球赛,都是靠多轮循环,得到积分榜。特别是NBA季后赛7局四胜,基本上是比较公平的。相反,有些有些比赛为了增加观赏性,就可以通过缩短局数or每局的分数, 来增加一些随机因素,例如像乒乓球、排球比赛。

各种比赛的记录也是大家所关心的。特别是像田径,游泳之类的比赛,都已打破记录为荣。 其实记录就是一个极值,也就是说可以用统计来描述的。有时候,记录会很容易被打破,主要是由于科学技术的提高而带来的,比如新式泳衣的发明。这样整体的水平都提高的一个层次。

有些比赛是要有裁判打分来决定成绩的,比如跳水,体操等。一般都有几个裁判同时给分,再取平均值,这样就比单个裁判打分要公平的多。然而有些裁判可能会有偏见,给某些选手特别高分(或特别低分)。由于样本均值对异常值是不稳健的,这样容易造成不公平。为了克服这些极值(异常值)的影响,可以采用截断的平均值,即去掉最高,最低后的得分。这就是一种常见的稳健(robust)的估计方法。

还有就像大型运动会上的金牌榜,奖牌榜之类的排名方式,其实在统计上就是一个评价问题, 如何用少数几个量来达到综合评价的问题。此时自然要涉及到降维等统计的思想。任何一种评价方式都只能反映一个侧面,所以要理性的看待之。

所以说学点统计的知识还是很有用的哦!

恭喜开博!

O(∩_∩)O哈哈~