2009年4月11日星期六

关于极大似然法的几点随想

极大似然法(ML)是著名统计学家R. A. Fisher提出的。定义非常的简单,从数学上来看很像密度函数,最早主要用于点估计理论,特别在大样本理论下具有很好的性质(如Fishe信息量等)。一直到现在都是参数模型下估计理论的重要组成部分。Likelihood 方法的提出和发展使其成为统计学里和频率派,贝叶斯学派并列的一个学派,且在Fisher时代占据了统计学的主导地位。

其实我们现实生活之中经常也在使用关于极大似然的思想,就是根据表面的一些观察来推断真实的情形。特别在一些破案的故事中,破案人就要利用观察到的信息来推断最有可能的作案情况。这里就可以把真实的情况看作是参数,手头的信息看作是观察数据,目的就是推断真实的参数。当然,有时候还会利用一些所谓的先验信息,例如 嫌疑人的前科等,这种情况又可以有Bayes的思想来解释了。

可以看到ML法是很巧妙的,在经典的统计理论中独占鳌头,包括后来Neyman发展的似然比检验理论,真的可以说是家喻户晓。很多做应用的学者,对ML法的确是爱不释手。然而,事物总不可能是十全十美,ML法在某些问题上的表现得不尽人意了。著名统计学家Efron曾经写过一篇文章《Maximum Likelihood and decision theory》,他指出ML是对summary of data 比较适合,但是对于 parameter estimation 就存在一些问题了。牛人的文章还是值得一读的。

尤其是在当数据的观测个数(n)比较小,模型里的参数个数(p)却比较多,在用经典的ML效果就比较差了(估计的风险,预测的能力等)。现在科学技术的发展,产生了大量的上述类型的数据,一般就叫高维数据(high dimensioanl data),想在生物医生领域的芯片技术,分子标记技术,生物图像技术都给我们带来了这样的数据。于是,统计学家就提出了带有惩罚的极大似然方法,发展了很多新的参数估计和变量选择的新方法,成为了研究的热点方向。最早好像是在90年代初在小波分析中采用了压缩方法(shrinkage method),其直观的想法就是“滤波”- 把noise过滤掉,把真实的signal保留下来。现在有一种流行的说法就是 feature selection。

没有评论:

发表评论