This complete matlab for neural network
源代码在线查看: 99.txt
发信人: GzLi (笑梨), 信区: DataMining
标 题: [合集]关于有序(或者结构)风险最小化SRM的问题
发信站: 南京大学小百合站 (Fri Jul 18 00:34:00 2003)
jeff814 (mimi) 于Wed Jun 11 11:45:35 2003)
提到:
在定义结构风险的时候,都提到将函数集按VC维的大小分成多个子集,并按VC维的大小排
序。《模式识别》书P295页提到:
选择最小经验风险与置信范围之和最小的子集,就可以达到期望风险的最小,这个子集中
使经验风险最小的函数就是要求的最优函数。这种思想称为有序风险最小化(SRM)原则。
问题:
前一句话表明:能够达到期望风险最小的可能有很多个函数。可能这个的Remp大,但置信
范围小;而另外一个的Remp小,但置信范围大。总之,是两者的和是最小的。所以它们都
应该是最优的。后一句话就不明白了,为什么还要“这个子集中使经验风险最小的函数就
是要求的最优函数”呢?也就是说:虽然这个子集中的函数都能实现最小的期望风险,但
Remp小置信范围大的比Remp大而置信范围小的要好。why?
SRM与期望(真实)风险最小化之间到底是什么关系,我有些糊涂了。
再说第一句话:找到经验风险与置信范围之和最小的这个过程与“将函数集合按按VC维的
大小排序成若干个子集”之间有什么关系呢?
说到底,我还是没有理解到SRM的本质!
mnls (蒙娜丽莎的微笑) 于Wed Jun 11 15:23:39 2003)
提到:
我觉得应该这样理解SRM.
首先,关于机器学习有好多定义,就光归纳学习大家给出的定义就不好统一。统计学习
理论研究的是基于数据的学习问题,Vapnik把机器学习定义为从一组函数集中选择最优
的函数逼近问题。如何选?经验风险最小化是一种方法,也可以认为是一种归纳法则,
存在的问题也是大家都知道的。SRM的归纳法则是这样的:没有好的法则从函数集中选择
一个最优的,那就通过限制函数集的规模使选择的范围变小,从原来函数集的一个子集
中选择函数,只要这个子集包含目标函数而且子集的规模变小,问题就变的简单。想想
SVM就知道,通过限制分类间隔缩小函数集的容量,极限情况就是最大间隔超平面。函数
集的规模如何度量,VC维,当然还有别的方法,不过国内的研究人员说的最多的还是VC
维,有人干脆成STL为VC维理论。
至于从前面提到的子集中如何选择函数?老办法,经验风险最小。这样能保证结构风险
最小吗?我认为不能。
为什么要降低函数集的容量,看看统计学习理论的公式就知道:经验风险最小化的一致
性条件是一组函数集的均值一致收敛到期望。
SVM固定经验风险,通过调整分类间隔构造VC维最小的函数集。
SRM可以认为是一种思想,或者是一种归纳准则。
本质那本书我觉得不适合深抠,那本书可以认为是Vapnik98的简化版本,好多东西交代
的未必完善。何况又翻译了一遍。
初学我觉得an introduction to support vector machines and other kernel based m
etho
ds 挺好。要深入研究,还是看一些文献的好。
【 在 bjxue (数字找矿) 的大作中提到: 】
: 我认为:
: 在SRM原则需要找的是“经验风险+置信范围=最小” 的哪些子集。
: 但是怎样的寻找过程是一个NP-hard问题
: 我们一般不能达到
:
: 因此我们一般在给定一个经验风险下,找一个使得“经验风险+置信范围=最小”
: 的那个子集来实现
:
: 但是为什么不选择给定置信范围,然后最小化
: 我也不太清楚了
: 也许可以 看看《统计学习理论的本质》那上面应该有
: 【 在 jeff814 的大作中提到: 】
: (以下引言省略 ... ...)
GzLi (笑梨) 于Wed Jun 11 17:33:20 2003)
提到:
仅供参考:
将函数集按照VC维排序,比如poly函数集,(此处不是指核函数的)
其中超平面是其中VC维较小的子集,
假定它的经验风险跟置信空间的和也最小,所以选择这个子集。
然后就可以寻找经验风险最小的函数了,很多算法其中最大间隔算法,
可以在最小化置信空间的同时得到一个经验风险最小的函数,
就是最大间隔超平面,也就是最优函数之一了。
: 问题:
: 前一句话表明:能够达到期望风险最小的可能有很多个函数。可能这个的Remp大,但置信
: 范围小;而另外一个的Remp小,但置信范围大。总之,是两者的和是最小的。所以它们都
: 应该是最优的。后一句话就不明白了,为什么还要“这个子集中使经验风险最小的函数就
: 是要求的最优函数”呢?也就是说:虽然这个子集中的函数都能实现最小的期望风险,但
: Remp小置信范围大的比Remp大而置信范围小的要好。why?
这里的意思是固定VC维吧。比如神经网络,固定网络结构和节点决策函数后
VC维固定了,就可以寻找经验风险最小的参数。
: SRM与期望(真实)风险最小化之间到底是什么关系,我有些糊涂了。
:
: 再说第一句话:找到经验风险与置信范围之和最小的这个过程与“将函数集合按按VC维的
: 大小排序成若干个子集”之间有什么关系呢?
实现结构风险最小的思想是很好,但是好像没有直接的算法,
所以可以将神经网络理解为固定VC维最小经验风险,而SVM是最小经验风险下,
达到最小的置信空间。: