统计学复习答案1-5

1、1、传统的统计模式识别体系是什么？基于确定性推理一分类方法回归分析（基于最小二乘法）线性分类器（感知机，logistic回归，支持向量机）非线性分类器（多层感知机，核支持向量机）二特征生成（无监督学习）流形学习（把维数降低）稀疏表示（把维数增高）深度学习（卷积神经网络，自解码神经网络）聚类算法三、理论分析复杂度分析泛化能力分析基于概率原理一分类算法基于贝叶斯决策理论（基于分类损失最小角度）二特征生成深度学习（基于玻尔兹曼机方法）具有概率的PCA（概率神经网络）三数据的概率表达含参模型（EM算法），不含参模型（数据独立）概率图模型（马尔可夫链）【附加】物理环境、数据获取/感知、预处理、特征提取、训练数据、特征提取/选择、模型学习/估计、后处理、分类、决策。2、什么是生成模型？判别模型？及其他们各自的特点？【附加】生成模型又叫产生式模型，估计的是联合概率分布。通过学习联合概率分布P(x,y)，然后求出条件概率分布P(Y|X)作为预测模型，P(Y|X)=P(x,y)/P(X)模型表达了输入X，与产生Y的生成关系。（用于随机生成的观察值建模，特别是在给定某些隐藏参数情况下。在机器学习中，或用。

2、于直接对数据建模（用概率密度函数对观察到的draw建模），或作为生成条件概率密度函数的中间步骤。通过使用贝叶斯rule可以从生成模型中得到条件分布。）判别模型又可以称为条件模型，或条件概率模型，估计的是条件概率分布。判别模型由数据学习决策函数f(x)或者条件概率分布P(Y|X)作为预测模型，即判别模型。（又可以称为条件模型，或条件概率模型。估计的是条件概率分布(conditionaldistribution)，p(class|context)。利用正负例和分类标签，focus在判别模型的边缘分布。目标函数直接对应于分类准确率。）生成模型的特点：可以还原联合概率分布P(x,y)；当样本容量增加时，学到的模型更快收敛到真实模型；存在隐变量，还可以学习；（网上资料：一般主要是对后验概率建模，从统计的角度表示数据的分布情况，能够反映同类数据本身的相似度。只关注自己的inclass本身（即点左下角区域内的概率），不关心到底decisionboundary在哪。）判别模型特点：直接面对预测学习，通常准确率高；可以对数据进行各种程度上的抽象、定义特征和使用特征。（网上资料：寻找不同类别之间的最优分类。

3、面，反映的是异类数据之间的差异。）3、讨论线性回归模型中参数向量的最大后验估计和最大似然估计之间的基本差别？最大后验估计是根据经验数据获得对难以观察的量的点估计，与最大似然估计类似，但是最大的不同是，最大后验估计融入了要估计量的先验分布，故最大后验估计可以看做是规则化的最大似然估计。最大似然估计提供了一种给定观察数据来评估模型参数的方法，即“模型已定，参数未知”。最大似然估计中采样需满足一个很重要的假设，就是所有的采样都是独立同分布。通过采样，获取部分数据，然后通过最大似然估计来获取满足假设中的正态分布的均值和方差。最大似然估计只考虑某个模型能产生某个给定观察序列的概率，而未考虑该模型本身的概率。最大似然估计的一般求解过程：1、写出似然函数；2、对似然函数取对数；3、求导数；4、解似然方程。4、试描述基于最小二乘法求解线性回归问题的步骤？答案：1、假定有训练集𝛺={(𝑥1,𝑑1),(𝑥2,𝑑2),⋯,(𝑥𝑁,𝑑𝑁)}，定义如下能量函数：𝐽𝛺(𝜔)=12∑𝜖𝑖2(𝜔)𝑁𝑖=1=12∑(𝑑𝑖−𝜔𝑇𝑥𝑖)2𝑁𝑖=12、通过梯度下降算法，计算得。

4、到𝜔，𝜔(𝑡+1)=𝜔(𝑡)−𝜂𝜕𝜕𝜔𝐽𝛺(𝜔)(𝑡)，𝜂称为学习速率。3、令y=ωTx，𝜕𝜕𝑤𝐽𝛺(𝜔)=2∙12(𝑦−𝑑)∙𝜕𝜕𝜔(𝜔𝑇𝑥−𝑑)=(𝑦−𝑑)𝑥，因此，计算参数𝜔的算法是𝜔(𝑡+1)=𝜔(𝑡)+𝜂(𝑑−𝑦)𝑥。对于N个样本情形，可以改造算法如下：𝜔(𝑡+1)=𝜔(𝑡)+𝜂∑(𝑑𝑖−𝑦𝑖)𝑥𝑖𝑁𝑖=15、感知机学习算法原理？6、感知机学习算法练习批更新算法首先判断给定误分类点所属的正确分类，然后批更新权重值注意当误分类为负值时将负号放在μ前相乘7、支持向量机的基本原理？软间隔支持向量机原理？支持向量机原理：在线性可分的情况下，寻求一个超平面，使得超平面将样本集分开，并且满足对于分类样本的几何间隔最大化（求解时定义函数间隔为一将其转化为对偶问题求解）软间隔：样本线性近似可分的情况下不满足函数间隔大于等于1的情况引入松弛变量（针对每一个样本点（作用）衡量间隔最大和误分类点个数）8、什么是支持向量？答案：位于两个超平面上的点就称为支持向量。线性可分的情况下：训练样本集中。

5、距离分类超平面距离最近的实例点。位于分界线上的点训练数据中对应于α0的实例点称为支持向量。9、能推导对偶函数，得出KKT条件。参见课件最后例子。10、能基于支持向量机的方法，推导决策面，参见统计学习方法书。根据上题公式Ld对α求导求出各α的值11、为什么多层感知机能进行非线性分类？（基于异或问题讨论）12、试描述多层感知机的BP算法？13、能运用BP算法在实例中，进行计算，参见课件例子。14、解释核支持向量机的基本愿力，并阐述对核的基本要求？15、为什么要多核学习？并描述多核学习算法步骤？16、描述adaboost算法的基本原理？答案：针对同一个训练集训练不同的分类器（弱分类器），然后把这些弱分类器集合起来，构成一个更强的最终分类器（强分类器）。算法本身通过改变数据分布来实现，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为最后的决策分类器。17、解释最大似然估计与最大后验估计异同点，并能用最大似然估计方法估计参数（参考课件例子）18、EM算法流程，并。