您好,欢迎访问三七文档
1、监督学习与无监督学习的主要区别是什么?分别列举应用两者的例子(或算法名称)。2、在梯度下降算法中有时会出现梯度下降来回振荡,所需时间较长。可以通过什么方法使其收敛更快?例如:原参数为:X1=size取值范围:0~200;X2=number取值范围:1~53、假设房价预测模型为:h(x)=Ѳ0+Ѳ1X1+Ѳ2X2,其中X1、X2分别为房间的开间、进深长度。现在选择新的特征-房间面积X,得到新的学习算法。已知训练集中面积与房价的关系如图所示:请构造合适的多项式作为新的学习算法。4、简述自己对欠拟合和过拟合的理解,必要时可画图辅助说明。5、有如图曲线f(Ѳ)。欲求f(Ѳ)=0时的Ѳ值,请用牛顿迭代法在图中画出两次迭代的示意图。Ѳ初始值取4.5。6、请写出指数分布族的一般表达形式。7、用极大似然估计求算Ѳ使得最大。简要写出推导步8、简述对laplace平滑理解,可以举例说明;9、按自己的理解简述参数学习算法和非参数学习算法的区别;10、按自己的理解简述判别学习算法和生成算法的区别。参考答案:并非标准答案,只要理解正确即可。1、主要区别是监督学习中有属性的标签,而无监督学习则没有;例子:监督学习——根据房价与房间面积对房价进行预测;无监督学习——网页搜索将相关新闻聚在一起算法:监督学习——支持向量机、线性回归决策树神经网络;无监督学习——k-聚类等各种聚类方法、主成分分析2、可利用特征缩放方法例如:原参数为X1=size取值范围:0~200X2=number取值范围:1~5利用特征缩放方法后变为X1=size/200X2=number/53、h(x)=Ѳ0+Ѳ1X+Ѳ2X2+Ѳ3X34、首先欠拟合、过拟合没有明确的定义分界明显的未充分利用数据,拟合结果不符合预期,甚至不能有效拟合训练集,我们可以认为欠拟合;考虑过多,超出自变量的一般含义维度,过多考虑噪声,会造成过拟合。可以认为预测准确率、召回率都比理论上最佳拟合函数低很多,则为欠拟;训练集预测效果好,测试集预测效果差,则为过拟合。或者简单的讲:对于特征集过小的情况,称之为欠拟合(underfitting);对于特征集过大的情况,称之为过拟合(overfitting)例如:给定一个数据集,根据x预测y.最左边的函数为,并不能很好的拟合数据;中间的加了一个额外的特性,函数为,稍微更好地拟合了数据;似乎我们增加越多的特性,拟合程度越好;但是增加太多的特性是很危险的,最右边的图是一个五阶的多项式,虽然很好的拟合了给定的数据集,但是这个并不是一个很好的预测函数。欠拟合(underfitting):很明显有一些没有被模型捕获的结构,比如说最左边的图.过拟合(overfitting):最右边的就是一个过拟合的例子.因此说,特性的选择对于学习算法的性能来说是很重要的!!!5、两次迭代还得再往下画一步6、若一类概率分布可以写成如下形式,那么它就属于指数分布族:η-自然参数,通常是一个实数T(y)–充分统计量,通常,T(y)=y,实际上是一个概率分布的充分统计量(统计学知识)对于给定的a,b,T三个函数,上式定义了一个以η为参数的概率分布集合,即改变η可以得到不同的概率分布7、令对Θ求导的值为零,求得Θ即可。8、在统计上来说,在你有限的训练集中没有见过就认为概率是0是不科学的为了上述问题,我们用laplace平滑来优化这个问题.分子加1,分母加k(j的取值范围的大小)。可以举适当的例子说明。9、参数学习算法(parametriclearningalgorithm):是一类有固定数目参数,以用来进行数据拟合的算法。设该固定的参数集合为。线性回归即使参数学习算法的一个例子非参数学习算法(Non-parametriclearningalgorithm):参数数量会随m(训练集大小)增长的算法。通常定义为参数数量虽m线性增长。换句话说,就是算法所需要的东西会随着训练集合线性增长,算法的维持是基于整个训练集合的,即使是在学习以后。10、判别学习算法(discriminativelearningalgorithm):直接学习p(y|x)(比如说logistic回归)或者说是从输入直接映射到{0,1}.生成学习算法(generativelearningalgorithm):对p(x|y)(和p(y))进行建模.简单的来说,判别学习算法的模型是通过一条分隔线把两种类别区分开,而生成学习算法是对两种可能的结果分别进行建模,然后分别和输入进行比对,计算出相应的概率。
本文标题:机器学习小测及答案
链接地址:https://www.777doc.com/doc-1905676 .html