您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 综合/其它 > 2017全国大学生数学建模竞赛---C题讲评
C--题颜色与物质浓度辨识崔恒建首都师范大学昆明,2017.11.25甲醛测量,试纸读颜色随着照相技术和颜色分辨率的提高,希望建立颜色读数和物质浓度的数量关系只要输入照片中颜色读数就能够获得待测物质浓度二氧化硫0水10204060100试根据附件所提供的有关颜色读数和物质浓度数据,请你完成下列问题:1.附件Data1.xls中分别给出了5种物质的在不同浓度下的颜色读数,讨论从这5组数据能否确定颜色读数和物质浓度之间的关系,并给出一些准则来评价这5组数据的优劣。2.对附件Data2.xls中所给数据,建立颜色读数和物质浓度的数学模型,并给出模型的误差分析。3.探讨数据量和颜色维度对模型的影响。希望用颜色预测浓度构建模型:这里一般未知,根据机理,可对每个变量单调。~(,,,,)YfRGBHSf思路:用Data1探索建模方法(数据质量评估)用Data2验证上述建模方法影响建模的变量选择与分析1.建模过程就是选择的过程。通常选择的类型(可用于预测):参数或半参数函数形式,如:单调,S型。ff0012345()ffbbRbGbBbSbH=+++++0f线性模型(大多数学生用)线性模型的单调变换(建议)广义线性模型(形式已知,如logistic变换等)0012345~()YfbbRbGbBbSbH+++++0f2.数据质量评估(新):数据质量是建模的基础,本题主要考虑基于模型的误差分析与评判:残差图、MSE、MSCV、R^2异常或离群点识别:3sigma准则、Boxplot3.样本大小和颜色维数对模型的影响。逐步回归,变量选择误差分析与比较4.使用R、Matlab语言基本数据可视化1.矩阵散点图2.3-sigma控制图:3.箱线图(异常点识别)4.其他可视化方法二、线性回归模型其中:012345YbbRbGbBbSbHε=++++++2()0,()EVarεεσ==TXbε=+(1,,,,,)TXRGBSH=最小二乘估计:残差:T-化残差:(1)TiiiYXbinε=+≤≤ˆTTb=-1(XX)XYˆ(),Ebb=2ˆ()TCovbσ=-1(XX)ˆTiiiryXb=−/()iirrsr∗=复相关系数(决定系数):调整的复相关系数:MSE:21SSRSSERSSTSST==−2(1)1(1)SSEnpRSSTn∗−−=−−211niiMSErn==∑MSCV(平均平方交叉核实预测误差):显著性检验:近似t检验。()2()11ˆnTiiiiMSCVyXbn−==−∑0:0,jHb=1:0jHb≠1/2ˆ()(1)(1)iibTtnpnMSEnp=≈−−−−TXX变量选择是惩罚函数:()()2111minpnTiijijyXbPbnλ==−+=∑∑()Pλ⋅例如:组胺(n=10)一、矩阵散点图二、线性回归模型:1.MSE和MSCV(标准化)MSE:0.525(0.0004)MSCV:3.511(0.0025)2.3或2sigma点2sigma:无,3sigma:无三、Logistic回归模型机理:取这里,,是浓度。012345012345exp()1exp()bbRbGbBbSbHZbbRbGbBbSbH+++++≈++++++0exp()()1exp()xfxx=+minmaxmin2YdZd−+=−+Y1.MSE和MSCV(标准化)MSE:0.529(0.0004),MSCV:3.536(0.0025)2.3或2sigma点2sigma:无,3sigma:无四、变量选择可去掉第5个变量,再进行建模,影响不大,与上述结果基本一致。奶中尿素(n=15)一、矩阵图散点图二、线性回归1.MSE和MSCV(标准化)MSE:55118(0.1910)MSCV:125338(0.2083)2.3或2sigma点2sigma:5,3sigma:无3.点7,8不匹配。三、Logistic回归模型1.MSE和MSCV(标准化)MSE:50788(0.0916)MSCV:117778(0.2083)2.3或2sigma点2sigma:5,3sigma:无3.点7,8不匹配。四、变量选择只与x1有关。5组数据中,依照模型与数据的拟合和匹配程度评估:组胺=溴酸钾:基本可以确定关系奶中尿素:不确定,倾向于可以确定关系硫酸铝钾=工业碱:不能很好确定关系。二氧化硫(n=25)一、矩阵图散点图二、线性回归1.MSE和MSCV(标准化)MSE:261.38(0.0964)MSCV:390.38(0.1440)2.3或2sigma点2sigma:第15,3sigma:无三、logistic回归1.MSE和MSCV(标准化)MSE:260.84(0.0956)MSCV:389.02(0.1389)2.3或2sigma点2sigma:第14,15,3sigma:无四、变量选择可去掉第2,3个变量,再进行建模,与上述结果基本一致。可考虑其他模型:概率变换模型单指标(single-index)模型(形式未知,用于探索)0f谢谢!C评判标准:关键是模型的选择与误差分析一、仅是线性模型+拟合(=5):i).无误差分析(R^2,MSE,残差图,CV等)和异常点分析(3sigma准则等)、单一变量模型=2;ii).误差分析和异常点分析至少有一个=2;iii).ii)+逐步回归或变量选择(共线分析)或样本变化分析:=3。二、非线性回归+拟合:i)+0;ii)+1;iii)+1;三、非线性单调回归+拟合:i)+0;ii)+2;iii)+2.5组数据中,依照模型与数据的拟合和匹配程度排序:组胺=溴酸钾:基本可以确定关系奶中尿素:不确定,倾向于可以确定关系硫酸铝钾=工业碱:不能很好确定关系。
本文标题:2017全国大学生数学建模竞赛---C题讲评
链接地址:https://www.777doc.com/doc-7029038 .html