您好,欢迎访问三七文档
机器学习及其应用黄大威2014年5月1.机器学习是新兴学科演化的产物2.机器学习的主要内容3.机器学习的基本方法4.机器学习的应用•中医脉诊•金融时间序列5.总结天下大势,合久必分,分久必合。自然哲学(前科学)数学物理化学西医中医算学历法西方中国农业工业概率统计信息时代是一个需要和产生通才的时代。机器学习是需要和培养通才的领域。信息化时代信息生物学计量经济学生物力学数量金融工程生物光子学…………数字信号处理新兴交叉学科生物物理生物化学生物统计机器学习机器学习演化及联系•凡是从数据中自动分析获得规律,并利用规律对未知数据进行预测的方法都在机器学习的研究范围中。•无论是获得规律,还是利用规律做预测,主要对象是随机现象,因此统计方法是机器学习的主要工具。然而,作为交叉学科,与信息论,计算机科学及它们衍生的应用学科都有关联;作为研究和使用规律的学科,机器学习比这些应用学科研究对象(如数据挖掘)更广。•反过来,由于信息及计算机科学与应用方面的参与,机器学习也创造了很多新方法,促进了统计的发展。概率论统计信息论数字信号处理通讯……计算机科学神经元网络人工智能数据挖掘机器学习统计机器学习:实践与理论的互动循环•抽象思维的演绎能力使人类得以构建理论王国。她是有用的,在信息时代也是客观存在的。建于0-1逻辑及存储基础上的计算机就是一个严格的理论世界。各种软件都是基于0-1逻辑基础上演绎出来的。•演绎的结果是否正确,取决于前提假设。正确的假设只能从实际中归纳出来。假设是否正确,可由她演绎出来的结果与实际是否相符来检验。•机器学习既能帮我们从数据中归纳出假设(无监督学习),也能帮我们在数据和假设的基础上演绎出数学模型来(有监督学习)。同时,她在建模的过程中就强调验证,用验证来选择模型。模型最终是否正确,还要新数据来检验。演绎概率论统计归纳数据假设数学模型验证机器学习仍旧需要假设,但它又时时对所做假设抱有怀疑态度,在建模中就不断用数据检验,最终以是否符合新的数据为标准。机器学习大观无监督学习有监督学习数字信号处理生物信息学计量经济学……增强学习数据展示画图聚类(cluster)主元素分析……我们教机器学习机器帮我们学习回归与分类(classification)最小二乘,k近邻法岭回归,Lasso交叉验证,Bootstrap树状图,AdaBoost随机森林神经元网络……考虑效果与控制规划方法介绍1:最小二乘与K近邻法•最小二乘源于统计,是线性模型在高斯白噪声情况下均方误差意义最优解,在很一般性质噪声情况下也有相容解。•K近邻法源于工程,但广泛条件下它收敛于条件期望,后者是最小均方误差意义下的最优估计。•两种方法均用于机器学习,优劣不可一概而论。一般而言,最小二乘适用于简单问题,K近邻法适用于复杂问题。YXXXxxYTT1)()(ˆ方法介绍2:线性模型估计与认证•传统统计主要用最小二乘做参数估计;机器学习介绍了Ridge及Lasso等收缩估计以避免过拟合,具有鲁棒性。•传统统计对变量选取有大量研究,如t-或F-检验,逐步回归;较近代有AIC,BIC,MDL等。机器学习更多使用交叉认证及Bootstrap,但也不排除使用前述方法。交叉认证•传统统计得到估计量后常研究它对真实参数的收敛性;机器学习往往不假定真实模型的存在。•个人看法:应假定随尺度而变的近似模型。方法介绍3:决策树•在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。•例子:根据属性X1和X2对对象Y分类:Y=1超重,Y=2正常,X1为饭量,X2为运动量。决策树超重正常正常超重实例:检测垃圾邮件From“Theelementsofstatisticallearning”byHastieetc.建树方法1.选择垃圾邮件中最可能出现的关键字符,例如$,hp,!,….2.根据历史数据中这些字符在垃圾邮件和正常邮件中出现的频率,制定相应规则(rule):当该字符出现频率大于(或小于)某个值,就认为该邮件是垃圾或正常邮件。3.决策树由一系列规则串联组成,形成一个倒垂的树状结构。要点1.如何选择关键字符?2.如何选择变量和阈值?3.树延伸到何处停止?常用算法CART(ClassificationandRegressionTree),ID3,C4.5,C5.0,…方法创新:主元素纯洁树PPT1.结构:二元树,数据分为目标T与背景B。2.规则:用主元素分析的方法在有监督学习中分步剔除B。3.选择:用主元素法选取能最大限度剔除B的自变量(参数、属性)组合。4.检验:用预留数据检查树的效能,决定树的修剪和停止。5.软决策:用近邻法给出各个样本属于T类的概率估计。RootBB+TBB+TBB+TMakeTree:TrainingRootB+TB+TB+TB+TB+TB+TTestandUseTree:TestingT我个人应用机器学习的一点经验•基于脉博信号的中医诊断数据模型–特征信息提取–数据展示(无监督学习)–分类算法(有监督学习)–软件演示•金融时间序列分析–问题的数学与统计表述–数据展示(无监督学习)–分类算法(有监督学习)–软件演示如何用机器学习方法来从无确定性基本规律的现象中做科学的归纳和演绎?基于脉博信号的中医诊断数据模型•对大量不同人群用脉诊仪对脉搏信号取样,数字化后输入计算机•用计算机从脉搏信号中提取属性,包括脉数(脉搏跳动次数)及左右手寸关尺六部的脉位、脉力、各谐波的能量和相位等等,共193个参数•用我们开发的实现PPT算法的软件平台,从这些参数中提取有用信息来判断是否是正常人?高血压?肝硬化?妊娠?等等。软件随机选取80%的样本建模,20%用于测试。中医诊脉方法简介•脉诊的起源可追溯到公元前七世纪之前。“至今天下言脉者,由扁鹊也。”《史记》•遵循中医“人体是一个由经络相连的整体”以及天人合一的观点,通过“师承授受”的教育模式,逐步发展为以形象口诀(如盘走珠,如按葱管,…)为特征的28脉理论。BC300AD200AD1400AD1700从三部九候到独取寸口已有脉象数据分析方法:时间域费兆馥等编著的“现代中医脉诊学”人民卫生出版社06年1月版图2.5.2-2脉图的幅值和时值•h1:主波幅值;•h3:重搏前波幅值;•h4:降中峡幅值;•h5:重搏波幅值;•t1:急性射血期时值;•t4:收缩期时值;•t5:舒张期时值;•t:脉动周期时值;•W:主脉在h1上1/3处的时值等。28脉及其像图、传感器及计算机系统、实验研究、临床研究重博波潮波主波1002003004005006000.020.0210.0220.0230.0240.025单个周期的脉压信号(兰)、它的平均值(绿)及模型拟合(红)100200300400500600-2-1.5-1-0.500.511.52x10-3模型中所用的12次谐波,拟合数据为这些谐波及上图中平均值之和单个脉象周期的特征参数提取对划分后的周期信号减去均值后,根据它的周期构造前W(不超过12)次谐波,用DFT得到Fourier系数。由Fourier系数即可构成单个周期的模型。基波振幅基波相位二次谐波振幅二次谐波相位均值最终特征参数•12个谐波的能量分布(%)及相位•脉数(心率)、脉位(周期起始值)和脉力(h1)•时域参数t1,t4,h4/h1,t5,h5/h1•每个案例中,使用同一的脉数,但左右手、寸关尺六部位上各取一个上述参数,共有6x32+1=193个参数.0),arcsin(21;0,arcsin21,22kkkkkkkkkkaifAbkaifAbkbaA优点:•利用频域参数及心率可相当准确地复原脉图,从而可产生任何时域参数•比简单傅里叶变换更精确缺点:参数的医学生物物理意义不明确使用无创、方便、简易、便携的诊断方法将是各国医改成功的关键!探测金融市场的变化趋势•经济学理论对市场有不同认识,如2013年诺贝尔经济奖。•我们的研究结果支持市场还是在一定程度上可预测的。普遍运用的技术分析(TechnicalAnalysis)方法是这一研究方向上的前驱,正在兴起的量化方法(QuantitativeAnalysis)就是将机器学习和数据挖掘的方法运用于金融大数据中的试尝。JamesSimons的故事。•在本例中,我们运用PPT方法分析目标(价格波动的顶和底)对属性(各种技术分析中使用的指标,如具有不同参数的滑动平均MA,RSI,MACD,RSV,…,等等共54xK个,K为延迟)的关系,从而预测金融市场价格波动的顶和底。金融市场数据分析的软件平台总结:机器学习方法示意图理想王国现实世界概率分布目标函数模型数据专业知识真实参数验证测试数据数据InGodwetrust,allothersbringdata.W.E.Deming我们信奉理论,但理论也需要实践来检验。参考资料•统计学习基础:数据挖掘、推理与预测,黑斯蒂等,电子工业出版社,2007•“Theelementsofstatisticallearning–Datamiming,inferenceandprediction”byHastie,TibshiraniandFriedman,2ndEdition,Springer,2009•机器学习导论(计算机科学丛书)EthemAlpaydm,机械工业出版社2009••=1727•Basicrule:LetPTbethePCAtransformmatrixoftheTARGETdataclass,Xbethetotaldata,theacceptregionistheparallelgram:•Forallcombinationsof2indicators,weusetheaboveruletocalculatethepuritydensityoftargetinR,thenchoosethetwopredictorswhichhasthehighestdensityforthecurrentnode.•KeepaboveprocedureongoingwiththeselecteddataB+Ttillstop.Fromp(p-1)/2combinationschoosetheonewithhighestpuritydensityPPT的规则TTTMaxXPMinR:RootBB+TBB+TTB+TBFeatureSelectionPPT的自变量选择•Weuse54(1+d)technicalindicators,includingMACD,MAd,RSIandRSVwithdifferentparameters,asthepredictorsforpeaksortroughs,heredisthedelaytimeunit(day).•Foreachk(=2)combinationofthesepredictors,findthetightregionroundingupalltargetsbyitsPCAtransform.•Exhaustivesearchforallcombinationstogetthebestpredictorcombinationwithhighestpuritypercentagefortargetsinsidetheregion.parallelogramRisconstructedbythemaximaandminimaofPCAtransformPPT的检验•Applytherulefortrainingdataandexaminethetworatios:P(T|R)=NumberofTargetsinR/TotalNumberinRP(T|N)=NumberofTargetsinR/TotalNumberofT•TestingP(T|R)measurestherandomnessof
本文标题:机器学习及其应用
链接地址:https://www.777doc.com/doc-4663020 .html