您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > PPT:基于CART决策树的行业选股方法_赵学昂_路演
国信证券金融工程:投资性指标与策略系列之一基于CART决策树的行业选股方法焦健,赵学昂,葛新元Jan,2010主要内容投资性产品系列报告:量化模型提出-实证分析-持续跟踪-标准产品数据挖掘(神经网络、决策树、灰分析)可广泛的应用于行业选股模型本报告主要使用工具:分类与回归决策树(CART)本报告主要创新之处:利用修剪与过滤提升决策树的准确性本报告主要结论:修正后的动态决策树可有效的在行业内分类与选股后续的研究方向:行业指标选择、分类后的个股挑选、决策树优化数据挖掘技术与个股选择1内容目录主要使用的数据挖掘方法2CART决策树行业选股模型3实证结果与后续研究41.1个股选择方法的主要流派•技术分析派:供需决定一切、交易数据包含一切信息、历史会一再重演•基本面分析派:股票价值与价格的差异是投资收益来源、财务分析、实地调研•数量化分析派:技术与财务指标的结合与深化、统计工具与数据挖掘寻找规律并预测1.2数据挖掘的应用特性自动预测未来的趋势与行为。自动发觉未知的数据模式。数据挖掘是一个从大型数据库中寻找模式与关联的过程。数据挖掘技术特性分析人工神经网络遗传算法统计分析决策树可视化技术容易编码低非常低高非常高中资料接受度高中中低低自主性高高低低非常高计算能力非常高非常高中低非常高解释能力非常低高中非常高非常高最优化能力中高中中非常低拓展性非常低中中非常低低资料来源:DataMininginFinancialApplication,IEEETransactionsonsystem,2004Vol34数据挖掘技术与个股选择1主要使用的数据挖掘方法2CART决策树行业选股模型3实证结果与后续研究4内容目录2.1人工神经网络人工神经网络(ArtificialNeuralNetwork)模仿人脑结构及其功能的智能信息处理系统,具有自学习、自组织、较好的容错性和优良的非线性逼近能力。神经网络特别适合处理:自变量和因变量之间无已知方程结果预测比逻辑关系解释更重要有足够丰富的数据可供建立网络神经元结构示意图人工神经网络拓扑图2.2决策树决策树(DecisionTree)最简单的归纳式学习法常用于数据分类与预测有明确的文字或数字规则树的生长规模可控制指标不宜过多分类不可过细一棵典型的决策树决策树分类过细2.3灰关联分析自然界存在之已知讯息为白(white),未知讯息为黑(black),介于黑白间不明确未知与不明确已知之地带则为灰(grey)。灰关联分析强调对系统的讯息补充,充分利用已确定之白色讯息,进行系统的关联分析、模型建构使得系统由灰色状态转为白化状态,并藉由预测及决策的方法来探讨及了解系统。灰色系统关联分析的具体操作步骤为:从原始决策矩阵中找出参考数列和比较数列。对原始决策矩阵数据进行正规化处理。计算灰关联距离。计算灰关联系数。计算灰关联度。排出灰关联序,根据灰关联度值选出重要的方案。数据挖掘技术与个股选择1主要使用的数据挖掘方法2CART决策树行业选股模型3实证结果与后续研究4内容目录3.1传统CART决策树选股EricH,KeithL,CheeK(2000)对美国科技股1993至1999年的数据,利用EPS-Price、Price-MOM等指标构建了固定样本的静态和不断新增样本的动态树。利用前面构建的静态树与动态树,Eric等人得到了静态树所分出的买入组合平均每月跑赢卖出组合1.40%,而动态树则可跑赢1.47%。(未考虑交易成本与冲击成本等)我们认为1993至1999年正是整个美国股市的牛市时期,期间经济周期、市场规律以及所选的行业经营环境没有发生显著的变化,因此动态的调整决策树并未明显提升策略效果。EricH,KeithL和CheeK静态树模型EricH,KeithL和CheeK动态树模型3.2国内科技股CART决策树模型我们将国内电子与信息技术类股票合并为科技股板块,选用EPS-Price、EPS-MOM、ROA等六项指标(根据国内情况进行定义调整)构建决策树进行实证。我们选取所有科技板块152只股票过去82个月(2003.1-2009.10)中的历史数据样本。为了避免树形结构出现过于复杂形态,我们对数据样本进行五分法(quintile)转换。3.2国内科技股CART决策树模型(静态)以2003-2006作为样本内数据建立静态树,2007-2009做为样本外数据进行静态树检验。对科技板块所有股票的下月收益进行预测分类。图中1代表跑赢平均类,-1代表跑输平均类,类中的股票分别对应构建多头和空头组合。尽管有事前修剪控制树的生长,生成的树状形态仍较为复杂。EPS-Price是决定分类的首要条件,但其直接导出分类节点的决定性能力还不如EPS-MOM。经过检验,静态决策树挑出的分类组合,在2007年初至2009年10月底多头组合平均每月跑赢空头组合0.64%。2003-2006科技股静态CART决策树模型(节点阈值=10)3.2国内科技股CART决策树模型(动态)以2007年以后的科技股样本数据动态构建决策树,检验在07-09年牛熊转换过程中模型的适应性与拓展性。截至2009年10月底的决策树从树形结构到指标条件都发生了很大的变化。我们可以看出,价格动量取代市盈率成为当前最为首要的分类因素,EPS-MOM能够直接导出分类的能力大幅度下降。动态的决策树模型2007至2009所分类的多头组合平均每月跑赢空头组合0.89%,我们认为并没有效的体现出动态决策树的拓展性的能力。2009.10科技股动态决策树(节点阈值=10)影响决策树模型效果的最大因素在于输入样本中的噪音。我们将主要通过事前修剪、事后修剪以及分类过滤等方式消除噪音影响,提高分类有效性与准确度。分割阈值是最简单的事前修剪方法,通过检验我们发现其可以有效的快速降低树的复杂程度,但分类精确度却明显下降。3.3修剪和过滤后的修正决策树模型(事前修剪)分割阈值对CART静态决策树精确度的影响3.3修剪和过滤后的修正决策树模型(事后修剪)以替代错误率为目标函数,对初始决策树(初始决策树节点高达1200个以上)逐层修剪掉无法有效降低整棵树错误率的枝叶节点。修剪到第28次时,总节点数已经下降至100以下,当修剪达到第36次时,决策树节点仅剩下15个。随着修剪次数的增加,节点数量以较为稳定的速度下降,而检验组合中的多空组合收益差能够稳定的保持正向。过于简单的树结构尽管样本检验收益率可能不错,但往往只是体现出一种大概率事件,分类的区分度较差。36次修剪后的静态CART决策树CART静态决策树事后修剪3.3修剪和过滤后的修正决策树模型(节点过滤)决策树修剪并非真的剪除枝叶数据,而是不停的进行合并操作。因此修剪后的有效节点过滤对于提高整棵树的分类效率非常必要。我们在对弱势节点的筛选中参考了诸如父节点样本分化概率、节点样本数量以及节点错误率等指标。在较少次数的决策树修剪之前运用过滤方法控制噪音的效果并不明显,而在较多次修剪后,由于决策树剩余节点已经不多且节点中数据量极大,因此不当的过滤导致最终可能导致多空组合收益差剧烈的波动。CART静态决策树加过滤算法修剪修正CART静态决策树3.3修剪和过滤后的修正决策树模型(静态)经过修正后的静态CART决策树在检验期中,多头组合平均每月跑赢空头组合的幅度达到2.19%。但从组合财富图上我们发现,多头组合并没有拉开和全体样本平均收益的差异,模型的精确度达不到要求。修正CART静态决策树检验效果修正CART静态决策树检验组合财富3.3修剪和过滤后的修正决策树模型(动态)经过修正后的动态CART决策树在检验期中,多空组合平均月度收益差达到2.98%。在2009年的10个月度检验样本中,多头组合全部取得了正超额收益。从财富曲线上看,多头组合不仅大幅跑赢了空头组合,也将显著超越了全样本的平均表现。这表明通过修正的动态模型,显著提高了股票分类的效率。修正CART静态决策树检验效果图修正CART静态决策树检验组合财富图3.3修剪和过滤后的修正决策树模型(组合内部结构)从数量上来看,多头空头组合所含不足全体样本的一半,降低了简单树结构导致分类样本过多的问题,而多空头组合之间的股票数量对比近期也逐步趋于稳定。流通市值基本与同期的股票数量成正比。由于科技股通常为小盘股,在股票数量多而流通市值小的时候,流动性可能存在问题。应从组合中适当精选流通性好的个股。多空组合股票数量对比多空组合股票流通市值对比数据挖掘技术与个股选择1主要使用的数据挖掘方法2CART决策树行业选股模型3实证结果与后续研究4内容目录4实证结果与后续研究(12月多头)2009年12月预测多头分类PMCPEPROASPEMSH600060海信电器555555SH600105永鼎股份455553SH600289亿阳信通254431SH600446金证股份525352SH600485中创信测235222SH600498烽火通信125455SH600707彩虹股份411141SH600718东软集团345432SZ000063中兴通讯155554SZ000727华东科技441131SZ000823超声电子155254SZ000851高鸿股份132455SZ002049晶源电子355332SZ002073青岛软控525224SZ002134天津普林441131SZ002179中航光电244432SZ002236大华股份334232资料来源:朝阳永续国信证券研究所整理4实证结果与后续研究(12月空头)2009年12月预测空头分类PMCPEPROASPEMSH600198大唐电信153451SH600203福日电子441153SH600392太工天成512224SH600478科力远322141SH600503华丽家族313111SH600570恒生电子524514SH600584长电科技552141SH600601方正科技513254SH600602广电电子521113SH600637广电信息541152SH600680上海普天511224SH600764中电广通452251SH600839四川长虹512355SH600980北矿磁材431122SZ000032深桑达A552151SZ000050深天马A451153SZ000058深赛格531115SZ000801四川湖山512251SZ000925众合机电413515SZ000997新大陆123532SZ002027七喜控股452351SZ002057中钢天源511345SZ002184海得控制514341SZ002199东晶电子223222SZ002222福晶科技334212SZ002261拓维信息334314SZ002268卫士通522215SZ002280新世纪314512资料来源:朝阳永续国信证券研究所整理4实证结果与后续研究(12月实证结果)12月月底检验月初预测效果:多头15.759%,行业平均10.982%,空头5.944%,效果显著。4实证结果与后续研究(1月多空组合)2010年1月预测多头分类(31只)SH600060海信电器SH600522中天科技SZ000016深康佳ASZ002027七喜控股SH600105永鼎股份SH600536中国软件SZ000032深桑达ASZ002056横店东磁SH600203福日电子SH600563法拉电子SZ000050深天马ASZ002065东华软件SH600455交大博通SH600654飞乐股份SZ000058深赛格SZ002093国脉科技SH600487亨通光电SH600687刚泰控股SZ000063中兴通讯SZ002153石基信息SH600503华丽家族SH600764中电广通SZ000100TCL集团SZ002222福晶科技SH600797浙大网新SZ000413宝石ASZ002232启明信息SZ000977浪潮信息SZ002261拓维信息SZ002025航天电器SZ002308威创股份2010年1月预测空头分类(33只)SH600050中国联通SZ000021长
本文标题:PPT:基于CART决策树的行业选股方法_赵学昂_路演
链接地址:https://www.777doc.com/doc-610651 .html