您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 基于数据挖掘的股价走势预测
华中科技大学硕士学位论文基于数据挖掘的股价走势预测姓名:张胜权申请学位级别:硕士专业:概率论与数理统计指导教师:周晓阳20090517华中科技大学硕士学位论文I摘要随着社会经济的发展和人们投资意识的不断增强,股票已经成为投资理财的一种重要工具,从而股票走势的预测具有十分重要的意义,然而,股票市场是一个极其复杂的系统,股价走势的预测问题是一个非常困难的问题,尽管如此,股价走势的预测还是引起了越来越多人的关注和研究。数据挖掘,是90年代中后期发展起来的人工智能分支,它以发现海量数据中隐含的、新颖的、有价值的信息和模式为目标,是一种高层次的数据分析。股票市场中积累了大量的交易数据,数据中隐含了大量有用的信息,采用数据挖掘的相关技术对股市数据进行分析,探索股价走势中的规律,建立股价走势的预测模型,无疑具有重大的现实意义。本文以中国股票市场为背景,利用数具挖掘的相关技术建立了用于预测股票走势的定性预测模型和定量预测模型,并得到了比较好的结果,由于采用的数据是沪深股市其中550只个股近十年累计约120万个交易日的数据,数据具有很好的代表性,因此,模型具有良好的泛化能力,模型产生的结论也具有较强的说服力,模型具有一定的参考价值,同时,本文的研究页表明了采用数据挖掘的相关技术进行股价预测是可行的。关键词:股票数据挖掘预测聚类k-均值两步聚类Kohonen决策树分类最近邻算法华中科技大学硕士学位论文IIAbstractWithsocial-economicdevelopmentandstrengtheningofpeople’sinvestmentconsciousness,Theforecastofstockpricemovementisveryimportantandmeaningful,stockshavebecomeanimportantinvestmentinstrument.However,asstockmarketisaverycomplicatedsystem,forecastofstockpricemovementhasbecomeverydifficult;despitethechallenges,peoplearepayingmoreattentiontothisareaandaredoingmoreresearch.Data-mining,anewArtificialIntelligencebranchdevelopedsince1990s',focusondiscoveringvaluablemodeswhicharehiddeninmega-dataanditishigh-levelofdataanalysis.alargenumberofstockmarkettransactiondataisaccumulated,agreatdealofusefulinformationisimpliedinstockdata,Thus,usingdata-miningtechniquestoanalyzestockdataandexplorethelawinthestockpricemovement,buildingforecastmodelonstockpricemovementisverymeaningful.Thispaperbuildsboththequalitativeandquantitativeforecastmodelsofstockpricemovementusingdata-miningontheChinesestockmarketwithsatisfactoryresults.AmongthestockstradedontheShenzhenandShanghaiStockExchange,550stockshaverecordsof1.2milliontradingdaysaccumulatively,Dataarewellrepresented,sothemodelscanbewidelyextendedwithpervasiveconclusions.Webelieveitisworkabletoforecaststockpricemovementusingdata-mining.Keywords:stocks,Data-Mining,forecast,clustering,k-means,Two-stepClustering,kohonen,DecisionTree,classification,nearestneighbor独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到,本声明的法律结果由本人承担。学位论文作者签名:日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密□,在___年解密后适用本授权书。不保密□(请在以上方框内打“√”)学位论文作者签名:指导教师签名:日期:年月日日期:年月日本论文属于华中科技大学硕士学位论文11绪论1.1课题的研究背景随着经济体制改革的不断深化,我国股票市场也在不断地完善和发展,股票市场已经成为我国证券业以及金融业不可或缺的组成部分,人们的金融意识和投资意识日益增强,股票投资已经成为一种人们愿意承担其风险的理财手段,股市投资的收益与风险往往是强正相关的,也就是投资收益越高,冒的风险也越大,因此,股票数据的分析和预测具有十分重大的理论意义和非常诱人的应用价值,然而,股票市场是一个极其复杂的动力学系统,高噪声、严重非线性和投资者的任意盲目性等诸多因素决定了股价走势预测的复杂性,股票的投资决策问题已成为金融工程及系统工程领域的前沿课题之一,也是迄今为止尚未很好解决的一个国际热点难题。1.2当前研究的现状随着人们对股市认识的不断加深,金融理论与数理工具的日趋完善,各种各样的预测方法也应运而生,特别是近年来,随着计算机技术、混沌、分形理论的发展,人们开始将股票市场的行为纳入非线性动力学研究的范畴。己有不少研究文献表明股票市场是具有混沌现象的非线性动力系统,因此,迫切要求人们找到直接从数据中建立模型的方法。人工神经网络(ANN)是被广泛应用于股市预测的方法之一,Mendelsohn和Stein(1991)用德国市场三年的日交易数据训练人工神经网络来产生买和卖的信号,使用一年的数据进行验证,表明神经网络产生的24个买入信号中一半是正确的,并可以带来满意的回报[1],Sheng-chaiChi(1999)在研究中将灰色关联度引入到神经网络的输入变量,并对不同的网络拓扑结构进行了测试,研究表明灰色关联度的引入,提高了模型的预测精度并减少了网络训练所需要的时间,同时也表明更多的神经元数量并没有带来更高的预测精度[2].国内方面,霍建军[3],张秀艳[4]等针对中国股票市场,华中科技大学硕士学位论文2用神经网络建立了相关的预测模型。支持向量机(SVM)技术也被人们用于股市预测,SVM具有坚实的统计学理论基础,能很好的用于高维数据,文献[5]正是利用支持向量机的技术对股市进行预测,在支持向量机用于时间序列预测的理论基础上,给出了基于时间序列的支持向量机预测模型。然而,很多文献尤其是国内的许多文献(如文献[5],[6]),建立起来的对股市进行预测的模型或者方法均缺乏足够的数据作为支撑,它们建模时采用的一般是市场指数或者几只个股的某一小段行情数据,过少的数据不仅使模型在训练时容易产生过拟合现象(Overfitting),而且,由于股票之间存在差异,各段行情走势之间也存在差异,因此,对于整个市场的大部分情况,在几只股票或者某段行情基础上建立起来的模型的可靠性是值得怀疑的,总而言之,在小数据量的基础上建立起来的模型的泛化能力会比较差,得到的结论也缺乏足够的说服力1.3本文研究的目的及主要工作大量研究表明,股市具有一定的可预测性,因此,关键的问题在于找到一种能够描述实际价格波动各种特性的模型,并据此建立相应的预测方法,获得比较准确的预测,这正是本文的目的所在。数据挖掘(DataMining)是从海量数据中寻找隐含的、未知的、非平凡的、有应用价值的信息或者模式,中国股票市场经过十几年的发展,积累了大量的交易数据,用数据挖掘的技术从海量的股票交易数据中寻找有价值的模式无疑具有可观的前景和重要的现实意义。本文正是以沪深股市其中的550只股票近十年累计约120万个交易日的收盘价数据为数据对象,采用数据挖掘的相关技术,建立具有较好泛化能力的预测模型。本文的主要工作包括:(1)介绍了股价的可预测性问题,并认为股价具有一定的可预测性.(2).分别使用k均值聚类,两步聚类和Kohonen聚类技术,对沪深股市其中550只股票近10年累计约120万个交易日的收盘价数据生成的相对涨幅向量进行了聚华中科技大学硕士学位论文3类分析,并在此基础上以“投票”的方式确定最终的聚类结果。(3).在(2)聚类分析产生的结果的基础上,建立决策树分类模型,该模型用于对相对涨幅向量的后面几个分量进行定性的预测。(4).应用k最近邻技术建立对股价走势进行定量预测的模型,由于该模型分析的对象是沪深股市其中550只股票近10年约120万个交易日收盘价数据,数据具有广泛的代表性,模型具有良好的泛化能力,产生的结果具有较强的说服力,因而用该方法进行股价走势预测具有一定的参考价值。1.4论文的结构安排本文的结构如下:第一章阐述了本文研究的课题背景,论述了相关研究的现状及进展情况,讨论了本文研究的目的及意义。第二章阐述了股价的可预测性问题,并简单介绍了股价预测的方法。第三章介绍了数据挖掘的基本知识,并比较详细的介绍了本文用到的:k均值聚类,两步聚类,Kohonen聚类,C4.5决策树算法。第四章对沪深股市其中550只股票累计约120万个收盘价数据进行聚类分析,并在其结果的基础上建立了股价走势的定性预测模型。第五章使用k最近邻技术建立对股价走势进行定量预测的模型。第六章对本文的工作进行总结,对研究中尚未涉及的相关问题和尚须深入的相关内容进行了展望。华中科技大学硕士学位论文42股价走势预测2.1股票价格的可预测性问题一直以来,股票价格的可预测性就是一个充满争议的问题,更是国内外诸多学者感兴趣的重大课题。20世纪60年代,经济学家森穆逊(Samueson)提出了资产价格随机游走理论,认为在信息有效市场,股票价格是不可预测的,随机游走理论认为,所有未来的价格变化都是对过去价格的随机偏离,如果信息未受到阻碍而且信息立即在股票价格中得到反映,那么明日的价格走势将仅仅反映明天的信息并独立于今天的价格变化。并且信息被定义为无法预知的并因此所导致的价格变化一定是随机的和无法预测的。后来,美国芝加哥大学财务学家法默(Fama)提出了著名的有效市场假说理论(EMH),对股票价格的不可预测性进行了比较权威的阐述,认为在一个充满信息交流和信息竞争的社会里,一个特定的信息将迅速被投资者知晓,随后,股票市场的竞争将使股票价格充分并且及时地反映该信息。法默将证券市场区分为三种类型:弱式有效,半强式有效和强势有效。根据有效市场理论,在弱式有效市场,股票价格充分反映历史上一切交易价格和交易量中所隐含的信息,从而投资者通过技术分析预测股价走势将是徒劳的,在半强式有效市场,股票当前价格不仅反映历史信息,还反映了当前所有公开的信息,如公司价值,宏观经济形势和政策方面的信息,在半强式有效市场,仅仅以公开资料为基础的分析将不能提供任何帮助,因为针对当前已经公开的资料信息,目前的价格是合适的,未来的价格依赖于新的公开信息
本文标题:基于数据挖掘的股价走势预测
链接地址:https://www.777doc.com/doc-4380192 .html