您好,欢迎访问三七文档
海南大学数据挖掘论文题目:股票交易日线数据挖掘学号:20100602310002姓名:专业:10信管指导老师:分数:目录目录..............................................................................................................................................21.数据挖掘目的.........................................................................................................................32.相关基础知识...........................................................................................................................32.1股票基础知识...................................................................................................................32.2数据挖掘基础知识...........................................................................................................42.2.2数据挖掘的任务.........................................................................................................53.数据挖掘方案...........................................................................................................................63.1.数据挖掘软件简介..........................................................................................................63.2.股票数据选择..................................................................................................................73.3.待验证的股票规律..........................................................................................................74.数据挖掘流.............................................................................................................................84.1数据挖掘流图.......................................................................................................................84.2规律验证............................................................................................................................94.2.2规律2验证...............................................................................................................104.2.3规律三验证...............................................................................................................124.3主要节点说明..................................................................................................................145.小结.........................................................................................................................................151.数据挖掘目的数据挖掘的目的就是得出隐藏在数据中的有价值的信息,发现数据之间的内在联系与规律。对于本次数据挖掘来说,其目的就是学会用clementine对股票的历史数据进行挖掘,通过数据的分析,找出存在股票历史数据中的规律,或者验证已存在的股票规律。同时也加深自己对股票知识的了解和对clementine软件的应用能力。为人们决策提供指导性信息,为公司找出其中的客户为公司带来利润的规律,如二八原则、啤酒与尿布的现象等。2.相关基础知识2.1股票基础知识2.1.1股票是一种有价证券,是股份公司在筹集资本时向出资人公开或私下发行的、用以证明出资人的股本身份和权利,并根据持有人所持有的股份数享有权益和承担义务的凭证。股票代表着其持有人(股东)对股份公司的所有权,每一股同类型股票所代表的公司所有权是相等的,即“同股同权”。股票可以公开上市,也可以不上市。在股票市场上,股票也是投资和投机的对象。对股票的某些投机炒作行为,例如无货沽空,可以造成金融市场的动荡。2.1.2开盘价开盘价又称开市价,是指某种证券在证券交易所每个交易日开市后的第一笔买卖成交价格。世界上大多数证券交易所都采用成交额最大原则来确定开盘价。2.1.3收盘价收盘价是指某种证券在证券交易所一天交易活动结束前最后一笔交易的成交价格。如当日没有成交,则采用最近一次的成交价格作为收盘价,因为收盘价是当日行情的标准,又是下一个交易日开盘价的依据,可据以预测未来证券市场行情;所以投资者对行情分析时,一般采用收盘价作为计算依据。2.1.4最高价指某种证券在每个交易日从开始到收市的交易过程中所产生的最高价。2.1.5最低价指某种证券在每个交易日从开始到收市的交易过程中所产生的最低价。2.1.6成交量成交量是指一个时间单位内对某项交易成交的数量。一般情况下,成交量大且价格上涨的股票,趋势向好。成交量持续低迷时,一般出现在熊市或股票整理阶段,市场交投不活跃。成交量是判断股票走势的重要依据,对分析主力行为提供了重要的依据。2.1.7K线K线图这种图表源处于日本德川幕府时代(1603~1867年),被当时日本米市的商人用来记录米市的行情与价格波动,后因其细腻独到的标画方式而被引入到股市及期货市场。通过K线图,我们能够把每日或某一周期的市况现完全记录下来,股价经过一段时间的盘档后,在图上即形成一种特殊区域或形态,不同的形态显示出不同意义。插入线、抱线和利好刺激线这三种K线组合是最常见的经典见底形态。2.1.8日线任何一天的开盘价\收盘价\最高价\最低价,划出的一跟中间粗一些,两端细一些的线,就是日线,日线是每天一根的K线.5PMA,10PMA,20PMA。分别代表5日、10日、20日均线。黄色的是5PMA即5日均线;紫色的是10PMA即10日均线;绿色的是20PMA即20日均线。2.2数据挖掘基础知识2.2.1数据挖掘数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。随着信息技术的高速发展,人们积累的数据量急剧增长,动辄以TB计,如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。是知识发现(KnowledgeDiscoveryinDatabase)的关键步骤。2.2.2数据挖掘的任务(1)关联分析(associationanalysis)关联规则挖掘是由RakeshApwal等人首先提出的。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。(2)聚类分析(clustering)聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。(3)分类(classification)分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。(4)预测(predication)预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。(5)时序模式(time-seriespattern)时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。(6)偏差分析(deviation)在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。2.2.3数据挖掘方法(1)神经网络方法神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性,非常适合解决数据挖掘的问题。(2)遗传算法遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。(3)决策树方法决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。(4)统计分析方法在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。(5)模糊集方法即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。(6)粗集方法粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点:不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处理的对象是类似二维关系表的信息表。(7)覆盖正例排斥反例方法它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取式)。3.数据挖掘方案3.1.数据挖掘软件简介本次的数据挖掘所运用的软件
本文标题:数据挖掘课程论文.
链接地址:https://www.777doc.com/doc-3400118 .html