您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 股票报告 > 基于股票时间序列数据的关联规则挖掘研究
南昌大学2003级硕士学位论文文献综述报告基于股票时间序列数据的关联规则挖掘研究StudyonMiningAssociationRulesfromStockTimeSeriesData系别:计算机科学与技术系专业:计算机应用技术研究方向:人工智能研究生:汪廷华导师:程从从(教授)2005年03月1一.引言随着计算机信息系统的日益普及,大容量存储技术的发展以及条形码等数据获取技术的广泛应用,人们在日常事务处理和科学研究中积累了大量的各种类型的数据。在这些数据中,有很大一部分是呈现时间序列(timeseries)类型的数据。所谓时间序列数据就是按时间先后顺序排列各个观测记录的数据集[1],如金融证券市场中每天的股票价格变化;商业零售行业中,某项商品每天的销售额;气象预报研究中,某一地区的每天气温与气压的读数;以及在生物医学中,某一症状病人在每个时刻的心跳变化等等。然而,我们应该注意到:时间序列数据不仅仅是历史事件的记录,更重要的是蕴藏这些数据其中不显现的、有趣的模式。随着时间推移和时间序列数据的大规模增长,如何对这些海量数据进行分析处理,挖掘其背后蕴藏的价值信息,对于我们揭示事物发展规律变化的内部规律,发现不同事物之间的相互关系,为人们正确认识事物和科学决策提供依据具有重要的实际意义。时间序列数据分析按照不同的任务有各种不同的方法,一般包括趋势分析、相似性搜索、与时间有关数据的序列模式挖掘、周期模式挖掘等[2]。本综述是针对证券业中股票时间序列分析的,试图通过列举、分析有关证券业中股票时间序列数据分析的原理、方法与技术,着重探讨数据挖掘中基于股票时间序列数据的关联规则挖掘的概念、原理技术、实施过程及存在的障碍和问题,以期能有新的发现和领悟。二.股票时间序列传统研究方法概述随着我国市场经济建设的发展,人们的金融意识和投资意识日益增强。股票市场作为市场经济的重要组成部分,正越来越多地受到投资者的关注。目前股票投资已经是众多个人理财中的一种重要方式。不言而喻,如果投资者能正确预测股票价格、选准买卖时机,无疑会给投资者带来丰厚的收益。于是,在股票的预测和分析方面出现了大量的决策分析方法和工具,以期能有效地指导投资者的投资决策。目前,我国股市用得较多的方法概括起来有两类[3]:一类是基本分析和技术分析,另一类是经济统计分析。1.基本分析和技术分析在股票市场上,当投资者考虑是否投资于股票或购买什么股票时,一般可以运用基本分析的方法对股市和股票进行分析;而在买卖股票的时机把握上,一般可以运用技术分析的方法[4]。基本分析指的是通过对影响股票市场供求关系的基本因素(如宏观政治经济形势、金融政策、行业变动、公司运营财务状况等)进行分析,来确定股票的真正价值,判断未来股市走势,是长期投资者不可或缺的有效分析手段。技术分析是完全根据股市行情变化而加以分析的方法,它通过对历史资料(成交价和成交量)进行分析,来判断大盘和个股价格的未来变化趋势,探讨股市里投资行为的可能转折,从而给投资者买卖股票的信号,适合于投资者作短期投资。目前技术分析常用的工具是各种各样的走势图(K线图、分时图)和技术指标(MA、RSI、OBV等)。2.经济统计学分析主要针对时间序列数据进行数学建模和分析。传统的时间序列数据分析已经是一个发展得相当成熟的学科,有着一整套分析理论和工具,是目前时间序列数据分析的主要方法,它主要用经济统计学的理论和方法对经济变量进行描述、分析和推算。传统时间序列数据分析的研究目的在于[5]:●分析特定的数据集合,建立数学模型,进行模式结构分析和实证研究;●预测时间序列的未来发展情况。传统的时间序列数据分析最基本的理论是40年代分别由NorborWiener和AndreiKolmogomor提出的。20世纪70年代,G.P.Box和G.M.Jenkins发表专著《时间序列分析:预测和控制》,对平稳时间序列数据提出了自回归滑动平均模型(ARMA),以及一整套的建模、估计、检验和控制方法,使得时序数据分析得以广泛运用于各种工程领域。其基本思想是根据各随机变量间的依存关系或自相关性,从而由时间序列的过去值及现在值来预测出未来的值。该模型以证券市场为非有效市场为前提,当期的股票价格变化不仅受当期随机因素的冲击,而且受前期影响。换句话说,就是历史信息会对当前的股票价格产生一定程度的影响。采用的方2法一般是在连续的时间流中截取一个时间窗口(一个时间段),窗口内的数据作为一个数据单元,然后让这个时间窗口在时间流上滑动,以获得建立模型所需要的训练集[6]。[7]基于股票时间序列是一种混沌时间序列的认知,提出一种新颖的非线性时间序列预测模型,即滑动窗口二次自回归(MWDAR)模型,该模型使用部分的历史数据及其二次项构造自回归模型,模型参数用最小二乘法估计。其基本理论基础是:一个线性模型不能描述混沌时间序列的全局性特征,但在一个小的时间间隔内,系统的行为却可以用某种线性模型近似。[8]则提出了一种基于嵌入理论和确定集上的预测误差的混沌时间序列预测方法,并探讨了在股票价格预测上的应用。可以看出,经济统计学为问题的探索解决方案提供了有用而实际的框架;模型是经济统计学的核心,模型的选择和计算往往被认为是次要的,是建立模型的枝节。经济统计学本质上是从事“确定性”分析的,可以说统计方法是“目标驱动”的。但是,在大量数据集中往往存在一些未被人们预期到但又具有价值的信息,人们为发现大量数据中隐藏的规律和模式,就需要新的具有“探索性”的分析工具。显然,数据挖掘就是这样的一门工具。三.数据挖掘技术应用于股票时间序列分析的研究现状数据挖掘(DM,DataMining),也称为数据库中的知识发现(KDD,KnowledgeDiscoveryinDatabase)是数据库技术和机器学习等人工智能技术相结合的产物,是一门新兴的数据智能分析技术[9]。20世纪80年代末,随着数据库、互联网技术的迅速发展以及管理信息系统(MIS)和网络数据中心(IDC)的推广应用,数据的存取、查询、描述统计等技术已日臻完善,但高层次的决策分析、知识发现等实用技术还很不成熟,导致了“信息爆炸”但“知识贫乏”的现象。到了90年代,人们提出在数据库基础上建立数据仓库,应用机器学习和统计分析相结合的方法处理数据,这两者的结合促成了数据挖掘技术的诞生。所谓数据挖掘,简单地说,就是从大量数据中提取或挖掘知识[2];详细一点可以描述为主要利用某些特定的知识发现算法,在一定的运算效率的限制下,从大量的数据中抽取出潜在的、有价值的知识(模型、规则和趋势)的过程。挖掘算法的好坏直接影响到知识发现的质量和效率,因此目前大多数研究都集中于数据挖掘算法及其应用上。1.相关技术介绍(1)关联规则挖掘关联规则是美国IBMAlmadenResearchCenter的RakeshAgrawal等人于1993年首先提出来的KDD研究的一个重要课题[10]。关联规则挖掘本质是从大量的数据中或对象间抽取关联性,它可以揭示数据间的依赖关系,根据这种关联性就可以从某一数据对象的信息来推断另一对象的信息。它可以做如下形式化定义:设I={i1,i2,...,im}是一组项的集合(例如一个商场的物品),D是一组事务集(称之为事务数据库)。D中的每个事务T是项的集合,且满足TI。称事务T支持物品集X,如果XT。关联规则是如下形式的一种蕴含式:X→Y,其中XI,YI,且X∩Y=。(1)称关联规则X→Y在事务数据库D中具有大小为s的支持度,如果物品集X∪Y的支持度为s%,即support(X→Y)=P(XUY)。(2)称规则X→Y在事务数据库D中具有大小为c的可信度,如果D中支持物品集X的事务中有c%的事务同时也支持物品集Y,即confidence(X→Y)=P(Y|X)。从语义的角度来分析,规则的可信度表示这条规则的正确程度;支持度表示用这条规则可以推出百分之几的目标,即这一规则对于整体数据的重要程度。用户可以定义二个阈值,要求数据挖掘系统所生成的规则的支持度和可信度都不小于给定的阈值。这样,就用蕴含式、支持度和可信度唯一标识了每一个挖掘出来的关联规则。已知事物数据库D,关联规则的挖掘问题就是产生支持度与置信度分别大于用户给定的最小阈值的所有关联规则。该问题分两步来求解:第一步是找出事务数据库D中所有满足条件的具有用户指定最小支持度的项目集。具有最小支持度的项目集称为频繁项集。第二步是从频繁项集中构造可信度不低于用户要求的规则。形式地,对于每一个频繁项目集A,找出A的所有非空子集a,如果比率support(A)/support(a)≥min_conf3(可信度),就生成关联规则a→(A-a)。识别或发现所有的频繁项集是关联规则挖掘算法的核心,也是计算量最大的部分。目前已有不少挖掘频繁项集的方法,其中最著名的是R.Agrawal和R.Srikant提出的Apriori算法[11],其核心是利用这样一个性质:频繁项集的所有非空子集都是频繁的。基于这样的先验知识,Apriori使用一种“逐层搜索“的迭代方法,k-项集用于探索(k+1)项集。首先找出频繁1-项集,记作L1;用L1找频繁2-项集L2;而L2用于找L3,如此下去,直到不能找到频繁k-项集。虽然Apriori算法能最终挖掘出所有的关联规则,但由于处理的数据量非常大,因而算法的效率显得十分重要。后来的一些研究人员对算法的连接和剪枝过程进行各种优化。如[12]提出了称为AprioriTid的改进算法,该算法提出了在每一步(第一步除外)计算候选频繁项集的支持度时不需要浏览整个事务数据库。它认为不包含任何k-项集的事务不可能包含任何k+1项集,这样,这种事务在其后的考虑时,可以加上标记或删除,因为为产生j-项集(j>k),扫描数据库时不再需要它们。该算法的本质是压缩进一步迭代扫描的事务数。而[13]提出的AprioriPro算法,其基本思想与AprioriTid是一致的,也是减少对数据集的扫描,不同的是AprioriPro算法是通过在原有的数据集上增加一个属性,通过这个属性的取值来减少对某些事务的扫描。[14]是结合Apriori和AprioriTid两种算法,提出了一种混合挖掘算法AprioriHybrid,其基本思想是在扫描的早期使用Apriori算法,当候选模式集中记录条数小到可以放进内存时就转向AprioriTid算法。这些改进算法虽然比Apriori算法在挖掘效率上有一些提高,但本质上没有什么区别,都要在挖掘过程中生成大量的候选模式集。“有没有这样的算法,挖掘全部的频繁项集而不产生候选?”1999年Han等人提出FP-Growth算法[15],以及Agrawal等人提出的树-投影(TreeProject)[16]关联规则挖掘算法就是这样的算法,它们在性能上均获得了突破,与Apriori算法相比,挖掘效率有了数量级的提高。利用FP-Tree可以压缩事务数据集,压缩有的达到100多倍;而树-投影方法从原理上讲是适应任何数据集的,无论其据量多大该算法都能有效运行,从而使得关联规则挖掘可以应用于海量数据的挖掘和稠密数据集的挖掘。除了上述关联规则挖掘的经典算法之外,人们着重在以下几个方面对关联规则进行了研究。(1)继续通过各种手段提高挖掘效率。这方面包括对原有算法的进一步改进[17,18];提出一些并行挖掘算法[19,20]、增量算法[21]以及带约束的关联规则挖掘策略(元规则制导关联规则挖掘)[22,23]。(2)不同形式关联规则的研究。关联规则最早是由购物篮分析开始的,但是随着研究的扩展和深入,关联规则的应用范围不断扩大,因此出现了多种形式关联规则的研究。由最简单的单维、单层、布尔关联规则逐渐向复杂形式扩展。在基本关联规则的基础上提出了布尔型加权关联规则和广义模糊型加权关联规则算法[24],由单层的关联规则扩展为多层次关联规则的研究[25]等等。关联规则形式的多样化,反映了人们从不同角度认识同一事物的不同视点,加深了对关联规则的认识与研究。(3)结合其它理论(如软计算理论)对关联规则进行研究。引入粗糙
本文标题:基于股票时间序列数据的关联规则挖掘研究
链接地址:https://www.777doc.com/doc-1140389 .html