您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 其它相关文档 > 互联网大数据在投资中的商业价值(更新数据至最近)
互联网大数据在投资中的商业价值【摘要】【关键词】互联网;大数据;投资;新闻选股一、引言21世纪是互联网的时代,互联网对人们生活方方面面的影响已经有目共睹,股票市场也不例外。中国股市是名副其实的“政策市”,个股和指数的上涨与下跌主要受到国家政策的影响,而个股对应公司的经营状况可能还不如政策有效。什么是政策?政策就是新闻。对于股指,政策是政府对金融市场、宏观经济、利率的调控;对于个股,”政策”就是公司新闻或者事件。尽管事件驱动就是研究股票价格随着一些特定上市公司事件的变动,而公司新闻的研究就要比事件驱动更广,比如说事件驱动只是涉及像定向增发、高管增持、收购等,而公司新闻则可能是A公司与B公司合作、遭监管部门调查、高管进军某一领域等等。因此,我们需要实证地检验新闻选股的有效性,也就是个股新闻对股票价格的影响。下面几个部分是按照整个模型搭建的顺序依次阐述,分别为:关键词库的搭建与利好新闻的筛选、关键词的重新筛选、新闻选股策略的回测、加入其他筛选条件的对比、未来可能的改进。二、互联网大数据在投资中的应用现状(一)案例研究1.百度百发100指数百度和广发基金合作,综合了上市公司的财务因子(ROE、EPS等)、股票的动量因子(最近一个月的收益率和波动率)、搜索因子(百度中关于股票或者上市公司的搜索总量和增量),给每只股票进行打分,取前100只股票作为成分股。指数基金于2014年10月30日成立开放申购,26小时内申购量达21亿;2015年4月10日重新开放申购,仅通过百度金融中心渠道4分钟销售量过亿元,现在规模为28亿元。2.南方新浪大数据指数新浪和南方基金合作,除了利用股票的财务因子、动量因子,还利用了新浪财经中股票行情的搜索量、与股票相关新闻的点击热度、股票相关微博的多空分析。指数基金于2015年4月22日开放申购,目前规模为12亿元。3.APP:股票雷达、百度股市通股票雷达:运用网络爬虫技术实时扫描各大股吧、财经微博、名家博客,抓取业内专家、民间高手的投资观点,结合券商的研究报告、行业权威新闻,帮助股民进行更有效的投资决策。百度股市通:基于百度搜索引擎,对全网的热点新闻进行检索,通过文本分析的技术提取关键词和相关股票,比如近期的“一带一路”(二)互联网大数据在投资中的应用模式互联网大数据在股票投资领域有以下一些应用模式。证券关注度:是某只股票或者对应的上市公司受关注的程度,主要方法是通过每天定时(比如早上8点)抓取前面一段时间该只股票在互联网上的热度,可以用涉及该股票的新闻点击量+微博阅读量/转载量+股吧评论数量来计算。考虑到中国股票市场的特点,在其他条件一样的情况下,受关注的股票后期涨幅更大,因此关注度可以作为一个股票因子,和其他基本面类因子(ROE、ROA、净利润、净利润增速、负债率等)、市场类因子(过去一个月的涨幅、过去半年的涨幅、Beta、波动率、换手率等)、评价类因子(机构评级、评级为买入的量、评级上调的量等),构建股票的多因子模型。新新闻:是实时的跟踪各大新闻网站发布关于股票的新闻,考虑到现在财经类媒体数量不断增加,很多关于上市公司的新闻在一家媒体发出之后,其他媒体都会转载,这样就极大地增加了网站浏览者或者APP用户的信息搜索成本。另外不同的网站对上市公司以及新闻的侧重点不一样,因此对全网进行股票相关的新闻搜索并且和之前的搜索结果进行查重,通过自然语言处理及机器学习的方法可以很准确地判断当前发布的新闻是否有其他的网站已经发布。另外,还可以通过将不同媒体、专家、散户对同一新闻的解读总结集成到一起,就能在不丢失信息的前提下大大节省用户的时间成本。事实上,最近美国的高盛对金融数据服务商Kensho投资1500万美元,助其研发一种针对专业投资者的大规模数据处理分析平台,取代现有的各大投行分析师们的工作。类似于此,相对于Kensho整•利用涉及到证券的新闻、微博、股吧,对证券的热度进行评价证券关注度StockAttention•通过实时跟踪各大财经网站和交易所网站,快速提取关于股票新的新闻新新闻NewNews•通过分析与股票新闻有关的文本库,将股票按照主题关键词分类主题聚类TopicCluster•对涉及股票的新闻、微博、论坛进行情绪判断,加总即可得到市场情绪舆情监控MonitoringPublicOpinion•对新闻进行类别判断,比如定增、收购,用过去类似的事件进行比较事件影响预测EventInfluenceForecast合结构化的金融数据并转化成非结构化的分析师的语言,新新闻的另一个亮点就是通过整合互联网媒体上的非结构化的新闻,并通过新闻分类,整合成更具有结构性的文本信息。主题聚类:物以类聚,人以群分,股票也如此。股票对应的是上市公司,上市公司可以按照行业、主题、概念等来进行划分,比如上市公司可以按照行业划分为电力、酿酒、机械、电子、煤炭、银行、券商等,按照概念划分为北斗导航、特斯拉、无人机、新能源、一带一路、国企改革等。一般来说每家上市公司都有自己的主营行业,因此所属行业都比较固定;然而考虑到主题概念是由一个特定事件引起的,比如一带一路概念股就是在“一带一路”这个概念提出来之后受益的股票,实际上“一带一路”的概念也是在不断地完善,影响范围也会随着政策的变化而发生变化,因此概念股也会相应的变动。这种变动不是绝对的,通过对政策研究具体分析每只股票入选概念股的可能性显然不太可行,而互联网上的大数据就给了我们一个很好的信息来源。我们可以通过大量搜集近期的财经新闻、微博、股吧帖子,先预设一个主题词库,然后通过聚类分析得到每只股票对应的主题、或者每个主题对应有哪些股票。这样的分类就可以利用互联网动态地调整不同概念的股票,从而帮助投资者做投资决策,也可以为概念主题类的公募基金选取一个初始股票池提供帮助。舆情监控:如果对世界上每个国家的股市做一个时间序列检测(检验方法可以是自相关、单位根、游程检验、R/S分析等),发现中国股市的动量效应是非常明显的,这是因为中国股市指数的驱动因素主要是政策和情绪,由政策产生刺激,情绪放大刺激。而中国的机构投资者占比相比于成熟市场比如美国要小,因此中国投资者的投机性要强。现在在投资领域常见的策略是动量策略,也就是所谓的“追涨杀跌”,思路是利用股票的历史价格预测未来价格走势,寻找市场若有效性的空缺。另一方面,价格的变化影响情绪,情绪又影响价格,如果从互联网大数据中提取投资者对后期股市的情绪就能更好的辅助投资。如果观察财经网站可以发现,任何一篇评论大盘的微博、帖子,主要分为两个部分:对之前指数走势的总结、对未来大盘走势的预测。因此可以通过文本分析的方法分析一篇文章进行分类:总结性的、预测性的、还是总结+预测性的,然后给文章的情绪进行打分,并且将最近一段时间内所有微博的情绪分数按照点击量或者阅读量求和就能大致估计出整个市场的情绪。事件影响预测:通过全网搜索历史上所有跟当前事件相关的事件,比如如果现在有一条新闻主要是讲一个公司溢价收购另一家公司,就在财经网站中搜索历史上所有相关的新闻,然后用历史上的这些事件对股价产生的影响来预测未来该事件涉及上市公司的股价变动。这里需要的技术是通过对文本分析,判断两篇新闻的相似性,和新新闻中用到的技术一样,比如先对文本标定特征向量,利用k近邻的方法分类。(三)互联网大数据的建模方法互联网大数据在投资中应用的实现过程都有一些共同点,这个共同的实现过程可以用下面三个步骤的概括:1.文本数据的获取:对于互联网公司(百度、腾讯)、门户网站(新浪、东方财富网)需要利用公司内部服务器中的文本数据;而其他金融讯息服务公司、投资机构都需要利用Python或者其他的程序语言扒取网站信息。考虑到不同的文本用处不一样,得到的文本数据主要分为几大类:上市公司新闻、宏观经济以及行业新闻、财经微博、股吧帖子。比如舆情指标的构建主要用的是财经类微博+股吧帖子,主题聚类主要用的是宏观经济以及行业新闻+财经微博。这样就做到了互联网大数据的初步结构化:将杂乱无章的文本信息简单分类。这里分类的方法不需要用到复杂的文本分析,只要需要从特定入口定文本数据的获取•采用网络爬虫技术:定向扒取、非定向扒取•对于互联网公司可以直接从后台数据库提取文本数据。文本数据的结构化•采用自然语言处理方法,涉及较复杂的理论•把文本数据标签化(情绪、关键词等)结构化数据建模•上一步中得到微博情绪、新闻的极性、新闻关键词、阅读量、点击量等结构化数据•通过模型将这些结构化数据整合成预测股票走势的指标,或者辅助其他方法进行投资向扒取文本,比如上市公司新闻就从各个财经网站的上市公司新闻版块扒取文本数据。2.文本数据的结构化:从第(三)小节中可以看到,每一种应用里面都需要将文本数据进行结构化,这里分别讨论。证券关注度的实现模式较简单,通过将每条新闻和微博的股票关键词提取出来,对涉及到该股票的点击量和阅读量进行求和就得到证券关注度。新新闻的实现模式是首先将搜索到的新闻和数据库中保存的新闻进行相似性比较,如果相似性很高就自动过滤放弃,如果相似性很低就加入数据库。对于散户使用的APP这个数据库是开放的。考虑到对两条新闻进行相似性判断复杂程度较高,而且在一条新闻发布出来之后会相继出现很多类似的新闻,因此可以首先对搜索到的新闻进行特征向量的处理,每条新闻对应一个特征向量,每个特征就是一个关键词,对应的大小可以是关键词出现的频率。这样比较两条新闻的相似性就可以转换为比较两个特征向量的距离(简单的方法,还可以考虑复杂的机器学习算法)。主题聚类的实现首先也需要对每条新闻进行标签化,比如首先构造一个主题词库,然后提取每条新闻中的股票关键词、主题关键词,最后利用各种聚类分析得到每个主题关键词包含的股票。舆情分析的实现也需要对每条微博、股吧帖子的情绪判断:正面情绪、负面情绪、中性情绪,情绪判断在自然语言处理中已经比较成熟,利用对已有的文本数据库中的微博或者帖子进行手工情绪判断,然后利用机器学习学习样本内的数据,再去预测样本外的数据,准确率做的非常高(95%以上)。最后利用微博的阅读量和帖子的点击量进行情绪的加权就得到总的市场情绪。事件影响预测的实现方式也是先通过对个股新闻的标签化,判断新闻属于哪个类型或者哪几个类型的事件,然后用历史中相似的事件对应的历史收益率去估计收益率。因此比较简单的方法就是建立一个事件的词库,当新闻中出现该事件的关键词时就判定为该事件。3.结构化数据建模:通过上一步的文本数据结构化,得到的全部都是数字化的数据,比如证券关注度、情绪指标、事件影响预测对应的估计收益率、所属主题的主题指数收益率等。这些指标都可以看成股票的因子,从而可以结合多因子模型来做投资决策,也可以将每个因子单独看做一个策略,比如事件影响预测中判断未来价格上涨就买入、证券关注度上升+新闻为利好就买入等。考虑到如何建模不是本篇论文的主要介绍对象,这里只是给出一个雏形,具体的实现不同的投资机构区别较大。(四)互联网大数据的商业模式目前常见的互联网大数据商业模式是发生在大数据提供商和大数据使用者之间的模式,也有很多对冲基金直接利用自己扒取的网络文本数据进行投资。大数据提供商目前主要是百度、新浪、东方财富网等财经新闻的发布地,利用自己的数据库优势,通过整合加工数据(主要是建模方法中的第1步,少数第2步),像大数据使用者,比如大型公募基金、证券公司研究部门等出售初加工的数据。这些大数据使用者主要是金融机构,强大的研究团队会将结构化后的或未结构化后的数据进行进一步加工,用来辅助投资甚至直接作为选股指标。以上是B2B的商业模式,B2C的商业模式主要是大数据提供商通过发布免费大数据APP吸纳注册用户,然后通过增值业务收费。根据市场调研,目前大数据增值业务占的仍然份额很小,主要原因是免费业务还不够人性化、推广的还不够好。三、新闻选股实证研究为了验证大数据在投资中的应用价值,我们从新闻选股的角度进行了实证研究。考虑到投资者投资股票最关心的是新闻,因此我们从互联网上扒取历史上的个股新闻,建立一个投资模型并回测模型的效果。用户大数据提供商基金公司(南方基金、广发基金等)证券公司金融工程部门百度、
本文标题:互联网大数据在投资中的商业价值(更新数据至最近)
链接地址:https://www.777doc.com/doc-1437352 .html