您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 大数据在社会学研究方法中的应用分析
大数据在社会研究方法中的应用分析湖北经济与社会发展研究院李婉瑶2015113208随着互联网的普及,信息总量正以空前的速度爆炸性增长,人类社会进入了一个可以用“BB”(brontobyte,千亿亿亿字节)为单位的数据信息新时代,即大数据时代。从社会科学研究的角度来看,大数据是指巨大而多样化的数据集,是对全世界每一个人所做的每一件事的即时记录。大数据在网络时代正在成为可能,人们生活中的每一个空间正在越来越多地成为网络空间。数据不仅在“量”上疯狂的增长着,在“源”上也不断的丰富着。世界上产生的数据,有近80%是由个人用户产生的;据估计,到2020年全球将有500亿个设备连入网络,地理位置、网络浏览行为、健康数据、甚至基因信息等,都成为技术为个体服务的有效资源。当今时代,一方面人们在主动地获取数据。各个科学领域都在大量地获取数据,自然科学领域收集着从宏观的天文数据到微观的基因数据,经济、金融和人文社会科学收集着大量的观察和调查数据。一些人们在通宵达旦地制造和收集数据,他们相信这些数据会对别人有用。也有一些人们脱离了实验室,仅依靠网络数据从事研究。另一方面人们在被动地囤积数据。随着计算机互联网、搜索引擎、电子商务、多种传感器和多媒体技术的发展和广泛使用,各种形式的数据如江河流水般地涌来。数据与社会学研究关系最密切的,是实证的社会学,实证社会学研究离不开数据。实证社会学有一个发展的过程。1998年,Platt对美国社会学研究做了一个长时段的回顾,发现:1915年—1924年,35%的社会学研究文章中用的是个案,53%用的是统计;到1964年使用统计方法的研究上升到了76%。在今天,除非做纯粹的社会理论研究,只要涉及到社会事实的文章,似乎都需要用数据进行检验。在中国也一样,王文韬在2000年的研究,也证明了中国社会学研究实证化的趋势在迅速加强。由此看来,从社会学研究发展的视角来看,大数据和社会学有密切关系,对大数据的应用不仅对社会学而言会变得十分紧迫,甚至对所有社会科学而言都将如此。一、大数据的概念和特征大数据(BigData)这个概念早在2008年就已被提出。2008年,在Google成立10周年之际,着名的《自然》杂志出版了一期专刊,专门讨论未来的大数据处理相关的一系列技术问题和挑战,其中就提出了“BigData”的概念。随着大数据概念的普及,专家学者们对大数据定义的分歧,使人们难以确定,多大的数据才叫大数据?其实,关于大数据,难以有一个非常定量的定义。维基百科给出了一个定性的描述:大数据是指无法使用传统和常用的软件技术和工具在一定时间内完成获取、管理和处理的数据集。进一步,当今“大数据”一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难,代表着大数据处理所需的新的技术和方法,也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。(一)大数据的自身的基本特征关于大数据的特征,比较有代表性的是“4v”特征:1、规模性(volume)规模性指的是数据巨大的数据量以及其规模的完整性。数据的存储从TB扩大到ZB,这与数据存储和网络技术的发展密切相关。数据的加工处理技术的提高,网络宽带的成倍增加,以及社交网络技术的迅速发展,使得人类的各种社会互动、沟通设备、社交网络和传感器正在生成海量数据。实质上,在某种程度上来说,数据的数量级的大小并不重要,重要的是数据具有完整性。以往我们的数据主要是由社会调查和向有关部门调研获得的。在统计调查中,除了在较大经济实力支持下、对国计民生具有重要意义的数据收集采用普查,在大多数情况下,社会科学的研究多采用抽样调查的方法得到数据。而在大数据的背景下,结合其大量性、高速性、多样性的特征,统计数据的产生方式呈现多样化,我们研究过程中获取资料的方式也变得多元化。数据量大,并且呈现几何级数增长。2、高速性(Velocity)主要表现为数据流和大数据的移动性。现实中则体现在对数据的实时性需求上。随着移动网络的发展,人们对数据的实时应用需求更加普遍,比如通过手持终端设备关注天气、交通、物流等信息。高速性要求具有时间敏感性和决策性的分析——能在第一时间抓住重要事件发生的信息。3、多样性(variety)指有多种途径来源的关系型和非关系型数据。这也意味着要在海量、种类繁多的数据间发现其内在关联。互联网时代,各种设备通过网络连成了一个整体。进入以互动为特征的Web2.0时代,个人计算机用户不仅可以通过网络获取信息,还成为了信息的制造者和传播者。这个阶段,不仅是数据量开始了爆炸式增长,数据种类也开始变得繁多。除了简单的文本分析外,还可以对传感器数据、音频、视频、日志文件、点击流以及其他任何可用的信息。利用大数据多样性的原理就是:保留一切你需要的对你有用的信息,舍弃那些你不需要的;发现那些有关联的数据,加以收集、分析、加工,使得其变为可用的信息。4、价值性(value)Value体现出的是大数据运用的真实意义所在。其价值具有稀缺性、不确定性和多样性。从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用。工程和科学问题尚未被重视。大数据工程指大数据的规划建设运营管理的系统工程;大数据科学关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。(二)大数据作为研究方法的特征1、重发现非实证大数据给我们的时代带来了变革。目前,人们习惯于根据“研究问题”来驱动“收集数据”。今后,大数据到处可得,人们将会用“数据”驱动“研究问题”。传统的实证研究,强调在理论的前提下建立假设,收集数据,证伪理论的适用性,采用随机抽样的定量调查问卷获取数据,验证假设,这是一种自上而下的决策和思维过程。大数据时代重在发现知识,预知未来,为探索未知的社会现象带来机遇。这种预见性是一种自下而上的知识发现过程,是在没有理论假设的前提下去预知社会和洞察商业趋势、规律。一般说数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识,数据挖掘所得到的信息应具有先前未知,有效和可实用三个特征。先前未知的信息是指该信息是预先未曾预料到的。2、重关系非因果大数据重关系而不关心因果,问什么而不问为什么是另一个重要特征。因果关系并非来自统计,而是来自研究者的理论和假设。但是大数据分析更关注数据的相关性测量和商业应用价值。大数据是发现那些不能靠直觉发现的信息和知识,甚至是违背直觉的,有时候越是出乎意料可能越有商业价值。3、重全体轻抽样。大数据是商业自动化存储的数据,在软硬件满足的条件下可以分析海量数据。随着存储和软硬件的经济性和工具的先进,海量数据的处理能力得到提升,数据挖掘算法不断改进和丰富,特别是统计分析和机器学习的神经网络建模技术发展,抽样并非是必要的手段和方法论。尽管大数据不一定是总体,理论上讲再大的局部也没有随机抽样更具代表性,但是大数据分析技术也需要抽样,随机抽样和过度抽样也是必要的建模过程和方法论。二、大数据在社会学研究方法应用中的局限性大数据所具有的特征和对社会的影响却是巨大而深远的,特别是在社会科学领域,大数据带来的变革和挑战是颠覆性的,显著特征就是人类社会的数字化生存,社会化媒体使得人们的社会生活,行为态度、交往过程、互动关系都被数据记录并保存下来,这为社会科学研究和预知社会产生革命性影响,大数据带来了社会科学研究的春天。现有的大数据并非为社会科学研究而设立,其在样本代表性、测量可靠性、因果推断等方面受到学界的诟病。不过,随着数字化图书、社交网站和搜索引擎数据的不断积累与公开,大数据在社会科学研究中的潜力已经开始彰显。但是大数据在社会学研究方法的应用中还存在以下局限:1、网络用户并不是全部人口。大数据有些时候收集的是总人口的信息,而不是像抽样调查那样依靠随机样本,例如人口普查。然而,在公共管理和决策研究中,人们越来越多地利用人的网络行为而产生的“大数据”来分析民意,但网络用户并不是全部人口。虽然网络用户在人口中的百分比正在迅速增长,但远非百分之百。这些人是不能代表整个人口的群体,他们具有高学历、低年龄和白领阶层的显著特征。显然,如果用这一群体的网络行为来推算整个人口群体的行为,就很有可能出现偏差。2、大数据无论有多么全面,它只能记录人的行为,却不能确切描述人的思维。在社会科学研究中,很多时候研究的关注点是人的主观态度和价值观,例如人际信任、社会公平观、政治效能感、民族主义情绪等等。这些概念都是社会科学关注的重要理论问题(因变量),也是社会现象和个人行为的重要解释变量(自变量),但是大数据在测量这些主观态度方面却显得有些力不从心。,如上所述,网络意见的问题在于网络用户是一个特定的人群(高学历、低年龄的白领),他们的意见不具普遍性。况且,网络表达意见的范围是有限的,常常是就事论事,无法涵盖社会科学中关心的其他理论问题。3、大数据重相关而轻因果。大数据分析的效果就是寻找到数据间的相关关系。虽然因果关系本身就是人类认知所追求的,但推崇大数据这一技术特点的学者认为我们应该降低对因果关系的追求。这是基于大数据技术自身,尤其是机械式学习导致的,技术的使用者往往容易采用以结果和效用为导向的研究思路。如政府通过大数据分析可以知道一座城市的经济状况和商业活跃度和这座城市的人的通话记录的广泛度有关,越是频繁地与城市以外的人联系,并且联系越广泛和分散,这座城市的经济就越好。如果市政府把这个相关关系视作因果关系的话,出于发展经济的目的,市政府可以制定一个经济政策,例如对长途电信的费用进行补贴,来鼓励市民多和城市以外的人通信。显然,这样的政策的有效程度是值得怀疑的,但是,我们无法确定政府或大的企业在制定政治和经济决策时,有没有将相关关系理解为因果关系,从而误解或夸大了某些数字的意义。在运用大数据分析的结论时,我们也该警醒或反思大数据相关性分析的结论的陷阱和局限。这在很大程度上源于大数据分析忽视了对因果关系的探究。当认为相关关系重要于因果关系的观点,最终影响到了大数据应用本身的效果时,相关关系还有什么意义呢?4、大数据的复杂性使得其具有非结构化的特征海量的数据虽然获取便利,但有价值的、能被研究者利用的数据可能不多,与传统的数据相比,到手数据的价值体现得并不明显。从这个意义上说,获取资料方式多元化,也让调查数据的整理工作更为复杂。以往通过统计调查和实验得到的数据是结构化数据,结构化的数据可以很方便地用二维统计图和统计表格直观地表现出来。而大数据时代的数据,如前所述,海量数据结构复杂,除少量数据具有结构化特征外,更多的是非结构化数据,很难用二维图表表示,比如视频、图像。在大数据时代,数据的收集是自然发生的,漫无目的的,获取数据之前没有特定的目的,这区别于我们的研究设计工作--调查前首先要确定收集数据的目的和用途。因此数据的价值密度低,面对各种结构的研究资料,就像公安机关根据监控视频破案一样,也许看了海量的视频,到头来
本文标题:大数据在社会学研究方法中的应用分析
链接地址:https://www.777doc.com/doc-2511909 .html