您好,欢迎访问三七文档
数据科学概论肖波中央民族大学数据科学和数据科学家数据科学定义数据科学家定义数据科学团队学术数据科学家企业数据科学家近年对数据科学的炒作---除了上帝谁都要用数据说话!---只管把数据拿来,数据自己会说话!近年我们在各种场合听到各种关于大数据和数据科学家的议论。听起来仿佛谁不搞大数据和数据科学就要落后,企业就要走向末路。这就迫使我们一定要看个究竟。如果是这样那么怎么认识大数据,又如何成为大数据的行家里手呢?先来看看我们面临的问题。数据科学直面的问题缺乏最基本术语定义。什么是大数据?什么是数据科学?大数据和数据科学的关系是什么?数据科学是关于大数据的科学吗?数据科学仅适用于Google和Facebook这样的大技术公司吗?为什么有人认为大数据只是个交叉学科(空间,财务,技术等)而数据科学只是个技术问题?到底数据多大才算大?抑或它只是个相对的术语?1.当代社会数据无处不在我们掌握大量生活方方面面的数据,但是缺乏计算处理的经验。购物,交流,读报,听音乐,搜信息,表达意见。如人所知,所有这些都被在线跟踪。人们也许不知道“数据化”已经通过技术采集并利用在线数据来观察我们的离线行为。二者结合起来可以像研究新物种一样研究我们。不仅仅是因特网数据,还有金融,医药工业,药品,生物信息,社会福利,政府信息,教育,退休及其他可以想到的数据。对大部分部门和工业数据影响力不断增长。在某种情况下,这种数据足可以称之为“大”2.“数据化”他们定义数据化为“将所有对生活有影响的因素转化为数据”。他们提到的例子有:谷歌增强现实眼镜数据化凝视,推特数据化变化的思想。数据化是一个有趣的概念,我们来想象一下它对于人们共享数据所产生的影响。我们正在被数据化,抑或说我们的行为被数据化。当我们在线“喜欢”什么人或事的时候,我们就被数据化了,至少有可能被数据化了。如果我们甚少上网也可能被通过cookies在不知情的情况下被动地数据化了。当我们走过一个商店甚至走在街上都可能被传感器,摄像头,谷歌眼镜等无意识地数据化。这些拍摄的图像从我们兴高采烈地参加社会媒体活动到各种户外调查和谈话,都是在数据化。我们的倾向可能被大肆渲染,而结果并非如此。3.数据化使谁获益?一旦我们数据化了事物,我们就可以转换它们的用途并把信息变为新的数值形式。这里有一个问题要关注:谁是上面论述中的“我们”?他们使用什么类型的数据?大部分情况下的“我们”是模型作者和驱使人们去花钱买东西的企业。而“数据”通过自动化被转换成增加的效益。4.为什么会出现数据科学不仅仅因为这些数据大而有趣(或更具挑战),而是数据本身往往是实时的,成为一个数据产品的原材料。在因特网它意味着亚马孙推送系统,Facebook的朋友推荐,电影和音乐推送等等。在财务方面意味着信用评级,交易算法和模型等。在教育方面意味着动态个性化学习和像Knewton,Khan学院一样的教学评估。对政府而言意味着基于数据的决策。5.什么是数据科学?什么是数据科学?它到底是新生事物还是统计学或数据分析的改头换面?它是真的存在有还是炒作?若它是真实的和新生的那它的涵义是什么?数据科学广义的定义研究探索Cyberspace中数据界(datanature)奥秘的理论、方法和技术,研究的对象是数据界中的数据。数据科学的研究对象是Cyberspace的数据,是新的科学。数据科学主要有两个内涵:一个是研究数据本身,研究数据的各种类型、状态、属性及变化形式和变化规律;另一个是为自然科学和社会科学研究提供一种新的方法,称为科学研究的数据方法,其目的在于揭示自然界和人类行为现象和规律。与其他学科的关系数据科学的体系结构数据科学的狭义定义:数据科学是研究数据的科学。它利用统计学知识和计算机技术对专业领域的对象进行现实大数据分析与挖掘及其它方式的数据处理,以使组织获取更大的经济效益。数据科学概念图6.数据科学的三要素专业领域知识数学统计学知识1.线性代数2.概率统计计算机软件知识1.可视化2.推送系统3.数据处理4.黑客技巧5.程序设计7.数据科学家数据科学家是计算机科学,统计学,沟通技巧,数据可视化方面的专家,并且具有领域专业知识。没有哪个人是所有学科的专家。所以有必要组织具有不同背景和专业的人形成一个团队。作为一个团队,他们可以面对任何特殊问题。我们看了现在对数据科学家技能的要求后更加需要强调团队的重要性。数据科学家(DataScientist)只是一个职位。类似于工程师、会计师。8.数据科学家的知识背景。计算机科学。数学。统计学。机器学习。专业领域。沟通和表达技巧。数据可视化数据科学家背景知识分布图可视化机器学习数学统计学计算机科学沟通技巧专业领域9.数据科学团队我们前面提到,数据科学团队最好由不同知识背景的人组成,因为没有人会是万能的。所以我们认为更有价值的办法是组建一个类似后图的“数据科学团队”,这样比谋求一个数据科学家更靠谱。由不同专业人士组成数据科学团队10.学术数据科学家学术数据科学家是科学家,可由从社会科学到生物学的任何人训练而成。他的工作涉及大量数据,他能够应对由数据的结构,大小,混乱,复杂性引起的各种计算困难,从而解决现实世界的问题。我们还可以这样来表达:一种交叉学科,在数据计算和深度问题上具有专业共性。多个专业的研究员形成合力,解决现实世界的多领域问题。11.企业数据科学家:首席和普通一个首席数据科学家(CDO)应该:设计公司的数据战略。规划采集数据的日志从工程到基础设施,隐私安全,确定用户界面,怎样用数据来决策,怎样形成产品。管理一个工程师和科学家团队,分析问题并与公司领导进行沟通,包括CEO,CTO和产品负责人。他应考虑设置项目目标和创新的解决方案。普通数据科学家的工作一个普通数据科学家应该懂得如何从数据提取价值和解释数据。这需要统计学和机器学习两方面的工具。他要花大量的时间去处理诸如数据采集,清洗,加工。因为数据从来都不是干净的。这种处理需要坚持,要有统计学和软件工程技能。需要理解数据中的偏差和调试程序输出的文件。
本文标题:数据科学概论
链接地址:https://www.777doc.com/doc-4506328 .html