您好,欢迎访问三七文档
数据科学肖波中央民族大学第一讲数据科学导论数据科学定义数据科学家定义数据科学团队学术数据科学家企业数据科学家近年对数据科学的炒作炒作几近疯狂。人们又试图用最无以伦比的词汇类似“宇宙大师”来形容数据科学家。这可不是好兆头。一般越炒作越引起反对之声。炒作的时间越长,我们越不相信,想要看看它到底是怎么回事。数据科学与统计学统计学家感到他们已经是工作于“数据科学”。这是他们的奶酪。也许你并不关心统计学家怎么想,他们此时就像身份被盗的感觉。媒体描述的数据科学听起来就像一个简单的统计学或机器学习。尽管如此,我们还是认为数据科学不是重新包装的统计学或机器学习,而是它自己。数据科学直面的问题缺乏最基本术语定义。什么是大数据?什么是数据科学?什么是大数据和数据科学的关系?数据科学是关于大数据的科学吗?数据科学仅适用于谷歌和脸书这样的大技术公司吗?为什么有人认为大数据只是个交叉学科(空间,财务,技术等)而数据科学只是个技术问题?到底数据多大才算大?抑或它只是个相对的术语?数据无处不在我们手握大量生活方方面面的数据,但是缺乏计算处理的经验。购物,交流,读报,听音乐,搜信息,表达意见。如人所知,所有这些都被在线跟踪。人们也许不知道“数据化”已经通过镜像技术采集并利用在线数据来观察我们的离线行为。二者结合起来可以像研究新物种一样研究我们。不仅仅是因特网数据,还有金融,医药工业,药品,生物信息,社会福利,政府信息,教育,退休及其他可以想到的数据。对大部分部门和工业数据影响力不断增长。在某种情况下,这种采集足可以称之为“大”数据化的定义他们定义数据化为“将所有对生活有影响的因素转化为数据”。他们提到的例子有:谷歌增强现实眼镜数据化凝视,推特数据化变化的思想,LinkedIn数据化职业网络。数据化是一个有趣的概念,我们来想象一下它对于人们共享数据所产生的影响。我们正在被数据化,抑或说我们的行为被数据化。当我们在线“喜欢”什么人或事的时候,我们就被数据化了,至少有可能被数据化了。如果我们甚少上网也可能被通过cookies在不知情的情况下被动地数据化了。当我们走过一个商店甚至走在街上都可能被传感器,摄像头,谷歌眼镜等无意识地数据化。这些拍摄的图像从我们兴高采烈地参加社会媒体活动到各种户外调查和谈话,都是在数据化。我们的倾向可能被大肆渲染,而结果并非如此。谁在利用这些数据?一旦我们数据化了事物,我们就可以转换他们的用途并把信息变为新的数值形式。这里有一个问题要关注:谁是上面论述中的“我们”?他们使用什么类型的数据?大部分情况下的“我们”是模型作者和驱使人们去花钱买东西的企业。而“数据”通过自动化被转换成增加的效益。为什么会出现数据科学不仅仅因为这些数据大而有趣(或像挑战),而是数据本身往往是实时的,成为一个数据产品的原材料。在因特网它意味着亚马孙推送系统,脸书的朋友推荐,电影和音乐推送等等。在财务方面意味着信用评级,交易算法和模型等。在教育方面意味着动态个性化学习和像Knewton,Khan学院一样的教学评估。对政府而言意味着基于数据的决策。什么是数据科学?什么是数据科学?它到底是新生事物还是统计学或分析学的改头换面?它是真的存在有还是炒作?若它是真实的和新生的那它的涵义是什么?数据科学概念图数据科学的三要素专业领域知识数学统计学知识计算机软件知识1.可视化2.数据处理3.黑客技巧数据科学家数据科学家是计算机科学,统计学,沟通,数据可视化方面的专家,并且具有领域专业知识。没有哪个人是所有学科的专家。所以有必要组织具有不同背景和专业的人形成一个团队。作为一个团队,他们可以面对任何特殊问题。我们看了现在对数据科学家技能的要求后更加需要强调团队的重要性。数据科学的知识背景。计算机科学。数学。统计学。机器学习。专业领域。沟通和表达技巧。数据可视化数据科学背景知识分布图数据科学团队我们前面提到,数据科学团队最好由不同知识背景的人组成,因为没有人会是万能的。所以我们认为更有价值的办法是组建一个类似后图的“数据科学团队”,这样比定义一个数据科学家更靠谱。由不同专业人士组成数据科学团队学术数据科学家学术数据科学家是科学家,可由从社会科学到生物学的任何人训练而成。他的工作涉及大量数据,他能够应对由数据的结构,大小,混乱,复杂性引起的各种计算困难,从而解决现实世界的问题。我们还可以这样来表达:一种交叉学科,在计算和深度数据问题上具有专业共性。多个专业的研究员形成合力,解决现实世界的多领域问题。企业数据科学家一个首席数据科学家应该设计公司的数据战略。它涉及到各种事务:用于采集数据和日志的从工程到基础设施,隐私安全,确定用户界面,怎样用数据来决策,怎样形成产品。他应该管理一个工程师和科学家团队,分析问题并与公司领导进行沟通,包括CEO,CTO和产品负责人。他应考虑设置项目目标和使用专利创新的解决方案。数据科学家的数据预处理工作一个普通数据科学家应该懂得如何从数据提取价值和解释数据。这需要统计学和机器学习两方面的工具。他要花大量的时间去处理诸如采集,清洗,加工数据。因为数据从来都不是干净的。这种处理需要坚持,统计学和软件工程技能。需要理解数据中的偏差和调试程序输出的日志文件。数据科学家的探索式数据分析工作一旦取得了数据所呈的图形样式,一个至关重要的工作是探索式数据分析。它要结合可视化及对数据的直觉来进行。他应寻找合作伙伴,构建模型,确定算法。要理解产品的使用和质量。还要考虑将来的产品原型。他必须设计实验,这对于数据驱动的决策是至关重要的。他应用清楚的语言与团队的成员,工程师和领导进行沟通,要用可视化工具以使得同事不要局限于自己的数据中,能够相互理解。
本文标题:数据科学
链接地址:https://www.777doc.com/doc-4941936 .html