您好,欢迎访问三七文档
当前位置:首页 > 财经/贸易 > 资产评估/会计 > [1-5次课件]-Python基础
Python与大数据分析——对外经贸大学信息学院大数据专业Python教研组Python与大数据分析•Python基础(5次课)•网络爬虫(2次课)•期中随堂上机考试(1次课)•金融数据分析案例(2次课)•文本数据分析案例(3次课)•图像数据分析(3次课)10/2/2019外经贸-信息学院2自我介绍•刘宁宁•对外经济贸易大学信息学院讲师。•专注于对图像分类(VisualObjectClassification)、文本处理(NaturalLanguageProcessing)、模式识别(PatternRecognition)等方面的研究。•6.00@163.com32019/10/2外经贸-信息学院为什么大数据首选是Python呢?2019/10/24外经贸-信息学院第一部分初识Python第二部分基本概念变量、注释、print函数、数据类型、算术运算符、类型转换第三部分数据的容器列表、元组、字典、集合第四部分控制结构与推导式2019/10/25外经贸-信息学院第五部分数据的读写操作2019/10/26外经贸-信息学院第六部分错误类型和异常捕获第七部分字符编码问题处理第八部分编写函数处理数据第九部分变量作用域2019/10/27外经贸-信息学院第十部分Python中的模块第十一部分Python中的类第十五部分Numpy基础知识第十六部分Pandas数据分析第十三部分正则表达式第十四部分日期数据的处理第一部分初识PythonPython语言的诞生和发展历史Python语言的特点运行环境及安装2019/10/28外经贸-信息学院Python语言的诞生和发展历史•Python语言是一种解释型、面向对象、动态数据类型的高级程序设计语言•Python语言是数据分析师的首选数据分析语言,也是智能硬件的首选语言数据分析创建复杂的Web应用程序游戏开发动画电影效果……网站开发智能硬件开发2019/10/29外经贸-信息学院•Python与蟒蛇有关?•GuidovanRossum于1989年在荷兰国家数学和计算机科学研究所设计出来的Python语言的诞生BBC“MontyPython‘sFlyingCircus”(蒙提·派森的飞行马戏团)GuidovanRossum(人称“龟叔”)2019/10/210外经贸-信息学院•Python2.0版本于2000年10月发布。•在2008年12月,Python3.0发布,此版本没有完全兼容之前的Python2.0•Python也因此分为了Python3.5派系和Python2.7派系两大阵营Python语言的发展历史2019/10/211外经贸-信息学院•TIOBEINDEX:编程语言流行程度排行榜Python语言的TIOBEINDEX2019/10/212外经贸-信息学院•Python曾在2007年和2010年两度被TIOBE排行榜评为“年度编程语言”•现已成为了第五大流行编程语言(截至2016年10月)Python语言的TIOBEINDEX2019/10/213外经贸-信息学院Python语言的特点•优点一:优雅、简单、明确(减少花哨、晦涩或以“炫技”为目的的代码)•让数据分析师们摆脱了程序本身语法规则的泥潭,更快的进行数据分析C语言Python语言2019/10/214外经贸-信息学院•优点二:强大的标准库•完善的基础代码库,覆盖了网络通信、文件处理、数据库接口、图形系统、XML处理等大量内容,被形象地称为“内置电池”(batteriesincluded)•Python使用者——“调包侠”2019/10/215外经贸-信息学院•优点三:良好的可扩展性•大量的第三方模块,覆盖了科学计算、Web开发、数据接口、图形系统等众多领域,开发的代码通过很好的封装,也可以作为第三方模块给别人使用。如Pandas、Numpy、Seaborn、Scikit-learn等等•优点四:免费、开源2019/10/216外经贸-信息学院•缺点一:运行速度慢•缺点二:加密难•缺点三:缩进规则•缺点四:多线程灾难Python语言的缺点2019/10/217外经贸-信息学院Python语言与Java•动态类型和静态类型•Python中一切皆对象•括号与缩进•应用领域2019/10/218外经贸-信息学院Python语言与R语言•机器学习的一把利器•可读性强,便于上手•灵活性强:可与其他如Web应用程序进行整合•以统计推断为导向•数据分析之外的领域有所限制•包凌乱且一致性较差2019/10/219外经贸-信息学院Python语言与R语言的应用场景对比•网络爬虫•连接数据库•内容管理系统•API构建•统计分析•互动式图标/面板2019/10/220外经贸-信息学院运行环境及安装•推荐使用Anaconda进行Python安装、环境配置及工具包管理•Ipython•qtconsole•PyCharm•JupyterNotebook•Spyder2019/10/221外经贸-信息学院•IPython鼓励一种“执行-探索”(execute-explore)的工作模式•输入代码之后,按下回车,便会立即得到代码运行结果交互式计算和开发环境:IPython2019/10/222外经贸-信息学院交互式计算和开发环境:IPython•输入“?”获得IPython的详细介绍•输入“%quickref”获得IPython的快速参考2019/10/223外经贸-信息学院交互式计算和开发环境:IPython•输入“help()”查看IPython的帮助文档•使用内省“pandas?”查看Pandas的帮助文档2019/10/224外经贸-信息学院基于Qt框架的GUI控制台——qtconsole•为终端应用程序提供诸如内嵌图片、多行编辑、语法高亮之类的富文本编辑功能•启动命令:jupyterqtconsole•缺点:功能少、用户友好性不够2019/10/225外经贸-信息学院JupyterNotebook•Julia+Python+R=Jupyter•基于Web技术的交互式计算文档格式•支持Markdown和Latex语法•支持代码运行、文本输入、数学公式编辑、内嵌式画图和其他如图片文件的插入,是一个对代码友好的笔记本2019/10/226外经贸-信息学院JupyterNotebook•Jupyter支持包含Rkernel(支持R语言)•启动命令:jupyternotebook2019/10/227外经贸-信息学院JupyterNotebook•推荐使用JupyterNotebook进行数据分析,并将自己数据分析的思考过程写在其中,方便之后整理思路以及向别人展示数据分析结果从左至右分别是默认Python终端、IPython和JupyterNotebook2019/10/228外经贸-信息学院RNotebook•2016年10月,R语言的集成环境RStudio也拥有了自己的RNotebook了2019/10/229外经贸-信息学院集成开发环境IDE——PyCharm&Spyder2019/10/230外经贸-信息学院数据科学计算平台——Anaconda•“leadingopendatascienceplatformpoweredbyPython•自动配置Python环境,下载并安装JupyterNotebook、qtconsole和集成开发环境Spyder•包管理器conda2019/10/231外经贸-信息学院总结Python语言的特点:优雅、简单、易学Python语言的诞生与发展历史Python语言的运行环境:IPython、JupyterNotebook、Spyder…Python语言的数据科学计算平台:Anaconda2019/10/232外经贸-信息学院实践案例1:PyCharm下•HelloWorld•通过例子说明Python与其他语言的区别•万物皆对象•空格控制结构•报错10/2/2019外经贸-信息学院33第二部分基本概念变量、注释、print函数、数据类型算术运算符、类型转换2019/10/234外经贸-信息学院解释型语言Python•Python语言是一种解释型、面向对象、动态数据类型的高级程序设计语言2019/10/235外经贸-信息学院数据集变量及相关含义•公开数据集资源UCI数据集Kaggle数据集Yahoo!股票价格数据……2019/10/236外经贸-信息学院•用来存储一些之后可能会变化的值•对科比投篮ID为1的一次投篮进行分析,那么我们就可以创建一个名称为shot_id的变量,并且将1值储存在变量shot_id中•如果之后我们想要分析科比的另外一次投篮,比如投篮ID为2的投篮,我们只需要修改变量shot_id的赋值,将shot_id赋值为2即可变量和常量变量2019/10/237外经贸-信息学院•变量名必须是大小写英文字母、数字或下划线_的组合,不能用数字开头,并且对大小写敏感•关键字不能用于命名变量(31个),如and、as、assert、break、class、continue、def、del等变量命名规则2019/10/238外经贸-信息学院•通过赋值运算符=变量名和想要赋予变量的值连接起来,变量的赋值操作就完成了声明和定义的的过程,在其他语言中需要制定类型;•同一变量可以反复赋值,而且可以是不同类型的变量,这也是Python语言称之为动态语言的原因变量赋值2019/10/239外经贸-信息学院•常量表示“不能变”的变量•Python中是没有常量的关键字的,只是我们常常约定使用大写字母组合的变量名表示常量,也有不要对其进行赋值”的提醒作用常量2019/10/240外经贸-信息学院•如同我们在看书时做笔记一样•Python语言会通过注释符号识别出注释的部分,将它们当做纯文本,并在执行代码时跳过这些纯文本•在Python语言中,使用#进行行注释注释2019/10/241外经贸-信息学院•多行注释使用连续单个单引号或者双引号2019/10/242外经贸-信息学院•在Python2.x版本中,同时兼容print和print()•在Python3.x版本中,print函数为带括号的print()•如果想要看变量的值,则直接在print后面加上变量名即可。如果是想要输出提示信息,如一句话,那我们需要将提示信息用‘单引号包裹起来(这使得内容构成一个字符串)print函数2019/10/243外经贸-信息学院•使用逗号,隔开变量与其他剩余内容,则print在输出时会依次打印各个字符串或变量,遇到逗号,时会输出一个空格•print函数不仅可以打印变量值,也可以打印计算结果2019/10/244外经贸-信息学院•Python语言的数据类型包括整型、浮点型、字符串、布尔型和空值•整型(int)•整型的取值为整数,有正有负,如2,-666,666等。在科比投篮数据集中,shot_id、game_event_id、game_id、loc_x、loc_y、minutes_remaining、period、playoffs、seconds_remaining、shot_distance、shot_made_flag、team_id都是整型变量数据类型2019/10/245外经贸-信息学院•浮点型的取值为小数,当计算有精度要求时被使用,由于小数点可以在相应的二进制的不同位置浮动,故而称为浮点数•如3.14,-6.66等,但是如果是非常大或者非常小的浮点数,就需要使用科学计数法表示,用e代替10。科比投篮数据集中的lat和lon为浮点型变量。浮点型(float)2019/10/246外经贸-信息学院•字符串(str)•字符串是以两个单引号或两个双引号包裹起来的文本•字符串JumpShot包括J,u,m,p,空格,S,h,o,t这9个字符字符串(str)2019/10/247外经贸-信息学院•转义字符:字符串里常常存在一些如换行、制表符等有特殊含义的字符,这些字符称之为转义字符•比如\n表示换行,\t表示制表符,Python还允许用r“”表示“”
本文标题:[1-5次课件]-Python基础
链接地址:https://www.777doc.com/doc-1284887 .html