您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > Python数据分析
Python学习数据分析与数据挖掘认识Python•Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。•Python由GuidovanRossum于1989年底发明,第一个公开发行版发行于1991年。•Python是纯粹的自由软件,源代码和解释器CPython遵循GPL(GNUGeneralPublicLicense)协议•Python具有丰富和强大的库。它常被昵称为胶水语言,能够把用其他语言制作的各种模块(尤其是C/C++)很轻松地联结在一起。常见的一种应用情形是,使用Python快速生成程序的原型,然后对其中有特别要求的部分,用更合适的语言改写,比如3D游戏中的图形渲染模块,性能要求特别高,就可以用C/C++重写,而后封装为Python可以调用的扩展类库。Python优点有哪些•Python是一种开源的、解析性的,面向对象的编程语言•Python使用一种优雅的语法,可读性强•Python具有丰富的库,可以处理各种工作•Python支持类和多层继承等的面向对象编程技术•Python可运行在多种计算机平台和操作系统中,如Unix、Windows、MacOS、Ubuntu、OS/2等等为什么选择Python进行数据分析•在众多解释型语言中,Python最大的特点是拥有一个巨大而活跃的科学计算社区。进入21世纪以来,在行业应用和学术研究中采用python进行科学计算的势头越来越猛。•近年来,由于Python有不断改良的库(主要是pandas),使其成为数据处理任务的一大代替方案,结合其在通用编程方面的强大实力,完全可以只是用Python这一种语言去构建以数据为中心的应用程序。•作为一个科学计算平台,Python的成功源于能够轻松的集成C、C++以及Fortran代码。大部分现代计算机环境都利用了一些Fortran和C库来是西安线性代数、优选、积分、快速傅里叶变换以及其他诸如此类的算法。课程内容1.Python环境搭建1.1python版本选择1.2python安装2.Python基础2.1python基础语法2.2python数据类型2.3条件和循环2.4Python函数2.5Python模块2.6Python文件I/O3.Python库介绍3.1NumPy库介绍3.2Pandas库介绍4.数据处理与分析4.1数据探索4.2数据预处理4.3挖掘建模5.实例分析5.1Titanic数据集分析5.2餐饮客户价值分析1.1Python环境搭建•Python2.X和Python3.X–Python的3.0版本,常被称为Python3000,或简称Py3k。相对于Python的早期版本,这是一个较大的升级。–为了不带入过多的累赘,Python3.0在设计的时候没有考虑向下相容,许多针对早期Python版本设计的程式都无法在Python3.0上正常执行。–大多数第三方库都正在努力地相容Python3.0版本。即使无法立即使用Python3.0,也建议编写相容Python3.0版本的程式,然后使用Python2.6,Python2.7来执行。Insummary:Python2.xislegacy,Python3.xisthepresentandfutureofthelanguage1.2Python安装•Unix&Linux平台安装Python–打开WEB浏览器访问–选择适用于Unix/Linux的源码压缩包。–下载及解压压缩包。–如果你需要自定义一些选项修改Modules/Setup–执行./configure脚本–make–makeinstall•Window平台安装Python–打开WEB浏览器访问–在下载列表中选择Window平台安装包,包格式为:python-XYZ.msi文件,XYZ为你要安装的版本号。–要使用安装程序python-XYZ.msi,Windows系统必须支持MicrosoftInstaller2.0搭配使用。只要保存安装文件到本地计算机,然后运行它,看看你的机器支持MSI。WindowsXP和更高版本已经有MSI,很多老机器也可以安装MSI。–下载后,双击下载包,进入Python安装向导,安装非常简单,你只需要使用默认的设置一直点击下一步直到安装完成即可。集成开发环境选择•PyCharm–PyCharm是由JetBrains打造的一款PythonIDE,支持macOS、Windows、Linux系统。–PyCharm功能:调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制……–PyCharm下载地址:软件界面编写我的第一个Python程序•HelloWorld程序•简单的计算器2.1Python基本语法•Python标识符•在Python里,标识符由字母、数字、下划线组成。•在Python中,所有标识符可以包括英文、数字以及下划线(_),但不能以数字开头。•Python中的标识符是区分大小写的。•Python可以同一行显示多条语句,方法是用分号;分开。•以下划线开头的标识符是有特殊意义的。以单下划线开头_foo的代表不能直接访问的类属性,需通过类提供的接口进行访问,不能用fromxxximport*而导入•以双下划线开头的__foo代表类的私有成员;以双下划线开头和结尾的__foo__代表Python里特殊方法专用的标识,如__init__()代表类的构造函数。•Python保留字符下面的列表显示了在Python中的保留字。这些保留字不能用作常数或变数,或任何其他标识符名称。所有Python的关键字只包含小写字母。andexecnotassertfinallyorbreakforpassclassfromprintcontinueglobalraisedefifreturndelimporttryelifinwhileelseiswithexceptlambdayield•行和缩进学习Python与其他语言最大的区别就是,Python的代码块不使用大括号{}来控制类,函数以及其他逻辑判断。python最具特色的就是用缩进来写模块。缩进的空白数量是可变的,但是所有代码块语句必须包含相同的缩进空白数量,这个必须严格执行。以下代码会执行错误:•Python引号Python可以使用引号(')、双引号()、三引号('''或)来表示字符串,引号的开始与结束必须的相同类型的。其中三引号可以由多行组成,编写多行文本的快捷语法,常用于文档字符串,在文件的特定地点,被当做注释。•Python注释•python中单行注释采用#开头•python中多行注释使用三个单引号(''')或三个双引号()。2.2Python数据类型•标准数据类型Python定义了一些标准类型,用于存储各种类型的数据。Python有五个标准的数据类型:–Numbers(数字)–String(字符串)–List(列表)–Tuple(元组)–Dictionary(字典)•Python数字–数字数据类型用于存储数值。他们是不可改变的数据类型,这意味着改变数字数据类型会分配一个新的对象。当你指定一个值时,Number对象就会被创建。–可以通过使用del语句删除单个或多个对象的引用。例如:–Python支持四种不同的数字类型:•int(有符号整型)•long(长整型[也可以代表八进制和十六进制])•float(浮点型)•complex(复数)var1=1var2=10delvardelvar_a,var_b•Python字符串–字符串或串(String)是由数字、字母、下划线组成的一串字符。–python的字串列表有2种取值顺序:•从左到右索引默认0开始的,最大范围是字符串长度少1•从右到左索引默认-1开始的,最大范围是字符串开头–如果你要实现从字符串中获取一段子字符串的话,可以使用变量[头下标:尾下标],就可以截取相应的字符串,其中下标是从0开始算起,可以是正数或负数,下标可以为空表示取到头或尾。s=a1a2···an(n=0)S='ilovepython‘s[1:5]的结果是love。•Python列表–List(列表)是Python中使用最频繁的数据类型。–列表可以完成大多数集合类的数据结构实现。它支持字符,数字,字符串甚至可以包含列表(即嵌套)。–列表用[]标识,是python最通用的复合数据类型。–列表中值的切割也可以用到变量[头下标:尾下标],就可以截取相应的列表,从左到右索引默认0开始,从右到左索引默认-1开始,下标可以为空表示取到头或尾。–加号+是列表连接运算符,星号*是重复操作。如下实例:•Python元组–元组是另一个数据类型,类似于List(列表)。–元组用()标识。内部元素用逗号隔开。但是元组不能二次赋值,相当于只读列表。•Python字典–字典(dictionary)是除列表以外python之中最灵活的内置数据结构类型。列表是有序的对象结合,字典是无序的对象集合。–两者之间的区别在于:字典当中的元素是通过键来存取的,而不是通过偏移存取。–字典用{}标识。字典由索引(key)和它对应的值value组成。Python数据类型转换函数描述int(x[,base])将x转换为一个整数long(x[,base])将x转换为一个长整数float(x)将x转换到一个浮点数complex(real[,imag])创建一个复数str(x)将对象x转换为字符串repr(x)将对象x转换为表达式字符串eval(str)用来计算在字符串中的有效Python表达式,并返回一个对象tuple(s)将序列s转换为一个元组list(s)将序列s转换为一个列表set(s)转换为可变集合dict(d)创建一个字典。d必须是一个序列(key,value)元组。frozenset(s)转换为不可变集合chr(x)将一个整数转换为一个字符unichr(x)将一个整数转换为Unicode字符ord(x)将一个字符转换为它的整数值hex(x)将一个整数转换为一个十六进制字符串oct(x)将一个整数转换为一个八进制字符串2.3条件和循环•Python条件语句Python条件语句是通过一条或多条语句的执行结果(True或者False)来决定执行的代码块。–Python程序语言指定任何非0和非空(null)值为true,0或者null为false。–Python编程中if语句用于控制程序的执行,基本形式为•Python循环语句循环语句允许我们执行一个语句或语句组多次。–Python提供了for循环和while循环(在Python中没有do..while循环)循环类型描述while循环在给定的判断条件为true时执行循环体,否则退出循环体。for循环重复执行语句嵌套循环你可以在while循环体中嵌套for循环演示Pythonwhile语句执行过程2.4Python函数•定义函数遵循的相关规则–函数代码块以def关键词开头,后接函数标识符名称和圆括号()。–任何传入参数和自变量必须放在圆括号中间。圆括号之间可以用于定义参数。–函数的第一行语句可以选择性地使用文档字符串—用于存放函数说明。–函数内容以冒号起始,并且缩进。–return[表达式]结束函数,选择性地返回一个值给调用方。不带表达式的return相当于返回None。函数是组织好的,可重复使用的,用来实现单一,或相关联功能的代码段。•函数语法•实例2.5Python模块•定义模块好处–模块让你能够有逻辑地组织你的Python代码段。–把相关的代码分配到一个模块里能让你的代码更好用,更易懂。–模块能定义函数,类和变量,模块里也能包含可执行的代码。Python模块(Module),是一个Python文件,以.py结尾,包含了Python对象定义和Python语句
本文标题:Python数据分析
链接地址:https://www.777doc.com/doc-1649218 .html