您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > Java > 《Python爬虫程序设计》课程标准
深圳信息职业技术学院软件学院1《Python爬虫程序设计》课程标准课程名称:Python爬虫程序设计适用专业:软件技术课程编码:参考学时:56一、课程概述随着互联网技术的飞速发展,以及国家产业信息化进程的大力推进下,在大数据时代背景下,产生了对基于Web网站的数据的大量需求。快速、稳定、健壮、分布式的爬虫程序呼之欲出,业界对于爬虫程序的开发人员需求很大,而此类人才在目前的人才市场上比较稀缺,造成爬虫程序工程师等职位的需求缺口较大。本门课程旨在通过学习与实践培养学生的爬虫程序开发能力,为社会输送急需人才;课程对应的网页爬虫开发工程师岗位有着相对较高的薪酬水平和较为广阔的发展前景,可以为参加学习的学生提供良好职业预期发展。本课程主要面向岗位为网页爬虫开发工程师,能力辐射岗位有:Web开发工程师、数据分析师、测试工程师、文档工程师、售前/售后工程师等。1.课程性质本课程注重对学生职业能力和创新精神、实践能力的培养。本课程旨在对学生的程序设计思想和技能进行,培养学生利用主流scrapy框架进行爬虫项目的设计与开发。《Python爬虫程序设计》课程是软件技术专业Python方向的专业核心课程,是融理论与实践一体化,教、学、做一体化的专业课程,是基于设计的工作过程系统化学习领域课程,是工学结合课程。本课程的前续课程安排为:“Python程序设计基础”、“HTML5基础”、“数据库技术”;与本课程可以平行开展的课程为web后台技术类课程如:“PHP开发基础”、“Web应用开发技术”等相关课程;本课程的后续课程为“Python数据分析技术”。深圳信息职业技术学院软件学院22设计思路课程开发遵循的基于工作过程导向的现代职业教育指导思想,课程的目标是网页爬虫程序开发职业能力培养。课程教学内容的取舍和内容排序遵循以工作需求为目标原则,务求反映当前网页爬虫开发的主流技术和主流开发工具,同时重视软件工程的标准规范,重视业内工作过程中的即成约定,努力使学生的学习内容与目标工作岗位能力要求无缝对接。本课程采用了“项目引领,任务驱动”的教学模式。在充分分析深圳市行业发展的特点与方向的基础上,分别选取了“QuotestoScrapy”网站、“京东商城”等网站具有发展前景的行业中的知名互联网系统,在由浅入深、循序渐进的过程中要求学生设计实现目标项目,并将目前爬虫程序必备功能组件如用网页数据下载、数据分析、数据存储、网页递归爬取等技术作为项目中的系列任务。课程章节的演进则按照爬虫程序技术知识点的难易程度和之间的关联关系进行组织。在授课过程中,项目的主要开发阶段模块化,特定的功能任务化,学生在完成各个“任务”的同时,学习并掌握项目开发过程中所需的技能和应遵守的业内规范,为学生职业能力发展奠定良好的基础等。课程设计的总体原则是“基于课程对应的就业岗位工作过程”,基于此原则课程组进行了充分的调研,过程如下:第一步:岗位需求调研;第二步:确定课程对应的岗位能力需求;第三步:根据岗位能力需求确定教学目标;第四步:明确课程的学习任务;第五步:并根据任务设计学习活动二、课程目标本课程内容涵盖了对学生在“基本理论”、“基本技能”和“职业素质”三个层次的培养。以网页爬虫开发岗位必备的开发技能为重点并具备相应的理论基础的同HTML5基础Python程序基础数据库技术Python爬虫程序技术PHP开发基础Web应用开发技术Python数据分析技术深圳信息职业技术学院软件学院3时,注重综合职业素质的养成,课程采用启发诱导式教学,鼓励学生“勤于思考,勤于动手”。1)基本理论要求:掌握爬虫程序设计理念;掌握数据提取与存储思想掌握scrapy爬虫框架设计思想。2)基本技能要求:熟练掌握ullib网页下载方法;熟练掌握正则表达式选取数据的规则;熟练掌握BeautifulSoup工具选择数据的方法;熟练掌握xpath、css选择数据的方法;熟练掌握scrapy网页爬取的工作流程;熟练掌握scrapy中Item、Pipeline数据的序列化输出方法;熟练掌握scrapy中Spider的网页递归爬取技术;熟练掌握scrapy中中间件的使用方法;3)职业素质要求:能够完成真实业务逻辑向代码的转化;能够独立分析解决技术问题;自学能力强,能够快速准确地查找参考资料;能够按照规范编写技术文档;沟通能力强,能够与小组其他成员通力合作。本门着重培养学生独立完成交互式爬虫程序项目的设计、开发以及测试等能力。课程对学生专业能力的培养及要求学生达到的水平目标如下表所示:编号能力目标知识水平目标1使用ullib实现网页下载能够通过ullib网页下载函数方法下载网页能够实现编码的转换2使用正则表达式获取网页数据能够根据功能组件的不同实现需求,使用正则表达式匹配并提取网页中的数据3使用BeautifulSoup工具选择数据能够使用BeautifulSoup工具选择数据掌握find_all等常用方法4使用xpath、css选择数据能够xpath、css选择复杂的数据5使用scrapy编写网页爬能够使用scrapy网页爬取的工作流程爬取单个网页的某几个特深圳信息职业技术学院软件学院4虫程序征数据6使用Item、Pipeline实现数据序列化与存储能够使用scrapy中Pipeline进行数据提取与数据存储。7使用scrapy实现网页递归爬取能够使用scrapy中Spider的网页递归爬取循环,能实现数据的提取与存储8网站爬虫程序综合开发能够使用scrapy框架开发爬虫程序,爬取QuotesScrapy网站的作者信息三、能力解析表能力目标使用ullib实现网页下载编号1具体描述能够通过ullib网页下载函数方法下载网页,实现编码的转换步骤1.搭建前端开发环境2.搭建后端静态网页3.例用urllib下载后端网页4.编写程序实现编码(GBK,UTF-8)的自动识别与转换5.存储网页到文件或者数据库工具与设备1.PC2.Python开发工具、PyCharm等主流IDE3.Web后台服务器,例如IIS,Tomcat等4.互联网环境知识基础1.html标准2.GBK、UTF8编码规则3.Python程序基础4.数据文件或者数据库基础态度、素质1.负责任的态度2.有进取心3.遵守标签书写规范4.自学能力强考核标准1.熟记HTML常用标签2.GBK、UTF8识别与转换知识与技能3.Web网站的访问与网页数据下载知识与技能4.网页文件的存储知识与技能5.urllib库的使用方法积件素材网站、教案、教学PPT、经典案例、案例源代码、电子书、网络技术社区支持、图片深圳信息职业技术学院软件学院5能力目标使用正则表达式获取网页数据编号2具体描述能够根据功能组件的不同实现需求,使用正则表达式匹配并提取网页中的数据步骤1.搭建前端开发环境2.搭建Web后台静态网页3.使用urllib函数方法下载网页4.使用正则表达式匹配并提取网页的数据工具与设备1.PC2.Python开发工具、PyCharm等主流IDE3.Web后台服务器,例如IIS,Tomcat等4.互联网环境知识基础1.html标准2.正则表达式匹配符号3.匹配字符串的提取4.匹配字符串的存储态度、素质1.负责任的态度2.有进取心3.良好的代码习惯4.自学能力强考核标准1.熟记正则表达式基本语法2.熟记正则表达式匹配函数的使用L3.能够独立完成数据的匹配与提取4.能够独立完成功能测试,并能够根据测试结果改进程序设计积件素材网站、教案、教学PPT、经典案例、案例源代码、电子书、网络技术社区支持、图片能力目标使用BeautifulSoup工具选择数据编号3具体描述能够使用BeautifulSoup工具选择数据,掌握find_all等常用方法步骤1.搭建前端开发环境2.搭建Web后台静态网页3.使用urllib函数方法下载网页4.使用BeautifulSoup提取网页的数据深圳信息职业技术学院软件学院65.存储提取的数据工具与设备1.PC2.Python开发工具、PyCharm等主流IDE3.Web后台服务器,例如IIS,Tomcat等4.互联网环境知识基础1.Select选择器的使用2.DOM树的构建3.BeautifulSoup常用函数态度、素质1.负责任的态度2.有进取心3.良好的代码习惯4.自学能力强考核标准1.掌握DOM树的构建方法2.能够独立完成BeautifulSoup插件的下载与配置,使得插件在网页中正常运行。3.能熟练使用BeautifulSoup常用函数提取网页数据积件素材网站、教案、教学PPT、经典案例、案例源代码、电子书、网络技术社区支持、图片能力目标使用xpath、css选择数据编号4具体描述能够xpath、css选择复杂的数据。步骤1.搭建前端开发环境2.搭建Web后台静态网页3.使用urllib函数方法下载网页4.使用BeautifulSoup提取网页的数据5.存储提取的数据工具与设备1.PC2.Python开发工具、PyCharm等主流IDE3.Web后台服务器,例如IIS,Tomcat等4.互联网环境知识基础1.DOM树结构2.xpath选择器选择数据的规则3.css选择器选择数据的规则深圳信息职业技术学院软件学院7态度、素质1.负责任的态度2.有进取心3.良好的代码习惯4.自学能力强考核标准1.DOM树结构2.xpath选择数据的规则3.css选择器选择数据的规则积件素材网站、教案、教学PPT、经典案例、案例源代码、电子书、网络技术社区支持、图片能力目标使用scrapy编写网页爬虫程序编号5具体描述能够使用scrapy网页爬取的工作流程爬取单个网页的某几个特征数据步骤1.搭建scrapy开发环境2.搭建Web后台网页3.使用scrapy爬取网页文件4.使用xpath,css获取特征数据工具与设备1.PC2.Python开发工具、PyCharm等主流IDE3.Web后台服务器,例如IIS,Tomcat等4.互联网环境知识基础1.scrapy框架知识与工作流程2.spider程序编写3.xpath,css数据提取4.Python的生成器态度、素质1.负责任的态度2.有进取心3.良好的代码习惯4.自学能力强考核标准1.scrapy框架知识与工作流程2.spider程序编写3.xpath,css数据提取4.Python的生成器的使用深圳信息职业技术学院软件学院8积件素材网站、教案、教学PPT、经典案例、案例源代码、电子书、网络技术社区支持、图片能力目标使用Item、Pipeline实现数据序列化与存储编号6具体描述能够使用scrapy中Pipeline进行数据提取与数据存储。步骤1.搭建scrapy开发环境2.搭建Web后台网页3.使用scrapy爬取网页文件4.使用Item、Pipeline提取与存储数据工具与设备1.Python开发工具、PyCharm等主流IDE2.Web后台服务器,例如IIS,Tomcat等3.互联网环境知识基础1.Item字段定义规则2.Pipeline数据管道原理态度、素质1.负责任的态度2.有进取心3.良好的代码习惯4.自学能力强考核标准1.Item字段定义规则2.Pipeline数据管道原理3.能够使用scrapy爬取网页数据并把数据序列化成XML、JSON格式进行存储积件素材教案、教学PPT、经典案例、案例源代码、电子书、网络技术社区支持、图片能力目标使用scrapy实现网页递归爬取编号7具体描述能够使用scrapy中Spider的网页递归爬取循环,能实现数据的提取与存储步骤1.搭建scrapy开发环境2.搭建Web后台众多关联网页3.使用scrapy爬取多层嵌套与关联的网页文件4.使用Item、Pipeline提取与存储数据工具与设备1.Python开发工具、PyCharm等主流IDE2.Web后台服务器,例如IIS,Tomcat等3.互联网环境深圳信息职业技术学院软件学院9知识基础1.程序递归2.scrapy的Request调度机制3.分布式程序知识4.scrapy爬取深度的控制方法态度、素质
本文标题:《Python爬虫程序设计》课程标准
链接地址:https://www.777doc.com/doc-2040202 .html