Loading... 本节课我们来对我们的整套专题课程来做一个小小的总结。 **课程大纲:** **电影排行爬虫 1 不得不说的爬虫那些事儿** 基础理论,爬虫是啥,爬虫爬到的是啥(源码),爬虫有啥好处(省去人工的麻烦),网页访问的原理。python 基础,正则表达式基础 **电影排行爬虫 2 明确目标** 知道我们要爬取什么页面,有哪些内容是需要的,源码长啥样 **电影排行爬虫 3 抓取第一页** 写 python 语句来访问获取到一页的源码,协议头要带上 user-agent **电影排行爬虫 4 正则分析** 写正则表达式 **电影排行爬虫 5 正则解析页面** 将正则表达式应用于 python 语境中,同时详细讲解了 yield 生成器的原理和用法 **电影排行爬虫 6 如何写入文件** 将内容写入到文件中,怎么写,怎么转换为 json 字符串写入 **电影排行爬虫 7 多页全量爬取** 单页全流程结束后,看看多页如何爬取,分析页面的地址有什么规律,修改了一下地址,套用循环来实现 **电影排行爬虫 8 课程总结** 小爬虫的应该遵守的规矩,不应该对服务器造成大的负担,不应该爬取服务器禁止爬取的内容 以下是我们的视频教程: **在线观看:** <div class="hideContent">该部分仅登录用户可见</div> **高清源文件下载:** <div class="hideContent">该部分仅登录用户可见</div> 感谢大家的收看,我们下期再见! 最后修改:2021 年 08 月 18 日 © 允许规范转载 赞 赠人玫瑰,手留余香