Loading... 从本节课开始,我们来讲一个专题课程,电影排行爬虫。 本节课主要从基础理论的角度来讲解一些我们后面的课程中所需要的用到的基础知识。 **首先,爬虫是什么?** 爬虫就是指我们到互联网上获取采集数据的程序,他们像蜘蛛一样,在自己的网上爬啊爬,而互联网也是一张网,所以我们指的爬虫一般会叫做 —— 蜘蛛。以后你听到说蜘蛛程序或者爬虫程序,就知道是我们所说的爬虫啦。 **爬虫爬到的东西是啥呢?** 其实是网页的源码。我们从浏览器中看到的精美的网页页面,其实最原始的样子不是那样子的,而是一堆文本格式的网页源码,里面通过 html+css+javascript 等等以及其他技术编写,而我们的浏览器很聪明,他们从全世界共同的规范的解析标准中对这些基础的源码进行深度加工,最后将精美的网页呈现到我们的眼前。而爬虫爬到的是什么?不是这些精美的页面,而是未经加工的原始的网页源码。你可以在浏览器的网页中右键,选择查看网页源代码,或类似的叫法(不同浏览器不同),来查看每个网页的源码。 **那么使用爬虫有啥好处呢?** 跟我们日常浏览网页有啥区别呢?视频教程中做了详细的讲解,但归根结底一句话,那就是省去人工的麻烦,可以通过程序自动实现,以及批量实现。速度和效能上做了极大的提升,拿到的内容还能通过程序做自动处理,而有些行为是我们人工实现很麻烦很费时间或者不太好做到的。这就是爬虫的基本好处:给你的人生留下更多宝贵的时间。 **接下来我们来讲一讲网页访问的原理。** 就如同我们刚才讲到的,网页访问时,大家在浏览器的地址栏填入网址,然后点击访问,你看到的就是服务器给你返回的浏览器解析后的精美网页了,但内部原理是怎样的呢?其实也很通俗易懂: 内部的情况是,你输入网址并点击访问之后,你的浏览器会将你的请求封装成一个数据包,里面包含了一些网络访问所需要的提供给服务器的信息,这个数据包,浏览器会自动的发送给服务器的地址,服务器在接收到这个数据包之后,会进行处理,如果你的请求的数据包是需要权限的(比如需要提供账号、密码),而你给的数据包中没有包含这些权限信息,那服务器可能就会拒绝你的请求。这里说的拒绝不是服务器不说话不应答了,服务器还是会回应一个数据包的,但可能这个数据包的内容写的就是拒绝你的请求之类的了。如果访问成功,服务器就会返回正确的数据包,比如源码内容在包的内容里面。跟我们刚才讲的一样,你的浏览器接收到源码后,按照固定的规范进行解析,一个精美的网页就呈现在了你的面前。 学习完之后你会发现,一步小小的请求中间的过程如此曲折复杂,一些底层的工作都有软件帮你做了,其实普通用户的学习门槛也就降低了,就是点点鼠标按按键盘就可以浏览精美的网页了。 **学习本套专题课程的建议:** 学习该套专题课程我们建议有一定的 python 基础,能够看懂基本的代码结构,知道一些 python 的基础知识有助于更好的理解我们课程中讲到某些方面时所编写的代码。 另外,因为课程中所用的解析方法是正则表达式,所以建议有一定的正则表达式基础,也可以看看官网的 [正则表达式教程](http://fox-9.com/regex-so-easy/) 以及 <div class="preview"> <div class="post-inser post box-shadow-wrap-normal"> <a href="http://fox-9.com/621.html" target="_blank" class="post_inser_a no-external-link no-underline-link"> <div class="inner-image bg" style="background-image: url(http://fox-9.com/usr/themes/handsome/assets/img/sj/4.jpg);background-size: cover;"></div> <div class="inner-content" > <p class="inser-title">【精品】python 的 re 模块学习笔记</p> <div class="inster-summary text-muted"> python 的 re 模块学习笔记:match(正则表达式,源文本,[修饰符]) ,匹配到返回 SRE_Matc... </div> </div> </a> <!-- .inner-content #####--> </div> <!-- .post-inser ####--> </div>。 以下是我们的视频教程: **在线观看:** <div class="hideContent">该部分仅登录用户可见</div> **高清源文件下载:** <div class="hideContent">该部分仅登录用户可见</div> 感谢大家的收看,我们下期再见! 最后修改:2021 年 08 月 18 日 © 允许规范转载 赞 赠人玫瑰,手留余香