Loading... 本节课我们来尝试编写一下对应的 python 语句,来看下通过 python 的代码是如何过去到网页的源码的。 我们编写计划查看第一页的内容,但是一开始,我们获取不到我们想要的内容,并且服务器还拒绝了我们的请求。 其实啊,是因为我们没有带上 user-agent 协议头导致,这个协议头指的是浏览器标识,我们可以到浏览器自带的开发者工具看到,协议头就是告诉服务器我们是通过什么来访问的,比如告诉服务器我们是通过谷歌浏览器访问的,或者通过火狐浏览器访问的,或者通过 IE 访问的。如果我们的 python 程序没有带上 user-agent 来访问,那么默认的就会提供一个 user-agent,这个协议头会明明白白的告诉服务器,我们用的是 python 爬虫程序来访问的,那么服务器收到了肯定不高兴呀,所以就会拒绝我们的访问。 带上一个正确的协议头也非常简单,你可以百度一个浏览器的 user-agent,任意一个就行。或者使用浏览器自带的开发者工具抓个你的浏览器访问的包,在数据包里面就可以看到自己的 user-agent 了,用上它,就可以了。 最后咱们正常访问到了网页的源码内容。 详情可以参看我们的视频教程,有详细的解说。 以下是我们的视频教程: **在线观看:** <div class="hideContent">该部分仅登录用户可见</div> **高清源文件下载:** <div class="hideContent">该部分仅登录用户可见</div> 感谢大家的收看,我们下期再见! 最后修改:2021 年 08 月 18 日 © 允许规范转载 赞 赠人玫瑰,手留余香