Python爬虫入门有哪些基础知识点

脚本专栏 2024/11/2 佚名

3 2 1

圆月山庄资源网 Design By www.vgjia.com

1、什么是爬虫

爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。想抓取什么？这个由你来控制它咯。

比如它在抓取一个网页，在这个网中他发现了一条道路，其实就是指向网页的超链接，那么它就可以爬到另一张网上来获取数据。这样，整个连在一起的大网对这之蜘蛛来说触手可及，分分钟爬下来不是事儿。

2、浏览网页的过程

在用户浏览网页的过程中，我们可能会看到许多好看的图片，比如 http://image.baidu.com/ ，我们会看到几张的图片以及百度搜索框，这个过程其实就是用户输入网址之后，经过DNS服务器，找到服务器主机，向服务器发出一个请求，服务器经过解析之后，发送给用户的浏览器 HTML、JS、CSS 等文件，浏览器解析出来，用户便可以看到形形色色的图片了。

因此，用户看到的网页实质是由 HTML 代码构成的，爬虫爬来的便是这些内容，通过分析和过滤这些 HTML 代码，实现对图片、文字等资源的获取。

3、URL的含义

URL，即统一资源定位符，也就是我们说的网址，统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。

URL的格式由三部分组成：

①第一部分是协议(或称为服务方式)。

②第二部分是存有该资源的主机IP地址(有时也包括端口号)。

③第三部分是主机资源的具体地址，如目录和文件名等。

爬虫爬取数据时必须要有一个目标的URL才可以获取数据，因此，它是爬虫获取数据的基本依据，准确理解它的含义对爬虫学习有很大帮助。

4、环境的配置

学习Python，当然少不了环境的配置，最初我用的是Notepad++，不过发现它的提示功能实在是太弱了，于是，在Windows下我用了PyCharm，在Linux下我用了Eclipse for Python，另外还有几款比较优秀的IDE，大家可以参考这篇文章学习Python推荐的IDE 。好的开发工具是前进的推进器，希望大家可以找到适合自己的IDE。

知识点补充：

什么是爬虫和爬虫的基本逻辑

“爬虫”是一种形象的说法。互联网比喻成一张大网，爬虫是一个程序或脚本在这种大网上爬走。碰到虫子（资源），若是所需的资源就获取或下载下来。这个资源通常是网页、文件等等。可以通过该资源里面的url链接，顺藤摸瓜继续爬取这些链接的资源。

你也可以把爬虫当作模拟我们正常上网。打开网页并分析网页的内容获取我们想要的东西。

那么，这里就涉及到http传输协议等相关的知识。

我们通常打开一个网页，基本上都是打开一个Url链接即可。在这个过程当中，实际上发生了很多事情。

打开一个Url链接，浏览器自动向Url链接的服务器发送一个请求(Request)，告诉服务器说我需要访问这个Url链接的内容，请返回数据给我。服务器就处理该请求，响应该请求并返回结果给浏览器。

既然爬虫需要模拟该过程。根据http协议，爬虫需要构造一个请求(Request)，发到请求到目标服务器(通常是Url链接)。然后等待服务器的响应(Response)。

所有相关的数据都在这个响应结果当中，这个就是爬虫实现的基本逻辑。

以上就是Python爬虫入门有哪些基础知识点的详细内容，更多关于Python爬虫入门的资料请关注其它相关文章！

Python,爬虫入门

标签：

Python,爬虫入门

圆月山庄资源网 Design By www.vgjia.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

圆月山庄资源网 Design By www.vgjia.com

评论“Python爬虫入门有哪些基础知识点”

暂无评论...

www.vgjia.com 圆月山庄资源网

139,976互联网资源

144,792高清电影

21,817无损音乐

631,128技术资源

最新文章

转载一个别人收藏的精典网站Ruby,HIBERNATE

2024/11/2

可与Spreadsheets媲美的在线表格系统:EditG

2024/11/2

cygwin使用心得

2024/11/2

脚本的DVD开发

2024/11/2

局域网设置自动配置脚本文件的写法与用途

2024/11/2

一句话新闻

苹果官宣WWDC 2024！预计会有大批AI功能 - 2024/11/2

3月27日消息，苹果宣布2024年全球开发者大会（WWDC）将于6月10日至6月14日举行，巧合的是，这次大会与端午假期重合。

苹果官方表示：

在线参加 Apple 每年规模最大的开发者盛会。亲眼见证 Apple 最新平台、技术和工具的发布。了解如何创建和改进你的 App 和游戏。与 Apple 设计师和工程师互动交流，与全球开发者社区建立联系。以上活动均免费在线举行。

探索各种新的工具、框架和功能，助力你打造出理想的 App 和游戏。通过视频讲座学习新技能，与 Apple 专家进行一对一会面，以推进你的项目，完善你的构思。

Swift Student Challenge 旨在支持和鼓舞下一代开发者、创作者和企业家。太平洋时间 3 月 28 日，我们将公布今年的获奖者名单。获奖者将有资格参加在 Apple Park 举办的特别活动。我们还会选出 50 名杰出获胜者，他们将受邀前往库比提诺，获得为期三天的非凡体验，包括参加 Apple Park 的特别活动。

Python爬虫入门有哪些基础知识点

Python,爬虫入门

opencv+python实现鼠标点击图像,输出该点的RGB和HSV值

简单介绍一下pyinstaller打包以及安全性的实现

评论“Python爬虫入门有哪些基础知识点”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

Python爬虫入门有哪些基础知识点

Python,爬虫入门

opencv+python实现鼠标点击图像,输出该点的RGB和HSV值

简单介绍一下pyinstaller打包以及安全性的实现

评论“Python爬虫入门有哪些基础知识点”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存