认识达内从这里开始

认真做教育专心促就业

太原达内电脑培训python爬虫实践流程与类的种类

发布：太原达内教育官网
来源：互联网
时间：2022-03-17 09:11

python编程开发语言随着互联网的不断发展而得到了广泛的应用，今天我们就通过案例分析来了解一下，python爬虫实践流程与类的种类。

太原达内电脑培训python爬虫实践流程与类的种类

Python作为一种代表简单主义思想的解释型、面向对象、功能强大的高级编程语言。它语法简洁并且具有动态数据类型和高层次的抽象数据结构，这使得它具有良好的跨平台特性，特别适用于爬虫等程序的实现，此外Python还提供了例如Spyder这样的爬虫框架，BeautifulSoup这样的解析框架，能够轻松的开发出各种复杂的爬虫程序。

爬虫算法从输入中读取的一个URL作为初始地址，向该地址发出一个Request请求。

请求的地址返回一个包含所有内容的，将其存入一个String变量，使用该变量实例化一个BeautifulSoup对象，该对象能够将内容并且将其解析为一个DOM树。

根据自己的需要建立正则表达式，后借助HTML标签从中解析出需要的内容和新的URL，将新的放入队列中。

对于目前所处的URL地址与爬去的内容，在进行一定的过滤、整理后会建立索引，这是一个单词-页面的存储结构。当用户输入搜索语句后，相应的分词函数会对语句进行分解获得关键词，然后再根据每个关键词查找到相应的URL。通过这种结构，可以快速的获取这个单词所对应的地址列表。在这里使用树形结构的存储方式，Python的字典和列表类型能够较好的构建出单词词典树。

从队列中弹出目前的URL地址，在爬取队列不为空的条件下，算法不断从队列中获取到新的网页地址，并重复上述过程。

SpiderMain

这是爬虫的主题类，它通过调用其他几个类生成的对象来实现爬虫的运行。该类实例化的时候会永久生成上面几个类的对象，当通过craw()方法获取到用户提供的url地址时，就会依次进行请求、下载、解析、建立索引的工作。

BuildIndex

该类为每个URL地址与他的标题包含的关键词建立了一个索引关系并保存在一个Dict变量中，每个标题对应多个关键词，每个标题也对应多个url地址，因此每个关键词也对应了多个url地址。

HtmlParser类

这个类通过实例化一个BeautifulSoup对象来进行页面的解析。它是一个使用Python编写的HTML/XML文档解析器。它通过将文档解析为DOM树的方式为用户提供需要抓取的数据，并且提供一些简单的函数用来处理导航、搜索、修改分析树等功能。

【免责声明】本文系本网编辑部分转载，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与管理员联系，我们会予以更改或删除相关文章，以保证您的权益!更多内容请加danei0707学习了解。欢迎关注“达内在线”参与分销，赚更多好礼。

< 上一篇：太原达内培训python边缘检测算法都有哪些类型

下一篇：太原ui设计培训常见的动效设计类型与设计方法 >