博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python爬虫基础(二)BeautifulSoup库的使用---0基础也能看得懂
阅读量:4165 次
发布时间:2019-05-26

本文共 609 字,大约阅读时间需要 2 分钟。

python爬虫基础(二)BeautifulSoup库的使用—0基础也能看得懂

前言

BeautifulSoup库

Beautiful Soup是一个可以从HTML或XML文件中提取数据的python库。它能够通过你换的转换器实现惯用的文档导航、查找、修改文档的方式。在python爬虫开发中,我们主要用到的是Beautiful Soup的查找提取功能,修改文档的方式很少用到。

BeautifulSoup(label, ‘html.parser’)传入两个参数,第一个参数表示要提取的对象,第2个参数是html的标志。

常见函数:
prettify函数的作用是将传入的html字符串按照html的格式打印出来
title函数可以查看html页面的标题。
find_all方法可以根据标签名、属性、内容查找文档,定制化查找想要查找的内容。

一、HTML网页内容

HTML: 主体框架,负责文档结构和内容。

CSS: 添加样式(文字大小、颜色、字体加粗等),负责文档样式和布局。
JS: 添加效果,可以让html更加生动好看,负责描述网页的行为。
HTML标记语言的层次非常清晰:
第二层包括头部分head和主体部分body,引入外部文件的标签都可以放在头部,body提供网页的具体内容。

html标签作用(标签往往是成对出现的):

之间是表示文本、描述网页; 之间的文本是可见的网页内容;

之间的文本被显示为标题;

转载地址:http://wqoxi.baihongyu.com/

你可能感兴趣的文章
培养程序员的人脉
查看>>
技术人,不要总在很初级的层面上谈管理
查看>>
CMarkup与tinyXml直接解析XML字符串
查看>>
技术人员也要注重提升软实力
查看>>
优秀程序员的十个习惯
查看>>
如何进行软件系统架构设计?
查看>>
介绍一下海量数据的处理方法
查看>>
什么是构架设计图 ?有哪些组成?
查看>>
软件系统的架构(ArchitECture)有两个要素是什么?
查看>>
什么是非侵入式设计?
查看>>
可遇见框架技术之面试问题
查看>>
系统设计类面试题
查看>>
架构师的职责都有哪些?
查看>>
看女程序员是怎么坑大师兄的, 网友: 真的惨,笑死我了!
查看>>
C/C++程序员面试基础知识(一)
查看>>
程序员提离职遭领导威胁,一线企业总监我都认识,我让你混不下去
查看>>
朝九晚六吊打互联网企业,程序员:又开始无脑吹国企了!
查看>>
网友话数万元转行程序员,但是却没人要,网友:是学历问题吗?
查看>>
程序员辞掉30W年薪接私活:6个月就能赚回30W,庆幸自己当初辞职
查看>>
马云四天三谈996被骂上热搜:抱歉,这届年轻人不好“骗”了!
查看>>