2.6 任务实现
本任务将实现使用BeautifulSoup库、lxml库和requests库完成对百度标题的爬取和解析任务。
1)在Python文件中导入requests库和BeautifulSoup库。
data:image/s3,"s3://crabby-images/d626b/d626baf074045af607e1395614b0a7f45bc0f498" alt=""
2)使用requests.get()方法获得指定页面数据。
data:image/s3,"s3://crabby-images/c8edd/c8eddcde62bf3856bbd7ed60676cd85d603c6738" alt=""
3)由于requests对象的默认编码方式不是utf-8,因此可能导致乱码,所以先设置requests.encoding='utf-8'。
data:image/s3,"s3://crabby-images/9a944/9a944ec605680821928f547f57008b3b0649ae6c" alt=""
4)在BeautifulSoup中使用lxml作为解析器,解析request.text得到的页面数据。
data:image/s3,"s3://crabby-images/d7b50/d7b50a3420d4f7ba5ddd52f91cf678ff2998c683" alt=""
5)输出指定的页面标签文本。这里介绍两种方式。
① 直接使用需要查找的标签名。
data:image/s3,"s3://crabby-images/93bca/93bcafb5885f8846ba0d222aecaef5c9fe08834b" alt=""
② 使用select方法选择需要查找的标签路径。
data:image/s3,"s3://crabby-images/da750/da750466f536aee6bff664a3d6e880fd17990696" alt=""
标签路径可以通过浏览器的开发者工具获取。其具体获取方法是:打开指定页面后,按〈F12〉键,打开开发者工具,选择指定的页面元素并右击,在弹出的快捷菜单中选择“Copy”→ “Copy selector”命令,如图2-15所示。
data:image/s3,"s3://crabby-images/dbceb/dbceb8c7d432ca4c47cb8bdea702a520e9ee332f" alt=""
图2-15 获得页面元素标签路径
6)显示结果如图2-17所示。
data:image/s3,"s3://crabby-images/9ed08/9ed08a6766db0155f01e3d62e717f4dd3df1b01b" alt=""
图2-17 标签查询结果显示
这样就使用requests库和BeautifulSoup库成功地抓取了百度页面中标签为<title>的文本内容。本任务的完整代码如下。
data:image/s3,"s3://crabby-images/23b45/23b45c79133018314f9108126044e363df76ecdc" alt=""