博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python爬虫
阅读量:3951 次
发布时间:2019-05-24

本文共 1060 字,大约阅读时间需要 3 分钟。

urllibrebs4selenium

函数解释

由一个URL获取html

html = urlopen(url).read().decode("utf-8")

用html生成一个BeautiSoup对象

soup = BeautifulSoup(html,"html.parser")

find_all()用于搜索bs的文档树,返回所有符合条件的tag列表,可使用正则表达式。

urls=soup.find_all("a",{
"target":"_blank","href":re.compile("^/item/(%.{2})+")})

实例

从一个百度百科词条出发,随机进入一个词条,走20层。

from urllib.request import urlopenimport refrom bs4 import BeautifulSoupfrom random import samplebaseUrl=r"https://baike.baidu.com"his=[r"/item/%E5%85%A8%E5%9B%BD%E9%9D%92%E5%B0%91%E5%B9%B4%E4%BF%A1%E6%81%AF%E5%AD%A6%E5%A5%A5%E6%9E%97%E5%8C%B9%E5%85%8B%E8%81%94%E8%B5%9B"]for i in range(20):    if len(his)==0:        break    html = urlopen(baseUrl+his[-1]).read().decode("utf-8")    soup = BeautifulSoup(html,"html.parser")    print(i,soup.h1.get_text(),"  url: "+his[-1])    sub_urls=soup.find_all("a",{
"target":"_blank","href":re.compile("^/item/(%.{2})+")}) if len(sub_urls) != 0: his.append(sample(sub_urls,1)[0]["href"]) # print("Next :",his[-1]) else: print("No eligible href is found.") his.pop()

更多

转载地址:http://sgkzi.baihongyu.com/

你可能感兴趣的文章
销售人说话“十大忌”
查看>>
营销中的“战略非对称”
查看>>
android 如何开关Mediatek开发的Feature
查看>>
Android电话功能各部分深入探讨
查看>>
Android应用技巧总结
查看>>
Android创建sdcard详细图解
查看>>
Android开发:如何实现TCP和UDP传输
查看>>
Android电源管理相关应用技巧分享
查看>>
Android录音失真具体解决方案
查看>>
Android根文件系统相关应用介绍
查看>>
Android文件系统深入剖析
查看>>
Android判断网络状态方法详解
查看>>
在Android上实现Junit单元测试的四部曲
查看>>
有效控制Android应用程序的耗电量
查看>>
Android术语列表概览
查看>>
全方位解读Android多媒体框架源码
查看>>
Android音乐编程的管理音频硬件
查看>>
Android UI控件组合应用之一:建立数据模型
查看>>
避免Andriod平台图片失真的图片形式
查看>>
Android之Gridview图片列表
查看>>