博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
慕课爬虫
阅读量:6756 次
发布时间:2019-06-26

本文共 1234 字,大约阅读时间需要 4 分钟。

 

 

 

1 #!/usr/bin/python 2 # coding=utf-8 3  4 from bs4 import BeautifulSoup 5 import re 6  7 html_doc = """ 8 The Dormouse's story 9 10 

The Dormouse's story

11 12

Once upon a time there were three little sisters; and their names were13 Elsie,14 Lacie and15 Tillie;16 and they lived at the bottom of a well.

17 18

...

19 """20 21 soup = BeautifulSoup(html_doc,'html.parser',from_encoding = 'utf-8')22 23 print '获取所有的链接'24 links = soup.find_all('a')25 for link in links:26 print link.name, link['href'],link.get_text()27 28 print '获取lacie的链接'29 link_node = soup.find('a',href='http://example.com/lacie')30 print link_node.name, link_node['href'],link_node.get_text()31 32 print '正则匹配 ill'33 #r"" ,字符串中反斜线 只用写一次34 link_node = soup.find('a',href=re.compile(r"ill") ) 35 print link_node.name, link_node['href'],link_node.get_text()36 37 print '获取p段落文字'38 #r"" ,字符串中反斜线 只用写一次39 p_node = soup.find('p',class_="title" ) 40 print p_node.name, p_node.get_text()

 

 

结果:

获取所有的链接a http://example.com/elsie Elsiea http://example.com/lacie Laciea http://example.com/tillie Tillie获取lacie的链接a http://example.com/lacie Lacie正则匹配 illa http://example.com/tillie Tillie获取p段落文字p The Dormouse's story

 

转载于:https://www.cnblogs.com/njczy2010/p/5551976.html

你可能感兴趣的文章
HTML中Select的使用具体解释
查看>>
Java synchronized
查看>>
mysql大内存高性能优化方案
查看>>
VSTO 学习笔记(十二)自定义公式与Ribbon
查看>>
[再寄小读者之数学篇](2015-06-24 Series)
查看>>
【Linux】linux常用基本命令
查看>>
4-python学习——数据操作
查看>>
Oracle函数
查看>>
Unity3D学习笔记第一课
查看>>
【redis使用全解析】常见运维操作
查看>>
hdu2377Bus Pass(构建更复杂的图+spfa)
查看>>
Vc6.0打开该文件坠毁
查看>>
[LeetCode] Lowest Common Ancestor of a Binary Search Tree 二叉搜索树的最小共同父节点
查看>>
2015第29周三
查看>>
hdu5024(dp)
查看>>
算法-无向图(连通分量,是否有环和二分图)
查看>>
IOS runtime动态运行时一
查看>>
媒体播放器三大底层架构
查看>>
CCBValue
查看>>
C#一些知识点:委托和事件的区别
查看>>