博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python爬虫学习1
阅读量:5142 次
发布时间:2019-06-13

本文共 796 字,大约阅读时间需要 2 分钟。

1 #coding=utf-8 2 from urllib2 import urlopen 3 from bs4 import BeautifulSoup 4 import urllib2 5 url="http://pythonscraping.com/pages/page1.html" 6 def getTitle(url): 7     """ 8     说明一下,处理异常的过程 9     1.检查是否能打开网页 异常类型为urllib2.HTTPError10     2.检查是否服务器存在,不存在返回空,那么在read是返回AttributeError11     :param url:12     :return:13     """14     try:15 16         html=urlopen(url)17     except urllib2.HTTPError as e:18 #这里的错误是网页不存在19         print e20         return None21     try:22         bsobj=BeautifulSoup(html.read(),"html.parser")23         title=bsobj.body.h124     except AttributeError as e:25         return None26     return title27 title=getTitle(url)28 if title is None:29     print "Title could not be found"30 else:31     print title

 

转载于:https://www.cnblogs.com/dream-for/p/5932335.html

你可能感兴趣的文章
由级别和性格特征将程序员分类 ---看看你属于哪一种
查看>>
HDU 6370(并查集)
查看>>
BZOJ 1207(dp)
查看>>
PE知识复习之PE的导入表
查看>>
HDU 2076 夹角有多大(题目已修改,注意读题)
查看>>
洛谷P3676 小清新数据结构题(动态点分治)
查看>>
九校联考-DL24凉心模拟Day2T1 锻造(forging)
查看>>
洛谷 P3237 [HNOI2014]米特运输
查看>>
Attributes.Add用途与用法
查看>>
JavaScript面向对象初探——封装和继承
查看>>
L2-001 紧急救援 (dijkstra+dfs回溯路径)
查看>>
javascript 无限分类
查看>>
spring IOC装配Bean(注解方式)
查看>>
[面试算法题]有序列表删除节点-leetcode学习之旅(4)
查看>>
SpringBoot系列五:SpringBoot错误处理(数据验证、处理错误页、全局异常)
查看>>
kubernetes_book
查看>>
OpenFire 的安装和配置
查看>>
ZJOI2018游记Round1
查看>>
侧边栏广告和回到顶部
查看>>
https://blog.csdn.net/u012106306/article/details/80760744
查看>>