博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬取小说——爬取标题和正文
阅读量:2095 次
发布时间:2019-04-29

本文共 729 字,大约阅读时间需要 2 分钟。

def getItem(url,code):    "爬取标题+正文,url=str此章节的"    hd = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.4071 SLBChan/21"} url = url + code print(url) # 测试打印 page = requests.get(url,headers=hd) page.encoding = page.apparent_encoding soup = BeautifulSoup(page.text, 'html.parser') tBody = soup.find('div',attrs={
'class':"wrapper_main"}) # title_M = tBody.find('div',attrs={'class':"h1title"}).h1.text text_M = tBody.find('div', attrs={
'id': "htmlContent"}) return text_M.text.replace("书首页 返回目录 下一页","").replace("上一页 返回目录 下一页","").replace("上一页 返回目录 书末页","")

转载地址:http://pbuhf.baihongyu.com/

你可能感兴趣的文章
oracle
查看>>
Struts2中的session、request、respsonse获取方法
查看>>
如何理解MVC模型
查看>>
SpringMVC中乱码解决方案
查看>>
SpringMVC中时间格式转换的解决方案
查看>>
post和get请求相关知识点
查看>>
关于try finally 中的return语句的问题
查看>>
RequestBody/ResponseBody处理Json数据
查看>>
springmvc请求参数获取的几种方法
查看>>
在eclipse中创建和myeclipse一样的包结构
查看>>
Java中的IO流
查看>>
java中的关键字
查看>>
如果某个方法是静态的,它的行为就不具有多态性
查看>>
Java 8系列之重新认识HashMap
查看>>
HashMap 、 ArrayList、String 重写了equals方法 而Object类(比如User)没有重写
查看>>
Servlet的生命周期
查看>>
Object中的getClass()返回的是当前运行的类
查看>>
加载驱动程序的方法
查看>>
深入理解java异常处理机制
查看>>
object类的基本方法
查看>>