当前位置: 百搜分类目录网> 时事资讯> 斗罗大陆网页游戏,Python爬取斗罗大陆剧评并制作词云图,原来大家关注这些

斗罗大陆网页游戏,Python爬取斗罗大陆剧评并制作词云图,原来大家关注这些

发布日期:2021-05-04 17:39:09 来源: 编辑: 阅读: 0

这阵子,斗罗大陆网页游戏这个问题有不少人在搜索引擎上搜索,受到广大网友们们的关注,那么关于斗罗大陆网页游戏相信网友们们都是想要了解到最新的资料吧,小编也是在网上进行了一些整理,归类整理到了一些与斗罗大陆网页游戏相关的文章,就有了下面这篇《斗罗大陆网页游戏,Python爬取斗罗大陆剧评并制作词云图,原来大家关注这些》,一起来了解了解吧。

前言

爬取豆瓣《斗罗大陆》第一集的评论,并制作词云图。豆瓣评论是非常适合新手操作学习爬虫的,因为它没有类似网易云平台这样一个加密过程。


利用爬取的内容制作成如下的词云图,可以发现观众总是痴迷于拿小说和动漫比。


实列代码

首先我们先了解连接URL和头部信息headers怎么获取.


  • 右键点击打开网页源代码,按CTRL+F,搜索评论是否在这页代码中。如果在,那就是一个静态网页,那么我们直接爬取这页代码就可以得到我们想要的评论内容。
  • 回到豆瓣页面,按FN+F12,看到Network,点Headers,左上角刷新一下页面,就可以看到获取方式为GET,以及URl:url="https://movie.douban.com/subject/30313969/episode/1/",具体如图。
  • 往下拉到最底部,获取:headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36"}

准备工作完成,可以写代码了:


import requestsimport parselpage_count = 0#豆瓣评论有12页,所以循环(0,11)for page in range(0,11): page_count += 1 print("======================正在爬取第{}页数据========================".format(page_count)) url="https://movie.douban.com/subject/30313969/episode/1/" #注意字典格式 headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36"} response = requests.get(url=url,headers = headers) html_data = response.text #将请求后的字符串格式解析成re,xpath,css进行内容的匹配,所以要转换数据类型 selector = parsel.Selector(html_data) #转换数据类型 #根据HTML格式写正则表达式:<span class="">小唐三可爱的,就是画面总是觉得暗暗的</span> comments_list = selector.xpath("//span[@class = '']/text()").getall() with open('《斗罗大陆》.txt',mode = 'a',encoding='utf-8') as f: #write() 方法将指定的文本写入文件 for comment in comments_list: f.write(comment.replace('n','')) f.write('n')

#将爬取的内容换成字符串#"结巴"中文分词:做最好的Python中文分词组件 "Jieba" import jieba#r 只能读 (带r的文件必须先存在)f=open("《斗罗大陆》.txt",mode="r",encoding="utf_8")txt=f.read()txt_list=jieba.lcut(txt)#字符拼接接生成一个新的字符串string1=" ".join(txt_list)

  • 将字符串中出现率高但没有参考价值的文字去掉

string2=string1.replace("天前","")string2=string2.replace("回应","")string2=string2.replace("我","")

看一下文字效果:


  • 导入词云形状

from scipy.misc import imread mk=imread("爱心形状.png")

import wordcloud#词云图设置 wc = wordcloud.WordCloud(width= 1000, height = 800, background_color = 'white', font_path ='msyh.ttc', #mk=imread("爱心形状.png"), mask=mk, scale = 15, stopwords = set([line.strip() for line in open('《你好!李焕英!》.txt',mode='r',encoding='utf-8').readlines()]))#给词云图输入文字wc.generate(string2)#保存词云图wc.to_file('douluodalu.png')

  • 到指定目录下可以看对对应的图片,打开就是有词云图片

import osprint(os.getcwd())

本文参考了csdn作者蜗牛壳上的小潘同志。


关于斗罗大陆网页游戏这个项目本站就介绍到这里,关于《斗罗大陆网页游戏,Python爬取斗罗大陆剧评并制作词云图,原来大家关注这些》你还有哪些问题呢,可以在下方留言哦!

用户评价

评论内容不能为空
相关文章

Copyright © www.baiduser.com All right reserved. 百搜分类目录网

备案号:鲁ICP备16000469号-2 | | 网站地图

本站部分内容来自爱好者及互联网,版权归原作者所有,若涉及版权问题,敬请原作者联系我们,立即处理。