当前位置: 首页> 手游资讯> 正文

猫眼电影Top100爬取数据(期末项目)

admin 2025-11-07 9

同学A负责爬取数据存在Exel。详细如下:

1.导入会用到的库,先用win+r输入cmd,用pip工具下载库文件。导入库文件在pycharm的setting-project-PythonInterpreter里面选择添加库。

2.定义scraping函数,用来爬取网页上的数据。headers为请求头,用来访问猫眼电影网站。board_urls里面的网站,用了format格式化的方法用来实现动态爬取网页,爬取第一页的所有电影,爬取第二页的所有电影,直到爬取完一百个电影的数据。

3.定义一个空列表用来存网页上所爬取到的数据,用来解析网页的数据存放在board_url_html里面。

4.数据处理,定义空列表来存放各个电影每个属性所对应的数据。其中star_org和relastime_org是用来存放还没有处理的数据,因为爬取到的数据中含有“主演:”

、“上映时间:”我用字符串的切片方法或者replace方法处理好数据后再存放进movie_star和releastime这两个列表中,此时数据只剩下了演员的名字和上映的时间。

用xpath找到爬取数据的位置,用ext一次性的追加写入到之前定义的空列表中,实现了数据的写入。在用一个data列表整合所有爬取到的数据,并将数据参数返回。

6.主函数的流程,通过调用上述函数来实现功能。用print里面的文字可以判断程序执行到那一步了,方便进行调试。

爬取数据效果:

同学B负责数据分析和展示,详细如下:

1.导入会用到的库,先用win+r输入cmd,用pip工具下载库文件。导入库文件在pycharm的setting-project-PythonInterpreter里面选择添加库。

2.条形图:用pandas库的_excel按照名字读取EXCEL里面的值到data里。_values,在data里的数据按照值来排序head(i),其中i来控制排序的个数。bar生成对象,将电影名称的值转换成列表的形式输出到条形图的上面。设置保存路径。print用来检查该代码段是否执行成功。

3.玫瑰图(饼图):data里的数据按照评分排序后存放在sctor_chart里,color_series设置颜色的系列,其中有十个值对应了排名的前十个电影。实例化Pie类添加两个列表的值到玫瑰图里。代码中含有各配置的含义,radius代表半径,center代表圆心,title是该玫瑰图的标题。设置保存路径。print用来检查该代码段是否执行成功。

4.词云:首先要用pip工具下载wordcloud库和numpy库,然后再pycharm里面导入库实现应用。同样的,将_values,在data里的数据按照值来排序head(i),其中i来控制排序的个数。将排序好的值存放在实例化对象w1中,设置宽度、高度、背景颜色、字体的路径。用.join链接排名前十的电影名称,中间用换行符间隔,将链接好的值存放在txt里面。(txt),对象w1生成txt里面值的词云,_file设置保存路径。print用来检查该代码段是否执行成功。

效果如下:

同类文章
  • 最新文章
  • 热门文章
  • 随机阅读
友情链接