当前位置：首页> 手游资讯> 正文

猫眼电影Top100爬取数据（期末项目）

admin 2025-11-07 9

同学A负责爬取数据存在Exel。详细如下：

1.导入会用到的库，先用win+r输入cmd，用pip工具下载库文件。导入库文件在pycharm的setting-project-PythonInterpreter里面选择添加库。

2.定义scraping函数，用来爬取网页上的数据。headers为请求头，用来访问猫眼电影网站。board_urls里面的网站，用了format格式化的方法用来实现动态爬取网页，爬取第一页的所有电影，爬取第二页的所有电影，直到爬取完一百个电影的数据。

3.定义一个空列表用来存网页上所爬取到的数据，用来解析网页的数据存放在board_url_html里面。

4.数据处理，定义空列表来存放各个电影每个属性所对应的数据。其中star_org和relastime_org是用来存放还没有处理的数据，因为爬取到的数据中含有“主演：”

、“上映时间：”我用字符串的切片方法或者replace方法处理好数据后再存放进movie_star和releastime这两个列表中，此时数据只剩下了演员的名字和上映的时间。

用xpath找到爬取数据的位置，用ext一次性的追加写入到之前定义的空列表中，实现了数据的写入。在用一个data列表整合所有爬取到的数据，并将数据参数返回。

6.主函数的流程，通过调用上述函数来实现功能。用print里面的文字可以判断程序执行到那一步了，方便进行调试。

爬取数据效果：

同学B负责数据分析和展示，详细如下：

1.导入会用到的库，先用win+r输入cmd，用pip工具下载库文件。导入库文件在pycharm的setting-project-PythonInterpreter里面选择添加库。

2.条形图：用pandas库的_excel按照名字读取EXCEL里面的值到data里。_values,在data里的数据按照值来排序head(i),其中i来控制排序的个数。bar生成对象，将电影名称的值转换成列表的形式输出到条形图的上面。设置保存路径。print用来检查该代码段是否执行成功。

3.玫瑰图（饼图）：data里的数据按照评分排序后存放在sctor_chart里，color_series设置颜色的系列，其中有十个值对应了排名的前十个电影。实例化Pie类添加两个列表的值到玫瑰图里。代码中含有各配置的含义，radius代表半径，center代表圆心，title是该玫瑰图的标题。设置保存路径。print用来检查该代码段是否执行成功。

4.词云：首先要用pip工具下载wordcloud库和numpy库，然后再pycharm里面导入库实现应用。同样的，将_values,在data里的数据按照值来排序head(i),其中i来控制排序的个数。将排序好的值存放在实例化对象w1中，设置宽度、高度、背景颜色、字体的路径。用.join链接排名前十的电影名称，中间用换行符间隔，将链接好的值存放在txt里面。(txt)，对象w1生成txt里面值的词云，_file设置保存路径。print用来检查该代码段是否执行成功。

效果如下：