博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python爬取并简单分析鱼油数据
阅读量:7118 次
发布时间:2019-06-28

本文共 939 字,大约阅读时间需要 3 分钟。

开发工具

Python版本:3.6.4

相关模块:

requests模块;

fake_useragent模块;

pyechart模块;

以及一些python自带的模块。

环境搭建

安装Python并添加到环境变量,pip安装需要的相关模块即可。

原理简介

其实爬虫的文章我一般写的比较水,然后偶尔瞅了瞅别人的文章,发现基本是数据获取,清洗,最后可视化分析这个流程,于是打算稍微模仿一下,虽然我可能还是会写的比较随意and极其不专业。

​​​

数据获取:

这部分很简单,鱼C论坛每个鱼油的个人主页除了uid不同,其他都是一样的:

挨个请求每个鱼油个人主页的url,然后把返回的内容保存起来就可以了:

最后获得的数据大概这么多,一共40万条左右吧,虽然大部分是无效的。

数据清洗:

接下来我们从每个鱼油的个人主页中提取一些有用的数据,例如性别、生日、出生地、学历等内容,具体代码实现如下:

最后剩下的数据大概这么多:

他喵的这也太真实了吧,最后大概只剩下了1万多条数据,简直了。然后我去看了下,发现很多鱼油的主页是这样的:

还有很多uid是无效用户:

本来想重新爬的,后来感觉还得拖几天太麻烦了,算了,就这样吧,1万条数据也是数据啊,反正估计全爬完也没多少数据。

数据可视化分析:

首先,让我们来看看鱼C论坛鱼油们的男女比例吧:

Emmmm,原来论坛里还是有女生的,我一直以为是没有女生的。

OK,接下来我们来看看论坛里的鱼油学历分布情况吧:

竟然有将近200个博士,惊讶ing。

OK,接下来我们来看看论坛鱼油们的省份分布吧,这里只统计了国内的鱼油:

看了鱼C论坛的鱼油们来自五湖四海,当然在广东省的鱼油是最多的,目测论坛的坛主小甲鱼应该是广东人吧。

再接下来,我们来看看鱼C论坛鱼油的年龄分布吧:

估计论坛里的鱼油大部分还是90后的学生党吧,虽然90后大多应该已经毕业了。

最后,我们再来看看论坛里哪个鱼油比较土豪吧,也就是鱼币和C币最多的鱼油,统计结果如下图所示:

本来想再分析分析技术值最高的鱼油之类的,不过饭点到了,那就算了吧T_T。感兴趣的同学可以自己下载数据继续分析分析。

转载于:https://juejin.im/post/5bffdd78e51d45398a59d0f3

你可能感兴趣的文章
UIView 移除子视图
查看>>
jQuery+HTML5实现上传文件预览
查看>>
HTML基础2 表单和框架
查看>>
Docker(一):入门教程
查看>>
数据结构学习---顺序表
查看>>
RAID常用级别的比较
查看>>
有米实习-用到的shell脚本和Python脚本记录
查看>>
Python 2.7 urllib2 cookielib 学习
查看>>
不想当将军的学生,不是好程序员——数据访问层DAL
查看>>
working with fitnesse wiki pages
查看>>
sql事务(Transaction)用法介绍及回滚实例
查看>>
根据二位数组的某个字段删除多余的一维数组
查看>>
16g u盘变 成1g u盘 解决方案,使用驱动器中的光盘之前需要将其格式化
查看>>
Mac 下更新 bash_profile文件
查看>>
Java初学——输出和输入处理
查看>>
LeetCode-Longest Substring Without Repeating Characters
查看>>
shell命令:sed命令
查看>>
Mysql相关函数使用和总结(cast、convert)
查看>>
Ruby设计模式-观察者模式学习笔记
查看>>
您需要售后返修管理软件的N个理由
查看>>