-
大鱼,超级数学建模团队负责人,负责课程的运营和推广,以及协助教师的课程制作。
-
唐宇迪,同济大学硕士,华东理工大学博士,精通机器学习算法,主攻计算机视觉方向,著有《跟着迪哥学Python数据分析与机器学习实战》,线上选课学员30W+,累计开发课程50余门覆盖人工智能热门方向。联通,移动,中信等公司特邀企业培训导师,全国高校教师培训讲师,开展线下与直播培训百余场,具有丰富的授课经验。
绘图是数据分析工作中的重要一环,是探索过程的一部分。Matplotlib是当前用于数据可视化的最流行的Python包之一,本文主要介绍数据可视化分析工具:Matplotlib。
本文转载自微信公众号「数仓宝贝库」,作者杨游云、周健。转载本文请联系数仓宝贝库公众号。
绘图是数据分析工作中的重要一环,是探索过程的一部分。Matplotlib是当前用于数据可视化的最流行的Python包之一,本文主要介绍数据可视化分析工具:Matplotlib。
Matplotlib提供了丰富的数据绘图工具,主要用于绘制一些统计图形,例如散点图、条形图、折线图、饼图、直方图、箱形图等。首先我们简单介绍一下Matplotlib.pyplot模块的绘图基础语法与常用参数,因为后面我们要介绍的各种图形基本都是基于这个模块来实现的。pyplot的基础语法及常用参数详见表1。
表1 pyplot的基础语法及常用参数
散点图通常用在回归分析中,描述数据点在直角坐标系平面上的分布。散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。在广告数据分析中,我们通常会根据散点图来分析两个变量之间的数据分布关系。散点图的主要参数及其说明如表2所示。
表2 散点图的主要参数及其说明
我们通过matplotlib.pyplot模块画一个散点图,如代码清单1所示。
其可视化结果如下图所示。
条形图是用宽度相同的条形的高度或长度来表示数据多少的图形。条形图可以横置或纵置,纵置时也称为柱状图。此外,条形图有简单条形图、复式条形图等形式。条形图的主要参数及各参数说明如表3所示。
表3 条形图的主要参数及各参数说明
假设我们拿到了2017年内地电影票房前10的电影的片名和票房数据,如果想直观比较各电影票房数据大小,那么条形图显然是最合适的呈现方式,如代码清单2所示,其可视化结果如图2所示。
折线图是用直线连接排列在工作表的列或行中的数据点而绘制成的图形。折线图可以显示随时间(根据常用比例设置)而变化的连续数据,因此非常适用于显示相等时间间隔下数据的趋势。折线图的主要参数及各参数说明如表4所示。
表4 折线图的主要参数及各参数说明
以某广告平台随日期变化的用户请求数为例,我们用折线图来表现其变化趋势,如代码清单3所示,其可视化结果如图3所示。
饼图常用于统计学模块中。用于显示一个数据系列中各项的大小与各项总和的比例。饼图中的数据点显示为整个饼图的百分比,饼图的主要参数及其说明如表5所示。
表5 饼图的主要参数及其说明
以某家庭10月份家庭支出情况为例,我们用饼图来体现各部分支出占家庭整体支出的情况,如代码清单4所示,其可视化结果如图4所示。
直方图,又称质量分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。一般用横轴表示数据类型,用纵轴表示分布情况。直方图是数值数据分布的精确图形表示,是对连续变量(定量变量)的概率分布的估计,由卡尔·皮尔逊(Karl Pearson)首先引入,是一种特殊的条形图。在构建直方图时,第一步是将值的范围分段,即将整个值的范围分成一系列间隔,然后计算每个间隔中有多少值。这些值通常被指定为连续的、不重叠的变量间隔,间隔必须相邻,并且通常是相等的大小。直方图的主要参数及说明如表6所示。
表6 直方图的主要参数及说明
下面我们以Kaggle经典比赛案例泰坦尼克号数据集为例,绘制乘客年龄的频数直方图,查看各年龄段乘客的年龄分布情况,如代码清单5所示,其可视化结果如图5所示。
箱形图又称为盒须图、盒式图或箱线图,是一种用于显示一组数据分散情况的统计图,因形状如箱子而得名。它主要用于反映原始数据分布的特征,也可以进行多组数据分布特征的比较。箱形图的主要参数及说明如表7所示。
表7 箱形图的主要参数及说明
下面绘制箱形图,如代码清单6所示。
垂直箱形图与水平箱形图分别如图6、图7所示。
前面介绍的都是在figure对象中创建单独的图像,有时候我们需要在同一个画布中创建多个子图或者组合图,此时可以用add_subplot创建一个或多个subplot来创建组合图,或者通过subplot使用循环语句来创建多个子图。pyplot.subplots的常用参数及说明如表8所示。
使用add_subplot创建组合图,如代码清单7所示,其可视化结果如图8所示。
通过subplot使用循环语句来创建组合图,如代码清单8所示,其可视化结果如图9所示。
利用figure的subplot_adjust方法可以轻易地修改间距,其中wspace和hspace分别用于控制宽度和高度的百分比,可以用作subplot之间的间距。
本文摘编于《Python广告数据挖掘与分析实战》,经出版方授权发布。
为了更好的实训体验,请点击免费报名,进入实训状态
点击报名,听课时长可兑换余额哦~
无需安装软件即可快速体验案例实操,快来小试身手吧~
最近在学 0人 累计报名 1万人 好评度 98%
大鱼,超级数学建模团队负责人,负责课程的运营和推广,以及协助教师的课程制作。
唐宇迪,同济大学硕士,华东理工大学博士,精通机器学习算法,主攻计算机视觉方向,著有《跟着迪哥学Python数据分析与机器学习实战》,线上选课学员30W+,累计开发课程50余门覆盖人工智能热门方向。联通,移动,中信等公司特邀企业培训导师,全国高校教师培训讲师,开展线下与直播培训百余场,具有丰富的授课经验。
* 课程提供者:数锐科技
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。