百摩网
当前位置: 首页 生活百科

相关分析散点图怎么做(散点图箱线图核密度函数)

时间:2023-06-19 作者: 小编 阅读量: 4 栏目名: 生活百科

请注意,如果列中缺少一些值,应该对其进行删除或填充。通过散点图来分析萼片长度和萼片宽度的关系。我们将在这里对正在处理的Iris数据集进行处理。同样需要一些辅助函数,这次使用的是groupby和count。柱状图柱状图对于任何连续变量来说都是一个完美的可视化技术。默认情况下,它将为数据帧中的所有数字变量对的散点图和所有数字变量的柱状图。

全文共2286字,预计学习时长9分钟

图源:dayliscrawl

作为数据分析对外输出的关键环节,可视化技术可是数据科学家的必备技能之一。各种各样的图标花样繁多,可别被这些炫酷的“造型”吓退了。

本文将介绍九种不同的可视化技术,可以用来分析任何数据集,并且大多数都只需要少输入一行代码。就两个字,好用!

加载数据集和快速浏览数据

为简单起见,使用可从scikit-learn库加载的Iris数据集,输入以下代码:

from sklearn.datasets importload_irisimport pandas as pddata = load_iris()df = pd.DataFrame(data['data'], columns=data['feature_names'])df['species'] = data['target']df.head()

可以看到,我们有一个只有5列的数据集。使用数据框上的info()函数对其进行快速分析: df.info()

如图可见,只有150个条目,在任何一列中都没有丢失值。

此外,还可以看到前四列有浮点值,而最后一列只允许出现整数。事实上,根据数据集描述,我们知道“物种”列只取三个值,每个值代表一种花。

要确认这一点,可以对该列使用unique()函数:

df.species.unique()array([0, 1, 2])

确实,“物种”列只取三个值:0、1和2。

了解了数据集的基本信息之后就可以进行可视化了。请注意,如果列中缺少一些值,应该对其进行删除或填充。我们稍后将讨论的一些技术不允许出现丢失值。

线形图

从一个简单的线状图开始可视化。选中整个数据框。

df.plot()

如图可见,它已经根据索引值(x轴)绘制了不同颜色的所有列值。这是不为函数提供x轴参数时的默认行为。

现在看来这个图不是很有用。如果x轴是一个时间序列,那么线图是一个很好的选择。我们可能会在数据中看到一些时间上的趋势。

在本例中,只能看到数据是按“物种”列排序的(图中紫色的步骤),并且其他列的移动平均值遵循该模式(花瓣长度,特别是红色标记的花瓣长度)。

散点图

这是一种将两个连续变量之间的关系可视化的完美图表。通过散点图来分析萼片长度和萼片宽度的关系。

df.plot.scatter(x='sepal length(cm)', y='sepal width (cm)')

为了生成此图,需要通过其列名来指定图的x轴和y轴。这个图表显示这两个变量之间没有很强的相关性。让我们来检查另一对萼片长度和花瓣长度:

df.plot.scatter(x='sepal length(cm)', y='petal length (cm)')

在这种情况下,可以看到当萼片长度增加时,花瓣长度也会增加(当萼片长度大于6厘米时,增加幅度更大)。

饼状图

可以使用饼状图来可视化目标变量的类计数。我们将在这里对正在处理的Iris数据集进行处理。同样需要一些辅助函数,这次使用的是groupby和count。

df.groupby('species').count().plot.pie(y='sepallength (cm)')

这一类目具有完美的比例,因为我们的数据集包含每个类的50个条目。

注意,必须在这里使用y参数并将其设置为某个列名。这里使用了萼片长度列,但它可以是任何列,因为所有列的计数都是相同的。

面积图

还可以为这个数据集创建一个面积图。图中包括所有有厘米的维度,但是要删除“物种”列,因为这些在本例中没有任何意义。

columns = ['sepal length (cm)','petal length (cm)', 'petal width (cm)', 'sepal width (cm)']df[columns].plot.area()

这张图上的测量值是一个接一个的。这个图表可以让你直观地检查包含在图表中的每个度量之间的比率。所有的数值向之后的条目都有一个增长的趋势。

条形图

当显示条目的平均或计数时,这是一个很好的图表类型。可以用它来计算数据集中每个类型的每个维度的平均值。为此,需要使用groupby和mean函数。

df.groupby('species').mean().plot.bar()

上图非常直观,可以看到不同类型和不同柱的平均测量值存在差异。

箱线图

箱线图也是应该用于数值变量的可视化技术。它可以为所有的测量列绘制箱线图(不包括物种列,因为对于这个分类变量来说,箱线图没有意义)。

columns = ['sepal length (cm)', 'petallength (cm)', 'petal width (cm)', 'sepal width (cm)']df[columns].plot.box()plt.xticks(rotation='vertical')

如图所示,所有的箱线图都画在同一张图上。由于没有太多的变量来表示,所以这对我们来说是很好的。注意,必须旋转x标签,不这样做标签的名称会相互重叠。

柱状图

柱状图对于任何连续变量来说都是一个完美的可视化技术。让我们从简单的hist函数开始。

import matplotlib.pyplot as pltdf.hist()plt.tight_layout()

可以看到,这会为数据集中的每个数值变量生成一个柱状图。要制作图表,就不得不添加一些额外的代码行。这是我调用tight_layout函数的第一个导入行和最后一行。如果不添加这个,标签和子图名可能会重叠并且不可见。

核密度函数

与柱状图类似,可以使用核密度函数:

df.plot.kde(subplots=True,figsize=(5,9))

它给出了与柱状图相似的结果。必须在这里指定一个图形大小,否则图形会在垂直方向上被压得太厉害。

此外,还将subplots参数设置为True,因为在默认情况下,所有的列都会显示在同一个图表上。

散点矩阵图

这是我最喜欢的数据分析的可视化技术之一,因为它可以对数据集中的所有数值及其相关性进行快速分析。

默认情况下,它将为数据帧中的所有数字变量对的散点图和所有数字变量的柱状图。

from pandas.plotting importscatter_matrixscatter_matrix(df, figsize=(10, 10))

你将得到这个绘制精美的平面图,只用一行代码就能告诉你很多关于数据集的信息。在这组数据中,只需扫一眼就能发现这组数据中的一些变量之间的相关性。唯一需要设置的附加参数是数字尺寸,这是因为图中的地块非常小,默认的图表尺寸很小。

可视化技术是你在数据分析的修炼道路上必不可少的一关,试试将这些知识应用到你所选择的数据集。把数据玩出花,其实很简单。

留言点赞关注

我们一起分享AI学习与发展的干货

如转载,请后台留言,遵守转载规范

    推荐阅读
  • 社保领取的养老金怎么计算(社保曾经断缴过)

    我们大家都知道,参保人在首次参保的时候,人社部门会给到大家一个社保号,这个社保号是唯一的而且终身不变的。即使参保人在城镇职工社保和城乡居民社保之间发生转移,社保号也是不会发生变化的。而且即使个人断缴过,确保其养老金个人账户的余额也是不会减少的,会一直保留。值得注意的是医疗保险,如果发生断交会影响本人的门诊,看病,住院看病等医疗费用报销情况。如果医保断缴超过6个月,则视同为重新缴费。

  • 小米平板5值得购买吗(小米平板5系列正式发布)

    小米平板5系列正式发布品玩8月10日讯,小米今晚正式发布小米平板5系列,该系列今晚开启预定,8月16日10点全渠道首卖小米平板5系列采用11英寸LCD屏幕,支持2560x1600分辨率,支持120Hz刷新率,10亿色,27。

  • 祖国强大一年级手抄报(一年级手抄报伟大的祖国)

    关于中华骄傲的手抄报在线图片欣赏2021国庆节向祖国敬礼手抄报,我来为大家挑选一些画的好的祖国强大一年级手抄报?

  • 清明这首诗诗人所处的时间是什么时候(有具体的赏析吗)

    清明这首诗诗人所处的时间是什么时候?这首诗描写清明时节的天气特征,抒发了孤身行路之人的情绪和希望。诗的首句“清明时节雨纷纷”,点明诗人所置身的时间、气象等自然条件。清明节为唐代的大节日之一,这一天,或合家团聚,或上坟扫墓,或郊游踏青,活动多样。但是杜牧在池州所过的清明节却不见阳光,只是“天街小雨润如酥”,细雨纷纷。诗人希冀借酒消愁。于是,他便向人问路了。与诗人的感情脉搏一致。

  • 葱香豆腐皮怎么做(怎么做葱香豆腐皮)

    下面希望有你要的答案,我们一起来看看吧!葱香豆腐皮怎么做千张2张,黄酒少许,酱油少许,盐少许,香葱4棵。将千张洗干净,切成丝,香葱洗干净,切成末。将黄酒、酱油倒入一个小碗中,加入适量水调成料汁。热锅加入荤油,将千张倒入锅中翻炒,去除千张中的豆腥味。出锅,这样做的豆腐皮吃起来很嫩。

  • 南京外国语学校方山分校小学部2020年入学安排

    小学招收的儿童需年满六周岁,即于2013年9月1日至2014年8月31日期间出生。电脑派位:根据市、区教育局规定,如我校报名人数超过招生计划,将由市、区教育局统一程序、统一组织于7月12日进行电脑随机派位。7月13日市教育局开通电脑派位结果网络查询。原件现场审核后返还给家长,复印件恕不退还。逾期未到现场确认的,视为放弃。南京外国语学校方山分校校长由合作主体之一的南京外国语学校直接选派。

  • 什么多肉又美又好养(这么美的多肉美人)

    桃美人与其他的多肉植物一样,较耐干旱,喜欢干燥的环境。其生性喜爱干燥环境,对于恶劣环境的适应能力较弱。冬美人的叶片整体呈蓝色,而在顶部则稍显粉红,非常漂亮。结实的土壤不利于冬美人的生长。其最适宜的生长温度范围在18-25℃。不过在这温度范围外的情况下,其也不会停止生长,因而在冬季,其他植物进入休眠期的时候,冬美人依旧能保持良好的生长状态。无明显休眠期,可以全日照。

  • 冬天5度至4度钓鱼能钓什么鱼(天冷后还不学看天钓鱼)

    天冷后还不学看天钓鱼天冷后还不学看天钓鱼?难怪次次空军没辙还封竿,看准1种天就行最近有钓友吐槽,说瞅着现在是钓鱼的好时节,就去河边溜达一圈,发现朋友的鱼桶里黑压压一片,时不时还蹦几下,按捺不住心里直痒痒,可等他改天去钓时。

  • 减肥能吃山药吗(减肥的时候适合吃山药吗)

    减肥能吃山药吗减肥是可以吃山药的。其中含有大量的纤维素,人食用之后可以产生饱腹感,从而减少进食的欲望,有利于减肥。山药含有大量黏液蛋白,可以作为保健食品提供给人体,能够减少血管中的脂肪沉淀,防止动脉出现粥样硬化,减少皮下脂肪的堆积,避免出现肥胖症状。山药还含有多糖,可以刺激和调节人类免疫系统,减少外来因素的侵袭,山药还能促进胃肠蠕动,有利于消化、吸收,减少脂肪的形成和堆积引起的肥胖、臃肿症状出现。

  • 怎样防止蚝油瓶口发霉(防止蚝油瓶口发霉的方法)

    以下内容大家不妨参考一二希望能帮到您!怎样防止蚝油瓶口发霉远离热源,并存放在阴凉干燥处,条件允许的话可以放在冰箱中冷藏保存,减慢蚝油的发酵、变质进程。这种情况下的蚝油也有霉菌感染的几率,如果继续食用,会导致消化道菌群混乱,发生食物中毒,因此不能再食用。