百摩网
当前位置: 首页 生活百科

相关分析散点图怎么做(散点图箱线图核密度函数)

时间:2023-06-19 作者: 小编 阅读量: 2 栏目名: 生活百科

请注意,如果列中缺少一些值,应该对其进行删除或填充。通过散点图来分析萼片长度和萼片宽度的关系。我们将在这里对正在处理的Iris数据集进行处理。同样需要一些辅助函数,这次使用的是groupby和count。柱状图柱状图对于任何连续变量来说都是一个完美的可视化技术。默认情况下,它将为数据帧中的所有数字变量对的散点图和所有数字变量的柱状图。

全文共2286字,预计学习时长9分钟

图源:dayliscrawl

作为数据分析对外输出的关键环节,可视化技术可是数据科学家的必备技能之一。各种各样的图标花样繁多,可别被这些炫酷的“造型”吓退了。

本文将介绍九种不同的可视化技术,可以用来分析任何数据集,并且大多数都只需要少输入一行代码。就两个字,好用!

加载数据集和快速浏览数据

为简单起见,使用可从scikit-learn库加载的Iris数据集,输入以下代码:

from sklearn.datasets importload_irisimport pandas as pddata = load_iris()df = pd.DataFrame(data['data'], columns=data['feature_names'])df['species'] = data['target']df.head()

可以看到,我们有一个只有5列的数据集。使用数据框上的info()函数对其进行快速分析: df.info()

如图可见,只有150个条目,在任何一列中都没有丢失值。

此外,还可以看到前四列有浮点值,而最后一列只允许出现整数。事实上,根据数据集描述,我们知道“物种”列只取三个值,每个值代表一种花。

要确认这一点,可以对该列使用unique()函数:

df.species.unique()array([0, 1, 2])

确实,“物种”列只取三个值:0、1和2。

了解了数据集的基本信息之后就可以进行可视化了。请注意,如果列中缺少一些值,应该对其进行删除或填充。我们稍后将讨论的一些技术不允许出现丢失值。

线形图

从一个简单的线状图开始可视化。选中整个数据框。

df.plot()

如图可见,它已经根据索引值(x轴)绘制了不同颜色的所有列值。这是不为函数提供x轴参数时的默认行为。

现在看来这个图不是很有用。如果x轴是一个时间序列,那么线图是一个很好的选择。我们可能会在数据中看到一些时间上的趋势。

在本例中,只能看到数据是按“物种”列排序的(图中紫色的步骤),并且其他列的移动平均值遵循该模式(花瓣长度,特别是红色标记的花瓣长度)。

散点图

这是一种将两个连续变量之间的关系可视化的完美图表。通过散点图来分析萼片长度和萼片宽度的关系。

df.plot.scatter(x='sepal length(cm)', y='sepal width (cm)')

为了生成此图,需要通过其列名来指定图的x轴和y轴。这个图表显示这两个变量之间没有很强的相关性。让我们来检查另一对萼片长度和花瓣长度:

df.plot.scatter(x='sepal length(cm)', y='petal length (cm)')

在这种情况下,可以看到当萼片长度增加时,花瓣长度也会增加(当萼片长度大于6厘米时,增加幅度更大)。

饼状图

可以使用饼状图来可视化目标变量的类计数。我们将在这里对正在处理的Iris数据集进行处理。同样需要一些辅助函数,这次使用的是groupby和count。

df.groupby('species').count().plot.pie(y='sepallength (cm)')

这一类目具有完美的比例,因为我们的数据集包含每个类的50个条目。

注意,必须在这里使用y参数并将其设置为某个列名。这里使用了萼片长度列,但它可以是任何列,因为所有列的计数都是相同的。

面积图

还可以为这个数据集创建一个面积图。图中包括所有有厘米的维度,但是要删除“物种”列,因为这些在本例中没有任何意义。

columns = ['sepal length (cm)','petal length (cm)', 'petal width (cm)', 'sepal width (cm)']df[columns].plot.area()

这张图上的测量值是一个接一个的。这个图表可以让你直观地检查包含在图表中的每个度量之间的比率。所有的数值向之后的条目都有一个增长的趋势。

条形图

当显示条目的平均或计数时,这是一个很好的图表类型。可以用它来计算数据集中每个类型的每个维度的平均值。为此,需要使用groupby和mean函数。

df.groupby('species').mean().plot.bar()

上图非常直观,可以看到不同类型和不同柱的平均测量值存在差异。

箱线图

箱线图也是应该用于数值变量的可视化技术。它可以为所有的测量列绘制箱线图(不包括物种列,因为对于这个分类变量来说,箱线图没有意义)。

columns = ['sepal length (cm)', 'petallength (cm)', 'petal width (cm)', 'sepal width (cm)']df[columns].plot.box()plt.xticks(rotation='vertical')

如图所示,所有的箱线图都画在同一张图上。由于没有太多的变量来表示,所以这对我们来说是很好的。注意,必须旋转x标签,不这样做标签的名称会相互重叠。

柱状图

柱状图对于任何连续变量来说都是一个完美的可视化技术。让我们从简单的hist函数开始。

import matplotlib.pyplot as pltdf.hist()plt.tight_layout()

可以看到,这会为数据集中的每个数值变量生成一个柱状图。要制作图表,就不得不添加一些额外的代码行。这是我调用tight_layout函数的第一个导入行和最后一行。如果不添加这个,标签和子图名可能会重叠并且不可见。

核密度函数

与柱状图类似,可以使用核密度函数:

df.plot.kde(subplots=True,figsize=(5,9))

它给出了与柱状图相似的结果。必须在这里指定一个图形大小,否则图形会在垂直方向上被压得太厉害。

此外,还将subplots参数设置为True,因为在默认情况下,所有的列都会显示在同一个图表上。

散点矩阵图

这是我最喜欢的数据分析的可视化技术之一,因为它可以对数据集中的所有数值及其相关性进行快速分析。

默认情况下,它将为数据帧中的所有数字变量对的散点图和所有数字变量的柱状图。

from pandas.plotting importscatter_matrixscatter_matrix(df, figsize=(10, 10))

你将得到这个绘制精美的平面图,只用一行代码就能告诉你很多关于数据集的信息。在这组数据中,只需扫一眼就能发现这组数据中的一些变量之间的相关性。唯一需要设置的附加参数是数字尺寸,这是因为图中的地块非常小,默认的图表尺寸很小。

可视化技术是你在数据分析的修炼道路上必不可少的一关,试试将这些知识应用到你所选择的数据集。把数据玩出花,其实很简单。

留言点赞关注

我们一起分享AI学习与发展的干货

如转载,请后台留言,遵守转载规范

    推荐阅读
  • 梦到家里盖房子是什么意思(梦到家里盖房子的含义)

    梦到家里盖房子是什么意思?梦到家里盖房子是什么意思准备参加考试的人梦见自己家盖房子,则学习成绩:你对自己充满了自信,知道要怎么做才能让自己表现得更好,也因为你全心全意的努力,所以在考试成果上将会非常亮眼,一切都会越来越好。投资外贸项目,较容易获利。而这两天在对内的人际关系上亦吉,只要家庭间的气氛平安和谐对其它方面都有好影响。对家人多点关心是绝对错不了的。

  • 柴油发电机什么牌子好用(在缺电的年代里)

    在这方面,重庆康邦柴油发电机是希望实现这一目标的任何行业或企业的理想选择。重庆康邦柴油发电机为其大多数发电机型号和发电机附加产品线提供了智能化控制系统,他们的柴油发电机由当今的世界著名的柴油发动机提供动力,可提供无与伦比的持续稳定的电力供应。与些同时,重庆康邦柴油发电机的创新使他们成为寻求加强常用电力或备用电源的任何企业的首选电力设备。

  • 晚上哭完如何眼睛不肿 晚上哭完怎样眼睛不肿

    情绪波动而哭泣是能很控制与预测的,前一天晚上大哭了一场,第二天早晨起来后又要上班或上学,肿胀的眼睛要如何缓解呢?哭完后不要躺一般来说,晚上哭过后,会比白天的哭过后,眼睛更容易肿,而这可能与晚上哭过后躺着睡觉有关,为了保险起见,哭的时候尽量不要躺着,哭完最好能坐一会再躺下睡。注意要在洗完冷水后脸再进入冰敷。

  • 饭豆的种植方法和时间(饭豆的种植时间及方法详解)

    饭豆的种植方法和时间?以下内容大家不妨参考一二希望能帮到您!饭豆的种植方法和时间选地整地:首先选择腐殖质高、肥沃的土壤,然后清理杂草、施基肥、挖种植穴。选种播种:选择无病害、表面完好无损的种子,在谷雨过后的晴天播种,每个种植穴播种2-4粒种子。

  • 鸡块怎么做(鸡块的做法)

    炸鸡块:将鸡洗净切块,放入盆中,加入盐、胡椒粉、十三香、姜片、红辣椒,搅拌均匀,腌制1小时腌入味后,放入淀粉拌匀,锅中倒入油适量,油热后一块块下入鸡肉块,放入鸡块,小火炸至金黄后捞出,下面我们就来说一说关于鸡块怎么做?鸡块怎么做炸鸡块:将鸡洗净切块,放入盆中,加入盐、胡椒粉、十三香、姜片、红辣椒,搅拌均匀,腌制1小时。

  • 为什么要吃五红汤(没有想到小小一碗五红汤)

    因为在五红汤中,红枣养脾补益气血,枸杞补肾益精,养肝明目润肺止咳。因为花生连红衣一起与红枣配合使用,既可补虚,又能止血,提升血小板。减轻化疗副反应如果一些朋友化疗后感觉恶心、呕吐等一些不舒适的的副反应,建议可以服用五红汤。还建议在五红汤里加入生姜,因为这样生姜是有一定的止呕作用的,这样可以可以明显减轻呕吐的反应。贫血我们可以看出五红汤中的五样材料都是养血的,所以我们在贫血的时候喝五红汤是比较好的。

  • 煜熠生辉是什么意思(煜熠生辉解释)

    接下来我们就一起去了解一下吧!煜熠生辉是什么意思煜熠生辉用来形容实物的表象。光随浪高下,影逐树轻浓。

  • 释迦牟尼开示故事(释迦牟尼的故事)

    悉达多成为释迎族圣人的消息传遍了四面八方,当然也传到了他的国家加毗罗卫。十年来,因思念爱子而心身俱焚的净饭王得到这一消息后,激动得流下了辛酸的老泪,悉达多的姨母和妻子耶输陀罗在听到这一消息后,更是悲喜交集,痛哭涕零。净饭王为悉达多的归来举行了盛大的欢迎仪式,借这一场合,佛陀向王宫里的人们宣讲了他的“四圣谛”、“十二因缘”和“八正道”教义。

  • 四种形态指的是什么(四种形态的意思)

    四种形态指的是什么第一种:党内关系要正常化,批评和自我批评要经常开展,让咬耳扯袖、红脸出汗成为常态。2016年10月27日,中国共产党第十八届中央委员会第六次全体会议审议通过了《中国共产党党内监督条例》,其中第七条对“四种形态”重新进行了定义。

  • 红烧舌鳎鱼的做法(红烧舌鳎鱼怎么做)

    接下来我们就一起去研究一下吧!红烧舌鳎鱼的做法原料:舌鳎鱼2条、蒜1只、香葱2根、白葡萄酒2大匙、生抽2大匙、老抽1小匙、白糖4小匙、盐少许。做法:鱼去鳞,去内脏,洗净;用少许盐腌制20分钟;用厨房纸拭干鱼身表面的水分;6成热的油锅放入蒜瓣,小火煎至鱼身双面金黄;倒入酒、生抽和老抽,加白糖,焖烧至鱼骨鱼肉脱离;大火收汁,撒香葱末起锅。