高考考试网
当前位置: 首页 高考资讯

趣味谈数据分析(九道门如何执行探索性数据分析)

时间:2023-05-26 作者: 小编 阅读量: 5 栏目名: 高考资讯

九道门如何执行探索性数据分析探索性数据分析(EDA)是了解数据集的关键步骤在EDA中可以执行各种步骤,下文中会我会介绍4个主要步骤其中数据集来自帕尔默群岛企鹅数据数据分析优质社群,等你加入哦~一、仔细检查数据这一步的目的是找出数。

探索性数据分析(EDA)是了解数据集的关键步骤。在EDA中可以执行各种步骤,下文中会我会介绍 4 个主要步骤。其中数据集来自帕尔默群岛企鹅数据。数据分析优质社群,等你加入哦~

一、仔细检查数据

这一步的目的是找出数据集的变量和范围。它回答诸如"此数据集是否足够大?"或“它包含多少个特征或行?"等问题。加载数据集后,使用 head() 函数检查前五行将是了解数据集结构的良好开端,具体操作如下所示。

import pandas as pdimport numpy as np import seaborn as snsimport matplotlib.pyplot as pltimport warningswarnings.filterwarnings('ignore')#Loading the datasetpenguins_size = pd.read_csv('penguins_size.csv', sep = ",")penguins_size.head()

print("Shape is: ", penguins_size.shape)

从这里得出数据集的范围为(344,7),这意味着存在7个特征和344行,这表示数据集不够大。为了可视化特征的数据类型,可以使用 info() 函数,如下所示。结果显示,物种、岛屿和性别是目标,其余特征是浮动变量。使用 dtypes 也是了解列的数据类型的一种替代方法。

penguins_size.info()

penguins_size.dtypes

二、数据清理

查找缺失值、删除重复项等是探索性数据分析的关键步骤。这些值可能会导致我们的模型最终得出错误的结论。仅调查 isnull()是不够的。例如,在包含心率特征的数据集中,该特征的值不能为 0。在这种情况下,0 也是一个缺失值,需要处理。

有多种方法可以处理数据的缺失值,例如删除包含缺失值的行(如果数据集足够大并且缺失值的数量不是太多,这是一个选项),插补方法(特征的平均值/中位数)等。

penguins_size.isnull().sum()

如上所示,除岛屿和物种外的所有特征在此数据集中都包含缺失值。因为数据集非常小,所以我选择将浮点特征的缺失值与相应特征的均值相结合。

penguins_size.value_counts(["sex"])

penguins_size['sex'] = penguins_size['sex'].fillna('MALE')

对于企鹅的性别,在检查了雌性和雄性值的计数后,将考虑最常见的值,在这种情况下,缺失值将用 "MALE" 进行估算。如上所示,另一个值为".",必须将其归因或丢弃。在所有缺失值被插补或删除后,我们再次使用 isna () 函数进行检查,确定没有遗漏值。

penguins_size.drop(axis = 0, inplace = True, index = 336)penguins_size.isna().sum()

最后,对于这个部分,需要检查是否存在任何重复行。

duplicated = penguins_size.duplicated()print(duplicated.sum())

三、统计洞察

这也是理解数据的一部分。处理缺失值后,可以使用 describe() 函数来获取数据的平均值、最大值、最小值和标准偏差等信息。此方法还可用于检测缺失值,例如,如果特征值的最小值在不应为 0 的地方为 0,则 describe()函数有助于处理缺失值。

penguins_size.describe()

通过使用 value_counts() 函数,可以计算对象的唯一值。此外,每个物种的体重平均值可以通过使用 groupby()函数找到对于连续特征,此函数在分类和观察数据方面非常有用。

penguins_size['species'].value_counts()

# Find body mass mean for each species.mean_bodymass = penguins_size.groupby('species')['body_mass_g'].mean()mean_bodymass

四、数据可视化

为了更好地可视化数据集,可以使用各种绘图技术,在下文中简单介绍几个。有些图在可视化分类数据方面效果更好,有些图则更适合数值数据的可视化。

箱形图

通过显示数据分布来检查异常值或理解分类特征与连续特征之间关系的好方法。

如下图所示,由于没有数据点分别高于或低于最大值和最小值,因此未检测到异常值。此外,可以很容易地找到数据点的中位数,因为通过框内的水平线代表的就是中位数。

#Relationship of the culmen length and sex of the penguins.fig = plt.figure(figsize=(5,8))ax= sns.boxplot(x = penguins_size.sex, y=penguins_size['culmen_length_mm'],orient="v", palette = "cividis")plt.title('Culmen_length_mm')plt.show()

直方图

直方图用于描述频率分布。

#Shows us frequency distribution.fig,axs = plt.subplots(1,4,figsize=(20,6))axs[0].hist(penguins_size.culmen_depth_mm)axs[0].set_title('culmen_depth_mm')axs[0].set_ylabel('Frequency')axs[1].hist(penguins_size.culmen_length_mm)axs[1].set_title('culmen_length_mm')axs[2].hist(penguins_size.flipper_length_mm)axs[2].set_title('flipper_length_mm')axs[3].hist(penguins_size.body_mass_g)axs[3].set_title('body_mass_g')plt.show()

此外,kdeplot 是可视化数据分布的另一种方法。此图实际上类似于直方图,但不是将值放入条柱中,而是绘制一条曲线。

#Used for visualizing the probability density of a continuous var.sns.kdeplot(penguins_size.flipper_length_mm,color='Cyan')plt.show()

条形图

在条形图中,x 轴表示分类变量, y 轴表示数值变量。这就是为什么条形图描绘了这两个变量之间的关系。

plt.figure(figsize=(8,5))colors = ["cyan","lightblue", "darkblue"]sns.barplot(x =penguins_size['island'],y = penguins_size['body_mass_g'], palette = colors)plt.title('Body Mass of Penguins for different Islands')plt.show()

通过使用 pandas 函数交叉表,可以分析两个或多个变量之间的关系。作为说明,下面的条形图强调了生活在特定岛屿中的特定物种的企鹅数量之间的关系。

pd.crosstab(penguins_size['island'], penguins_size['species']).plot.bar(color=('DarkBlue', 'LightBlue', 'Teal'))plt.tight_layout()

小提琴图

小提琴图描述的是数据集的概率密度。由于两个不同的类别可能具有相同的平均值,在这种情况下观察小提琴图会更有用。

在下面的小提琴图中,梦幻岛企鹅体重的平均值在3000到4000克之间,而在比斯科岛企鹅体重的平均值大约在4500到5500克之间。

sns.violinplot(x = 'island',y = 'body_mass_g',data = penguins_size, palette="YlOrRd_r")plt.title('Violin plot')

想要完整代码的同学可以留言获取哦~

    推荐阅读
  • 教师节在什么时候开始(教师节是从什么时候开始有的)

    跟着小编一起来看一看吧!1985年举行的六届全国人大常委会第九次会议同意了国务院关于建立教师节的议案,决定每年的9月10日为教师节。教师节是一个感谢老师一年来教导的节日,不同国家规定的教师节时间不同。每年公历9月10日,是中国的教师节。1985年9月10日北京庆祝了第一个教师节。

  • 叙永桃花坞疫情防控要求 叙永县疫情防控

    购票成功后凭身份证原件或二维码入园。景区倡议广大市民和游客朋友们要注重自我防护,参观时自觉与他人保持距离,分散、有序游览。

  • 法学类院校如何报考(想要投身法律事业的同学)

    现在,清华法学院已经成为国内著名法学院之一。系国家“211工程”、“985工程优势学科创新平台”项目重点建设,列入首批“2011计划”、“111计划”、“卓越法律人才教育培养计划”。被誉为“政法人才的摇篮”。西南政法大学西南政法大学,由中华人民共和国教育部与重庆市人民政府共建,是新中国最早建立的政法类高等学府,改革开放后首批全国重点大学,全国首批卓越法律人才教育培养计划基地,被誉为新中国法学教育的“西南联大”。

  • 蒋光照名字打分115分(蒋光照是谁)

    文章目录:一、蒋光照相关名字打分97二、蒋光照相关名字评分113三、蒋光照相关名字推荐四、蒋光照相关名字大全五、其他人还看了一、蒋光照相关名字打分97蒋美丽蒋建成蒋寿元蒋立平蒋廷黼蒋依杉蒋云芳蒋嘉旻蒋正文蒋九明蒋乐志蒋晓霞蒋晓娟蒋文武蒋德红蒋林静蒋春玲蒋中秋蒋超曾蒋大伟蒋志伟蒋小强蒋传光蒋浩良蒋亦凡蒋明星蒋庆嘉蒋茜蒋晓飞蒋桂英蒋力学蒋晋蒋星宇蒋德舜蒋丽丽蒋北耿蒋抑卮蒋玉菡蒋梦涵蒋俊豪蒋永敬蒋博伦蒋

  • 幼儿园秋天衣服绘画(通渭县第四幼儿园开展)

    阳春三月,春暖花开,正是踏青远足,领略大自然美好春光的好时节。3月30日,通渭县第四幼儿园大班组小朋友和老师一起到北山桃林开展以“童画桃花灼灼,约会醉美春天”为主题的春游赏花实践体验活动,让小朋友们亲近大自然,开阔他们的视野,感受人与自然和谐相处。一大早,小朋友们在老师的带领下有序排着队向目的地出发,一路迎着和煦的春风,欣赏着春天的美景。

  • 女人吃黑椰枣的功效(女人吃黑椰枣的功效有哪些)

    我们一起去了解并探讨一下这个问题吧!女人吃黑椰枣的功效补充能量:黑椰枣中含有丰富的糖分,食用之后能够为身体补充能量、缓解疲劳,为工作生活提供能量。

  • 发财树根部腐烂怎么处理救治 发财树根部腐烂怎么处理救治视频

    在栽种后为了让发财树尽快的恢复正常生长,可以向土壤中浇灌矿物质丰富的河水或者湖水,浇透全部的土壤。

  • 枣泥核桃糕的做法 枣泥核桃糕的做法自制

    1、食材用料:鸡蛋3个、红枣泥130g、低粉110g、核桃仁50g、红糖60g、水20g、泡打粉一小勺、苏打粉1/8小勺、葵花籽油80g2、干红枣过水洗净后,放入锅中加适量水煮熟;3、去核后,用料理机或者擀面杖的一头敲打成泥;4、核桃仁平铺于烤盘,入200摄氏度预热的烤箱烤制3分钟左右至熟;5、将烤熟后的核桃仁取出,切碎;6、烤盘内铺好油纸;7、低粉、泡打粉以及小苏打混合后过筛备用;8、将鸡蛋磕入

  • 新鲜的月饼怎么做(需要准备哪些食材)

    以下内容大家不妨参考一二希望能帮到您!新鲜的月饼怎么做需要准备的原料:低筋粉200g、红豆沙400g、转化糖浆140g、蛋黄20个、植物油50g、枧水4g。制作方法:将蛋黄裹一层白酒放烧箱180度烤5—8分钟去腥。植物油,枧水,转化糖浆,面粉过筛倒入碗中搅拌均匀揉搓成面团,静置1小时左右备用。把面团揉成20个,将准备好的蛋黄和红豆沙馅包入面团中,用月饼模具压成形。将压成型的月饼刷一层鸡蛋液后放入烧箱180度烧5分钟定型。

  • 酸辣之味激活你我的味蕾(风味云南你桃)

    屏边森林覆盖率高,环境空气质量优良,堪称中国最南端的春城,2019年荣获“中国天然氧吧”荣誉称号。据了解,近年来,双江街道发展温带水果种植,种植小枣、猕猴桃等水果,截至2019年共种植猕猴桃230亩,全部为黄瓤红心猕猴桃。目前挂果上市的约60亩,预计收购84吨果子。据悉,截至目前,峨山县猕猴桃种植面积达3090亩,温带水果种植面积达29325.3亩,为当地山区群众脱贫增收带来了一定的经济效益。