高考考试网
当前位置: 首页 高考资讯

趣味谈数据分析(九道门如何执行探索性数据分析)

时间:2023-05-26 作者: 小编 阅读量: 4 栏目名: 高考资讯

九道门如何执行探索性数据分析探索性数据分析(EDA)是了解数据集的关键步骤在EDA中可以执行各种步骤,下文中会我会介绍4个主要步骤其中数据集来自帕尔默群岛企鹅数据数据分析优质社群,等你加入哦~一、仔细检查数据这一步的目的是找出数。

探索性数据分析(EDA)是了解数据集的关键步骤。在EDA中可以执行各种步骤,下文中会我会介绍 4 个主要步骤。其中数据集来自帕尔默群岛企鹅数据。数据分析优质社群,等你加入哦~

一、仔细检查数据

这一步的目的是找出数据集的变量和范围。它回答诸如"此数据集是否足够大?"或“它包含多少个特征或行?"等问题。加载数据集后,使用 head() 函数检查前五行将是了解数据集结构的良好开端,具体操作如下所示。

import pandas as pdimport numpy as np import seaborn as snsimport matplotlib.pyplot as pltimport warningswarnings.filterwarnings('ignore')#Loading the datasetpenguins_size = pd.read_csv('penguins_size.csv', sep = ",")penguins_size.head()

print("Shape is: ", penguins_size.shape)

从这里得出数据集的范围为(344,7),这意味着存在7个特征和344行,这表示数据集不够大。为了可视化特征的数据类型,可以使用 info() 函数,如下所示。结果显示,物种、岛屿和性别是目标,其余特征是浮动变量。使用 dtypes 也是了解列的数据类型的一种替代方法。

penguins_size.info()

penguins_size.dtypes

二、数据清理

查找缺失值、删除重复项等是探索性数据分析的关键步骤。这些值可能会导致我们的模型最终得出错误的结论。仅调查 isnull()是不够的。例如,在包含心率特征的数据集中,该特征的值不能为 0。在这种情况下,0 也是一个缺失值,需要处理。

有多种方法可以处理数据的缺失值,例如删除包含缺失值的行(如果数据集足够大并且缺失值的数量不是太多,这是一个选项),插补方法(特征的平均值/中位数)等。

penguins_size.isnull().sum()

如上所示,除岛屿和物种外的所有特征在此数据集中都包含缺失值。因为数据集非常小,所以我选择将浮点特征的缺失值与相应特征的均值相结合。

penguins_size.value_counts(["sex"])

penguins_size['sex'] = penguins_size['sex'].fillna('MALE')

对于企鹅的性别,在检查了雌性和雄性值的计数后,将考虑最常见的值,在这种情况下,缺失值将用 "MALE" 进行估算。如上所示,另一个值为".",必须将其归因或丢弃。在所有缺失值被插补或删除后,我们再次使用 isna () 函数进行检查,确定没有遗漏值。

penguins_size.drop(axis = 0, inplace = True, index = 336)penguins_size.isna().sum()

最后,对于这个部分,需要检查是否存在任何重复行。

duplicated = penguins_size.duplicated()print(duplicated.sum())

三、统计洞察

这也是理解数据的一部分。处理缺失值后,可以使用 describe() 函数来获取数据的平均值、最大值、最小值和标准偏差等信息。此方法还可用于检测缺失值,例如,如果特征值的最小值在不应为 0 的地方为 0,则 describe()函数有助于处理缺失值。

penguins_size.describe()

通过使用 value_counts() 函数,可以计算对象的唯一值。此外,每个物种的体重平均值可以通过使用 groupby()函数找到对于连续特征,此函数在分类和观察数据方面非常有用。

penguins_size['species'].value_counts()

# Find body mass mean for each species.mean_bodymass = penguins_size.groupby('species')['body_mass_g'].mean()mean_bodymass

四、数据可视化

为了更好地可视化数据集,可以使用各种绘图技术,在下文中简单介绍几个。有些图在可视化分类数据方面效果更好,有些图则更适合数值数据的可视化。

箱形图

通过显示数据分布来检查异常值或理解分类特征与连续特征之间关系的好方法。

如下图所示,由于没有数据点分别高于或低于最大值和最小值,因此未检测到异常值。此外,可以很容易地找到数据点的中位数,因为通过框内的水平线代表的就是中位数。

#Relationship of the culmen length and sex of the penguins.fig = plt.figure(figsize=(5,8))ax= sns.boxplot(x = penguins_size.sex, y=penguins_size['culmen_length_mm'],orient="v", palette = "cividis")plt.title('Culmen_length_mm')plt.show()

直方图

直方图用于描述频率分布。

#Shows us frequency distribution.fig,axs = plt.subplots(1,4,figsize=(20,6))axs[0].hist(penguins_size.culmen_depth_mm)axs[0].set_title('culmen_depth_mm')axs[0].set_ylabel('Frequency')axs[1].hist(penguins_size.culmen_length_mm)axs[1].set_title('culmen_length_mm')axs[2].hist(penguins_size.flipper_length_mm)axs[2].set_title('flipper_length_mm')axs[3].hist(penguins_size.body_mass_g)axs[3].set_title('body_mass_g')plt.show()

此外,kdeplot 是可视化数据分布的另一种方法。此图实际上类似于直方图,但不是将值放入条柱中,而是绘制一条曲线。

#Used for visualizing the probability density of a continuous var.sns.kdeplot(penguins_size.flipper_length_mm,color='Cyan')plt.show()

条形图

在条形图中,x 轴表示分类变量, y 轴表示数值变量。这就是为什么条形图描绘了这两个变量之间的关系。

plt.figure(figsize=(8,5))colors = ["cyan","lightblue", "darkblue"]sns.barplot(x =penguins_size['island'],y = penguins_size['body_mass_g'], palette = colors)plt.title('Body Mass of Penguins for different Islands')plt.show()

通过使用 pandas 函数交叉表,可以分析两个或多个变量之间的关系。作为说明,下面的条形图强调了生活在特定岛屿中的特定物种的企鹅数量之间的关系。

pd.crosstab(penguins_size['island'], penguins_size['species']).plot.bar(color=('DarkBlue', 'LightBlue', 'Teal'))plt.tight_layout()

小提琴图

小提琴图描述的是数据集的概率密度。由于两个不同的类别可能具有相同的平均值,在这种情况下观察小提琴图会更有用。

在下面的小提琴图中,梦幻岛企鹅体重的平均值在3000到4000克之间,而在比斯科岛企鹅体重的平均值大约在4500到5500克之间。

sns.violinplot(x = 'island',y = 'body_mass_g',data = penguins_size, palette="YlOrRd_r")plt.title('Violin plot')

想要完整代码的同学可以留言获取哦~

    推荐阅读
  • sata设置ahci还是raid(IDEAHCIRAID三种硬盘模式有什么区别)

    IDE、AHCI、RAID三种硬盘模式有什么区别IDE模式IDE是表示硬盘的传输接口。IDE模式可以通过映射通吃SATA硬盘,由于无需加载驱动程序,它的兼容性能超强,适用WinXP和Win7/8系统。AHCI模式原生支持SATA硬盘,它的优势在于它能够将NCQ技术充分发挥作用,或者说AHCI是现有的SATA硬盘主控接口中,除了复杂的磁盘阵列模式之外,最能发挥SATA硬盘性能。Win7/8系统完美支持AHCI模式,对WinXP兼容性不佳。

  • 快递面单泄露事件获利3000万(快递业泄露个人信息调查)

    11月17日,圆通速递称“疑似有加盟网点个别员工与外部不法分子勾结,利用员工账号和第三方非法工具窃取运单信息,导致信息外泄。”但圆通的回应未明确指出“内鬼”外泄快递用户信息的规模及贩卖金额等情况。张某伙同高某多次发布购买、租用快递查询系统账号的信息,并以每天1000元的价格将得到的账号信息贩卖给河南籍男子马某。记者进一步调查发现,除了圆通,市面上其他快递公司也存在“内鬼”参与贩卖快递用户信息的现象。

  • 女人必吃的暖宫水果有哪些(哪些水果宫寒女人不宜多吃)

    女人必吃的暖宫水果有哪些女士可以吃的暖宫水果比较多,比如红枣、核桃、石榴、榴莲、桃子、芒果等,都属于温性水果。如果某些女性有宫寒体质,平时在饮食方面,除了需要多吃些暖宫的食物外,比如红豆、桂圆和阿姣、牛、羊肉外,还需要多吃些温性水果,也具有暖宫效果。生果多归入寒凉的。假如确实宫寒得话那将来要少吃这种水果了。

  • 职工带薪年休假取消的规定(带薪年休假的那些事)

    春节是合家团聚的好日子。第二种情况是劳动者依据《劳动合同法》第三十八条单方解除劳动合同,一旦劳动者据此解除劳动合同行为的理由成立,则劳动者无需提前通知解除,即用人单位由于其自身原因造成未安排当年度年休假的,用人单位应当支付劳动者当年度应休未休年休假的工资报酬。

  • 求助成语填空答案(找一找下列哪个成语用错了)

    成语是汉语文化的瑰宝,也是我国传统文化中的一大特色。众人皆说,成之于语,故成语。成语有固定的结构形式,一般都是4个字,也有6个字和8个字的。因此在日程的沟通和书写中,大家都非常喜欢使用成语。“鼎力相助”是一个敬辞,指的是别人对自己的大力帮助,一般都是用在请人帮助的时候,因此“我一定鼎力相助”是一句病句。在日常沟通交流中,除了“鼎力相助”,还有许多成语非常容易被错用。

  • 霜降是秋天还是冬天(你答对了吗)

    虽然我国跨纬度比较广,但是到了霜降的世界,就算是最炎热的城市不会让人感觉到热。纬度偏南的南方地区,平均气温多在16℃左右。东北北部、内蒙东部和西北大部平均气温已在0℃以下。霜降现象出现的时间在各地都有所不同,在我国也并不是每个地方都会出现。就全年霜日而言,青藏高原上的一些地方即使在夏季也有霜雪,年霜日都在200天以上,是我国霜日最多的地方。

  • 北京车辆长期不开还用年检吗(北京车辆长期不开还用年检吗现在)

    如果驾驶的车辆不是自己名下的,既可以通过拨打机动车检测场电话的方式预约车辆年检,也可以通过“交管12123”手机APP完成“备案非本人机动车”后进行网上预约。

  • 关于李贺的资料(李贺的简介)

    河南府福昌县昌谷乡人,祖籍陇西郡。唐朝中期浪漫主义诗人,与诗仙李白、李商隐称为“唐代三李”,后世称李昌谷。诗作想象极为丰富,引用神话传说,托古寓今,后人誉为“诗鬼”。李贺是继屈原、李白之后,中国文学史上又一位颇享盛誉的浪漫主义诗人,有“太白仙才,长吉鬼才”之说。著有《昌谷集》。

  • 监控录像怎么删除(监控录像删除方法)

    以下内容大家不妨参考一二希望能帮到您!监控录像怎么删除在电脑主页面找到监控软件,鼠标右击选择“属性”选项,找到文件所在。返回电脑桌面,双击打开“我的电脑”,找到储存监控录像的文件夹。点击进入文件夹,选择自己需要删除的文件,右键选择“删除”即可。

  • 干净短句暖心家人(送给家人暖心的祝福语)

    干净短句暖心家人吉祥如意掸浮尘,花开富贵到如今,金玉满堂爱子孙,福禄寿喜满乾坤,海屋添筹古来稀,年华筵寿童颜身!晚辈祝您健康、快乐!您是我尊敬的长辈,我永远感谢您的关怀,今日为您庆寿辰,衷心祝您福满门,寿无疆!福如东海、寿比南山;日月昌明、松鹤长春;笑口常开、天伦永享。爸爸,无论您在哪儿,那里就是我们最快乐和向往的地方。外婆,生日快乐。