高考考试网
当前位置: 首页 高考资讯

趣味谈数据分析(九道门如何执行探索性数据分析)

时间:2023-05-26 作者: 小编 阅读量: 5 栏目名: 高考资讯

九道门如何执行探索性数据分析探索性数据分析(EDA)是了解数据集的关键步骤在EDA中可以执行各种步骤,下文中会我会介绍4个主要步骤其中数据集来自帕尔默群岛企鹅数据数据分析优质社群,等你加入哦~一、仔细检查数据这一步的目的是找出数。

探索性数据分析(EDA)是了解数据集的关键步骤。在EDA中可以执行各种步骤,下文中会我会介绍 4 个主要步骤。其中数据集来自帕尔默群岛企鹅数据。数据分析优质社群,等你加入哦~

一、仔细检查数据

这一步的目的是找出数据集的变量和范围。它回答诸如"此数据集是否足够大?"或“它包含多少个特征或行?"等问题。加载数据集后,使用 head() 函数检查前五行将是了解数据集结构的良好开端,具体操作如下所示。

import pandas as pdimport numpy as np import seaborn as snsimport matplotlib.pyplot as pltimport warningswarnings.filterwarnings('ignore')#Loading the datasetpenguins_size = pd.read_csv('penguins_size.csv', sep = ",")penguins_size.head()

print("Shape is: ", penguins_size.shape)

从这里得出数据集的范围为(344,7),这意味着存在7个特征和344行,这表示数据集不够大。为了可视化特征的数据类型,可以使用 info() 函数,如下所示。结果显示,物种、岛屿和性别是目标,其余特征是浮动变量。使用 dtypes 也是了解列的数据类型的一种替代方法。

penguins_size.info()

penguins_size.dtypes

二、数据清理

查找缺失值、删除重复项等是探索性数据分析的关键步骤。这些值可能会导致我们的模型最终得出错误的结论。仅调查 isnull()是不够的。例如,在包含心率特征的数据集中,该特征的值不能为 0。在这种情况下,0 也是一个缺失值,需要处理。

有多种方法可以处理数据的缺失值,例如删除包含缺失值的行(如果数据集足够大并且缺失值的数量不是太多,这是一个选项),插补方法(特征的平均值/中位数)等。

penguins_size.isnull().sum()

如上所示,除岛屿和物种外的所有特征在此数据集中都包含缺失值。因为数据集非常小,所以我选择将浮点特征的缺失值与相应特征的均值相结合。

penguins_size.value_counts(["sex"])

penguins_size['sex'] = penguins_size['sex'].fillna('MALE')

对于企鹅的性别,在检查了雌性和雄性值的计数后,将考虑最常见的值,在这种情况下,缺失值将用 "MALE" 进行估算。如上所示,另一个值为".",必须将其归因或丢弃。在所有缺失值被插补或删除后,我们再次使用 isna () 函数进行检查,确定没有遗漏值。

penguins_size.drop(axis = 0, inplace = True, index = 336)penguins_size.isna().sum()

最后,对于这个部分,需要检查是否存在任何重复行。

duplicated = penguins_size.duplicated()print(duplicated.sum())

三、统计洞察

这也是理解数据的一部分。处理缺失值后,可以使用 describe() 函数来获取数据的平均值、最大值、最小值和标准偏差等信息。此方法还可用于检测缺失值,例如,如果特征值的最小值在不应为 0 的地方为 0,则 describe()函数有助于处理缺失值。

penguins_size.describe()

通过使用 value_counts() 函数,可以计算对象的唯一值。此外,每个物种的体重平均值可以通过使用 groupby()函数找到对于连续特征,此函数在分类和观察数据方面非常有用。

penguins_size['species'].value_counts()

# Find body mass mean for each species.mean_bodymass = penguins_size.groupby('species')['body_mass_g'].mean()mean_bodymass

四、数据可视化

为了更好地可视化数据集,可以使用各种绘图技术,在下文中简单介绍几个。有些图在可视化分类数据方面效果更好,有些图则更适合数值数据的可视化。

箱形图

通过显示数据分布来检查异常值或理解分类特征与连续特征之间关系的好方法。

如下图所示,由于没有数据点分别高于或低于最大值和最小值,因此未检测到异常值。此外,可以很容易地找到数据点的中位数,因为通过框内的水平线代表的就是中位数。

#Relationship of the culmen length and sex of the penguins.fig = plt.figure(figsize=(5,8))ax= sns.boxplot(x = penguins_size.sex, y=penguins_size['culmen_length_mm'],orient="v", palette = "cividis")plt.title('Culmen_length_mm')plt.show()

直方图

直方图用于描述频率分布。

#Shows us frequency distribution.fig,axs = plt.subplots(1,4,figsize=(20,6))axs[0].hist(penguins_size.culmen_depth_mm)axs[0].set_title('culmen_depth_mm')axs[0].set_ylabel('Frequency')axs[1].hist(penguins_size.culmen_length_mm)axs[1].set_title('culmen_length_mm')axs[2].hist(penguins_size.flipper_length_mm)axs[2].set_title('flipper_length_mm')axs[3].hist(penguins_size.body_mass_g)axs[3].set_title('body_mass_g')plt.show()

此外,kdeplot 是可视化数据分布的另一种方法。此图实际上类似于直方图,但不是将值放入条柱中,而是绘制一条曲线。

#Used for visualizing the probability density of a continuous var.sns.kdeplot(penguins_size.flipper_length_mm,color='Cyan')plt.show()

条形图

在条形图中,x 轴表示分类变量, y 轴表示数值变量。这就是为什么条形图描绘了这两个变量之间的关系。

plt.figure(figsize=(8,5))colors = ["cyan","lightblue", "darkblue"]sns.barplot(x =penguins_size['island'],y = penguins_size['body_mass_g'], palette = colors)plt.title('Body Mass of Penguins for different Islands')plt.show()

通过使用 pandas 函数交叉表,可以分析两个或多个变量之间的关系。作为说明,下面的条形图强调了生活在特定岛屿中的特定物种的企鹅数量之间的关系。

pd.crosstab(penguins_size['island'], penguins_size['species']).plot.bar(color=('DarkBlue', 'LightBlue', 'Teal'))plt.tight_layout()

小提琴图

小提琴图描述的是数据集的概率密度。由于两个不同的类别可能具有相同的平均值,在这种情况下观察小提琴图会更有用。

在下面的小提琴图中,梦幻岛企鹅体重的平均值在3000到4000克之间,而在比斯科岛企鹅体重的平均值大约在4500到5500克之间。

sns.violinplot(x = 'island',y = 'body_mass_g',data = penguins_size, palette="YlOrRd_r")plt.title('Violin plot')

想要完整代码的同学可以留言获取哦~

    推荐阅读
  • 华硕x570-p怎么没有声音(应该怎么处理)

    以下内容大家不妨参考一二希望能帮到您!华硕x570-p怎么没有声音首先在电脑左下角的搜索框中输入控制面板。打开控制面板之后,我们点击右侧的查看方式,选择小图标。接着我们在调整计算机的设置里面,选择高清晰音频管理器。接着点击右上角的设置按钮,选择选项。接着我们勾选ac97前面板,然后点击确定。这样前置耳机插孔就可以听到声音了。

  • 穿越火线早已被人遗忘的模式(穿越火线巅峰时期的三大热门模式)

    反正是大街小巷各大小网吧中,只要是玩射击游戏首选“穿越火线”,同时CF包含的玩家大多辐射到00后一80后这个年龄层。说到穿越火线当前比较热门的对战模式,应该分为:爆破模式、团队竞技运输船、突围模式、生化模式。穿越火线爆破模式最为经典两张地图应该就是黑色城镇和沙漠一灰,黑色城镇作为穿越火线首张爆破地图,虽然参考了CS中的元素,但是加入了创新化改进。对于曾经是穿越火线的爱好者们,你们最中意的是哪个模式呢?

  • 无锡清明祭扫有什么规矩? 清明祭扫的忌讳

    祭扫须知预约成功者按照预约时间准时到达,出示预约凭证,配合公墓工作人员查验“两码”,做好体温测量,全程规范佩戴口罩。祭扫过程中,严格遵守公墓安全管理各项规定。祭扫时禁止焚烧纸钱、纸扎等祭品,积极采取鲜花祭扫等文明绿色低碳的祭扫方式祭奠先人。控制祭扫时间,原则上在墓区停留时间不超过1小时。倡导错时错峰祭扫,合理安排祭扫时间,自觉减少祭扫人数,如遇限流需要排队,应保持距离,耐心等候。

  • 什么皮肤病会被传染特别严重(你需要知道的传染性皮肤病及传播途径)

    4、自身免疫性疾病:红斑狼疮、天疱疮、血管炎等。

  • 海棠树适合什么土壤 海棠树适合酸性土壤吗?

    海棠树多以盆栽为主,在园林常作景箱种植,有时亦可作悬挂种植,那海棠树适合什么土壤?海棠树适合疏松肥沃、排水性好、富含养分的弱碱性花土种植,在栽培时可以用普通园土加一些腐叶土和沙搅拌均匀使用即可。由于海棠花比较害怕根部积水,因此栽培时,土壤要有一定的透气性。

  • 春季喝什么汤最好(哪种汤适合春天喝)

    春季喝什么汤最好黄豆芽大骨汤材料:猪骨、黄豆芽、红萝卜、姜片、全贝干、葱花、盐、胡椒粉适量。取一汤煲放入适量的水,烧沸后加入猪骨、姜片和全贝先煲。煲至汤色浓白时加入红萝卜块煲30分钟左右,再加入黄豆。猴头菇浸发;猪瘦肉切厚块。然后将内锅放进外锅中,盖上锅盖。2个半小时后,开启锅盖,放进适量食盐和少量油调味即可。

  • 婷美重压塑形瘦身衣(婷美7日瘦王者归来)

    具有“国民品牌”之誉的婷美在近期已正式宣告进军减肥减脂代餐领域,以“7日瘦”塑型计划高效帮助更多人健康减脂,力争成为减肥这一社交新零售市场最热品类中的“王者”。据了解,人们无法将减肥减脂代餐坚持下来,主要有三大原因。婷美“7日瘦”更懂消费者的期待,更尊重人们的生活习惯。而其背后的操盘手,正是有着“微商女神”之称的杨晶晶女士。据悉,杨晶晶女士是国内微商行业的开拓者和见证者。

  • 米须的禁忌 西米的功效与作用禁忌

    一般成年人使用的时候每次3到5克左右就可以。在很大程度上改善胰岛素的功能。如果是空腹的时候使用玉米须的话,很可能就到成血糖的降低。

  • 日本的祭是什么意思(日本的祭解释)

    我们一起去了解并探讨一下这个问题吧!日本的祭是什么意思日本的“祭”是一种例行的集市活动,是一种仪式。祭礼源于日本的稻作、农耕文化,由于对自然的崇拜使日本产生了诸多的山神、海神、农神等各种各样的神。日本人认为诸神是与人类共同存在于自然界的,因此具有与自然诸神和睦相处融合的思想。日本有各种各样的祭,比较出名的是京都祗园祭、东京的神田祭、大阪的天神祭,同列日本的三大祭礼。

  • 50米有多长参照物 50厘米有多高参照物

    50米相当于半个足球场的长度,成年人一步约零点六到零点七米,五十米大约有七十到八十步。50米是表示两点的直线距离有50米远,或可以说是0.05公里远,一个篮球场长28.65米,宽15.24米,50米差不多2个篮球场。