高考考试网
当前位置: 首页 高考资讯

正则化参数怎么选(L1和L2正则化的直观解释)

时间:2023-08-09 作者: 小编 阅读量: 4 栏目名: 高考资讯

L1和L2正则化的直观解释过度拟合是当机器学习或统计模型针对特定机器学习数据集定制并且无法泛化到其他数据集时发生的现象这通常发生在复杂的机器学习模型中,如深度神经网络正则化是引入附加信息以防止过度拟合的过程本文的重点是L1和L。

过度拟合是当机器学习或统计模型针对特定机器学习数据集定制并且无法泛化到其他数据集时发生的现象。这通常发生在复杂的机器学习模型中,如深度神经网络。

正则化是引入附加信息以防止过度拟合的过程。本文的重点是L1和L2正则化。

有很多解释有点过于抽象,在本文中,我将与您分享一些直觉,为什么L1和L2使用梯度下降。梯度下降只是一种使用梯度值通过(迭代)更新找到“正确”系数的方法。

L1和L2

L1和L2正则化的名称分别来源于向量w的L1和L2范数。。这是关于规范的入门读物:

1-norm (也称为L1范数)

2-norm (也称为L2范数或欧几里德范数)

p -norm

实现正则化的L1范数的线性回归模型称为套索回归(lasso regression),实现正则化的L2范数的线性回归模型称为岭回归(ridge regression)。要实现这两个,请注意线性回归模型保持不变:

但损失函数的计算包含了这些正则化项:

没有正则化的损失函数

L1正则化的损失函数

L2正则化的损失函数

正则化项是“限制”,通过该最小化损失函数时,除了具有以最小化真之间的误差的优化算法必须“坚持” ÿ和预测ŷ。

模型

为简单起见,我们定义一个简单的线性回归模型ŷ与一个独立变量。

在这里,我使用了深度学习惯例w('weight')和b('bias')。

在实践中,简单的线性回归模型不容易过度拟合。如引言中所述,深度学习模型由于其模型复杂性而更容易受到此类问题的影响。

因此,请注意本文中使用的表达式很容易扩展到更复杂的机器学习模型,而不仅限于线性回归。

损失函数

然后我们将损失函数定义为平方误差,其中误差是y(真实值)和ŷ(预测值)之间的差异。我们称这个损失函数为L。

没有正则化的损失函数

假设我们的模型将使用此损失函数进行过度拟合。

L1正则化的损失函数

根据我们的损失函数,在L中加入L1正则化项如下:

其中正则化参数λ > 0被手动调整。注意,除了w=0时,|w|在任何地方都是可微的,如下所示。我们稍后会需要这个。

L2正则化的损失函数

把L2的正则化项加到L中是这样的:

其中,λ > 0。

梯度下降

现在,我们用梯度下降优化法来求w。

求L 、L0、 L1的梯度

L:

L1:

L2:

如何防止过度拟合?

让我们在上面的等式中执行以下替换:

  • η = 1,
  • H = 2x(wxby)

因此我们有如下:

L:

L1:

L2:

观察具有和不具有正则化参数λ的权重更新之间的差异。

L vs. {L1和L2}

直觉A:

让我们用等式说明。等式0执行w-H给我们一个导致过度拟合的w值。直观地说,等式1.1-2会减少过度拟合,因为引入的λ。

直觉B:

让我们说一个过度拟合的模型意味着我们有一个非常拟合我们模型的w值。“完美”意味着如果我们在模型中替换数据(x),我们的预测ŷ将非常接近真实的y。当然,这很好,但我们不希望完美。为什么?因为这意味着我们的模型仅适用于我们训练的数据集。这意味着我们的模型将产生远离其他数据集的真实值的预测。所以我们从不完美的角度来解决,希望我们的模型也可以与其他数据进行密切的预测。为了做到这一点,有了等式1.1-2中的λ惩罚项。

直觉C:

请注意,H取决于机器学习模型(w和b)和数据(x和y)。仅根据公式中的模型和数据更新权重。等式0会导致过度拟合,从而导致泛化不佳。另一方面,在等式1.1-2中,w的最终值不仅由模型和数据的影响,还由预定义的参数λ影响。因此,如果我们设置适当的λ值,我们可以防止过度拟合(虽然太大的值会导致模型严重不拟合)。

L1与L2

直觉D:

我们现在将注意力集中在L1和L2上,并重写等式1.1-2(通过重新排列其λ和H项如下):

L1:

L2:

对于L1(公式3.1),如果w为正,则正则化参数λ > 0将通过从w减去λ而将w变得更小。在等式3.2,w为负,则将λ加到w,推动它减去负值。因此,这具有将w推向0的效果。

这在单变量线性回归模型中当然是毫无意义的,但是它将证明在多变量回归模型中“去除”无用变量是非常有用的。您还可以将L1视为减少模型中的特征数量。以下是L1尝试在多元线性回归模型中的示例:

虽然L1取决于W的符号, L2则不管它的符号是什么,只要把w推开。

,
    推荐阅读
  • 伴手礼贺卡怎么写给闺蜜(伴手礼贺卡怎么写给闺蜜祝福)

    这个礼物虽然不贵重,但是代表了我们夫妻两人的心意,希望能够给大家留一个纪念。婚礼有不满意的地方,请多多包涵。祝愿你身体健康,生活美满,阖家幸福。我们会珍惜彼此,会为了对方成为更好的自己。

  • 行车记录仪 行车记录仪内存卡一般用多大的

    安装行车记录仪后,能够记录汽车行驶全过程的视频图像和声音,可为交通事故提供证据。平时还可以做停车监控,安装行车记录仪,视频资料不可以裁剪,如果裁剪,在责任事故发生后则无法提供帮助。

  • 上市公司指数翻红(海岱财经最新一期INC指数TOP50发布)

    作为淄博板块排名第一的英科医疗,其INC指数以815.02排在榜单第2位,比10月份榜单位次下降了1位。不过,其“网络关注度”指标却从10月份的3.54上升至11月份的3.63,代表其在网络平台中的关注数据得到提升。11月份,对英科医疗而言,获13家机构调研结果公告与投资者提问或是公司网络关注度提升的重要因素。相较之下,其传播广度、传播热点、网络关注度以及官网呈现度4项指标均有下降。

  • 文成公主相关历史记载(关于文成公主的历史记忆)

    在唐太宗统治初年,面临的国内民族关系是非常复杂的。所以在唐太宗期间,和亲已经成为一种政治交往,也是和平友好的一种有利举措。但是吐蕃的这次求婚并不顺利,从历史记载来看,吐谷浑人从中作祟,让吐蕃人很生气。正是基于这一点,吐谷浑和吐蕃向唐朝的求亲以及唐朝允许与否,也成为当时民族关系的温度表。比如李世民这一支,他的宗室子系中有很多女子作为公主和亲。

  • 国家老年大学有什么内容? 国家老年大学标志

    “来到国家老年大学,总有一门课程适合您!”国家开放大学党委副书记、老年大学校长刘臣介绍,目前,国家老年大学已初步建成全国老年教育公共服务平台,积极整合优质资源,汇聚了40.7万门、总计397.3万分钟老年教育课程资源,打造国家级老年教育资源库,为未来向全国老年教育机构推送优质资源提供保障。有服务——国家老年大学将深入推进办学模式创新,探索线上和线下结合、“康养学游”融合的新模式。

  • 台风黑格比是谁起的名字(关于台风黑格比的简介)

    下面内容希望能帮助到你,我们来一起看看吧!台风黑格比是谁起的名字黑格比,英文名称:Hagupit;名字来源:菲律宾;名字意义:鞭子,根据日本气象厅资料,该系统于2020年8月1日被该机构升格为热带风暴,给予编号2004,并给予命名黑格比。

  • 红薯跟鸡蛋能同时吃吗(红薯可不可以和鸡蛋同时吃)

    下面希望有你要的答案,我们一起来看看吧!红薯和鸡蛋都属于人们日常生活中经常食用的食物,同时吃红薯和鸡蛋之后,不会影响彼此所含营养物质的消化吸收,也不会相互发生反应,产生对人体健康有明确或者潜在危害的物质。但健康成年人一天食用鸡蛋数量不要超过一颗,如果是糖尿病患者,应该限制红薯的摄入。

  • 美容玻尿酸的作用有哪些(玻尿酸的美容作用多)

    注射玻尿酸后要保持脸部放松,不能做太多的脸部表情,两个星期内避免接触高热环境。

  • 宝宝胎动的各种信号(数胎动能读懂宝宝的求救信号)

    根据健康胎儿睡眠周期为20-40分钟,最长不会超过92分钟,所以另一种计算方法是标准2小时内胎动不低于6次,也算正常,一旦低于6次,就需要进一步检查。对于有胎儿宫内缺氧高危风险的孕妇,建议每天数胎动。1月11日,广州一个38周的准妈妈在胎动消失15小时后,才前往医院就诊,结果医生一检查,立即手术将胎儿分娩了出来。所以,越是临近生产,孕妈妈们数胎动更不能忽视。如果出现胎动异常,一定要及时就医。

  • 红薯粉的做法大全(红薯粉的教程大全)

    红薯粉的做法大全做法一用料:红薯粉一小把、辣椒粉2勺、蒜末1勺、熟白芝麻1勺、小米椒2个、陈醋2勺、生抽2勺、白糖半勺、盐少许、熟花生2勺、香菜榨菜丝少许、热油适量。除了液体,小米椒切段、切蒜末、姜丝,再将固体调料倒入碗中。将煮好的红薯粉加入进碗里,再加点煮红薯粉的水。再倒入红薯粉丝用筷子抖开,抖散,加入适量盐,两勺生抽,耗油,糖,再加水煮几分钟即可出锅。