高考考试网
当前位置: 首页 高考资讯

图像识别算法的基本原理(最大规模数据集)

时间:2023-05-27 作者: 小编 阅读量: 6 栏目名: 高考资讯

Facebook正在多达五千万张图像的数据集上训练模型,即使是在提供所有监督的情况下,数十亿张图像的训练也是不可行的。该方法显示出优秀的迁移学习结果,表明该模型的图像分类结果可广泛应用于其他AI系统。这是截至目前最高的ImageNet基准准确率,比之前最优模型高2%。Facebook研究者还发现其最大的模型仍未充分利用35亿张图像数据集的优势,这表明研究者应该在更大的模型上进行训练。该研究指出了使用弱监督数据的长期影响。

人工标注数据需要耗费大量人力成本和时间,对模型训练数据集的规模扩大带来限制。Facebook 在图像识别方面的最新研究利用带有 Hashtag 的大规模公共图像数据集解决了该问题,其最佳模型的性能超越了之前最优的模型。

图像识别是 AI 研究的重要分支之一,也是 Facebook 的研究重心。Facebook 的研究人员和工程师旨在扩展计算机视觉的边界,造福现实世界。例如,使用 AI 生成图像的音频字幕帮助视觉受损的用户。为了改善这些计算机视觉系统,训练它们识别和分类大量对象,Facebook 需要包含数十亿张图像的数据集,如今常见的数百万张图像的数据集已经不足够了。

由于当前模型通常在人类标注者手动标注的数据上进行训练,因此提升识别准确率不只是向系统输入更多图像那么简单。这种劳动密集型的监督学习过程通常获得最好的性能,但是手动标注的数据集在规模方面已经接近其函数极限。Facebook 正在多达五千万张图像的数据集上训练模型,即使是在提供所有监督的情况下,数十亿张图像的训练也是不可行的。

Facebook 研究人员和工程师通过在带有标签(hashtag)的公共图像数据集上训练图像识别网络解决了该问题,其中最大的数据集包含 35 亿张图像和 17000 个 hashtag。该方法的关键是使用现有公开的、用户提供的 hashtag 作为标注,取代手动标注。该方法在测试过程中表现良好。通过使用包含 10 亿图像的此类数据集训练计算机视觉系统,Facebook 得到了一个历史最高得分——在 ImageNet 上达到了 85.4% 的准确率。伴随着这一图像识别任务中的突破,该研究为如何从监督训练转向弱监督训练提供了重要洞见。在弱监督训练中,研究者使用现有标注(在本文中指 hashtag)而不是专为 AI 训练而选择的标注。Facebook 计划开源这些模型的嵌入,这样研究社区就可以使用这些表征,基于它们完成更高级别的任务。

大规模使用 hashtag

由于人们通常使用 hashtag 描述照片,所以 Facebook 研究人员认为它们可以作为模型训练数据的完美来源。这允许研究人员使用 hashtag 来完成一直以来的目标:基于人们自己标注的 hashtag 获取更多图像。

但是 hashtag 通常指非视觉概念,如 #tbt 表示「throwback Thursday」。或者它们比较模糊,如 #party 可以描述活动、设置,或者 both。对于图像识别来说,tag 的作用是弱监督数据,而模糊和/或不相关的 hashtag 是标签噪声,可能会混淆深度学习模型。

这些噪声标签是大规模训练工作的重点,因此研究人员开发了一种新方法,专为使用 hashtag 监督执行图像识别实验而准备。该方法包括处理每个图像的多个标签(加 hashtag 的用户通常会添加多个 hashtag)、整理 hashtag 同义词、平衡经常出现的 hashtag 和出现频率较低的 hashtag 的影响力。为了使这些标签有助于图像识别训练,Facebook 研究团队训练了一个大规模 hashtag 预测模型。该方法显示出优秀的迁移学习结果,表明该模型的图像分类结果可广泛应用于其他 AI 系统。这一新研究基于 Facebook 之前的研究,包括基于用户评论、hashtag 和视频的图像分类研究。这一对弱监督学习的全新探索是一次广泛的合作,Facebook 应用机器学习团队(AML)和 Facebook 人工智能研究院(FAIR)均参与其中。

在规模和性能方面开辟新天地

由于单个机器完成模型训练需要一年多时间,因此 Facebook 在多达 336 个 GPU 上进行分布式训练,将总训练时间缩短至几周。在如此大的模型规模面前(该研究中最大的模型是具备超过 86.1 千万个参数的 ResNeXt 101-32x48d),使用分布式训练方法尤其重要。此外,Facebook 设计了一种方法来移除重复项,确保不会在评估数据上进行训练,这个问题在此类研究中经常出现。

Facebook 希望能看到图像识别方面的性能提升,不过对实验结果仍然感到惊讶。在 ImageNet 图像识别基准上,其最佳模型达到了 85.4% 的准确率,该模型在 10 亿张图像上进行训练,训练数据一共包括 1500 个 hashtag。这是截至目前最高的 ImageNet 基准准确率,比之前最优模型高 2%。研究者将卷积神经网络架构的影响力进行分解,观测到的性能提升更加显著:将数十亿图像(以及大量 hashtag)用于深度学习导致高达 22.5% 的性能提升。

在另一个主要基准 COCO 上,研究者发现使用 hashtag 进行预训练可以将模型的平均准确率提高 2% 以上。

这些是图像识别和目标检测领域的基础改进,表示计算机视觉又前进了一步。但是研究者的实验还揭示了大规模训练和噪声标签的优势和面临的挑战。

例如,尽管扩大训练数据集规模是值得的,但选择匹配特定图像识别任务的 hashtag 集也具备同等的重要性。研究者通过在 10 亿张图像、1500 个匹配 ImageNet 数据集类别的 hashtag 上的训练结果优于在同样大小的数据集、但使用全部 17000 个 hashtag 的训练结果。另一方面,对于类别较多的任务,使用 17000 个 hashtag 进行训练的模型性能更好,这表明研究者应该在未来训练中增加 hashtag 的数量。

增加训练数据规模通常有利于图像识别。但是它也会产生新的问题,包括定位图像中对象位置的能力下降。Facebook 研究者还发现其最大的模型仍未充分利用 35 亿张图像数据集的优势,这表明研究者应该在更大的模型上进行训练。

大规模自标注数据集是图像识别的未来

这项研究的一个重要成果(甚至超越了图像识别的广泛成果)就是证实了在 hashtag 上训练计算机视觉模型是完全可行的。虽然使用了一些基础技术来合并相似标签、降低其他标签的权重,但是该方法不需要复杂的「清理」过程来消除标签噪声。相反,研究者能够使用 hashtag 训练模型,而且只需对训练过程做出很少的修改。规模似乎是一大优势,因为在数十亿张图像上训练的网络对标签噪声具备更好的稳健性。

我们设想了在不远的未来,hashtag 作为计算机视觉标签的其他使用方向,可能包括使用 AI 更好地理解视频片段,或改变图像在 Facebook feed 流中的排序方式。Hashtag 还可以帮助系统识别图像何时不仅属于总类别,还属于更具体的子类别。例如,照片的音频说明提及「树上的一只鸟」是有用信息,但是如果音频说明可以具体到物种(如:糖槭树上的一只主红雀),就可以为视觉受损的用户提供更好的描述。

Hashtag 可以帮助计算机视觉系统超越一般分类条目,以识别图像中的特定子类别和其他元素。

除了 hashtag 的具体用途之外,该研究还指出了可能影响新产品和现有产品的广泛图像识别方面取得的进展。例如,更精确的模型可能会改善在 Facebook 上重现记忆的方式。该研究指出了使用弱监督数据的长期影响。随着训练数据集变得越来越大,对弱监督学习的需求——以及从长远来看,对无监督学习的需求——将变得越来越显著。了解如何弥补噪声大、标注不准确的缺陷对于构建和使用大规模训练集至关重要。

本研究在 Dhruv Mahajan、Ross Girshick、Vignesh Ramanathan、Kaiming He、Manohar Paluri、Yixuan Li、Ashwin Bharambe 和 Laurens van der Maaten 的《Exploring the Limits of Weakly Supervised Pretraining》一文中有更详细的描述。由于该研究涉及到的规模史无前例,此论文详细的论述将为一系列新研究方向铺平道路,包括开发新一代足够复杂的深度学习模型,从而有效地从数十亿张图像中学习。

该研究还表明,为了更好地衡量当今图像识别系统以及未来规模更大、监督更少的图像识别系统的质量和局限性,开发类似 ImageNet 的广泛使用的新型基准很有必要。

论文:Exploring the Limits of Weakly Supervised Pretraining

论文链接:https://research.fb.com/publications/exploring-the-limits-of-weakly-supervised-pretraining/

摘要:当前最优的适合大量任务的视觉感知模型依赖于监督式预训练。ImageNet 分类实际上是这些模型的预训练任务。但是,目前 ImageNet 将近十岁,用现代标准来看规模有些小了。即便如此,使用规模大了好几个数量级的数据集进行预训练也很少见。原因很明显:此类数据集很难收集和标注。本论文展示了一种独特的迁移学习研究,在数十亿社交媒体图像上训练大型卷积网络来预测 hashtag。实验表明大规模 hashtag 预测的训练性能很好。我们展示了在多个图像分类和目标检测任务上的改进,并报告了目前最高的 ImageNet-1k single-crop,top-1 准确率 85.4%(top-5 准确率 97.6%)。我们还进行了大量实验,为大规模预训练和迁移学习性能之间的关系提供了新的实证数据。

,
    推荐阅读
  • 验车流程大全(汽车验车流程)

    车辆年检新政策:从2020年11月20日起,6—10年的非营运车辆由之前的1年1审,改为2年1审就是说,就是10年之内的车辆只需要上线检测2次,即第6年和第8年需要上线检测检车的时间都是在到期前的三个月内进行不需要上线检测也一定要按时领取年检合格标志,我来为大家科普一下关于验车流程大全?验车流程大全车辆年检新政策:从2020年11月20日起,6—10年的非营运车辆由之前的1年1审,改为2年1审。

  • 湖畔派诗人的代表人物(雨果倾注极大热情装饰的两座爱巢)

    明珠美术馆执行馆长、此次雨果主题展联合策展人李丹丹说。首次集中呈现的绘画原作,折射出文豪被遮蔽的绘画才能享誉世界的文豪雨果,原来有着惊世骇俗的绘画才能。这两处居所均由雨果亲自装饰设计。到了19世纪,雨果对于中国的心向往之,可以说正是延续了这样一种流行。尤其值得一提的是,雨果对于中国的深爱,不仅仅体现在倾慕她辉煌璀璨的文明,同样体现在对于19世纪下半叶她所遭受苦难的万分同情。

  • 慕安安宗政御叫什么小说名字(慕安安宗政御小说简介)

    我们一起去了解并探讨一下这个问题吧!慕安安宗政御叫什么小说名字慕安安宗政御小说是《七爷宠妻很霸道》。《七爷宠妻很霸道》是宗七倾心创作的一本现代言情类小说,故事中的主角是慕安安宗政御,内容主要讲述:堂堂医药世家江家大少爷,在江城向来嚣张横着走,当真是首次这般憋屈。江琴看着如此,微微蹙眉,“宗七,你说话算数?”

  • 饮湖上初晴后雨二首其一赏析(每日一词忆江南)

    “江南忆,最忆是杭州。”古代神话中有月中桂树的传说,作者运用这一传说,意在强调杭州的非同反响。在钱塘江入海处,有两山南北对峙,形成了喇叭口,水势被夹束,遂形成汹涌的浪涛。海潮来时,声如雷鸣,排山倒海,犹如万马奔腾,蔚为壮观,潮头可高达数米,成为天下著名景观。这首词使人一读之下便可以想见杭州的多彩多姿,直欲奔向江南实地观览一番。

  • 久坐的人多长时间练一次瑜伽(久坐慢性自杀)

    久坐慢性自杀导读:长期久坐者很容易导致各种骨科疾病,例如坐骨神经痛、腰肌劳损、腰椎间盘突出、颈椎病等,每一种疾病都会影响到患者的正常生活这就需要久坐者在日常做好相应的预防,那长期久坐者怎样缓解坐骨神经疼痛呢?久坐。

  • 虎年男孩好听顺口好记的名字(虎年男孩好听顺口的名字有哪些)

    给人以正大光明、一身浩然正气之印象。单论之“明”字,为虎年宜用字,契合生肖命理。柏清“柏”表示松柏之义,象征着高洁,正直,且树枝干挺拔、枝叶茂密,寓意着欣欣向荣。而“清”字常用来形容水清澈洁净的样子,有着明白事理、冷静沉着之意。“柏清”均为虎年宜用字,含有吉利之义,其声调为上声、阴平声,平仄搭配和谐,读起来顺口好听,且十分好记。

  • 司藤安蔓结局是什么揭秘(安蔓和司藤什么关系)

    秦放坠崖之后,安蔓要给秦放报仇,结果却被黑帮的人杀了。其实,从安蔓在第一集中的遭遇来看,她以后和秦放肯定是两个世界的人,而安蔓也招人了不少坏人,所以安蔓的最后结局就是死亡。当然,在好友单志刚的帮助下,秦放已经知道安蔓欺骗自己的事实,而且安蔓的姓名和身世都是假的。剧中扮演安蔓的演员叫潘一祎,2018年,因出演古装剧《大宋宫词》,潘一祎开启了演艺生涯。

  • 今年45岁了(还可以考二级建造师吗?(下面给大家解答)

    接下来我们就一起去了解一下吧!今年45岁了年龄不是问题,只要符合条件就可以考的。具备其它专业中专及以上学历并从事建设工程项目施工管理工作满5年。

  • 长毛美短加白起司猫(大眼美短加白起司猫合集)

    大眼美短加白起司猫合集扔掉不合身的旧衣服,扔掉过期的演唱会门票,扔掉没写完的信,扔掉一大段一大段的回忆就像旧伤疤,痕迹还在,可是却不会再痛了不是吗?不是不记得了,而是不爱了,那就忘记吧思念此文的相关往昔:当你试图去改变世界。

  • 孙怡素颜竟老成大妈(孙怡从野模到京圈太子妃)

    在2016年,她和影帝董子健谈起了恋爱。能拿下王京花之子,无疑让孙怡一夜之间大火了。孙怡不经意间的甜甜的笑容,一下子令董子健心跳加速。孙怡自然是欣然答应了董子健的示爱。孙怡在2017年突然删光了社交平台上她和董子健的亲密合照。嫁给董子健后,孙怡的身价一度飙升到九千万。作为老公的董子健似乎也不满意孙怡婚后还要抛头露面,谈及家庭话题,认为她是在借机炒作。不过事后证实该男演员只是她公司旗下的演员罢了。