高考考试网
当前位置: 首页 高考资讯

浏览器开发者模式学习(腾讯QQ浏览器实验室文本语义匹配训练策略)

时间:2023-06-11 作者: 小编 阅读量: 4 栏目名: 高考资讯

今年的ACL大会已是第60届,于5月22-5月27举办。受到疫情影响,国内NLP从业者参与大会受到很多限制。该论文已被ACL2022接收。是每个序列前面的一个特殊标记,这个标记对应的最终隐藏状态作为整个序列的表示。在fine-tuning阶段,仅引入分类层来进行最终的预测。数据可见,所有PLMs的匹配精度在两个数据集上都稳定增加。这表明关键词和意图的信息是文本语义匹配的重要特征。

机器之心报道

作者:QQ浏览器实验室

这篇ACL 2022研究提出了一个简单而有效的文本语义匹配的训练策略,通过分治的方式将关键词从意图中分离出来。

作为国际最受关注的自然语言处理顶级会议,每年的 ACL 都吸引了大量华人学者投稿、参会。今年的 ACL 大会已是第 60 届,于 5 月 22-5 月 27 举办。受到疫情影响,国内 NLP 从业者参与大会受到很多限制。

为了给国内 NLP 社区的从业人员搭建一个自由轻松的学术交流平台,机器之心在 5 月 21 日组织了「ACL 2022 线上论文分享会」。

腾讯 QQ 浏览器搜索技术部高级工程师唐萌为我们带来了论文《Divide and Conquer: Text Semantic Matching with Disentangled Keywords and Intents》分享。该论文已被 ACL 2022 接收。

以下是唐萌论文分享的回顾视频链接。本文也对该论文核心内容进行了介绍。

回放链接:https://b23.tv/mWt6ofN

论文地址:https://arxiv.org/abs/2203.02898

文本语义匹配是一项被广泛应用到各种场景的基本任务,如社区问答、信息检索和推荐等。最新的匹配模型,例如 BERT,通过统一处理每个词来直接进行文本的比较。然而,查询语句通常需要在不同的粒度上与内容进行匹配。具体的,关键词代表了应该严格匹配的事实信息,如动作、实体、事件。而意图词则表达了抽象的概念和想法,通常有多种表达方式。在这项工作中,我们提出了一个简单而有效的文本语义匹配的训练策略,通过分治的方式将关键词从意图中分离出来。我们的方法可以很容易的与预训练语言模型(PLM)相结合,不影响其推理效率。在三个基准集上,实现了在广泛 PLM 模型上的稳定效果提升。

DC-Match 匹配,可以很容易的与文本匹配分类模型相结合。它包括三个训练目标,即: 全局匹配模型的分类损失;基于远程监督的分类损失,用于区分出关键词和意图;遵循分治思想的特殊训练目标,使用 KL-divergence 来确保全局匹配分布 (原始问题) 与分离开关键词和意图 (子问题) 后所得出的组合分布是相似的。

1、基于 PLMs 的文本语义匹配

首先, 我们定义文本语义匹配任务,即给定两个文本序列

,文本语义匹配的目标是学习一个分类器

来预测序列

是否是语义等价的。这里

代表两个序列中第 i 个和 j 个词,

代表两个序列的长度,y 可以是二分类的目标来预测两个序列是否等价,也可以是多分类目标来反映文本序列的匹配程度。

最近,预训练语言模型 (PLM) 在文本理解和表征学习方面取得了显著的成功。它们在具有启发式自监督学习目标的大规模文本语料库上被预训练,然后被作为强有力的序列分类器在下游分类任务中被 fine-tuning。对于文本语义匹配任务,通常通过增加

来连接

,并作为 PLM 编码器的输入序列。

是每个序列前面的一个特殊标记,这个标记对应的最终隐藏状态作为整个序列的表示。在 fine-tuning 阶段,仅引入分类层来进行最终的预测。这里

代表可训练的权重,K 代表分类的类别数:

最后,我们计算微调的标准分类损失如下:

2、基于远程监督分离出关键词和意图

我们假设每个句子都可以分解为关键词和意图。直观地说,关键词代表事实信息,例如应该严格匹配的动作和实体,而意图传达可以用不同方式表达的抽象概念或想法。通过将关键字从意图中分离出来,匹配过程可以分成两个更容易的子问题,这两个子问题需要不同级别的匹配粒度。

在缺乏人工标注数据的前提下,为了自动的分离开关键词和意图, 我们借鉴了远程监督方法。我们通过引入外部知识库中的实体, 来提取原始文本中的实体提及来自动生成关键词标签。所有提取的实体被标记为关键词,句子中的剩余单词被标记为意图。在获得弱标签信息后,我们添加一个辅助训练目标,迫使模型学习分离出关键字和意图。

给定 PLM 的输出,我们把输出分为两组, 分别对应关键词分类和意图词分类两个目标,分类目标的损失函数如下, 其目标是推动 PLM 学习关键字和意图的表示, 使得它们彼此远离, 使得模型可以在不同的粒度上对句子内容进行建模:

3、分治匹配策略

我们将原匹配问题分成两个更容易的子问题: 关键词匹配和意图匹配,并假设它们相互独立,然后将子问题的解组合起来,给出原问题的解。

我们假设每个子问题遵循与原问题相同的目标,组合得到的概率分布 Q(y)可以从两个子问题的联合概率分布 P(yk, yi) 导出, 如下:

其中,

表示匹配度的目标类别,

意味着

具有比

更高的匹配分数。例如,在三类场景中,y ∈ {2,1,0}分别表示完全匹配、部分匹配和不匹配,Q(y = 0)即至少有一个子问题被推断为不匹配的概率。

为了对子问题建模,我们重新使用 PLM 模型来分别对关键词和意图进行匹配,并且获得条件概率

代表 mask 掉意图的文本序列,

代表 mask 掉关键词的文本序列。那么,在独立子问题的假设下,

的条件联合分布为:

最后,为了确保全局匹配分布 (原始问题) 与子问题的组合解分布相似,我们使用双向 KL - 散度来最小化两个分布之间的距离,通过这种方式,我们期望全局匹配模型学会更好地做出最终预测:

训练和推理

在训练阶段,我们结合三个损失函数

来联合训练模型:

在推理时,我们根据原问题的条件概率直接推断句子对的匹配类别,即:

这意味着我们的推理过程与 PLM 基线完全相同,没有额外的计算。虽然我们使用外部语料库来自动获得远程监督的标签,但它可能会导致信号不完整或有噪声,从而给子问题引入偏差。因此,,我们只在训练阶段使用其标签作为全局匹配模型的辅助信息来进行增强。

实验

在实验阶段, 我们在三个文本语义匹配基准上评估了我们的方法和所有基线:两个英文数据集 MRPC 和 QQP,以及一个中文数据集 Medical-SM。为了公平比较,我们使用相同的超参数来微调每个 PLM 的原始版本及其 DC-Match 变体。

实验中,模型分为两组。第一组是传统的神经网络方法,第二组是受益于大规模预训练的 PLMs。我们可以看到,PLMs 的表现优于传统的神经匹配模型。

我们对不同的 PLMs 进行了实验。数据可见,所有 PLMs 的匹配精度在两个数据集上都稳定增加。这表明,通过将匹配问题分解成更容易的子问题,这种分治策略可以有效地给出原问题更好的解决方案。尤其我们可以看到,DC-Match 策略为小数据集 MRPC 带来了更显著的效果提升。这表明关键词和意图的信息是文本语义匹配的重要特征。尤其是当训练数据有限而无法找到有用的潜在模式时。

此外,我们在中文文本匹配数据集 Medical-SM 上评估了我们的方法。Medical-SM 是一个三级分类数据集,也即完全匹配、部分匹配、不匹配。除了 acc 之外,我们还使用 MacroF1 来作为评估指标。从表中看到 DC-Match 仍然提高了 PLMs 的匹配效果,表明我们的策略在多分类场景和不同语言中都是非常有效的。

消融实验

我们通过消融实验来论证每个子模块的有效性。以 roberta 模型为主模型,从图中数据可以得出,在仅添加了关键词和意图识别的远程监督损失 ( Lds) 之后,结果与原始 PLMs 没有显著不同。这反映了该辅助训练目标不能与原始文本匹配问题直接关联,因此 Lds 本身可能对最终目标没有帮助。然而,我们任务中移除 Lds,仅保持分治的训练目标( Ldc),我们观察到与完整的 DC-Match 版本相比,效果有所下降。

这说明,远程监督目标确实有助于模型学会将关键字从意图中分离出来,并获得不同匹配粒度级别的有区别的内容表示,这有助于子问题的解决。

鲁棒性实验

分治策略将关键字从意图中分离出来,为最终的匹配判断提供了额外的可解释性。我们通过进行多中文变化来评估 DC-Match 鲁棒性。我们观察到原始 PLM 和它们的 DC-Match 变体的效果都有所下降。然而,与原始 PLMs 相比,DC-Match 增强后的 PLMs 可以保持更稳定的效果,这表明 DC-Match 可以在一定程度上提高 PLMs 对于文本语义匹配任务的鲁棒性。

关于 QQ 浏览器实验室

QQ 浏览器实验室成立于 2021 年,致力于探索下一代信息与服务获取和交互方式。未来将依靠 AI、搜索、大数据、推荐算法的技术研究,提升信息与服务的获取效率,革新用户与世界的交互方式,成为探索下一代信息与服务获取方式和交互方式的研究平台。

    推荐阅读
  • 哈尔滨地铁3号线为什么开了5公里(哈尔滨地铁3号线全线恢复正常运营服务)

    跟着小编一起来看一看吧!哈尔滨地铁3号线为什么开了5公里来源:东北网9月8日讯8日,记者从哈尔滨地铁集团获悉,按照道里区应对新型冠状病毒感染肺炎疫情工作指挥部《哈尔滨市道里区关于调整临时性静默管理区域的公告》要求,自2022年9月8日早6时起,地铁3号线体育公园站、群力第五大道站、医大一院群力院区站、工农大街站恢复运营服务。本文来自,仅代表作者观点。全国党媒信息公共平台提供信息发布传播服务。

  • 鱼营养价值(吃鱼有什么好处)

    即便最油腻的挪威鲑鱼,其所含的热量也比猪排少一半。鱼肉容易被人体吸收,100克鱼肉保证人体每天所需的蛋白质的一半。鱼肉含有丰富的镁元素,对心血管系统有很好的保护作用,有利于预防高血压、心肌梗死等心血管疾病。鱼肉还是高钠食品,有利于人体的矿物质保持平衡。鱼肉以天然的方式供给人体硒、碘和氟。

  • 徐州的鮥鱼是什么鱼(徐州的鮥鱼介绍)

    我们一起去了解并探讨一下这个问题吧!徐州的鮥鱼是什么鱼鮥鱼,在徐州一带人们称之为鮥鱼,它的中文学名叫做黄颡鱼,也叫黄骨鱼。鮥鱼的别名很多,比如黄角丁、黄骨鱼、黄沙古、黄辣丁、刺黄股、戈牙、黄刺公、黄腊丁、嘎牙子、昂刺鱼、黄鳍鱼、黄刺骨及黄嘎牙等等。

  • 淮安是哪个省(关于淮安是哪个省介绍)

    淮安是哪个省淮安属于江苏省,淮安位于江苏省中北部,江淮平原东部。地处长江三角洲地区,是苏北重要中心城市,南京都市圈紧密圈层城市,淮河生态经济带首提首推城市,坐落于古淮河与京杭大运河交点,处在中国南北分界线“秦岭-淮河”线上,拥有中国第四大淡水湖洪泽湖,是全国文明城市。秦时置县,境内有著名的“青莲岗文化”遗址。历史上与苏州、杭州、扬州并称运河沿线的“四大都市”,曾经淮安“因运而兴、因运而盛”。

  • inspire还值得买吗(颜值功能性兼具)

    inspire还值得买吗知名鞋履品牌Palladium于1947年开始为法国外籍军团打造出了极具标志性的Pampa经典帆布军靴。近期,Palladium为了更加适合城市穿搭推出饿了全新的PAMPATRAVELLITE系列,并将于近期登场。此次全新系列以经典PAMPA鞋款为蓝本进行创新设计,共推出了黑、白、卡其、军绿四种配色。鞋面延续了PAMPA鞋款的专属橡胶包裹,适用于不同情况下穿着。鞋后跟增加TPU材质增强了稳定性,并且快速系带技术,也让穿脱更加容易。

  • 香山红叶最佳观赏时间在什么时候,生长环境什么样

    一般来说,香山红叶的最佳观赏时间是在10月份,这是香山红叶的最佳观赏时间。一般来说,香山红叶在温暖潮湿的环境中生长得更好。它在北京广泛发行。10月10日,香山红叶的枝叶全部变红,10月底枝叶回复绿色,10月是最佳观赏时间。香山红叶简介事实上,如果当年气候好,香山的红叶长得更茂盛更好,它的枝叶可以一直红到11月10日左右,持续一个月。通常在这个时候,你可以在白王山森林公园、自然公园等地购买观看香山红叶的门票。

  • 魔兽世界银松森林飞行点在哪(游戏魔兽世界简介)

    银松森林是魔皇草和石南草采集的最佳地点,一般去那的玩家都是采这两种药的,除此之外很少有玩家访问。《魔兽世界》不仅极大推动了网游产业的发展,同时在运营近八年的时间内依然广受欢迎,至今仍有来自全球各地的用户在积极加入。即将推出的新资料片有望创造游戏的新纪录,使得这一品牌越发显著的成为当代流行文化的一个重要标志。

  • 腰果吃多了会怎么样 腰果吃多了会怎么样头晕

    腰果中油脂、蛋白质含量高,吃多了可能会加重身体肝脏和肾脏的工作负担,可能出现消化不良的情况,常表现为呕吐或腹泻等症状。腰果热量非常高,油脂和碳水化合物含量也很高,吃多了可能引起体内脂肪堆积,造成身体肥胖问题,尤其是易胖体质的人群更应该少吃。腰果中有多种过敏原,吃多了会增大过敏的可能和加重过敏者的过敏症状,其过敏表现症状为喉咙刺痒、流涎水、眼睑红肿或呼吸困难等。

  • 魏晋南北朝床榻简笔画(明清时期简笔画)

    古代床榻简笔画古代床榻简笔画,我来为大家挑选一些画的好的魏晋南北朝床榻简笔画?跟着小编一起来欣赏简笔画图片吧!魏晋南北朝床榻简笔画古代床榻简笔画古代床榻简笔画古床简笔画简笔画手绘线稿236190魏晋南北朝隋唐五代宋元时期家具文化研究

  • 煮鸡蛋怎样不粘锅不破皮不碎(鸡蛋别再水煮了)

    今天小编来教大家一个用纸巾煮鸡蛋的小妙招~方法非常简单,首先我们准备几张纸巾,将它这样铺在电饭煲的底部,大概四张左右就可以了然后我们再加入一点点清水,水不用多,只要能把铺垫的纸巾均匀打湿就行接着我们放入要煮的鸡蛋最后盖上盖子,开启煮饭键就可以了,我们不用守着电饭煲,和正常煮饭一样,自动跳闸后,鸡蛋就熟了经过小意的多次实验,一般看到电饭煲上气后,再过五分钟左右就会跳到保温了好了这样鸡蛋就煮熟了用这个