高考考试网
当前位置: 首页 高考资讯

浏览器开发者模式学习(腾讯QQ浏览器实验室文本语义匹配训练策略)

时间:2023-06-11 作者: 小编 阅读量: 1 栏目名: 高考资讯

今年的ACL大会已是第60届,于5月22-5月27举办。受到疫情影响,国内NLP从业者参与大会受到很多限制。该论文已被ACL2022接收。是每个序列前面的一个特殊标记,这个标记对应的最终隐藏状态作为整个序列的表示。在fine-tuning阶段,仅引入分类层来进行最终的预测。数据可见,所有PLMs的匹配精度在两个数据集上都稳定增加。这表明关键词和意图的信息是文本语义匹配的重要特征。

机器之心报道

作者:QQ浏览器实验室

这篇ACL 2022研究提出了一个简单而有效的文本语义匹配的训练策略,通过分治的方式将关键词从意图中分离出来。

作为国际最受关注的自然语言处理顶级会议,每年的 ACL 都吸引了大量华人学者投稿、参会。今年的 ACL 大会已是第 60 届,于 5 月 22-5 月 27 举办。受到疫情影响,国内 NLP 从业者参与大会受到很多限制。

为了给国内 NLP 社区的从业人员搭建一个自由轻松的学术交流平台,机器之心在 5 月 21 日组织了「ACL 2022 线上论文分享会」。

腾讯 QQ 浏览器搜索技术部高级工程师唐萌为我们带来了论文《Divide and Conquer: Text Semantic Matching with Disentangled Keywords and Intents》分享。该论文已被 ACL 2022 接收。

以下是唐萌论文分享的回顾视频链接。本文也对该论文核心内容进行了介绍。

回放链接:https://b23.tv/mWt6ofN

论文地址:https://arxiv.org/abs/2203.02898

文本语义匹配是一项被广泛应用到各种场景的基本任务,如社区问答、信息检索和推荐等。最新的匹配模型,例如 BERT,通过统一处理每个词来直接进行文本的比较。然而,查询语句通常需要在不同的粒度上与内容进行匹配。具体的,关键词代表了应该严格匹配的事实信息,如动作、实体、事件。而意图词则表达了抽象的概念和想法,通常有多种表达方式。在这项工作中,我们提出了一个简单而有效的文本语义匹配的训练策略,通过分治的方式将关键词从意图中分离出来。我们的方法可以很容易的与预训练语言模型(PLM)相结合,不影响其推理效率。在三个基准集上,实现了在广泛 PLM 模型上的稳定效果提升。

DC-Match 匹配,可以很容易的与文本匹配分类模型相结合。它包括三个训练目标,即: 全局匹配模型的分类损失;基于远程监督的分类损失,用于区分出关键词和意图;遵循分治思想的特殊训练目标,使用 KL-divergence 来确保全局匹配分布 (原始问题) 与分离开关键词和意图 (子问题) 后所得出的组合分布是相似的。

1、基于 PLMs 的文本语义匹配

首先, 我们定义文本语义匹配任务,即给定两个文本序列

,文本语义匹配的目标是学习一个分类器

来预测序列

是否是语义等价的。这里

代表两个序列中第 i 个和 j 个词,

代表两个序列的长度,y 可以是二分类的目标来预测两个序列是否等价,也可以是多分类目标来反映文本序列的匹配程度。

最近,预训练语言模型 (PLM) 在文本理解和表征学习方面取得了显著的成功。它们在具有启发式自监督学习目标的大规模文本语料库上被预训练,然后被作为强有力的序列分类器在下游分类任务中被 fine-tuning。对于文本语义匹配任务,通常通过增加

来连接

,并作为 PLM 编码器的输入序列。

是每个序列前面的一个特殊标记,这个标记对应的最终隐藏状态作为整个序列的表示。在 fine-tuning 阶段,仅引入分类层来进行最终的预测。这里

代表可训练的权重,K 代表分类的类别数:

最后,我们计算微调的标准分类损失如下:

2、基于远程监督分离出关键词和意图

我们假设每个句子都可以分解为关键词和意图。直观地说,关键词代表事实信息,例如应该严格匹配的动作和实体,而意图传达可以用不同方式表达的抽象概念或想法。通过将关键字从意图中分离出来,匹配过程可以分成两个更容易的子问题,这两个子问题需要不同级别的匹配粒度。

在缺乏人工标注数据的前提下,为了自动的分离开关键词和意图, 我们借鉴了远程监督方法。我们通过引入外部知识库中的实体, 来提取原始文本中的实体提及来自动生成关键词标签。所有提取的实体被标记为关键词,句子中的剩余单词被标记为意图。在获得弱标签信息后,我们添加一个辅助训练目标,迫使模型学习分离出关键字和意图。

给定 PLM 的输出,我们把输出分为两组, 分别对应关键词分类和意图词分类两个目标,分类目标的损失函数如下, 其目标是推动 PLM 学习关键字和意图的表示, 使得它们彼此远离, 使得模型可以在不同的粒度上对句子内容进行建模:

3、分治匹配策略

我们将原匹配问题分成两个更容易的子问题: 关键词匹配和意图匹配,并假设它们相互独立,然后将子问题的解组合起来,给出原问题的解。

我们假设每个子问题遵循与原问题相同的目标,组合得到的概率分布 Q(y)可以从两个子问题的联合概率分布 P(yk, yi) 导出, 如下:

其中,

表示匹配度的目标类别,

意味着

具有比

更高的匹配分数。例如,在三类场景中,y ∈ {2,1,0}分别表示完全匹配、部分匹配和不匹配,Q(y = 0)即至少有一个子问题被推断为不匹配的概率。

为了对子问题建模,我们重新使用 PLM 模型来分别对关键词和意图进行匹配,并且获得条件概率

代表 mask 掉意图的文本序列,

代表 mask 掉关键词的文本序列。那么,在独立子问题的假设下,

的条件联合分布为:

最后,为了确保全局匹配分布 (原始问题) 与子问题的组合解分布相似,我们使用双向 KL - 散度来最小化两个分布之间的距离,通过这种方式,我们期望全局匹配模型学会更好地做出最终预测:

训练和推理

在训练阶段,我们结合三个损失函数

来联合训练模型:

在推理时,我们根据原问题的条件概率直接推断句子对的匹配类别,即:

这意味着我们的推理过程与 PLM 基线完全相同,没有额外的计算。虽然我们使用外部语料库来自动获得远程监督的标签,但它可能会导致信号不完整或有噪声,从而给子问题引入偏差。因此,,我们只在训练阶段使用其标签作为全局匹配模型的辅助信息来进行增强。

实验

在实验阶段, 我们在三个文本语义匹配基准上评估了我们的方法和所有基线:两个英文数据集 MRPC 和 QQP,以及一个中文数据集 Medical-SM。为了公平比较,我们使用相同的超参数来微调每个 PLM 的原始版本及其 DC-Match 变体。

实验中,模型分为两组。第一组是传统的神经网络方法,第二组是受益于大规模预训练的 PLMs。我们可以看到,PLMs 的表现优于传统的神经匹配模型。

我们对不同的 PLMs 进行了实验。数据可见,所有 PLMs 的匹配精度在两个数据集上都稳定增加。这表明,通过将匹配问题分解成更容易的子问题,这种分治策略可以有效地给出原问题更好的解决方案。尤其我们可以看到,DC-Match 策略为小数据集 MRPC 带来了更显著的效果提升。这表明关键词和意图的信息是文本语义匹配的重要特征。尤其是当训练数据有限而无法找到有用的潜在模式时。

此外,我们在中文文本匹配数据集 Medical-SM 上评估了我们的方法。Medical-SM 是一个三级分类数据集,也即完全匹配、部分匹配、不匹配。除了 acc 之外,我们还使用 MacroF1 来作为评估指标。从表中看到 DC-Match 仍然提高了 PLMs 的匹配效果,表明我们的策略在多分类场景和不同语言中都是非常有效的。

消融实验

我们通过消融实验来论证每个子模块的有效性。以 roberta 模型为主模型,从图中数据可以得出,在仅添加了关键词和意图识别的远程监督损失 ( Lds) 之后,结果与原始 PLMs 没有显著不同。这反映了该辅助训练目标不能与原始文本匹配问题直接关联,因此 Lds 本身可能对最终目标没有帮助。然而,我们任务中移除 Lds,仅保持分治的训练目标( Ldc),我们观察到与完整的 DC-Match 版本相比,效果有所下降。

这说明,远程监督目标确实有助于模型学会将关键字从意图中分离出来,并获得不同匹配粒度级别的有区别的内容表示,这有助于子问题的解决。

鲁棒性实验

分治策略将关键字从意图中分离出来,为最终的匹配判断提供了额外的可解释性。我们通过进行多中文变化来评估 DC-Match 鲁棒性。我们观察到原始 PLM 和它们的 DC-Match 变体的效果都有所下降。然而,与原始 PLMs 相比,DC-Match 增强后的 PLMs 可以保持更稳定的效果,这表明 DC-Match 可以在一定程度上提高 PLMs 对于文本语义匹配任务的鲁棒性。

关于 QQ 浏览器实验室

QQ 浏览器实验室成立于 2021 年,致力于探索下一代信息与服务获取和交互方式。未来将依靠 AI、搜索、大数据、推荐算法的技术研究,提升信息与服务的获取效率,革新用户与世界的交互方式,成为探索下一代信息与服务获取方式和交互方式的研究平台。

    推荐阅读
  • 樱桃树的散文(大散文老家的樱桃树)

    老家的樱桃树文|李心国老家的房前屋后有十几棵樱桃树。老家的樱桃树是四十年前老屋落成以后母亲和姐姐栽种的。除了提防顽皮的小孩,与鸟捉迷藏似的人鸟大战也成了每年母亲护卫樱桃的一场趣事。樱桃树所处的位置决定了成熟的早晚,但是一棵树真正的成熟期也就三五日。因为熟了的樱桃被雨淋了,不但口感差,还容易腐烂。妈妈一再告诉我们,不要折了树枝,一个树枝就是来年不少的樱桃。

  • 高速公路上车辆发生故障正确做法(在高速公路遇到车辆故障如何避免二次伤害)

    在高速公路遇到车辆故障如何避免二次伤害在高速公路遇到车辆故障如何避免二次伤害在高速上车辆遇到抛锚应该立即靠边到应急车道,查看,打开危险报警灯并在150后摆放好三角牌人员撤离在高速公路遇到车辆故障如何避免二次伤害快速撤离可以避免二次伤害在很。

  • 关于期盼的句子(关于期盼的句子精选)

    无形的往往却是最期盼的,一声鸟鸣,一缕翠柳,一朵白云,一树花开都会牵起人的怀念之情游走的风在心上,陪我一同看花开听雨落,那年那月那纷扰欢笑和喜乐皆婉转了心境独处时,与风相随,风悠悠暖了入骨的寂寞,我来为大家科普一下关于关于期盼的句子?关于期盼的句子无形的往往却是最期盼的,一声鸟鸣,一缕翠柳,一朵白云,一树花开都会牵起人的怀念之情。霓裳轻盈舞红尘,诗心晶莹凝婉露。

  • 魔兽1.26更新内容(9.1.5内容更新说明)

    现在氧化沥兽在降雨期间的刷新率大幅提高。修正了多个男性夜之子面部选项的嘴部问题。职业部分范围性技能不再有最大目标限制,而是在命中超过5个或8个目标时伤害降低。技能造成的总计伤害依然会随着目标的数量而增加,但对每个目标造成的伤害会降低。修正了捕食本能导灵器无法作用于痛击和野性狂乱的持续性伤害的问题。现在劫掠射击在施放时额外造成一次伤害。现在白虎高手会在范围内的敌人多于1个时施放神鹤引项踢。

  • 太监为什么会娶妻纳妾(娶妻纳妾对食)

    明朝的太监和宫女如果相互爱慕,是可以在一起相互抚慰的,这种现象也得到了大多数皇帝的支持。对食在明朝,曾经发生过太监强暴妇女的案件。朱元璋时期,河南按察佥事石允常到民间私访,听说有一户人家的女儿被一个太监强暴,最后不堪其辱愤而自尽。石允常将此事上报给朱元璋,朱元璋大怒,派人将这个太监逮捕并斩首示众。明朝京师有一个叫“西院”的青楼,专门为皇宫的太监开放。

  • 赛里木湖醉人的一抹蓝(湖水也有心-塞内加尔)

    北与毛里塔尼亚以塞内加尔河为界,东邻马里,南接几内亚和几内亚比绍,西濒大西洋。塞东南部为丘陵区,中、东部为半沙漠地带。地势自东向西略倾斜,河流均流入大西洋。主要河流有塞内加尔河和冈比亚河。湖泊有盖尔湖等。属热带草原气候。每年12月到次年1月,是玫瑰湖最美的时候,由于阳光和水中的微生物以及丰富的矿物质发生了化学反应,它们呈现出如同绸缎一般的粉色,玫瑰湖的名称也由此而来。

  • POS机代理商是怎么样开展业务的(他们月入过万是真的吗?)

    POS机代理商是怎么样开展业务的第一:做POS机的利润推广激活奖励。第二:为什么免费送POS机这个是总部的返现政策,100返150是常态,100返300都有支付公司做的活动,更有成本300元以上的pos机免费送。因为总部返现政策,只要开通激活一台,出掉扣税,一个能赚30-40,还有后续的刷卡分润。90%以上的机器是安全的。第四:如何防范资金风险低于0.6或者封顶机,要用的话要小心。如果高于0.72,可能被欺骗了。维修机、二手机,有可能记录卡片信息。

  • 弱冠之年什么意思

    古时汉族男子20岁称弱冠。这时行冠礼,即戴上表示已成人的帽子,以示成年,但体犹未壮,还比较年少,故称“弱”。后世泛指男子二十左右的年纪,不能用于女子。古时候,不论男女都要蓄留长发的,等他们长到一定的年龄,要为他们举行一次“成人礼”的仪式。意思是,举行冠礼,并赐以字。冠岁,意思就是男子二十岁了,说明他刚刚到了成人年龄,二十岁也称“弱冠之年”。出处《礼记·曲礼上》“(男子)二十曰弱,冠”。

  • 三峡郦道元小练笔(三峡北魏郦道元)

    每至晴初霜旦,林寒涧jiàn肃,常有高猿长啸,属zhǔ引凄异,空谷传响,哀转zhuǎn久绝。三峡,瞿塘峡、巫峡和西陵峡的总称,在长江上游重庆奉节和湖北宜昌之间。全书详细记载了1000多条大小河流及有关的历史遗迹,人物掌故、神话传说等,是我国古代地理名著,并具有较高的文学价值。阙,同“缺”,空隙、缺口。译文在七百里三峡当中,两岸都是相连的山,全然没有中断的地方。

  • 怎样解读血常规化验单(看懂血常规化验单)

    白细胞主要是抵抗病毒、细菌、寄生虫入侵,是身体里面的免疫部队。如果白细胞计数升高同时中性粒细胞比率升高,淋巴细胞比率下降,这一般属于急性细菌感染。第三个方面是血小板,它有止血的功能,能够保护血管内壁的完整,促进伤口的愈合。检测血小板主要是出血性疾病的诊断和病情监测。