高考考试网
当前位置: 首页 高考资讯

语义符号化的理解(从词嵌套到句子语义)

时间:2023-05-25 作者: 小编 阅读量: 4 栏目名: 高考资讯

LSTM和GRU可以改善这一点,这是近年来最成功的两个RNN变体,用于解决长期依赖问题。门控机制控制哪些信息应该传递到下一步,以便预测出好的译文。LSTM模块已被替换为网络内部单元,并具有更深的架构。为了更好地表示源语句,在编码器中使用双向设计,在两个方向上运行LSTM。评论与观点尽管基于神经的方法在最近的WMT评估中取得了重大进展,但在实践中,尤其是在实际的域内数据方面,神经机器翻译仍然不如基于统计的机器翻译有竞争力。

演讲链接:https://www.youtube.com/watch?v=nFCxTtBqF5U

PDF链接: https://simons.berkeley.edu/sites/default/files/docs/6449/christophermanning.pdf

去年,Christopher Manning教授发表了这个演讲。这是一个介绍性教程,没有太复杂的算法。 该主题分为四个部分:

  • 人类语言特征
  • 分布式词表征
  • 双向LSTM现状
  • RNN的一些应用

人类语言特征

人类语言最鲜明的特征之一是其有意义的表征。 无论一个人说什么,一个词或一个词组,它往往都有意义。 人类语言也有一个特殊的结构,使其易于学习,即使是孩子也可以快速学习。 与最先进的机器学习方法中使用的必要输入不同,人类语言更可能是离散/符号/分类表征。 因此,我们需要一种更有效、更有意义的方式来编码人类语言。

分布式词表征

词向量

就一些传统的机器学习方法而言,词被表示为向量空间中的离散向量(即one-hot编码),例如 [0 0 0 0 1 0 0 1] 可能是一个具备同样规模词汇量的大的向量。但这种方法存在一个问题,即缺乏相似性的自然概念。例如如果我们想要搜索“Dell notebook”,我们也可以接受词条“Dell laptop”,但实际上它们被表示为两个不同的离散向量 [0 0 0 1 0] 和 [0 0 1 0 0],正交性使我们无法在它们之间建立任何概念联系。

为了分享更多的统计数据并寻求类似单词/短语之间的更多相似性,密集向量被认为是现代NLP最成功的想法之一。神经网络使用密集向量来表示单词。

word2vec的详细信息

在神经网络中,用于学习密集词向量的标准概率建模基于以下公式:

这意味着该目标函数是使用中心词 c 及其语境词的softmax函数,其中o是语境词索引,u_o是对应的词向量,c是中心词索引,v_c是对应的词向量。 总体目标是尽量使该概率最大化,以便经过百万次反向传播后,具有相同周围词向量的词更容易在向量空间中具备相似的含义。

上图是学习后向量空间中的投影词向量。 因此,它不仅可以捕获相似性共现,还可以捕获一些细粒度维度含义,以便你可以在某些指定的方向上观察某些特定的语境连接。

BiLSTM现状

“基本上,如果你想做一个自然语言处理任务,不管它是什么,你都应该把数据放到一个BiLSTM网络中,通过注意力机制增强其信息流。”

以上图片是经典的RNN编码器-解码器网络。 首先,根据当前输入和前一个隐藏状态,计算每个时间步的源语句的编码器网络读入词和相应的隐藏状态。 然后解码器开始基于编码器的最后隐藏状态生成单词。 不幸的是,它不能很好地用于机器翻译,因为它无法捕捉源句子的长期依赖。

LSTM和GRU可以改善这一点,这是近年来最成功的两个RNN变体,用于解决长期依赖问题。 它们也被广泛称为“gated recurrent unit”。 门控机制控制哪些信息应该传递到下一步,以便预测出好的译文。

上图是GRU模块的数学公式。 GRU模块就像一个读/写寄存器。 它读取前一个隐藏状态的一部分,并与当前输入结合以构建候选更新(请参阅上面公式的第二行)。 然后它保留部分维度与先前隐藏状态相同,并通过候选更新更新剩余部分(请参阅上面公式的第一行)。 请注意,u_t和r_t是多变量伯努利分布,范围从0到1(以便做出选择:遗忘或更新)。

LSTM模块与GRU模块类似,但它具有更多的可训练参数。这里的思路也是基于先前隐藏状态和当前输入的候选更新值(参见上面公式中的第三个方程),它用于单元格计算(参见上述公式中的第二个方程)。当我们计算单元格时,可能会根据f_t遗忘前一个单元格状态的一部分,并且可以根据i_t添加部分候选更新。在计算单元格状态之后,我们可以基于单元和输出门计算当前隐藏状态(见上式中的第一个方程)。注意,f_t和i_t也是一个多变量伯努利分布,范围从0到1(以便做出选择:遗忘或更新)。

这里的魔法是“ ”符号(参见上述GRU公式中的第一个公式和上述LSTM公式中的第二个公式)。它将整合新的候选隐藏状态和之前时间步中的部分隐藏状态,这意味着信息流可以基于前一步在多个方向上进行。通过这种方式,梯度将会更平滑地反向传播(更少的梯度消失问题),并且与传统的递归神经网络相比,该系统倾向于具有更长的短期记忆。

总之,基于门控,LSTM / GRU模块可以专注于某个特定的环境,并且遗忘对将来贡献较少的语境,因此整体而言,它可以暂时记住部分句子,以便为未来的学习做出贡献。

这是Sutskever等人 2014 [1] 提出的LSTM编码器-解码器结构,它已经在机器翻译方面有杰出的表现。 LSTM模块已被替换为网络内部单元,并具有更深的架构。其工作流程与之前相同:读入源句子,将其编码为隐藏嵌入,并由解码器生成该句子。 但是这里仍然有一个很大的限制:发送给解码器的整个记忆与编码器的最后一步相关联。 但是,这种架构可能引发两个问题:首先,这样信息流可能受到限制。 其次是对于更长的句子,编码器开始时的标记可能会在从左到右的过程中被遗忘。

为了克服这两个问题,人们提出了双向长短期记忆Bi-LSTM,它的思想是,在解码器的一个步骤中,根据语境向量提供附加控制,该语境向量处理来自源句子的所有信息(回看源句子并计算它们在每个编码器隐藏状态和当前解码器隐藏状态之间的相关程度)。通过加权,语境向量可以基于整个源句子而不仅仅是最终的编码器隐藏状态来影响当前解码器的隐藏状态,这可以增强记忆并使其在实践中非常成功。为了更好地表示源语句,在编码器中使用双向设计,在两个方向上运行LSTM。这有助于模型使用左右的语境词更好地表征源句子中的每个单词。在实践中,当你在每个方向获得每个单词的词向量时,只需将它们连接起来,总会出现一些改进(无论是最终准确率还是句法顺序)。

近年来,与传统的基于短语的机器翻译和基于句法的机器翻译相比,神经网络机器翻译(NMT)在单词记忆测试的新评估中取得了重大进展。 神经网络机器翻译有四个优点:

  • 端到端培训:允许参数同时优化;
  • 分布式词表征:更好地挖掘词组相似度;
  • 更大的语境:可以推广到更大的语境(越大越好);
  • 生成文本更流利:文本生成具有更好的句法意义。

RNN的一些应用

存在基于RNN的各种应用,如问答、阅读理解和情感分析等。最近有些人也使用卷积神经网络进行机器翻译[2]。

评论与观点

尽管基于神经的方法在最近的WMT评估中取得了重大进展,但在实践中,尤其是在实际的域内数据方面,神经机器翻译仍然不如基于统计的机器翻译有竞争力。 一方面,我希望人们能够为NMT系统开发构建更有意义的、全面的、各种类型的数据,另一方面,就自然语言处理而言,无论具体的任务是什么,语言和记忆的结构和模块化程度都需要不断增加,尤其是它的泛化能力和可解释性。

    推荐阅读
  • 山东临沂2022省考笔试成绩查询入口 山东临沂中考成绩查询入口网站2021

    存在违规违纪、缺考科目的,不得确定为面试人选。资格审查采取现场资格审查、线上资格审查等方式进行。有关考生在此期间应当保持联系方式畅通,以免给个人造成损失。从发生本土疫情省份入鲁返鲁的,在独立考场面试。在接受身份核验时,逐人按要求摘下口罩核实身份。如疫情防控形势有需要,将视情调整面试安排,届时将另行发布公告。

  • 假体隆胸一个半月还是很硬正常吗(假体隆胸中决定手感的关键因素在哪里)

    傲诺拉是曼托公司旗下的高端顶奢假体品牌。凭借着优秀的表现和过硬的品质傲诺拉确实证实了自身的价值,也从而成为了各大整形机构极力推崇的首选。毛面工艺和高效防渗漏层,具有不破裂、不硬化、不变形、手感自然、触感真实等优点,且傲诺拉塑形效果稳定持久。而双侧乳房缩小成形术。单侧乳房自体脂肪颗粒注射隆胸术、双侧乳房自体脂肪颗粒注射隆胸术、单侧乳房注射隆胸术、双侧乳房注射隆胸术等常见手术皆为四级手术类目。

  • 有效解决痛经的办法(痛经不可怕找对方法)

    很多女性在发育开始有月经的时候就开始出现痛经的现象,也有后期压力大生活习惯不规律导致的月经失调,痛经有一句话是说得好,没有任何一个人可以将一位女汉子变成一个软妹子,唯独痛经可以,今天小编就来说说关于有效解决痛经的办法?有一句话是说得好,没有任何一个人可以将一位女汉子变成一个软妹子,唯独痛经可以。这种通常是因为气血不畅,身体不通,体寒怕冷,经血瘀滞,小腹疼痛。

  • 库里来勇士之前勇士情况(勇士出现2个卧底)

    北京时间6月9日,勇士与凯尔特人正式打响第三战,本以为勇士会得到强力反击,可万万没想到他们在上半场就输给了凯尔特人12分。今天的格林只拿到了2分4篮板3助攻的数据。第二卧底:伊戈达拉伊戈达拉在第二场比赛没有上场,勇士队获得了重大胜利,直接以大比分赢下了G2的比赛。绿军替补席有他坐镇,那的确是不用愁,塔图姆和布朗可以放开抡。库里如果不拿出120%的进攻状态,那凯尔特人就大概率要拿下总决赛胜率了。

  • interesting和interested修饰谁(interesting与interested用法解析)

    interesting与interested用法解析1.这两个词都是形容词interesting表示某物(人)本身有趣,强调主动,在句子中可以作定语、表语,多用来修饰物interested着重于被动意义,其主语一般是人常做表语,后接介词in,一起构成b。

  • 现在做什么行业前景好(创业什么行业容易入手)

    尤其是网络直播产业相关的项目,更是得益于网络直播的特殊性,所以大部分的创业新手在这个行业上,还是能够得心应手的。尤其是各有所爱联播这个项目更是如此,自上线以来,受到了广大创业者的一致好评。据数据显示,截至2022年3月末,我国移动互联网用户规模达到11.83亿,增长率非常高。所以,在这个用户量如此大的平台,其发展前景是十分广阔的。

  • 家常版宫保鸡丁(宫保鸡丁的做法)

    家常版宫保鸡丁?以下内容希望对你有帮助!家常版宫保鸡丁鸡腿肉切丁,加入盐、老抽、料酒、胡椒粉、淀粉腌制。小葱切段,姜、蒜切粒,干辣椒剪成段,并且调制料汁。锅中放油,加入鸡丁炸至8成熟。锅中留油,爆香干辣椒、花椒、姜蒜粒,放入鸡丁炒匀,倒入料汁炒至浓稠,倒入花生米、葱段拌匀即可。

  • 虾仁蔬菜粥的做法(虾仁蔬菜粥的烹饪方法)

    接下来我们就一起去研究一下吧!虾仁蔬菜粥的做法材料:大米100克,虾仁50克,胡萝卜适量,玉米适量,西兰花适量。大米洗净,清水浸泡1小时。胡萝卜洗净,去皮,切成小丁。西兰花洗净后,掰成很小的朵。汤锅加水,倒入大米、胡萝卜丁、玉米粒和西兰花,大火煮沸后转小火,熬煮20分钟。最后加入虾仁煮熟即可,起锅时加少量盐调味。

  • 海棠和樱花的区别是什么(关于海棠和樱花的区别介绍)

    下面内容希望能帮助到你,我们来一起看看吧!樱花的主干比较粗糙,有明显的纹理,颜色多为暗灰色。而樱花的叶子多是卵圆状,在叶子的正面没有毛,而反面有疏毛,在叶缘处生有不规则的锯齿。花的区别,海棠花和樱花都为伞状花序,不过,海棠花的花序上一般有5-8朵花,而樱花的花序上一般只有3-4朵花。另外,海棠花的花朵要略大于樱花。

  • 朋友圈的话题功能介绍(微信朋友圈的话题功能)

    1、最近微信朋友圈又出现又一新功能“朋友圈标签”,这一功能可以让微信用户在发朋友圈时添加相关关键词,而其他用户则可以通过点击“朋友圈标签”这一选项看到更多拥有相同话题的用户朋友圈更新消息。