最新算法更新可以帮助更好地理解自然语言,尤其是在会话搜索中。会影响大约10%的查询。这也将影响自然排名和精选片段。所以这是不小的改变!但是您知道不仅是任何算法更新,还是研究论文和机器学习自然语言处理框架?
实际上,在实施的前一年,就引起了产品搜索活动的狂热风暴.11月20日,我主持了董事总经理的演讲。它会影响搜索,以及您是否可以尝试优化其内容。
这是网络研讨会演示的回顾.代表变形金刚的双向编码器表示,实际上是很多东西,它被广泛称为搜索算法成分/工具/框架,称为,可帮助更好地理解细微差别和搜索中单词的上下文,并更好地将这些查询与有用的结果进行匹配。
也是一个开源研究项目和学术论文。该论文最初于2018年10月发布,论文由,撰写。此外,是生成的自然语言处理框架,然后将其开源,以便整个自然语言加工研究领域实际上可以更好地从整体上理解自然语言。
您可能会发现大多数关于的在线声明都不是关于更新的。其他研究人员正在撰写许多关于的实际论文,这些论文并未使用您认为的算法更新。大大加快了自然语言对的理解,而且转向开源的举动可能永远改变了自然语言的处理方式。
机器学习的和社区对感到非常兴奋,因为它需要花费大量的精力来进行自然语言的研究。它已经对很多单词进行了预训练,并且在整个英语维基百科中有25亿个单词。为机器学习和自然语言多样化任务中的神经网络提供了预训练的起点层。
虽然已在上进行了预培训,但可以对问题和答案数据集进行微调,可以将其微调的那些问答数据集之一被称为构建和开源。真正的问题和答案(来自真正的用户的匿名查询)已构建到包含问题和答案的数据集中,供和研究人员进行微调,然后他们实际上相互竞争以构建最佳模型。
研究人员还与(斯坦福问题解答数据集)就自然语言理解展开竞争。现在甚至超过了上的人类推理基准。许多主要的公司也在构建版本:我们人类很容易理解的事情是,包括搜索引擎在内,机器根本无法理解。
文字的问题在于它们无处不在。越来越多的内容在那里,单词是有问题的,因为其中很多是模棱两可,多义和同义的。
英语中几乎所有其他单词都有多种含义。用口语来说,由于同音字和韵律,情况甚至更糟。例如,对于带有英语口音的人,“四支蜡烛”和“叉子把手”。另一个例子:喜剧演员的笑话主要是基于单词的玩法,因为单词很容易被误解。
对于人类而言,这不是一个挑战,因为我们具有常识和上下文,因此我们可以理解围绕情境或对话上下文的所有其他单词,但搜索引擎和机器则不然。这对于会话搜索而言并不是一个好兆头。到未来。“单词的含义是它在语言中的使用。”–哲学家路德维希·维特根斯坦,1953年。
基本上,这意味着一个单词除非在特定的上下文中使用,否则没有任何意义。单词的含义会随着句子的发展而从字面上改变,这是由于单词在特定上下文中可能存在多个词性。可以很短地看到“我喜欢另一种方式。”独自使用。
认为“喜欢”一词是两个独立的词性。“喜欢”一词可以用作动词,名词和形容词的不同词性。因此,从字面上看,“喜欢”一词没有意思是因为它可以意味着周围的一切。“喜欢”的上下文根据其周围单词的含义而变化。
句子越长,越难追踪句子中所有不同的词性。自然语言的理解需要对上下文和常识推理的理解。这对机器来说是非常具有挑战性的,但对人类来说却是非常简单的。结构化数据有助于消除歧义,但是两者之间的热乱又如何呢?
仍然有很多空白需要填补。这是一个示例。您可以在这里看到,我们拥有所有这些实体以及它们之间的关系。这就是出现的目的,它的任务是帮助搜索引擎填补命名实体之间的空白。“您应该知道它所拥有的公司所提供的单词。”–语言学家,1957年。
在一起的单词紧密相连:在非常大的文本语料库上训练语言模型或收集单词负载以学习分布相似性……并建立用于词嵌入的向量空间模型。模型学习相似性和相关性距离的权重。但是,即使我们了解实体(事物)本身,也需要了解单词的上下文。
单个单词本身没有语义,因此需要文本衔接。衔接是文本或句子中的语法和词汇链接,它将文本结合在一起并赋予其含义。语义上下文很重要。如果没有周围的单词,一词在句子中可能意味着任何东西。
其中的重要部分是词性标记:过去的语言模型(例如2和2)构建了无上下文的词嵌入。另一方面,提供“上下文”。为了更好地理解的工作原理,让我们看一下首字母缩写的含义。以前,所有语言模型(例如,和)都是单向的,因此它们只能在一个方向上移动上下文窗口–移动个单词(目标单词的左侧或右侧)的窗口以了解单词的上下文。
大多数语言建模者都是单向的。他们只能从左到右或从右到左遍历单词的上下文窗口。只在一个方向上,而不能同时在两个方向上。使用双向语言建模(这是第一个)。可以在单词上下文语言建模的任何一侧看到句子,并且几乎可以一次看到所有单词。
编码内容被解码。这是一种进出机制。使用“变形金刚”和“隐蔽语言建模”。过去自然语言理解的一个主要问题是无法理解单词所指的上下文,例如。在对话中,很容易忘记别人在谈论谁。即使是人类,也很难一直跟踪对话中提到的某人。
对于搜索引擎来说,这有点相似,但是他们很难跟踪您说他,他们,她,我们等等的时间。因此,变形金刚的注意力部分实际上集中在代词和所有单词的含义上。一起尝试限制在任何给定上下文中与谁交谈或正在谈论什么。
屏蔽语言建模阻止了目标单词的出现。需要使用遮罩,因为它可以防止被关注的单词实际看到自己。遮罩到位后,只会猜测丢失的单词是什么。这也是微调过程的一部分。将提供以下帮助。
在11个任务中提升了最新的基准。对人类语言细微差别的理解将对解释查询的方式产生巨大的影响,因为人们显然是在用更长的,质疑的查询进行搜索.还将对语音搜索产生巨大影响作为问题困扰的替代方案。
具有这种从单语言到多语言的能力,因为一种语言中的许多模式确实可以翻译成其他语言。即使不一定必须理解语言,也有可能将很多学习内容转移到不同的语言中。语言本身。很多人抱怨他们的排名受到影响。
但是我认为那可能更多,因为在某种程度上更好地理解了查询的细微差别上下文和内容的细微差别上下文,因此也许能够更好地理解上下文细微差别和模棱两可的查询,也许不是。更好理解的框架。它本身不能判断内容。更好地了解其中的内容。
例如,可能会突然了解更多信息,也许那里的页面被过度优化,突然可能会受到诸如之类的其他东西的影响,因为的突然意识到某个特定页面与某件事无关紧要。说您正在针对进行优化,那么最好只是自然地编写代码。
观看网络研讨会演示的视频回顾,或查看下面的.6月17日星期三下午2点加入我们的下一次赞助网络研讨会。担任营销副总裁的工作,为最有可能转化的受众群体提供了切实可行的广告指导。
还没有评论,来说两句吧...