在过去的几个月中,宣布了两个已在搜索中投入生产并且也是开源的系统。任何人都可以看到它们的工作原理。甚至在一年前,您都不会想到搜索的开放源代码部分。正如预期的那样,不乏为优化网站的最终指南。你不能。
可以帮助更好地理解某些查询的意图,并且与每个公告的页面内容无关。如果您阅读了我的文章,则不仅应该对的工作原理有实际的了解,而且应该如何将其用于。目的–专门针对进行扩展,并涵盖另一个用例:最先进的文本摘要。
我们可以使用自动文本摘要生成元描述,然后将其填充到没有描述的页面上。为了说明这一强大的技术,我将自动下载并总结我的知识,并且像往常一样,我将分享您可以遵循并适应您自己的网站或客户的代码段。
这是我们的行动计划:当我们拥有内容丰富的页面时,我们可以利用自动文本摘要大规模生成元描述。根据输出,有两种主要的文本摘要方法:在实践中,通常这是一个好主意尝试两种方法,然后选择一种能为您的网站带来最佳效果的方法。
我最喜欢查找前沿代码和论文的地方是。如果浏览,则可以找到许多类别中效果最好的研究。如果将搜索范围缩小到,则可以找到本文:它利用了。我们可以方便地找到与实现研究的的链接,最重要的是。
如果出现高级论文,也经常检查一下全球排名是个好主意。在中创建一个笔记本以执行后续步骤。在研究人员存储库中找到的原始代码并不便于使用该代码生成摘要。您只需阅读以下内容即可感受到痛苦。
让我们下载我们接下来要总结的文章。正如我提到的,我们将总结我的最后一篇文章。让我们下载它并清理,这样我们就只剩下文章内容。首先,创建我们需要保存输入文件以及摘要结果的目录。现在,让我们下载文章并提取主要内容。我们将使用。
只删除帖子的正文。我删除了包含赞助广告代码的第一行和包含一些文章元数据的最后几行。最后,我可以使用此代码将文章内容写到文本文件中在此之后,我们准备进行摘要步骤。
我们将生成一个抽象摘要,但在生成摘要之前,我们需要修改文件。为了使事情变得简单,我创建了一个带有所做更改的文件,您可以使用以下代码下载该文件。您可以查看它的更改要在这里做。红线将被删除,绿线将被添加。
我从上面链接的笔记本中借用了这些更改,它们使我们能够传递文件进行摘要并查看结果。您可以使用此更改来应用更改。我们有最后的准备步骤。接下来的代码将下载汇总器所需的一些分词器。最后,让我们使用以下代码生成汇总。
这是部分输出的样子。现在,让我们回顾一下结果。这应该显示出来。这是候选摘要。有些标记如和需要说明。代表词汇表中的单词。您可以忽略这些。是一个句子分隔符。大多数传统的提取性文本摘要化技术都依赖于复制被确定为可以很好地包含在摘要中的文本部分。
这种方法虽然对许多用例都有效,但由于它可能没有句子来总结文本有用,因此是一种局限性。在我以前的深度学习文章中,我比较了传统的/幼稚的文本匹配方法与通过是的,它确实有用,但是当您将其与系统允许的功能进行比较时,它的作用是有限的。
我解释了使用嵌入的能力取决于它们在空间中像坐标一样运作的事实。当您使用坐标时(就像在系统中一样),无论您如何为事物命名(或使用哪种语言命名),它都仍然在同一地方。可以根据上下文具有完全不同的坐标。例如,华盛顿州和乔治华盛顿大桥中的“华盛顿”一词含义完全不同,编码方式也有所不同。
但是,和类似系统的最强大优势是任务不是从头开始学习的,而是从预先训练的语言模型开始的,换句话说,该模型至少可以理解语言的细微差别,例如如何组织语言主题,副词,介词等,然后再对诸如回答问题之类的特定任务进行微调。
研究人员在总结中列出了他们工作中的三个主要贡献:此推文突出了和依赖于预训练模型的类似系统的明显局限性之一。他们的写作风格在很大程度上受到训练他们的数据的影响。在和文章中得到训练。当用于生成小说小说章节的摘要时,摘要不是特别好。
这是一个经典的文本摘要。几个月前,我在上介绍了文本摘要。那时,的研究人员发布了他们的工作的早期版本,仅专注于提取性文本摘要。他们称之为。我有大多数相同的想法,但是有趣的是,他们看到他们改进工作以涵盖抽象和提取方法的速度有多快。加上在这两个类别中都达到了最先进的性能。
令人惊奇的进展:谈论进展时,社区继续让每个人每月都在努力并发布的新项目震惊我,以下是一些著名的例子。请随时克隆他们的存储库,看看您可以改进或适应您的需求,然后将您的改进反馈回去!
还没有评论,来说两句吧...