linuxsir首页 LinuxSir.Org | Linux、BSD、Solaris、Unix | 开源传万世,因有我参与欢迎您!
网站首页 | 设为首页 | 加入收藏
您所在的位置:主页 > Linux基础建设 >

谷歌开源文本生成新方法LaserTagger

时间:2020-03-14  来源:未知  作者:admin666
目前,在序列到序列( seq2seq )的自然语言生成任务中,主流预训练模型仍然面临一些重大缺陷,例如:生成输出与输入文本之间长度匹配问题、需要大量训练数据才能实现较高性能、推断速度慢等。

因此,Google 提出了一种新型的文本生成模型 LaserTagger,该模型旨在解决 seq2seq 模型运行过程中的上述缺陷,可以预测将将源文本转换为目标文本的一系列生成操作。Google 发布了相关文章介绍了这一开源文本生成模型,雷锋网 AI 开发者内容整理编译如下。

开发背景

序列到序列(seq2seq,https://en.wikipedia.org/wiki/Seq2seq)模型最初由软件程师 Eric Malmi 和 Sebastian Krause 开发,这一模型一经推出后,为机器翻译领域带来了巨大的技术革新,并成为了各种本成任务(如摘要生成、句融合和语法错误纠正)的主流模型。

同时,结合模型架构(例如,Transformer,https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html)的改进,以及通过监督的预训练方法使用量无标注本的能,使得近年来神经络法获得了质的提升。

文本生成神经网络架构发展;其中,BERT是深双向的,OpenAI GPT是单向的,ELMo是浅双向的

但根据实际使用情况,将 seq2seq 模型于本成也有一些实质性的缺陷,例如:成输本不持的输出(称为幻觉,hallucination)、需要量的训练数据才能到达很好的效果;此外,seq2seq 模型通常需要逐字成输出,因此其推断时间较长。

近日,Google 的《Encode, Tag, Realize: High-Precision Text Editing》(https://ai.google/research/pubs/pub48542/)一文介绍了种新颖的、开源的本成模型,旨在专解决上述三个缺陷。由于该模型的速度快、精度高,因此该模型名为 LaserTagger。

该模型的核心思想在于:不从头开始成输出本,是通过使预测的编辑操作标注单词来成输出;然后在单独的实现步骤中将这些单词应于输单词。这是处理本成的种不太容易出错的法,而且它可以通过更易于训练和更快执的模型架构来处理文本。

《Encode, Tag, Realize: High-Precision Text Editing》论文

LaserTagger 的设计和功能

许多本成任务的显着特征是输和输出之间经常存在度重叠。例如:在检测和纠正语法错误、或者是在融合句时,多数输本可以保持不变,并且仅部分单词需要修改。

因此,LaserTagger 会产系列的编辑操作,不是实际的单词。我们使的四种编辑操作类型是: Keep(将单词复制到输出中),Delete(删除单词)和 Keep-AddX / Delete-AddX(添加短语 X)标注的单词之前,并可以选择删除标注的单词)。

下图说明了此过程,该图显示了 LaserTagger 在句融合中的应:

LaserTagger 适于句融合。预测的编辑操作对应于删除「.Turing」,然后替换为「and he」,注意输和输出本之间的度重叠

所有添加的短语均来受限制的词汇表。该词汇表是个优化过程的结果,该优化过程具有两个标:

(1)最化词汇表的;

(2)最化训练示例的数量;

其中添加到标本的唯必要单词仅来词汇表,短语词汇量受限制会使输出决策的空间变,并防模型添加任意词,从减轻了「幻觉」问题。

输和输出本的重叠特性也可以得到个推论,即:所需的修改往往是局部的并且彼此独。这意味着编辑操作可以精度地并进预测,与顺序执预测的回归 seq2seq 模型相,可以显着提端到端的速度。

实验结果与结论

研究人员在实验中对 LaserTagger 实现的四个文本生成任务进行了评估,四个任务分别为:句融合、拆分和改述、抽象总结和语法纠正。

在所有任务 中,LaserTagger 的性能与使量训练示例的基于 BERT 的强seq2seq 基线相当;并且在训练示例数量有限时,其结果明显优于该基线。

下图显示了 WikiSplit 数据集上的结果,其具体任务是将个句改写为两个连贯的短句:

当在 100 万个示例的完整数据集上训练模型时,LaserTagger 和基于 BERT 的 seq2seq 基线模型均具有可的性能,但是在 10,000 个或更少示例的样本上进训练时,LaserTagger 明显优于基线模型(SARI 得分越越好)

LaserTagger 的主要优点

根据实验结果,研究人员将 LaserTagger 与传统的 seq2seq法相,总结出该新型模型具有以下优点:

可控性强 通过控制输出短语词汇(也可以动编辑或整理),LaserTagger seq2seq 基线模型不易产幻觉。推理速度快 LaserTagger 计算预测的速度seq2seq 基线模型快 100 倍,使其适于实时应。数据效率高 即使仅使百或千个训练示例进训练,LaserTagger 也可以产合理的输出。在实验中,seq2seq 基线模型需要成千上万个示例才能获得可比拟的性能。由此可见,LaserTagger 的优势在规模应时变得更加明显。研究人员表示:通过减少响应的度并减少重复性可以用于改进某些服务中语应答格式。

而较的推理速度使该模型可以插现有技术堆栈中,并且不会在户端增加任何明显的延迟;除此之外,改进的数据效率可以收集多种语的训练数据,从使来不同语背景的户受益。

图片来源:网络

原文链接:https://ai.googleblog.com/2020/01/encode-tag-and-realize-controllable-and.htmlGithub 地址:https://github.com/google-research/lasertagger

雷锋网 AI 开发者

友情链接
  • Mozilla发布Firefox 67.0.4,修复沙箱逃逸漏洞
  • 蚂蚁金服正式成为CNCF云原生计算基金会黄金会员
  • Firefox 68将采用Microsoft BITS安装更新
  • OpenSSH增加对存储在RAM中的私钥的保护
  • 谷歌想实现自己的curl,为什么?
  • Raspberry Pi 4发布:更快的CPU、更大的内存
  • Firefox的UA将移除CPU架构信息
  • Ubuntu放弃支持32位应用程序实属乌龙,Steam会否重回Ubuntu怀抱
  • Qt 5.13稳定版发布:引入glTF 2.0、改进Wayland以及支持Lottie动
  • 红帽企业Linux 7现已内置Redis 5最新版
  • Slack进入微软内部禁用服务清单,GitHub也在其列?
  • 安全的全新编程语言V发布首个可用版本
  • Windows Terminal已上架,快尝鲜
  • 阿里巴巴微服务开源生态报告No.1
  • 面世两年,Google地球将支持所有基于Chromium的浏览器
  • 推进企业容器化持续创新,Rancher ECIC千人盛典完美收官
  • CentOS 8.0最新构建状态公布,或于数周后发布
  • Debian移植RISC
  • 微软拆分操作系统的计划初现雏形
  • Oracle发布基于VS Code的开发者工具,轻松使用Oracle数据库
  • Ubuntu 19.10停止支持32位的x86架构
  • 微软为Windows Terminal推出全新logo
  • 联想ThinkPad P系列笔记本预装Ubuntu系统
  • 微软发布适用于Win7/8的Microsoft Edge预览版
  • 启智平台发布联邦学习开源数据协作项目OpenI纵横
  • 经过六个多月的延迟,微软终于推出Hyper
  • ZFS On Linux 0.8.1 发布,Python可移植性工作
  • DragonFly BSD 5.6.0 发布,HAMMER2状态良好
  • Linux Kernel 5.2
  • CentOS 8.0 看起来还需要几周的时间
  • 百度网盘Linux版正式发布
  • PCIe 6.0宣布:带宽翻倍 狂飙至256GB/s
  • PHP 7.4 Alpha 发布,FFI扩展,预加载Opcache以获得更好的性能
  • Canonical将在未来的Ubuntu版本中放弃对32位架构的支持
  • Scala 2.13 发布,改进的编译器性能
  • 微软的GitHub收购了Pull Panda,并且使所有订阅完全免费
  • Windows Subsystem for Linux 2 (WSL 2)现在适用于Windows 10用
  • Debian 10 “Buster”的RISC
  • MariaDB宣布发布MariaDB Enterprise Server 10.4
  • DXVK 1.2.2 发布,带来微小的CPU开销优化
  • DragonFlyBSD 5.6 RC1 发布,VM优化,默认为HAMMER2
  • PrimeNG 8.0.0 发布,支持Angular 8,FocusTrap等
  • GIMP 2.10.12 发布,一些有用的改进
  • 清华大学Anaconda 镜像服务即将恢复
  • Debian GNU/Linux 10 “Buster” 操作系统将于2019年7月6日发布
  • 时时彩论坛
  • 五星体育斯诺克
  • 北单比分直播
  • 河北11选5走势图
  • 福建体彩36选7开奖结果
  • 九龙图库下载