您的位置：首页 >运营 >

自然语言处理五年技术革新，快速梳理 NLP 发展脉络

时间：2021-03-27 13:48:24 | 来源：机器之心Pro

来源：机器之心

机器之心发布

机器之心编辑部

机器之心《2020-2021 全球 AI 技术趋势发展报告》节选：顶会趋势（NeurIPS）分析。

2021 年伊始，机器之心发布《2020-2021 全球 AI 技术趋势发展报告》，基于顶会、论文及专利等公共数据、机器之心专业领域数据仓库，通过数据挖掘定位七大趋势性 AI 技术领域。

此外，该报告还邀请了近 100 位专家学者通过问卷调查，形成对这七大技术领域近年发展情况、成熟度与未来趋势的综合总结，并基于 2015-2020 年间的开源论文与专利语料，结合机器之心自有的新闻舆论以及模型最佳表现（SOTA）等相关数据库进行了探索性数据分析，并形成了用以帮助技术趋势判定的量化指标 Synced Indicator (SI)。

为了方便从业者把握 AI 技术趋势，机器之心将持续刊载该该报告的节选内容，以下篇幅选自《2020-2021 全球 AI 技术趋势发展报告》第三章「人类语言技术」。

「 3-1」人类语言技术

3-1-1近年领域事件

根据机器之心整理的人工智能领域事件库数据，近 5 年（2015~2020）来人类语言技术领域的主要有以下大事件值得关注：

神经机器翻译、注意力机制与 Transformer

自然语言处理的技术突破似乎总是从机器翻译领域开始的，作为 NLP 领域最早的研究领域之一，机器翻译是较能体现语言理解的一项重要技术任务，也是自深度学习兴起后技术突破最多最频繁的技术任务。机器翻译的核心技术涵盖了自然语言理解和生成两大基本问题，其技术路径的演变基本可以代表整个自然语言处理技术领域的主要技术方法演变：从最初的基于语法规则的机器翻译（RBMT），统计学兴起之后逐渐开始形成气候的统计机器翻译（SMT），以及近 10 年来基于神经网络的机器翻译（NMT），机器翻译领域通常是新技术首先得到测试验证的领域。2015 年以来，正是神经机器翻译快速发展的时代，而其中贡献较为突出的当属搜索引擎行业的龙头企业谷歌，从 2016 年谷歌神经机器翻译（GNMT）的发布开始，将初期主要在 CV 领域活跃的 Attention 机制运用到了机器翻译领域，2017 年又抛开深度学习领域一直被广泛使用的核心RNN 网络、提出了单纯基于自注意力机制的 Transformer 模型架构，在模型泛化能力上看到了很大的可能性。2018 年紧接着提出并开源了基于双向 Transformer 的大规模预训练语言模型 BERT，刷新了当时多项不同类型的 NLP 下游任务的最佳表现，使人们看到了这类模型的巨大潜力，也自此掀起了 NLP 领域的大规模预训练语言模型研究与开发的热潮。

大规模预训练语言模型

2018~2019 年里，尤其是 2019 年，大规模预训练语言模型似乎成为了 NLP 领域技术指标突破逃不开的技术方法。在ELMo 之前，深度学习在自然语言处理的主要应用方向在于从词到句子级别的分布式表征，word2vec 是此类方法的典型代表。虽然一时间预训练的词向量在诸多自然语言处理任务上取得了不错的进展，但词向量本身都是上下文无关的，也即同一个词的向量表示在不同语境中总是相同的，这就意味着词向量无法解决语言技术里很大的一个障碍，一词多义问题。因此研究人员们开始在具体的下游任务中基于词向量的序列来做编码，这种 seq2seq 端到端的思想迅速取代了 word2vec 的热潮，而谷歌在这个基础上研发出的自注意力机制模型 transformer 可算是这个思想的集大成者。也正是同一时间，来自华盛顿大学的研究者开发出了 ELMo 模型，通过语言模型来获得一个上下文相关的预训练表示，并通过定制成功地用在了多个不同的下游任务上取得领先的表现效果。而仅仅针对文本进行丰富的 encoding 尚不足以覆盖所有 NLP 下游任务，尤其是QA、阅读理解等包含问询关系等多种复杂模式的情况下，下游任务的网络会需要做更多不同的结构调整，同一个模型在多个不同任务、甚至同一任务不同数据集上的表现差别仍然有待提高，这也就促使了 BERT 的诞生。BERT 类模型使用大规模语料数据采取更深程度的预训练，从而形成一个更为通用的模型基底。这比覆盖上下文语境含义的词向量更进一步，而涉及到下游任务时也仅需要定制一个非常轻量级的输出层而不需要对模型骨架做重大调整。

实用效率工具和数据集

当一个技术发展成熟到一定程度之后，我们会看到技术在研究层面的数据增加开始放缓，但在工程和应用层面的相关数据开始增加。而回顾过去五年的 NLP 领域事件，我们发现除了重要的具体模型算法之外，数据集和实用的开源工具成为该领域里不可忽视的组成部分。除了机器翻译领域Google 开源的GNMT，OpenNMT 也开源了其自研的神经机器翻译工具包，并且提供了 Pytorch 和 TensorFlow 两个不同框架的支持。

数据集 Benchmark 方面，问答数据集 SQuAD 经历了 1.0、2.0 两个代际，自然语言理解综合benchmarkGLUE 也经历了一次到 SuperGLUE 的升级，中文领域也衍生出了类似的评价体系 CLUE。随着预训练语言模型的火热与广泛应用，可以预见的是相关的数据集与评估指标还会有新的升级与换代。

Facebook 开发并开源了实用文本分类库 fastText，OpenAI 在三代 GPT 版本更迭后，于今年的 GPT-3 发布后不久便开始提供对应的API 服务。综合工具方面，微软联合创始人保罗艾伦建立的Allen Institute for AI 于今年正式推出了其自然语言处理工具包 AllenNLP，提供完整的自然语言处理流程框架和相应工具。成立于 2016 年的 Huggingface 借助 Transformer 模型的东风，提供多种基于 transformer 架构模型的调用框架（包括 BERT、GPT-2、Transformer-XL、RoBERTa、DistilBERT、BART，以及 Google T5 等近 40 种不同模型），同时兼容 TensorFlow 与 pytorch。知名语音技术工具包Kaldi 也于 2017 和 2018 年先后增加了 TensorFlow 和 PyTorch 的整合支持。

总体而言，NLP 领域每年都有新突破，语音领域在 2015~2017 年发展迅猛，达到接近人类水平，而后归于稳定、小修小改重点解决局部问题。

* 完整的人类语言技术相关影响力事件表请参看报告附录。

3-1-2 2019 ~ 2020 年热门技术

根据 2019-2020 年度技术热词分析结果，该领域的整体热度在本篇报告覆盖的领域里面排第二，仅次于计算机视觉，领域内的技术热词以主流的自然语言处理下游技术任务为主（如机器翻译、问答系统、信息抽取、文本分类等），同时包括一些近年来讨论热度比较高的算法模型框架（如 BERT、word2vec、Transformer 等），语音识别、语音合成两个语音相关的技术词也同样榜上有名。

具体来说，神经机器翻译、语音识别以及 BERT 在论文、新闻的热词发现中均名列前茅，除此之外，新闻资讯中的技术热词多是大众讨论度比较高的技术词或偏口语化的技术词，如自然语言处理本身、聊天机器人、以及注意力机制，而论文中则会有比较多相对具体的基础技术任务如文本分类、命名体识别、语义解析等以及相对书面正式的技术词如自然语言理解、问答系统、机器阅读理解。报告、survey 中呈现出的高频讨论技术词则多是归纳性质较强的技术任务或方法，如问答系统、序列到序列（seq2seq）、端到端（end2end）模型等。

以下为本领域在各项热门技术词挖掘中综合排名前 100 的技术词：

技术名词新闻挖掘论⽂挖掘报告/Survey
⾃然语⾔处理
✓

⾃然语⾔理解

✓

⾃然语⾔推理

✓
机器翻译

✓

神经机器翻译
✓
✓

问答系统

✓
✓
对话系统

✓

聊天机器⼈
✓

机器阅读理解

✓

⽂本⾃动摘要

⽂本分类

✓

情感分析

✓

语⾳识别
✓
✓

语⾳合成

⽂本⽣成

✓

命名体识别

✓

语义解析

✓

语法解析

词性标注

✓

语⾔模型

✓

预训练模型

✓
ELMO

GPT

BERT
✓
✓

Transformer

✓
注意⼒机制
✓

seq2seq

✓
word2vec
✓

词嵌⼊

✓

表 3-1-2-1 人类语言技术 2019~2020 年热门技术词

* 为了分析的完整和可对比性，我们额外补充了语音合成、语法解析、文本自动摘要，以及 ELMO、GPT 等技术词

结合各 AI 技术分析报告文章、论文 survey，社交网络观点、以及专家问卷结果，该人类语言技术章节分析主要从机器翻译、问答系统、阅读理解、文本分类、语音识别、语音合成等热门 NLP 和语音方面的技术任务，以及相关的热门技术方法如语言模型、序列到序列，词嵌入，BERT 等分不同角度切入，从学界问卷、论文专利、以及新闻舆情多数据角度综合分析其本身以及相关技术近五年来的重要事件以及发展趋势，分析细节详情参见报告。

报告全文获取方式

方式二：成为机器之心PRO-VIP会员

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如有侵权行为，请第一时间联系我们修改或删除，多谢。