专业 靠谱 的软件研发伙伴

您的位置:首页 > 新闻动态 > 人工智能发展概况:自然语言处理篇

发布日期:2020-05-21

人工智能发展概况:自然语言处理篇


自然语言处理

1 自然语言处理概念

自然语言是指汉语、英语、法语等人们日常使用的语言,是人类社会发展演 变而来的语言,而不是人造的语言,它是人类学习生活的重要工具。概括说来, 自然语言是指人类社会约定俗成的,区别于如程序设计的语言的人工语言。在整个人类历史上以语言文字形式记载和流传的知识占到知识总量的 80%以上。就 计算机应用而言,据统计,用于数学计算的仅占 10%,用于过程控制的不到 5%, 其余 85%左右都是用于语言文字的信息处理。

小程序开发

资料来源:公开网络

处理包含理解、转化、生成等过程。自然语言处理,是指用计算机对自然语 言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、 分析、理解、生成等的操作和加工。实现人机间的信息交流,是人工智能、计算 机科学和语言学所共同关注的重要问题。自然语言处理的具体表现形式包括机器 翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。可 以说,自然语言处理就是要计算机理解自然语言,自然语言处理机制涉及两个流程,包括自然语言理解和自然语言生成。自然语言理解是指计算机能够理解自然 语言文本的意义,自然语言生成则是指能以自然语言文本来表达给定的意图。

小程序开发

自然语言理解层次


自然语言的理解和分析是一个层次化的过程,许多语言学家把这一过程分为五个层次,可以更好地体现语言本身的构成,五个层次分别是语音分析、词法分 析、句法分析、语义分析和语用分析。

 语音分析是要根据音位规则,从语音流中区分出一个个独立的音素,再根据音位形态规则找出音节及其对应的词素或词。

 词法分析是找出词汇的各个词素,从中获得语言学的信息。

 句法分析是对句子和短语的结构进行分析,目的是要找出词、短语等的相互关系以及各自在句中的作用。

 语义分析是找出词义、结构意义及其结合意义,从而确定语言所表达的真正含义或概念。

 语用分析是研究语言所存在的外界环境对语言使用者所产生的影响。 在人工智能领域或者是语音信息处理领域中,学者们普遍认为采用图灵试验可以判断计算机是否理解了某种自然语言,具体的判别标准有以下几条:

第一, 问答,机器人能正确回答输入文本中的有关问题;

第二, 文摘生成,机器有能力生成输入文本的摘要;

第三, 释义,机器能用不同的词语和句型来复述其输入的文本;

第四, 翻译,机器具有把一种语言翻译成另一种语言的能力。

2 自然语言的理解发展历史

自然语言处理是包括了计算机科学、语言学心理认知学等一系列学科的一门交叉学科,这些学科性质不同但又彼此相互交叉。因此,梳理自然语言处理的发展历程对于我们更好地了解自然语言处理这一学科有着重要的意义。

小程序开发

自然语言发展历程


1950 年图灵提出了著名的“图灵测试”,这一般被认为是自然语言处理思想的开端,20 世纪 50 年代到 70 年代自然语言处理主要采用基于规则的方法,研究人员们认为自然语言处理的过程和人类学习认知一门语言的过程是类似的, 所以大量的研究员基于这个观点来进行研究,这时的自然语言处理停留在理性主义思潮阶段,以基于规则的方法为代表。但是基于规则的方法具有不可避免的缺点,首先规则不可能覆盖所有语句,其次这种方法对开发者的要求极高,开发者不仅要精通计算机还要精通语言学,因此,这一阶段虽然解决了一些简单的问题, 但是无法从根本上将自然语言理解实用化。

70 年代以后随着互联网的高速发展,丰富的语料库成为现实以及硬件不断更新完善,自然语言处理思潮由经验主义向理性主义过渡,基于统计的方法逐渐代替了基于规则的方法。贾里尼克和他领导的 IBM 华生实验室是推动这一转变的关键,他们采用基于统计的方法,将当时的语音识别率从 70%提升到 90%。在这一阶段,自然语言处理基于数学模型和统计的方法取得了实质性的突破,从实验室走向实际应用。

从 2008 年到现在,在图像识别和语音识别领域的成果激励下,人们也逐渐开始引入深度学习来做自然语言处理研究,由最初的词向量到 2013 年的 word2vec,将深度学习与自然语言处理的结合推向了高潮,并在机器翻译、问答系统、阅读理解等领域取得了一定成功。深度学习是一个多层的神经网络,从输入层开始经过逐层非线性的变化得到输出。从输入到输出做端到端的训练。把输入到输出对的数据准备好,设计并训练一个神经网络,即可执行预想的任务。 RNN 已经是自然语言处理最常用的方法之一,GRU、LSTM 等模型相继引发了一轮又一轮的热潮。

近年自然语言处理在词向量(word embedding)表示、文本的(编码)encoder 和 decoder(反编码)技术以及大规模预训练模型(pre-trained)上的方法极大地 促进了自然语言处理的研究。

3 人才概况

 全球人才分布

学者地图用于描述特定领域学者的分布情况,对于进行学者调查、分析各地区竞争力现况尤为重要,下图为自然语言处理领域全球学者分布情况:

小程序开发

自然语言处理全球人才分布

地图根据学者当前就职机构地理位置进行绘制,其中颜色越深表示学者越集 中。从该地图可以看出,美国的人才数量优势明显且主要分布在其东西海岸;欧 洲也有较多的人才分布,主要集中在欧洲中西部;亚洲的人才主要分布在我国东 部及日韩地区;其他诸如非洲、南美洲等地区的学者非常稀少;自然语言处理领 域的人才分布与各地区的科技、经济实力情况大体一致。此外,在性别比例方面, 自然语言处理领域中男性学者占比 89.3%,女性学者占比 10.7%,男性学者占比 远高于女性学者。

自然语言处理领域学者的 h-index 分布如下图所示,分布情况大体呈阶梯状, 大部分学者的 h-index 分布在中低区域,其中 h-index 在小于 20 区间的人数最多, 有 929 人,占比 43%,50-60 区间的人数最少,有 98 人。

小程序开发

自然语言处理学者 h-index 分布


 中国人才分布

我国专家学者在自然语言处理领域的分布如下图所示。通过下图我们可以发现,京津地区在本领域的人才数量最多,其次是长三角和珠三角地区,相比之下, 内陆地区的人才较为匮乏,这种分布与区位因素和经济水平情况不无关系。同时, 通过观察中国周边国家的学者数量情况,特别是与日韩、东南亚等亚洲国家相比, 中国在自然语言处理领域学者数量较多。

小程序开发

自然语言处理中国学者分布


中国与其他国家在自然语言处理领域的合作情况可以根据 AMiner 数据平台 分析得到,通过统计论文中作者的单位信息,将作者映射到各个国家中,进而统计中国与各国之间合作论文的数量,并按照合作论文发表数量从高到低进行了排 序,如下表所示。

小程序开发

自然语言处理领域中国与各国合作论文情况

从上表数据可以看出,中美合作的论文数、引用数、学者数遥遥领先,表明中美间在自然语言处理领域合作之密切;此外,中国与欧洲的合作非常广泛,前10名合作关系里中欧合作共占 3 席;中国与印度合作的论文数虽然不是最多, 但是拥有最高的平均引用数说明在合作质量上中印合作达到了较高的水平。

4 自然语言处理最新进展

近年来,预训练语言模型在自然语言处理领域有了重要进展。预训练模型指的是首先在大规模无监督的语料上进行长时间的无监督或者是自监督的预先训 练(pre-training),获得通用的语言建模和表示能力。之后在应用到实际任务上时 对模型不需要做大的改动,只需要在原有语言表示模型上增加针对特定任务获得 输出结果的输出层,并使用任务语料对模型进行少许训练即可,这一步骤被称作 微调(fine tuning)。

自 ELMo、GPT、BERT 等一系列预训练语言表示模型(Pre-trained Language Representation Model)出现以来,预训练模型在绝大多数自然语言处理任务上都展现出了远远超过传统模型的效果,受到越来越多的关注,是 NLP 领域近年来 最大的突破之一,是自然语言处理领域的最重要进展。

BERT(Bidirectional Encoder Representation from Transformer)是 Google AI 于 NAACL2019 提出的一个预训练语言模型。BERT 的创新点是提出了有效的无 监督预训练任务,从而使得模型能够从无标注语料中获得通用的语言建模能力。 模型的部分细节在前文的论文解读中已经给出,不再赘述。

小程序开发

BERT 之后涌现了许多对其进行扩展的模型(如上图所示),包括:跨语言 预训练的 XLM 和 UDify,跨模态预训练的模型,融合知识图谱的 ERNIE,将 seq2seq 等语言生成任务整合入 BERT 类模型的 MASS, UniLM 等。其中几个重要的进展包括:

(1)XLNet 使用 Transformer-XL 替代了 Transformer 作为基础模型,拥有编码超长序列的能力。XLNet 提出了一个新的预训练语言任务:Permutation Language Modeling(排列语言模型),模型将句子内的词语打乱顺序,从而使得预测当前 词语时可以利用双向信息。XLNet 相对 BERT 也使用了更多的语料。

(2)RoBERTa 采用了与 BERT 具有相同的模型结构,同样采用了屏蔽语言模型任务进行预训练,但舍弃了 BERT 中下句预测模型。此外,RoBERTa 采用了更大规模的数据和更鲁棒的优化方法,从而取得了更好的表现。

(3)ALBERT 模型针对 BERT 参数量过大难以训练的问题做了优化,一是对词向量矩阵做分解,二是在层与层之间共享参数。此外,ALBERT 将下句预测模型替换为句序预测任务,即给定一些句子预测它们的排列顺序。

扩展阅读:

人工智能发展概况:机器学习篇

人工智能发展概况:计算机视觉篇

人工智能发展概况:知识工程篇

人工智能发展概况:自然语言处理篇

视频:人工智能时代


资料来源:公开网络


推荐阅读: