专业 靠谱 的软件研发伙伴

您的位置:首页 > 新闻动态 > 人工智能简史07:自然语言处理

发布日期:2020-05-21

人工智能简史07:自然语言处理


1. 机器翻译出师不利

1953年至1954年,IBM资助美国乔治敦大学(Georgetown)进行了有史以来的第一次机器翻译。乔治敦实验的目标很明确:把几十个俄文句子翻译为英文,总共定义了6条语法规则,250个单词,主要领域是有机化学。

小程序开发

乔治敦大学

乔治敦实验为计算机的应用烧了把火,自动翻译成为多人扎堆的研究课题。美国空军和原子能委员会、以及欧洲原子能发展组织都安装了IBM的翻译系统,企图解决翻译苏联文献的问题。

到了十年后的1964年,美国政府的科研资助机构意识到机器翻译的研发进展缓慢,于是责成美国科学院对现状做一总结。经过两年调研,1966年11月,ALPAC发布了《语言与机器》报告,称机器翻译比人翻译要慢,更不准确,而且成本更高(估算比人要贵两倍)。结论是机器翻译在可预见的未来没法实用,应该立即停止对机器翻译的资助。


2. 语言学的先知

乔姆斯基之于语言学和认知科学,就像图灵之于计算机科学。没有这些“先知”,我们不知还要在黑暗中摸索多久。

小程序开发

乔姆斯基

在哈佛期间,乔姆斯基发表了他的第一篇学术论文“句法分析系统”(Systems of Syntactic Analysis)。按照乔姆斯基句法分析,句子可以通过一系列规则得到解析。一个句子可以解析成名词词组(NP)和动词词组(VP),而名词词组和动词词组又可再被解析。乔姆斯基认为,所有的语言(人工或自然)都有与此类似的句法结构,并进一步指出语言的结构是内在的,而不是通过经验习得的(acquired)。

小程序开发

句法解析树

乔姆斯基出名后,马上就批评邻校哈佛的行为主义心理学家斯金纳(Burrhus Frederic Skinner)。从某种意义上说,行为主义是极端的经验主义。所有黑箱子理论,无论是神经网络还是统计派,在乔姆斯基眼里都属行为主义。乔姆斯基认为,理论应该先于事实,这明显违背“实践是检验真理唯一标准”的说法。

在乔姆斯基之前,语言学也企图把自己当作科学,但那只是人为的分类,就像早期的生物学,直到有了乔姆斯基的句法理论,语言学才有了坚实的基础,就像生物学有了化学和分子生物学的理论和工具。


3. 两个机器人的第一次尬聊

1960年,魏森鲍姆得了数学硕士学位后就进了工业界。他参与了斯坦福研究所(SRI)和美洲银行研制的第一个计算机银行系统ERMA,随后作为访问副教授加入了当时正在拼命招人的麻省理工学院,4年之后拿到终身教职(tenure)。他最显赫的成就就是对话程序ELIZA。现在对话程序有一个更流行且形象的词儿“聊天机器人”(chatbot或chatterbot),但根儿都在ELIZA。

小程序开发

ELIZA

ELIZA刚刚面世的几年,曾经放在麻省理工学院人工智能实验室对外开放,很多来访的学术界和新闻界的人都要试试和ELIZA走一个疗程。其实ELIZA是一个超级简单的程序,任何一个严肃的计算机科学家都不觉得这个东西有什么智力的难度。它就是在一个按词频排序的词库里找一个词的匹配,如果找到就在脚本库里选择合适的回复。但这样一个简单的东西居然迷惑了很多人。

20世纪50年代末到60年代是斯坦福大学突飞猛进的时代,一堆能人加入,科尔比(Kenneth Colby)也是其中之一,他在医学院教“心理分析”。他的兴趣是把弗洛伊德理论和当代物理学、认知科学和科学哲学挂钩。费根鲍姆介绍科尔比认识了当时在斯坦福大学访问的魏森鲍姆。科尔比感兴趣的问题正好和魏森鲍姆相反:怎么样构造一个能聊天的病人,一方面可以培训心理医生,另一方面理解病人的征兆。他的成果在1972年变成了计算机程序PARRY。

1972年的国际计算机通讯年会(ICCC)上,通过互联网的前身ARPANET,位于波士顿郊区BBN公司的ELIZA作为医生,和位于斯坦福大学人工智能实验室的PARRY作为病人,聊了一回。所有的对话记录现在都保存在位于硅谷的计算机历史博物馆里。

小程序开发

ELIZA和PARRY的对话记录

从ELIZA和PARRY分别的表现来看,现在的小冰等聊天机器人也没进步很多,但知识库的增大使得现在的聊天机器人更加实用。


4. 积木世界的人机对话

维诺格拉德(Terry Winograd)本科是在科罗拉多学院(一家文理学院)读的,主修数学,1967年他来到麻省理工学院,老师是明斯基和佩珀特。那时细胞自动机和机器人是人工智能实验室的两个热门方向。明斯基设计的机器手像是龙虾的爪子,“手眼协调”(hand-eye)和儿童的故事理解是他感兴趣的课题,这都和语言有关系。

小程序开发

维诺格拉德

维诺格拉德准备博士论文题目时,为了理解儿童世界,还借了几本儿童百科全书研读,后来他发现这是一条错误路线,儿童的知识还是太深,需要有更简单的语言世界。这个更简单的世界就是后来被称为“积木世界”的东西。维诺格拉德给他的系统取名SHRDLU,发音近似“谢德撸”。

小程序开发

SHRDLU系统示意图

SHRDLU要远比ELIZA复杂,学术意义也更加深刻。SHRDLU把当时很多AI技术整合到一起,除了自然语言理解外,还有规划(Planning)和知识表示。这甚至是最早的计算机图形学的应用。SHRDLU的潜在应用范围也要远广于ELIZA,我们可以轻易地联想到怎么把SHRDLU推广到不同的领域,例如计算可行的旅游路线。

维诺格拉德干一行不爱一行,他对人工智能的批评,有点像他的计算机系里非人工智能专业的同行,不是挑刺,而是压根看不起。他自己的研究方向逐渐转向人机交互。他的两个学生布林(Sergey Brin)和佩奇(Larry Page)创办了谷歌。


5. 统计派又杀来了,语言学家遭嫌弃

整个20世纪80年代,自然语言处理的研究乏善可陈。在1988年的计算语言学会议上,IBM TJ Watson研究中心机器翻译小组发表了统计机器翻译的论文,并推出法语/英语的翻译系统CANDIDE,这标志着统计派在大数据的支持下又回来了。

两年后,同一小组又在《计算语言学》杂志发表论文对他们的工作做了更加理论性的概括。他们的语料是加拿大议会的会议纪要。这两篇划时代的文章虽不长,却有8个作者之多,贾里尼克(Frederick Jelinek)是这个小组的核心。贾里尼克的学术训练是信息论,统计是他们这一派人最自然的工具。他的金句是:“我每开除一名语言学家,我的语音识别系统的性能就提高一点。”火药味十足。

小程序开发

贾里尼克

CANDIDE虽有突破,但相较传统方法,性能优势并不明显。2004年,已在南加州大学的信息科学研究所(ISI)干了两年博士后的德国人欧赫(Franz Josef Och)加入谷歌。他在亚琛工业大学的博士论文就是用大量平行语料构建语言模型和翻译模型。谷歌海量的数据让欧赫如鱼得水。谷歌翻译器迅速成为行业标杆,在NIST随后组织的机器翻译测试中一直名列前茅。

统计方法的另一个好处是工程师根本不需要语言学知识,也不需要懂源语言或目标语言,就可从事机器翻译。欧赫认为语言学知识对翻译没什么用处,有时还会起反作用。


6. 神经翻译是终极手段吗?

2016年,谷歌发布神经机器翻译(Google Neural Machine Translation,简称GNMT)系统,再次大幅提高机器翻译的水平。谷歌使用了循环神经网络RNN做序列到序列(Sequence to Sequence)的学习,硬件设备是谷歌自己的TensorFlow平台。神经翻译相比谷歌早期的基于短语的翻译系统,误差降低了60%,这是翻译质量巨大的提升。

2017年,Facebook进一步提高了翻译效率。他们用自己擅长的卷积神经网络CNN,进行序列到序列的学习。Facebook号称,英文-德文和英文-法文翻译的基准测试表明,他们的结果在准确度上不输谷歌,而在计算速度上则可以比谷歌的RNN有一个数量级的提升。

乔姆斯基们也许会接着质疑,这种翻译算理解吗?也许翻译根本就不是理解的问题,翻译本身并不需要解释,翻译只是翻译而已,翻译只是数据问题,而不是语义问题。没有乔姆斯基,我们还要在黑暗中摸索,但有了乔姆斯基,是不是又曾经束缚了我们探索其他方法的可能性?


7. 问答系统和IBM沃森

语义的问题大致可分两类,一类体现在人和世界的互动,维诺格拉德的积木世界属于这类。还有一类体现在人和人的交流,魏森鲍姆的ELIZA就属这类,只是现在的问答系统比积木世界和ELIZA已经复杂很多。

现在的问答系统依靠常识和知识,同时也依靠浅层的推理。知识图谱是核心,当知识图谱足够大的时候,它回答问题的能力会惊人。2011年IBM的沃森在美国电视智力竞赛节目Jeopardy!(《危险边缘》)中击败人类选手,并获得百万美元大奖。

小程序开发

IBM的沃森参加Jeopardy!节目

8. 争论仍在继续

在谷歌和Facebook在机器翻译取得长足进展之前,语音输入率先获得突破,2011年微软邓力团队在语音识别上的成功是深度学习的标志性事件之一。

随着各种神经网络技术的应用,机器翻译的水平提升得很快。预言家库兹韦尔说,2029年机器翻译就可达到人的水平。但是即使自然语言翻译问题得到了解决,机器可以算是“理解”吗?也许我们根本不需要讨论“中文屋”问题,当机器翻译问题得到解决时,“中文屋”问题自动就成了伪问题呢。

2011年5月,麻省理工学院为配合150周年校庆,召开了“大脑,心,机器”的研讨会(Brain, Mind and Machine Symposium),把本校的几位大佬都请来,乔姆斯基、明斯基、温斯顿等悉数出席,并由语言学家平克(Steve Pinker)主持。乔姆斯基批评当下流行的神经网络和统计方法,乔姆斯基认为神经网络是黑盒子,并没有给我们提供解释,故而没有提供知识。麻省理工学院主办的《技术评论》杂志为这个研讨会发了专文,标题是故意挑事儿的“不会思维的机器”(Unthinking Machines)。时任谷歌研发总监的诺维格(Peter Norvig)很快回应乔姆斯基,他批评语言学的规则在自然语言处理上,根本就没用。有人开始用“两种文化”来总结乔姆斯基和诺维格的隔空掐架。

乔姆斯基和诺维格分别所代表的两种人关心的是两种不同的问题。一种人力图打造实用的工具,没有解释也能凑合,他们是不求甚解的工程师;另一种人寻求终极的知识,他们是科学家。只不过,在计算机科学这个特定的学科中,科学家和工程师的角色变换太快,这门学科的开拓者,很多都是身兼二职,例如图灵和冯诺伊曼。


本文来自读书笔记:《人工智能简史》——尼克


推荐阅读: