读《语言学纲要》有感——NLP需要语言学

摘要:本文采用“以小人之心度君子之腹”的套路,主要基于高中所学知识,对语言学的基础知识,即语言文字的出现和发展、特点和变化进行了总结,并提取了一些自然语言处理的背景知识,以加深对NLP的理解。

1. 引言

自然语言处理(Natural Laguage Processing, NLP)是人工智能领域最火热的方向之一,大家在里面投入了大量的人财物,完成了不少有意义的工作,比如效果良好的翻译工具、实用的智能个人助理、越来越善解人意的推荐系统等等。作为这方面的工程师,我似乎在算法的汪洋大海中迷失了。

为什么这么说呢?NLP这门学科的目标是实现机器和人的无障碍交流,并为此融合了语言学、计算机科学、数学等学科的理论和方法——而我,咔咔学了这几年,几乎没有语言学方面的积累,几乎没有意识到语言学和NLP中的联系。

最近,我仔细看了叶蜚声和徐通锵的《语言学纲要》,并基于本人在NLP方面(不多的)积累进行了简单思考,最后以博客的形式记录下来。

2. 从自然、意识、语言、口语到书面语——这是历史的进程

我们常说提升生产力是历史进程的最终方向。这个不仅适用于我们的经济社会发展,也适用于语言的出现和发展。

2.1. 意识是自然的主观映像

自然,可以粗暴地理解为整个宇宙,文雅的叫法是客观世界。我们人类有一定的能力,可以观察、记忆甚至解释一些事物——结果就是我们的大脑中存储了这些事物的外貌、温度等等信息,就是我们的意识,也叫做主观映像。当然,我们还有利用事物的意识、改造事物的意识等等。比如说,我们的祖先遭遇如图2-1所示的巨大物体后,一定会害怕、担心被干掉,这时候祖先就得记住这个东西、下次遇到要快速响应。

读《语言学纲要》有感——NLP需要语言学

图2‑1 现代人叫亚洲象

2.2. 语言是表达意识的工具

很久很久以前,动物们用声音、图形、动态图像等等原始信号来表示主观映像。听着声音,祖先们就可以判断脚下的树枝是不是要被压断了;看看同伴的眼神,就知道他是不是要给你挠头;闻闻气味,就知道小宝宝是不是又拉了。从上帝视角来看,这种方案有一个重大缺陷:可以支持个体思考,但是无法支持同伴之间的快速交流。如果同伴之间不能传递信息,就无法传递历经艰险得到的知识。

不知道的自然选择的结果,还是祖先们有意识决定的,后来,祖先们开始主要用嘴、喉咙发出的声音来传递信息,比如(扯淡)用一个音素“wen”代表蜜蜂、同伴说这个就得赶紧跑。声音这种信息载体有一个特点,就是解放了四肢,允许大家一边跑一边叫。使用声音沟通时,祖先们可以进行带有“即时战略”特点的活动,比如在不影响逃跑速度的情况下告诉同伴们逃跑队形和集合地点。事后诸葛亮一下:使用声音沟通,提升了生产力,是生物挑选信息交流方式进程的最佳结果。

不知道是自然选择的导致的,还是祖先们勤加练习的结果,后来,祖先们可以发出越来越多的声音,以满足越来越强的认知能力所带来的越来越大的表达需求。这一时期,祖先们还发现,一段声音和另一段声音可以组合,形成一段更长的声音、表示另一种意思——这样,他们就可以用非常少的声音素材,描述非常多的事物。举例来说,如果我们可以发N种声音,一段包含K个音素的声音,可以表示种事物(要是加上我们现在使用的音调机制,那就更多了)。用于表示一个事物的音素组合,就是后人称为“词语”的东西。

不知道是自然选择的导致的,还是祖先们有约定的结果,后来,祖先们把词语搭配的形式和规则固定下来,形成了我们现在称为语法的东西。语法的存在,让语言更有规律,编码、解码和学习的成本更低,更有利于大家的交流,也就能进一步提升祖先们的生产力。到这个时候,祖先们称得上是文武双全、天下无敌,可以用复杂的队形和策略去狩猎,如图2-2。

读《语言学纲要》有感——NLP需要语言学

图2‑2 某地岩画

在自然选择的作用下、在祖先们的个人奋斗下,语言和我们的意识相互依存、相互促进,发展成了今天这个样子。

2.3. 口语是语言的天然存在形式

如前所述,声音这种信息载体,由于相对于图像等有着巨大的优势,最终成为我们交流信息的主要形式。对应地,我们的主要通过口语来进行沟通活动。因此,口语成为语言的天然存在形式。

2.4. 书面语是提升意识、语言传播能力的工具

当然,相比声音,图像形式的信息也有独特的优势:可以跨越时间和空间进行传播。石头上的刻痕、木棍上的绳结,可以把信息传递给子子孙孙或者远在天边的另外一个部落。单凭声音,祖先们无法做到这一点——声音转瞬即逝,编码、解码容易出错,个体寿命有限等等,都限制了以口语形式存在的信息。于是,祖先们利用各种方案表示语言,包括在石头上画画、绳子打结、种树等等。在使用这些方案的过程中,图形这种形式,由于生成和理解比较便捷,逐渐胜出、成为主流的语言表示方案,并逐渐发展成象形文字。文字的出现,很好的解决了社群规模越来越大的情况下,信息交流的迫切需求,进一步提升了祖先们的生存和生产能力。

3. 语言和文字的若干特点

对现代人来说,语言和文字是密不可分的,二者都是用来对客观世界进行编码的符号体系。语言用声音来编码意识,而文字通过编码语言来编码意识。

3.1. 语言是一套离散的编码系统

语言是一套离散的系统,我们用以对客观世界进行尽量近似的刻画。声音、图像等原始信号是连续的,可以非常精准地反映实际情况,而语言只能用“帮”“真棒”这样的离散取值来描述世界。

另外,由于能力所限,我们只能用语言描述客观世界的一小部分。因此,语言所记录的,是对客观世界原始特征进行采样和编码的结果。理论上,句子是可以无限长的,因此可以表达非常非常精确的意思。因此,语言与现实世界的关系,有点像我们对函数的多项式展开操作时,多项式与函数的关系。

3.2. 语言符号的层级性

“我是中国人”这句话,有多个层级。两个或者多个词语构成词组;多个词组构成短语;多个短语又构成了句子。因此,句子的结构具有层次性。

读《语言学纲要》有感——NLP需要语言学

图3‑1 句子的结构

我们在做文本理解或信息抽取的时候,可以根据场景的特点选择合适的粒度。

3.3. 规则可以描述大部分语言现象

词语的搭配、短语的组合等等,大部分可以用类似“主+谓+宾”的规则来描述。我们写一些正则表达式就可以解析或者生成合法的句子。但是,总有一些语言现象不符合主流规则,比如“我们要自卫”这句话,按照现在主流的语序应该是“我们要卫自”。“自X”这种句式是古汉语的语法在现代汉语中的留存。现代汉语中不符合主流句法的现象还有很多。

语法和语义共同决定了一个句子的形态。因此,我们在解析句子或者生成句子的时候,既要考虑句法的合理性,又要考虑语义的合理性。比如说,“十獒创世纪”这句话,语法上没啥毛病,不过因为不符合事实(我就不展开来批判了),仍然是一个非法的句子。因此,我们在对语言建模的时候,实际上需要把客观世界的相关知识融合进来,才能更好地刻画语言。

语法和语义共同制约的存在,决定了句子中所有的元素两两之间,多多少少存在一定的联系。注意力机制特别适合用来刻画这种复杂关系,也催生了Transformer、BERT、GPT等经典的语言模型。

读《语言学纲要》有感——NLP需要语言学

图3‑2 獒吹经典口号

3.4. 语言和文字的关系

文字是语言的编码,可以看做是语言的图形化版本。

我们使用文字对语言编码,进而实现对意识的编码,最终实现意识跨越时间和空间的传播。老子、孙子等人的意识片段,通过文字一直流传到了今天,不断地在后人的脑海里活跃着。

当然,文字在发展的过程中,逐渐出现了相对语言的独立性,比如中国人创造了书法这种艺术形式。古人在传承和学习文化典籍的时候,为了让后人也能看懂,规定书面语的语法不能变。结果随着时间的推移,人们的口语与书面语区别越来越大、学习古文的代价也越来越高。到了鸦片战争以后,人们终于不得不求变,废掉古文、提倡白话文。这时候,书面语又跟上了口语的脚步。

通常来说,NLP任务的直接处理对象是包含了文字的文本片段,毫无疑问,里面蕴含了人们的意图、情感等等。我们用词袋模型、词嵌入向量等等,刻画的不是那个字符串,而是文字所代表的意图和情感。

3.5. 表意文字和表音文字的关系

祖先们把图画发展成了象形文字,比如我国商朝时期的甲骨文、古苏美尔人创造的楔形文字等两河流域并传到今天、形成各种表意文字,比如成熟期的汉字、楔形文字。

由于汉语文化圈后来在所在地区一直是文化、生产力等方面的先进代表,文化的载体——汉语和汉字受到了统治者们的推崇,并被秦始皇等人定为国家标准语言,传承至今。

随着词汇规模的扩大,人们逐渐发现掌握语言变得越来越困难。一些民族为了减少或控制文字符号的数量,采用了一种新的策略,即用文字符号表示读音。这类语言的文字被成为表音文字,代表是英语。表音文字的特点是字符数量较少、易于学习,有利于语言的推广。

我们曾经试图将汉字拉丁化,以降低汉语的学习难度、尽快提升广大人民的文化水平。不过呢,共产党比较给力,通过推广简体字,很好的完成了扫盲任务。以王选为代表的科学家们,也用科学技术维护了汉字的生存空间。而拉丁版的中文就成了我们现在的拼音,用来记录和表达汉字的标准读音。

表意文字和表音文字各有所长,可见的未来里,都将继续存在。

4. 语言会变化

语言的变化是持续发生的,因此,我们的NLP系统需要经常进行相应的更新。

4.1. 语言变化的动力

语言出现和发展的根本动力,是我们为了获得生存优势,在一定成本下尽量多地传递信息的本能和意识。这也是我们提升生产力的需要。

语言发生变化的动力或者说原因非常多:

(1)先人们在生存和生产的过程中,不可避免会与其他群体发生接触,或多或少会进行交流(当然交流友好程度的取值范围是[和平,战争])。交流就意味着思维方式、表达方式等等方面的相互学习,就会导致语言的变化。我在边疆重镇哈尔滨呆过几年,为了更好地和当地人交流,平时说话的用词、口音多多少少会学当地人,比如“干啥”一般读作“gan[四声]ha[二声]”——离开哈尔滨也没改过来,我的语言系统被改变了。

(2)我们对世界的认识越来越深入、越来越全面,语言需要适应这种变化。当我们发现新的物质,就需要造一个新字。

(3)我们在使用语言的过程中,会发现并接受一些更高效的语言形式。英语里的一些表达习惯,有利于让读者快速定位主谓宾进而理解含义,可以借鉴。

(4)我们会主动地规划语言的发展方向,以适应生活和生产的需要。中央政府会制定必要的语言文字规范。

(5) 语言在传播和传承的过程中,不可避免出现一定的误差。举例来说,我从父母哪里学到的神木方言,肯定不是原汁原味的,总有一些词句没学到。

4.2. 语言会变成什么样?

在我们的生命周期里,语言不会发生特别大的改变,因此不需要担心听不懂子孙的话。语言说到底是我们的工具,不需要追求永恒的标准,提升生产力才是终极方向。

目测我们的语言编码效率会越来越高、表达力会越来越强。《三体》所描述的中英文混合体,有可能出现呀。一些学者可以定性的预测语言变化趋势;貌似还没有人用数学模型描述语言的变化。我们暂时无法预知今后语言的样子,只能在科幻作品中看看啦。

4.3. NLP从业者需要做些什么

用统计方法做NLP的人,喜欢用统计语言模型来描述语言现象的规律,以概率来衡量一个句子合法性的高低,比如一阶马尔科夫模型:

读《语言学纲要》有感——NLP需要语言学

当人们制造了新的字词、废弃一些字词、引入了新的语法等等时,语言模型里的条件概率就会发生变化。我们的NLP系统,需要一定的机制来适应人们口语和书面语的变化,以维持良好的性能。微博、Twitter这样类平台的文本,相比常见的书面语,更带有更多的口语特点,因此表达方式的变迁也更快,这要求我们以更高的频率更新语言模型。

当然,我们不能只是一个被动接受的角色,而应该加入到语言发展的进程中来。我们在科研和工程实践中,经常能发现和遇到一些语言规律,有助于大家增进对语言的了解;另方面,带头大哥们可以参与到语言规范的制定中来,让自然语言语言成为机器的有力工具,最终让机器成为人类的有力工具。

读《语言学纲要》有感——NLP需要语言学

图4‑1 带头大哥以身作则

5. 结语

忘了是从哪里看到的一个牛X名词,叫“记忆宫殿”,意思是用生活中你最熟悉的一个场景中的事物,把需要记忆的内容编码起来,然后记住而形成的记忆综合体。对应的方法可以叫做“记忆宫殿记忆法”。在需要提取记忆的时候,我们可以首先想到那个场景,然后把当时使用的事物一个个想起来,最后以它们为提示、回忆真正要记忆的内容。“记忆宫殿”是一种非常有用的记忆方法,可以帮我们实现快速、有效的记忆。

当然,记忆宫殿是不可持续的——我们熟悉的场景没那么多,用一个就少一个。

记忆宫殿其实是一种索引机制,即用容易记忆的事物作为知识内容的索引或者说目录、大纲、框架。从直觉、常识的角度解释算法和模型,就是一种典型的知识索引机制应用。比如说在本文中,我使用比较熟悉的高中所学进化论、简单的哲学知识、简单的语言学知识和生活常识,把语言和文字的的发展史给组织起来了,回忆这段历史的时候就会轻松一些。

我看,索引机制,也是“把书读薄”的一种有效策略。

注意:本文为李鹏宇(知乎个人主页https://www.zhihu.com/people/py-li-34)原创作品,受到著作权相关法规的保护。如需引用、转载,请注明来源信息:(1)作者名,即“李鹏宇”;(2)原始网页链接,即当前页面地址。如有疑问,可发邮件至我的邮箱:[email protected]


分享到:


相關文章: