最终是句法,让我们能与外星人交流

17-04-03

Permalink 05:24:04, 分类: 佳作转载

最终是句法,让我们能与外星人交流

今年的奥斯卡,获提名最多的两部影片中,有一部科幻片《降临》。电影讲述了神秘外星飞船降临地球,语言学教授露易丝·班克斯博士受命参与破译外星人的语言。语言学家作为年度大片的英雄出现,这颇有些出人意料,也算是惊喜。曾经一度不少观点认为语言学其实一直是在虚张声势,有些领域的科学家干脆拒绝把它归为“科学”。
语言学是这部电影的核心,而电影在这一点上恰恰完成得很棒。说句题外话,从理论上支撑这部电影有关情节的是加拿大麦吉尔大学的一位美女教授杰西卡·库恩,库恩教授除了提供学术支持外,场景设计师甚至还参考她的办公室布置,借用她的书籍和饰物去布置拍摄场景。
影片里长着七个触角类足的外星人“七脚怪”,它们的视觉语言,被表现得既未来又诗意。七脚怪用触须喷出墨鱼汁一样的液体,在空中炫舞、飘渺、幻化,形成漩涡状的图形。漩涡上生出一缕缕的繁复花体分枝,仿佛从主圆周上抽丝剥离而出。这样非线性的语言形式,用漩的走向、形状、调制、以及卷须,组成一个整体来传递意义。接着,多个句子被连接起来,形成更多更复杂的形式。最终,利用GPS系统对它进行分析。这里的GPS,不是卫星定位,是一种称做通用问题求解器(General Problem Solver)的电脑程序。
七脚怪语言所具有的无时态和多维度特征成为推动情节的关键。班克斯博士破冰所利用的,正是“如何习得”这一语言学的研究核心。
是现实中刚刚出现的一例与语言相关的破冰,令我联想起了去年底的这部影片。
由特斯拉创始人埃隆·马斯克(Elon Musk)联合Y Combinator总裁山姆·阿尔特曼(Sam Altman)创建的一个非盈利人工智能实验室OpenAI,上星期发布了一项研究成果,一位访问研究员伊戈尔·莫达奇(Igor Mordatch)的机器人创造了自己的语言,它们越过人类,自己开始唠嗑。
聊天机器人chatbot,是硅谷的热门话题之一。像很多人一样,莫达奇也在致力于搭建能够进行对话的机器,但他与其他人又不一样,他既不是语言学家,也并不采用常规的语言处理方法的。他是一名机器人专家,在斯坦福和华盛顿大学开展一系列研究项目,主要是训练机器人能够像人类一样行动。在学界进行科研工作的间隙,他在好莱坞投入了不少时间,参与过皮克斯《玩具总动员3》的工作。“从无到有地为对象创造出动作,是我一直感兴趣的事,”这次,这个兴趣将他引上了一条意料之外的道路。
作为OpenAI的访问研究员,莫达奇在那里的实验室里建造了一个虚拟世界,其中的软件机器人出于需求而生成自己的语言。这与《降临》中班克斯博士面临的问题多少有些类似。
关于语言究竟是什么,在语言学研究领域一直存在两种不同的观点。认同哪一种,直接关系到班克斯博士将采用什么方式开启她与七脚怪的交流,同样也关系到AI届的大神将如何训练机器人与我们以及它们内部的沟通。
其中一种,认为语言是基本的交流系统持续延展和提炼的结果,它是一个文化的进化过程,受到来自实际运用当中,交流本身和社会两方面因素的敲打和冲击。因此语言是文化的。
另一种观点则认为,语言是当人类大脑面对某种可以被语言学理论所解释的事件时,大脑不由自主建立起来的一个通用系统,它得以将语音或符号与意义联系起来(或者,班克斯博士所遇到的情形,盘旋在空中的外星人以墨汁喷出的图案)。因此语言是认知的。
而《降临》一片所采用的语言学,则不安地端坐在这两种观点之间。
故事里的七脚怪语言,当然与人类语言有天壤之别,它隐含着萨皮尔—沃夫假说(Sapir-Whorf Hypothesis)。这个假说由语言学家兼人类学家萨皮尔和他的学生沃夫所提出,认为人类的思考模式,深受其使用语言的影响,因而持不同语言势必导致对同一事物的不同看法,甚至个性(这让我想起腾讯·大家另一位作者凌岚曾经写过的大导演李安在使用中英文时迥异的风采)。
这样的语言会催生,事实上是迫使,一种新的对现实世界的理解方式;这样的方式在这部影片出现前,对我们而言一直是完全陌生的,包括对班克斯博士也不例外。但她的语言学方法却必须奏效,要拯救世界于水火呀。她必须想办法将那些漩涡分段,编制出一套视觉句法,并为这些图形建立语义层面的连接。影片对这个环节的处理,完全是语言学家面对一门新语言时进行田野调查时的体验,有兴奋,有沮丧。
如果语言是文化的,而人类对于七脚怪的文化而言,犹如对它们的技术、外表、生物特性一样,一无所知,我们没有理由认为班克斯博士能够利用她的语言学技术,将那些水墨漩涡分段、归类、分析。
如果语言是认知的,那么,假设七脚怪的脑组织与我们有极大差异,拿出一套可以有效指导这项田野调查的理论,基本上也是不可能的。然而,班克斯博士发明了一套新的漩涡与外星人交流,利用一个像iPad似的小设备,她选择并组合一些复杂的图形。
这其实默认了文章开头的一个假设,七脚怪的语言没有时态(atemporality)而且多维。在计算机自然语言处理中,可以方便用词袋(bag-of-words)来对付。
人类的语言,与七脚怪一样,也是多维的。而对于无时态语法,语言学家也不陌生,中文就是。那些我们表面上连续说出来的词,在大脑接受时,其实处于不同的维度,由一个几乎隐身的脚手架,将那些表面上分开说出来的词,在句法层面聚拢在一起;而将那些连续说出的词,又从结构上分开。
这么一来,七脚怪,连同他们的语言,便不再那么奇异陌生。也许正是句法,将形式与意义之间的抽象联系延伸到无限。跨越星河的不同物种最终能够连接在一起,仅仅因为我们都进化出了句法。
回头来看看OpenAI实验室的“外星人”。在研究人员所创建的虚拟现实里,机器人被要求完成特定的任务,例如将自己移动到某个指定地标,便可获取奖赏。虚拟世界十分简单,就是一个白色的正方形——纯粹的二维世界——而这些机器人也只是一些有颜色的图形:绿色、红色或者蓝色的圆圈。在这个看似简单的宇宙里,机器人允许创造自己的语言来作为合作途径,以帮助它们更高效地完成任务。
它们随机地将各种抽象无意义的标记,分配给一系列它们在探索中所习得的简单概念,也分配给彼此,分配给世界里的每一个位置、物品以及各种行动,例如“去那里”或者“看那边”等等。语言就在这样的需求当中,以标记的形式诞生了。凭借语言,它们可以告诉彼此去哪里获得帮助,从而可以更快地共同抵达目的,更快地获取奖赏。再下一步呢,当这些机器人的语言变得更加复杂时,相信会有相应技术出现,将之翻译成某种人类语言,例如英语。
这个实验,其实从另一个角度向我们展示了,为什么会有语言存在。实验所采用的方法有别于近来其他所有与语言相关的AI探索。如今绝大多数的顶尖研究者,都在从模仿人类语言的角度出发,没有人试图让机器人创造一种它们自己的语言。
近年流行的深度神经网——通过在海量数据中发现规律来学习执行任务的复杂的数学系统——已经证明它在对象识别,智能手机语音识别等方面的应用非常有效,目前谷歌、脸书、微软都纷纷在尝试将类似方法运用到语言理解上,希望在英语沟通中识别出模式和规律,然而迄今为止收效甚微。
而莫达奇团队,包括OpenAI的另一名研究员,加州大学伯克利分校的皮特·埃比奥教授,却质疑那种方法会不会从根本上就行不通。这也是他们完全另辟蹊径的缘由。“让智能体与人进行智能交流,仅仅依靠统计规律是远远不够的,”他们在公布这项研究的论文中写道,“一个能理解语言的智能体,当它去运用语言时,一定是为了在所处的环境中完成某项任务。”
早期的人类语言产生于必须,他们学会彼此交流,因为这样有助于他们完成很多工作,从而优于动物。这与莫达奇的机器人,与班克斯的七脚怪,都有相同的动机。OpenAI的研究人员即希望给他们的机器人创造出这样一个动态环境。在这个虚拟世界中,机器人用简单的肢体语言或符号语言进行交流,例如指向某一个特定的方向,或者带领另一个机器人在目的地之间穿行。这本身就是语言的一种形式,起码是通往成熟语言的道路。又或许班克斯博士介于两极之间,结合对立观点,不同技术的方法,是一种启发?

爱乐洪哥

莫听穿林打叶声,何妨吟啸且徐行。竹杖芒鞋轻胜马,谁怕?一蓑烟雨任平生。 料峭春风吹酒醒,微冷,山头斜照却相迎。回首向来萧瑟处,归去,也无风雨也无晴。

统计

搜索

分类


最新评论

最新留言 [更多留言]

选择一个布景主题

杂项

友情链接

北美中文网

引用这个博客系统 XML

加西网 版权所有 2004-2017