NLP界的“奥斯卡”ACL大会成立亚太分会,创始主席花落百度

由国际计算语言学协会(The Association for Computational Linguistics,以下简称 ACL)主办的 ACL 2018 年度会议本周正式在墨尔本开幕。

作为计算机室语言学和自然语言理解领域的盛会,这也是近距离观察该领域发展状况的窗口。根据会议官方透露的消息,2018 年的 ACL 会议的投稿量非常高,包括 1018 篇长文和 526 篇短文。

而更重要的一个消息则是,ACL 宣布成立面向亚太地区的分学会 AACL (The Asia-Pacific Chapter of the ACL),百度高级副总裁、AI技术平台体系(AIG)总负责人,ACL前任主席王海峰担任 AACL 创始主席。

NLP界的“奥斯卡”ACL大会成立亚太分会,创始主席花落百度

此前,1982 年 ACL 成立了面向欧洲地区的 EACL(The European Chapter of the ACL),2000 年则开辟了针对北美地区的NAACL (The North American Chapter of the Association for Computational Linguistics)。也正如赫斯特所言「每隔 18 年就要进行新的动作」,此次成立面向亚太地区的 AACL 以及任命一位中国负责人,凸显出当下亚太地区,尤其是中国对于自然语言研究的火热程度。

ACL大会:NLP领域的「奥斯卡」

ACL 会议是计算语言学领域的首要会议,广泛涉及自然语言的计算方法及其各类研究领域,也是被 CCF(中国计算机学会)认定为A类国际学术会议。

不过,与其他学术领域不同,计算机语言学以及自然语言处理领域的理论进展、更新速度非常快,这也意味着,相对于其他领域的学术期刊为主要交流载体,计算机语言学以及自然语言处理领域更看重参加学术会议或者在会议上发表论文所带来的价值。

也因此,对于该领域的研究者而言,能在 ACL 上发表论文和现场参加会议讨论交流是一件非常有意义的事情。而 ACL 长期以来在论文审核方面的严格要求,根据其官方透露的数字,其论文入选率一直保持在 25% 左右,以今年为例,长文有 256 篇被录用,录取率 25.1%,相较去年的 18% 有了极大提高。也就是说,至少 3/4 的提交论文会被驳回,其入选几率之小堪比计算机语言学的「奥斯卡」。

其次,ACL 更像是一年一度的「全球聚会」,欧洲、北美地区的区域性组织 EACL 、NAACL 则负责本地区的学术会议,但亚太地区却一直没有相对应的分支,与之相对的,则是近几年来亚太地区自然语言处理方面的快速发展,下图展示了全球各地区论文通过率,亚太地区在 2017 年已经达到 33.3%,因此,成立 ACL 的亚太分支 AACL 势在必行,AACL 可以为亚太地区的研究者提供支持,吸引更多亚太地区研究者投身于自然语言处理领域的研究中,从而进一步促进该领域的发展。

据了解,ACLL 预计在 2020 年举行首次会议,此后每两年举行一次会议,会议地点将设置在亚太地区,同时还将向 个人开放会籍,而AFNLP则主要面向专业研究机构或研究所/大学开放会籍,两者合作,将为不同学术人群提供更优质的服务。

NLP界的“奥斯卡”ACL大会成立亚太分会,创始主席花落百度

而此次出任 ACLL 主席的王海峰,则是 ACL 的「老熟人」。

王海峰博士是自然语言处理领域最具影响力的国际学术组织ACL(Association for Computational Linguistics)50多年历史上唯一出任过主席(President)的华人,是截至目前最年轻的ACL会士(Fellow),同时也是唯一来自中国大陆的 ACL 会士。

与这些学术认可相呼应的,还有王海峰在百度的工程成果。

公开资料显示,2010-2013 年期间,王海峰先后为百度创建了自然语言处理部、互联网数据研发部(包括知识图谱和互联网数据挖掘)、推荐引擎和个性化部、多媒体部(包括语音和图像技术)、图片搜索部、语音技术部等。

2014 年后,已经晋升为公司副总裁的王海峰,转岗至搜索业务群组任副总经理,通过将自然语言理解注入到新产品之中,孵化出度秘 DuerOS 以及信息流两大重要产品,如今也成为百度的核心产品。

透过 ACL 越来越高的关注度,以及任命在学术界和工业界取得诸多成绩的王海峰出任亚太分会负责人,也可以一窥自然语言处理(NLP)当前的重要发展机遇。

从 ACL 再看 NLP 之于人工智能的重要性

实际生活中,不管你是打开搜索引擎搜索资料还是使用电子邮箱收发邮件以及当下火热的智能音箱市场,自然语言处理都在背后提供了技术支持。

但长期以来,自然语言处理都是人工智能领域的重要研究课题。60 多年前,人工智能研究们曾将国际象棋和机器翻译作为衡量人工智能发展的重要标准。当 1997 年人类在国际象棋正式宣告失败之后,自然语言理解的研究却依然没有突破瓶颈。

近几年,随着大数据和基于神经网络的深度学习的发展,自然语言理解的发展也进入到新的阶段,也成为巨头们抢夺的重要战场。在硅谷,Google 试图将自然语言处理相关技术纳入搜索和虚拟助理(Google Assistant)之中,亚马逊则努力在推荐系统里使用自然语言理解技术,在匹配用户意图和推荐结果上取得不错的成绩。

在中国,王海峰领导的百度 NLP 团队已经在此领域积累与沉淀十余年,已建成世界上最大规模的知识图谱,并在自然语言句法分析、语义理解、阅读理解、语言生成、智能写作、深度问答、对话系统、机器翻译等方面取得不少突破。

这些 NLP 技术已经广泛应用于搜索、地图、信息流、DuerOS等百度的众多产品中。

以搜索为例,当用户搜索「窦靖童的爸爸的前妻的前夫」时,机器不仅需要完成快速分词,还要借助知识图谱,在这些复杂的人物与关系中找到一条线索;更进一步,如果用户输入「给我推荐一个可以看后海荷花的餐厅」,机器要做的,还要去分析、理解用户的主要意图,比如到底是去餐厅还是去看荷花。

此次 ACL 上,百度有两篇关于阅读理解技术的研究论文被录用。在论文《Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification》中,百度提出了一种新的多文档校验的深度神经网络建模方法 V-NET,通过注意力机制使不同文档产生的答案之间能够产生交换信息互相印证,从而预测出更好的答案。在论文《Joint Training of Candidate Extraction and Answer Selection in Reading Comprehension》中,百度利用强化学习的方法对串行的多文档阅读理解模块进行联合训练。

而针对多文档阅读理解任务,百度自然语言处理团队发布了面向真实搜索应用的最大中文开放领域阅读理解数据集 DuReader(包含30万问题、150万文档和72万答案),并基于此数据集举办了2018中文阅读理解技术评测(http://mrc2018.cipsc.org.cn/)。DuReader 数据集以及评测方法的论文也均被 ACL2018阅读理解研讨会(Workshop on Machine Reading for Question Answering)所录用。

这些研究成果未来将在百度的产品中得以应用,同时,借助百度的 AI 开放平台,包括 NLP 基础技术平台、语言理解与交互平台 UNIT、机器翻译开放平台的形式向开发者和行业合作伙伴们赋能。

写在最后

业界常将自然语言处理比喻为「人工智能皇冠上的明珠」,在人工智能诞生的 62 年时间里,机器早已在记忆、计算层面超越人类,近几年里,随着深度学习的广泛应用,机器也初步具备了「听觉、视觉和触觉」,留给机器的下一个挑战就是:如何理解人类语言,并将其服务于人类。

这也是 ACL 会议持续火热的真正驱动力,也是中美众多行业巨头争夺的焦点。与此同时,在中国人工智能快速发展的今天,中文自然语言处理的研发热情也在更具应用场景的需求下被进一步激发。在 2017 年国务院印发的《新一代人工智能发展规划》里,自然语言处理技术位列八大共性技术之中,尤其提到「跨语言文本挖掘技术和面向机器认知智能的语义理解技术,多媒体信息理解的人机对话系统」,我们也有理由相信,通过 AACL 接下来的努力,以及包括百度在内的众多企业的支持,亚太地区特别是中国自然语言处理领域会出现更多突破性的发展。


分享到:


相關文章: