亚马逊将发布超过400万词汇的会话和知识图谱数据集

亚马逊将发布超过400万词汇的会话和知识图谱数据集

亚马逊计划提供大量针对自然语言处理研究的数据样本。这家西雅图公司今天表示,2019年9月,它将发布主题聊天数据集,这是一个人类对话的语料库,提供给参加年度Alexa奖的Socialbot Grand Challenge比赛团队。

亚马逊表示,热门聊天数据集包含超过21万条话语或超过410万个单词,是最大的公共社交对话和知识数据集之一。语料库中的每个会话和会话转换都与提供给人群工作人员的知识相关联,这些知识是从一系列与一组实体相关的“非结构化”和“松散结构化”文本资源中收集的。

亚马逊高级首席科学家Dilek Hakkani-Tur在一篇博客文章中明确表示,这些对话都不是与Alexa客户的互动。

哈卡尼-图尔说:“这次收集的目标是使基于知识的神经反应生成系统的下一步研究成为可能,解决自然对话中其他公开数据集无法解决的难题。”“这将使研究人员能够专注于人类在话题之间的转换方式,知识的选择和丰富,以及将事实和观点整合到对话中,并支持发表高质量、可重复的研究。”

亚马逊表示,竞争Alexa奖的团队将可以访问数据集的扩展版本——名为Extended topic Chat dataset,它包含了正在进行的收集和注释的结果。

大约六个月前,亚马逊公开了一套数据集,这套数据集可用于训练人工智能模型识别不同语言和脚本类型的名称。它被称为“音译多语种名称实体音译系统”,包含了从维基百科中摘取的近40万个名字,这些名字分别来自阿拉伯语、英语、希伯来语、日语片假名和俄语。


分享到:


相關文章: