今日项目:利用生成式对抗网络产生对话资料技术

今日项目:利用生成式对抗网络产生对话资料技术

项目成果

本计划借由资通讯科技,以深度学习为基础,结合使用者对话资料,发展以深度学习为基础之多元对话机器人,透过生成式对抗类神经网络,提供使用者依兴趣而建构成的线上对话机器人服务。

本计划拟发展的对话机器人技术具有下述两项目标:

1、依使用者喜好以及生成式对抗类神经网络产生之对话内容;

2、利用生成之对话内容建构具备多元对话主题的对话内容之对话机器人。

工作项目:

TASK1:依使用者喜好以及生成式对抗类神经网络产生之对话内容。

对各社群网络平台使用爬虫技术收集使用者之聊天资料,建立语料库,并借此语料库训练文字向量化模型及生成式对抗网络。工作分工如下:

  • 爬虫及资料整理模组之实作;
  • 实作将文字向量化模型之程式并加以训练;
  • 实作生成式对抗网络之程式并加以训练。


从FACEBOOK或PTT等社交平台收集足够量的资料是本计划的基本工作,以收集问话及回话为主。然后基于生成式对抗网络必须以向量作为输入,再需要以收集之资料训练文字向量化模型,将文字转为向量后,即可进行最后的生成式对抗网络之训练。

TASK2 :利用生成之对话内容建构具备多元对话主题的对话内容之对话机器人。

使用训练完成之生成式对抗网络产生更多元的对话资料,并以此训练能进行多元对话之对话机器人。工作分工如下:

  • 使用生成式对抗网络产生对话资料;
  • 利用生成之对话资料加以训练对话机器人。


生成式对抗网络训练完成后,即可借助此网络产生更多的训练资料, 以此训练对话机器人,让对话能够尽量变得更加多元。

项目前景

就产业界实用面来说,对话机器人往往扮演着一个供应商以及使用者的一座桥梁。供应商可以提供各项服务于我们的对话机器人平台上面,而使用者可以透过与我们的对话机器人聊天满足他们的需求。在本专案中,所提出的对话机器人技术主要有下列的特点:

  1. 透过深度学习的架构,核心的人工智能技术以达到与真人极为相似的多元对话内容,同时系统具有高效能以及高稳定性;
  2. 套用生成式对抗类神经网络技术去生成模拟真人之对话记录。由于隐私权的问题,我们并不可能大量取得使用者的对话记录,因此,在缺乏资料的情况下,我们往往需要采取SEMI- SUPERVISED LEARNING的方式来建立模型,也就是说,我们需要透过少量的对话记录去生成更多的对话记录,而此种对抗类神经网络技术特别适合于对非结构性资料(如对话记录)进行SEMI- SUPERVISED LEARNING。
  3. 利用一套逻辑性、学理性及实务性兼具的验证方式来验证对话机器人是否真的能如同真人般的回话。


分享到:


相關文章: