在读纯技术上,人工智能完胜人类好几条街!

从键盘打字到触控屏,再到现在的语音交互和手势交互,人工智能技术的发展正在促使人机交互方式向更加多元化方向变革。而就在12月初的世界互联网大会上,搜狗发布了一项“唇语识别”技术。通过机器视觉识别,不用听声音,仅靠识别说话人唇部动作,就能解读说话者所说的内容。唇语识别完全不会受到噪声干扰,在多人对话中也能有效进行区分,这就有望解决语音识别的缺陷。

在读纯技术上,人工智能完胜人类好几条街!

众所周知,读唇是非常困难的,人类仅仅是依靠视觉的观察来判断。但对于机器来说,对于这种无音频的词汇能够进行有效的识别。搜索这一技术的问世,瞬间就引起了关注,这也是业内首个公开演示的唇语识别系统。据搜狗介绍,唇语识别在非特定开放口语测试中,通用识别的准确率在60%以上,而在车载、智能家居等垂直场景下,已达到90%的准确率。

在读纯技术上,人工智能完胜人类好几条街!

唇语识别技术的推出将引领整个人机智能交互行业进入一个全新的发展方向。唇语识别技术的应用方向有很多,比如手语和听力障碍患者的辅助教育、国防反恐方面的情报获取、个人的身份识别以及公共安全领域等都拥有巨大的应用潜力。但在目前来看最大的应用还是辅助语音识别,毕竟它自诞生之初就是为了解决语音识别的噪音问题而研发的,这也会使得语音交互更加完善。

但作为新兴技术,如果要想语音识别一样快读普及还是需要时间。同时也面临一些实际问题。主要是摄像头在捕捉的时候具有很大局限性,不能完全满足日常的交互需求。再就是识别的准确度问题,尤其是应用在对精度要求很高的领域,比如反恐、安防等,准确度是不能有丝毫误差的。目前最多的应用效果比较的一般是人工限定的场景范围,比如在汽车内部(车载),但如果应用到大规模的户外场景,整体的场景设定就比较难了。


分享到:


相關文章: