AI悖论:深度学习初创企业如何构建成功的AI解决方案

当前AI中存在一种悖论。一方面,人工智能无处不在:

●在中国、印度和美国,谷歌上的“AI”共有23亿次点击量;

●初创企业数据库Crunchbase列出了9,532个人工智能企业;

●即使在深度神经网络中——最集中和最强大的AI神经形态计算方法——研究出版网站arxiv.org显示关于神经网络的技术论文超过16,000篇,其中大多数是在过去24个月内发布的。

所有这些网络内容都引发了一些哲学讨论:人工智能会拯救世界还是导致智人(homo sapiens)的灭绝?是否会导致大众失业,以及前所未有的健康和财富状况?一些引人注目的研究演示通常会在选定的认知任务中表现出超人的表现,尤其是在图像、流、音频和交易数据中的感知和模式识别方面。因此,可能的结果还包括复杂社会问题的解决方案、医疗条件的先进诊断和治疗方法、环境可持续性、交通流量优化和安全、以及网络犯罪和预防诈骗。当然,世界各地的企业似乎都希望尽快让AI以某种形式运作。

但所有的这些都掩盖了AI部署的进展缓慢的事实。为什么会这样?是因为隐私、偏见和道德吗?是否缺少合适的硬件?还是AI编程工具不完美?我们在所有这些方面确实有工作要做,但真正的瓶颈、真正的危机就是缺乏实现这些承诺的应用程序。

当然,一些高调的深度神经网络应用,如亚马逊Alexa语音识别、Facebook脸部识别、谷歌搜索优化和第一个自动驾驶辅助系统,都使用了这种先进的AI形式。

事实证明,理解深度神经网络的理论和原理非常容易。构建神经网络的工具,如TensorFlow、PyTorch和Caffe,都可以免费获得,并提供大量的文档和示例库。用于神经网络训练和生产部署的计算引擎的应用范围也很广。事实上,所有最新的手机现在都有专门的硬件来加快神经网络的处理,特别是对于高带宽视频应用。然而,与市场的兴趣和技术的潜力相比,云平台中和日常设备中基于生产级别神经网络的AI应用程序的数量仍然很少。

但是又出现了两个挑战:

首先,神经网络应用程序与用于训练的数据一样完美。除非开发人员能够捕捉、购买或构建数百万到数亿个所需行为的示例,否则神经网络无法可靠地为应用程序生成该类行为。其次,构建神经网络本身可能相当简单,但重新考虑使用这些具备认知技能的应用程序要困难得多。这些AI方法与传统软件相比具有不同的优势,可以实现全新的终端应用类别。

初创公司BabbleLabs的“Clear”语音处理应用系列也面临了这两个挑战。

公司开发了一种数据方法,结合了来自各种开源库的原始音频数据的自动数据集、语音音乐噪声混响的复杂算法、以及人类听众和测试数据集。数万小时无噪音语音数据库、数千小时的噪音和音乐、以及数以万计的室内声学模型,使我们能够训练数十万小时的语音深度神经网络。通过Google云计算平台的数据存储、传输和管理功能,以及NVIDIA GPU加快处理最复杂神经网络的独特能力,以满足对成本和时间的要求。

他们还设计了一个灵活的应用程序创建基础架构,使BabbleLabs工程师能够快速开发核心神经网络的新用例,现在这一技术可用于创建语音增强(降低噪声和混响)、命令识别、说话者身份识别和音频内容分类应用程序。公司还跨平台工作,因此相同的神经网络结构、数据集和训练有素的网络可以快速部署为云API(例如语音增强即服务)、网络工具、桌面应用程序、可下载的手机应用程序和嵌入式设备应用程序。这些功能加快了开发以AI语音为中心的应用程序的速度。

在BabbleLabs,我们发现一些令人兴奋的潜在用例。我们可以想象这样一个情况:人类与机器之间的沟通质量、准确度和个性化程度更高。目前,大多数数字技术迫使我们使用键盘、触摸屏和触控板。语音是人类与各种电子设备和应用程序交互的更自然和更有效的方式。进一步的说,我们希望帮助创新公司在云、音频和视频信息娱乐系统、自动驾驶汽车、高级电话、家庭自动化、工业控制系统等方面寻求语音识别和分析提供的机遇。最终,BabbleLabs解决方案将使硬件和软件开发人员能够个性化交互和体验。

深度神经网络的应用领域要大得多,并且远不止我们的关注点——语音。从1月初的第一批种子资金开始,公司的第一个产品BabbleLabs Clear Cloud就完全构建了数据集、神经网络、应用程序和云交付基础架构。对于本地和基于云计算的承诺,包括平均88/TFLOP的NVIDIA GPU,帮助该公司在25个星期内实现了从“0”到实现了可能是市场上最准确和自动化程度最高的语音增强系统。

我们相信大大小小的创新企业都能够在这一领域突破,并且打破AI应用程序的瓶颈。

编 译:信软网

声明:本文系信软网编译文章,转载请注明出处、作者和本文链接。若违规转载使用,本网站将保留追究的权利。


分享到:


相關文章: