语音识别技术含量很高吗,为什么近两年才突飞猛进?

东子142218097


以我为例,来说说语音技术的发展。

我最开始接触语音识别技术是在初中时期。当时没有条件有限,没有现在这么多的电子设备。因为当时初中(2002年)才开始学习英语,所以家里给我买了一台录音机,100多块钱,上磁带的那种,可以播放磁带,听音乐,听歌,还能用空白的磁带录音。这是我接触到最早的语音识别技术。在当时可是非常先进的,可以说在当时村里的小孩天天围着我转,想要玩我的录音机。


第二次接触到语音技术是在2005年的时候,老爸买了一部手机,3000多,翻盖彩屏的,牌子是啥我不记得了,可以听歌,打电话,发消息,上网,录音,来电话时还可以报号码,体积小……我每天都偷着玩,玩的不亦乐乎。后来由于内存太小了,只有30M,所以被淘汰了。


第三次接触到语音技术是在2008年,当时学习不好,老爸就给我买了一个诺亚基学习机,当时电视机天天播它的广告,所以就决定买了一个。但是被我来玩贪吃蛇,学习机没学到东西,反而游戏瘾上来了。得不偿失,这个机器最牛逼的功能是能把我说的汉语转化为英语,所以印象深刻。

第四次接触到语音技术是在只能机飞速发展的今天,最早是在上大学2010年的时候。当时班级有的同学买了IPHONE4,牛逼得不行,我当时还用的是诺基亚功能机,印象最深刻的是能登陆微信,和siri,连接wifi,想当时我还用的是QQ,所以在当年暑假打工,存了点钱就买了一部杂牌子安卓机,后来卡的不行就淘汰了。



现在语音识别技术应用的太广泛了,比如百度的无人车驾驶,智能家居,小爱同学,微软小冰,siri,科大讯飞等等,最好用的还是siri,更加能明白我的想法,不像其他的语音助手感觉就是在和一个智障聊天。

您现在所看到的内容就是我用科大讯飞语音识别技术所呈现的。

综合我的经历,语音识别技术正在不断的发展,而且更多的应用在我们的生活中,它的发展历程离不开国家对科技行业的大力支持。基础通信的不断转变。从2G到3G到4G再到快要推行的5G。正是在这些基础条件的支持下,才能使语音识别技术发展升级换代,不断的完善,使我们的生活更加便捷,更加美好!

以上仅代表个人观点,如有其它观点,请留言或者私信我!


酒水小白菜


可以肯定地讲,语音识别技术含量的确很高。语音识别一般来说面临如下几个关键性的问题

1、环境噪音的影响,干扰了语音的有效信号,降低语音识别率;

2、同一个字(音元)在不同的上下文时,其所对应的识别效果也会不同;

3、不同的人,以及同一个人在不同的场景、心态、精神状况下时讲话的语音信息都是不同的,(同一个音元在识别的过程中,需要面临太多的“变数”,针对这些“变数”,都需要调整识别的算法才能得到较好的识别效果);

4、完整意义上的语音识别一般包括三个关键的识别环节:1)语音到文本(语音还原),2)文本到文本(语义解析),3)文本到语音或命令(语音合成)。其中1)语音到文本是前提和基础

语音拾取前置处理

人讲话的环境非常复杂,包括噪音,背景,远近距离,方向性等等。语音信息正式进入识别模块之前必须进行充分的一系列处理,才能把干净的、有效的人讲话的声音信号传送到识别模块。这里面还会用到很多关键技术如波束形成,降噪音,消回声等等。

声学模型的建立

我们人耳能够接受的声音频率范围是20--20000Hz,人讲话的声音频率一般集中在300—3000Hz。大人,小孩,男声,女声以及讲话人所处的环境,讲话人本人情绪,精神状态,方言,普通话,中文,外文等都有不同的声学特征。必须对这些场景建立复杂的声学模型,才能够使语音识别具有普遍性(或称“不依赖于人”)。可见,声学模型的建立也是相当复杂的。


语言模型的建立

都说汉语博大精深,不同的语音、语调,不同的字(单音,音素,最小语言单位)以及相同的字在不同的词、不同的句、不同的上下文等等都有不同的含义,不同的字在不同“方言”里表达的含义也不尽相同,包括声学模型在内,都需要足够庞大的数据量(数据库)进行训练,以达到完善模型,优化模型的目的。由此才能有效提高识别率。

云存储、云计算是语音识别的基础

以上简单分析可以看出,语音识别相当复杂。并且还需要“大量”的数据——大数据,以建立、健全、优化声学模型和语音模型。举一个简单的例子说明一下:如用户讲“听相声”就需要做一下一些列的处理才有可能得到一个正确的结果。

首先,必须已经建立的声学模型,就是要把尽可能存在的“听相声”声学特征信息(比如波形、频率、音调、音质、音色等等)建立不同的模型,然后系统再调用这些模型去“比对”,比对得到最匹配的信息,就认为是最后的输出结果(可见,如果模型和现实的匹配程度,在这个环节上决定了识别的效果)。

声学模型“过滤”完后的信息传递到语言模型,由这个模块“识文断字”,把声音信息还原成“听相声”。简单讲,这种“还原”的方法就是“查字典”,就是要事先建立足够丰富、庞大的数据库(存在云端,或者本地存储容量足够大,检索速度足够快),对输入进来的声音信息与数据库里的存储信息“逐一比对”,也是把“最接近”的信息输出出来。进行到这一步,就完成了“狭义”语音识别,既是“语音到文本”。

广义语音识别(完整语音识别)还包括语义解析(文本到文本)这个环节,以及语音合成(文本到语音的还原或控制命令的执行)。

语义解析的主要工作是把第一步由语音转化而来的文本信息如上文的“听相声”,在数据库里搜索对应的“解释文本”,确切地讲,将得到一个“内容链接”(这是第一步)(至于需要多少步骤才可以最终获得比如“马季的相声“吹牛””,那就看数据库怎么做(数据库有多大),搜索算法怎么做等等细节问题)。可见,这个步骤要做的工作有两个,一个是搜索引擎,一个是数据库(数据存储)。

语音识别的最后一项是输出结果,这也是语音识别的最终目的。如本例中,我们将得到马季的相声“吹牛”的声音文件(MP3或其他格式),然后将把此文件传送到声音模块进行解码播放。更多情况,如果获得的输出结果是一段文字(如字词句的文本解释信息),我们可以把信息通过屏幕显示,也可以还原成人声音,再播放出来。还原人声音的过程就是所谓的“语音合成”。

以上简单讲解了语音识别的完整过程,实际上,语音识别的过程比这些还要复杂得多得多,但一般都必须经过这些步骤。可见,海量数据的云存储,云计算是非常关键,甚至是必不可少的。当然,信息的传输一般需借助互联网或移动通信网络。

总结

就是基于以上这些非常复杂的处理过程,才使语音识别得以实现,目前已经开始在部分应用领域落地,如苹果智能手机,讯飞语音输入法等等。虽然这些都明显还有很多不尽人意的地方,但这也不得不归功于近几年相关技术的高速发展,如云存储,云计算,互联网,4G,智能硬件(智能手机,智能电视,语音导航等等)。事实上,语音识别的技术研究有着20年以上的历史,才有今天这样的成就。


最后让我们用一句豪言壮语结束吧:语音识别在路上,人工智能在向我们招手。


深圳不要将我忘记


随着科技的发展,智能手机的普及,人们越来越依赖手机,工作离不开,生活娱乐也离不开。越来越多的语音识别技术被带入到人们的工作生活中,影响着每一个人。在某些领域如信息处理、教育与商务、工业控制等方面,语音识别已经显露出巨大的优势,影响每个人的生活。

生活中最常见的是它能帮助我们提高工作效率,帮助老年人提高生活质量。工作的人开车不方便发信息,直接可以通过语音识别转换文字就能完成,很方便且还保证了开车的安全,而老年人由于年龄大了,身体的各个机能都再下降,其中最头疼的就是视力模糊,看手机发信息等眼睛特不给力,但有了语音识别只需按下语音键,录下要说的话,就能转换为文字,很是方便,也可以用语言说出需要看的电视或者娱乐项目,自动识别搜索转换台。

 那语间识别技术是一个什么工作原理呢?语音识别技术就是让机器接收,识别和理解语音信号,并将其转换成相应数字信号的技术。语音识别是涉及很多学科的一门交叉学科,涉及到声学、语音语言学、数理统计、信息理论、机器学习以及人工智能等学科。语音识别系统可以把操作人员的大量重复劳动交给机器来处理,节约了人力,提高了效益。例如:专家咨询系统、信息服务系统、自然语音识别系统、寻呼服务、故障服务、智能对话查询系统、语音订票系统等。在某些恶劣环境和对人身有伤害的特殊环境下,例如地下、深水、辐射或高温等地方,就可以通过语音识别系统发布指令,让机器完成各种工作。

  现在几乎所有成功应用到实际中的语音识别方法都采用概率统计的方法或信息论的方法。其中最主要的,大量被使用的方法有动态时间规整技术、隐马尔可夫模型、人工神经网络、支持向量机等方法,这些方法的出现极大地推动了语音识别从实验室走向实际应用。

现在实际中应用比较广泛的语音识别软件有:Nuance、IBM公司的Viavoice、Android系统下的Voice Actions、苹果手机上的Siri以及国内科大讯飞的语音识别产品等。其中苹果手机上的Siri是迄今为止最优秀的语音识别系统之一,我们可以不用注意语法结构,即使思维模式有些混乱,系统也会结合上下文去理解,它还会利用人工智能来分析,并且能在多数情况下理解我们的意思。

   随着硬件技术和软件技术的快速发展,语音识别为我们提供了一种崭新的远景。语音识别正在改变着我们这个世界,一旦机器被赋予人类语音之后,任何会说话的人都将能和机器自然的交流。人类生活的每一领域必将因它而变得异常精彩。


兜售回忆哈


随着智能手机的普及,国家网络速度的提升,新一代人类对手机的依赖,百姓收入增加,老年化增长,讯飞的语音解决了老年人的视力模糊,只需按下语音键就能用方言说出需要看的电视或者娱乐项目,年轻人所向往的智能化等!方便了生活上的大部分需求,例如导航,以前要停车下来打字输入目的地,现在只需要用嘴巴就能搞定,这个就是讯飞的优点!


JACK66649601


语音识别是近两年才走入我的视线。首先是手机上的语音识别,这一技术意味着除了指纹识别之外,语音识别也开始了手机安全保护功能。原来在电影上才能看到的遥不可及的先进科技已经普及了。随着手机与网络银行的广泛应用,安全保障与个人隐私是人们日益关心的重要需求。有了语音识别的保驾护航,我们的安全得到良好的保护,不用担心隐私和钱款的泄露。语音识别还应用到电子门锁方面,在其他更多领域也大显身手。相信在以后语音识别会更好的为我们服务!


分享到:


相關文章: