手上輸出不如嘴上功夫

手上輸出不如嘴上功夫


​這是半佛仙人的第239篇原創


1


今年是小米成立10週年,10年前的4月6號,小米成立,智能手機的價格底褲從此被扒了個底朝天,後來那一天成為了小米的節日“米粉節”。


而在小米內部,還有一個比較重要的日子,那就是MIUI第一次正式發佈的8月16號,2011年的8月16號,小米正式發佈了MIUI,國內搞安卓系統的,總算來了一群正經做事情的人,當時的MIUI可以說是最好用的三方UI之一。


直到今天,業內說小米手機的時候,都要加一句戲稱。


這個MIUI值300塊。


在這個成立10週年的節點,小米發佈了自己的新手機小米10青春版,同時發佈了自己的定製UI系統MIUI 12。


這套系統最讓我感覺有趣的是兩個方面:


第一,是“空信息授權”。


在這個時代,拿用戶信息已經成了APP公認的明規則,只要你安裝新APP,甭管有用沒用,上來先跟你要一圈通信錄、短信,攝像頭、錄音機,地理位置等的權限。


你不給,可以,那也不給你提供服務,你想用,那就得開放所有的權限。


按照道理來說,有些權限是必須的,例如地圖類APP要定位權限完全合理,不然總不能量子玄學給你導航吧。


但是地圖類APP要短信幹什麼?想直接給我導航去多人運動麼?


MIUI 12的這個“空信息授權”功能可以生成一個空白的信息授權給APP,保證用戶使用的前提下,給授權APP提供空白信息迴路,這應該是國內系統的首創,非常有心。


第二,則是“小米聞聲”。


手上輸出不如嘴上功夫


小米聞聲是一個語音交互的模組,這對推出了“小愛同學”的小米來說並不算太新鮮,但是這一次小米專門給這個產品做了一個定位:無障礙服務。


我之前在知乎上看過一個國內視障人士使用讀屏軟件來操縱手機的帖子,看過之後深深的感覺,太難了,視障人士用手機實在太難了。


很多對正常人來說一目瞭然的UI,對視障人士來說就是複雜又麻煩的古怪設計,尤其是那些APP中無處不在的廣告,普通人可以視而不見,視障者卻不得不聽著讀屏軟件念一遍才能下滑。


聽障患者也是一樣,在這個短視頻的時代,聽障患者面對沒有字幕的視頻只能猜測視頻裡發生了什麼,外賣電話很難接起來,電話可以用來發短信卻不能用來發語音。


小米聞聲就致力於解決這些問題。對於視障者來說,小米聞聲可以用語音交互直接執行操作,省去了摸著手機靠耳朵找APP的時間;對於聽障患者,它可以直接把別人的話轉換成文字,讓聽障者多一雙耳朵,還能幫語言障礙者將文字轉換成語音,應對一些陌生人的電話。


會關心一個小眾市場,幫助這些聽障、視障者更方便的使用手機,說明小米是一家有溫度的企業。


但是要完成這種有溫度的服務,不僅是想法,更要有技術,小米聞聲背後的技術,來自科大訊飛。


2


訊飛聽見是小米聞聲的核心技術提供方。


對訊飛這個名字,國內應該已經有許多人有過耳聞,因為在中文語音交互的領域,訊飛就是王者,只要和這個行業沾點邊,很難不和訊飛打交道。


去年美國商務部出了一份“實體清單”,將中國最頂尖的8家科技公司列入其中,科大訊飛榜上有名,某種程度上,證明了在語音、人工智能領域,科大訊飛已經是飽受關注的頂尖技術公司。


訊飛聽見,是科大訊飛推出的以語音轉文字及翻譯為核心功能的系列產品和服務。


如果你沒有見過訊飛聽見的產品,你很難想象就一個“語音轉文字”的技術,能夠玩的多麼科幻。


在科幻電影裡,經常出現帶上就能聽懂另一種語言的耳機,我們一般都會認為那是科幻產品,怎麼也得過個十幾年才能看到,弄出來也價格不菲。


但是事實上,擁有這種功能的同步轉錄、翻譯軟件已經出現了。只要你在手機上安裝一個訊飛聽見APP,普通手機就能變身同傳、翻譯機。它支持中英文錄音轉文字,可以輕鬆輸出文字結果。


有了這東西,去英語國家旅遊你就不用帶翻譯,更不用上竄下跳瞎比劃,只要直接對著手機說話,就能實時翻譯,之後再給老外看。老外的回應也可以錄音翻譯成中文,讓你能在完全不懂英文的情況下和老外完成交流。


就連打遊戲被老外噴了,都可以掏出手機讓歪果仁感受一下智能翻譯後的祖安文化。


全世界都在學祖安話,祖安人的話,越來越國際化。


3


接觸訊飛這家公司是在幾年前,當時我被肩周炎頸椎病折磨的滿地打滾,曾經夢想過有躺在床上動動舌頭就能寫出稿子的裝備,我試過Word自帶的語音,試過人工智障Siri,然後驚訝的發現原來這個地球上有一個寶藏,叫訊飛。


訊飛聽見充分滿足了我用嘴碼字的願望,有效的降低了我的手指磨損度,能說出來的絕不動手,一直到現在,訊飛聽見出品的APP、M1等產品依然是我創作中經常用到的工具。


雖然我在B站做視頻追求的就是一個簡單粗暴,生活全靠一張嘴,但是再粗暴的視頻也需要加字幕的,有字幕沒有字幕的視頻在觀看的時候完全是兩個體驗。


如果把字幕一條一條的打上去,光是對時間軸的時間就要耗費幾個小時,按這個效率來做的話半老師就再也無法高產似母豬了。


但是,這是一個透視、自瞄、高科技的時代,聰明比努力更重要,所以為了偷懶,我開始用訊飛聽見的“聽見字幕”,把做好的視頻丟進去,就可以自動加上字幕,識別準確率按照訊飛的官方數據高達95%,之後只要簡單校對一遍就能直接上傳,非常舒服。


最關鍵的是,這個過程不用開著視頻一直看,20分鐘的視頻5分鐘就能錄入完成,時間管理能力堪比羅老師。


強烈建議有自己做視頻內容的小夥伴能試著用一下,加上字幕,觀感真的會好很多。


4


如果有什麼是比開會更痛苦的,那麼一定是聽開會的錄音!


我們都知道錄音的大部分沒什麼內容,開會絕大多數時候都在摸魚,但是大腦裡還殘存著的印象告訴你有那麼幾句話特別重要,必須要找出來。


你看半夜辦公室冒出的藍色火光,那就是絕望的拉動進度條的我們頭上冒出的惱火。


後來我發現,訊飛聽見有專門服務會議的系統,華為和聯想都使用過這個系統。


只要把它往旁邊一丟,大家在會議室裡扯蛋,扯多少它記多少,實時轉換成文字,生成會議紀要,還支持中英文互譯,效果非常科幻。


錄音轉文字也有壓縮時間效果,一小時的會議錄音十幾分鍾就能轉換完畢,事後想要找什麼,只要記得大概的關鍵詞就能自己搜,再也不用反覆聽自己尷尬的發言了。


這個功能不僅僅可以用在公司會議上,還能用在上課時。平時聽課筆記做不好不要緊,把每節課的文本都輸出出來,再逐條編輯,篩選出重點,比起照相機拍PPT、錄音後聽錄音,夢遊一樣記筆記要酷的多。


但是,我最喜歡的還是他們的會展服務,看起來逼格實在太高。


這個服務專門為發佈會、公開會議、會展做配套,除了做會議記錄以外,最閃亮的功能是大屏幕上實時字幕。


像世界人工智能大會、進博會、博鰲論壇、深圳衛視春晚、國際電信聯盟……全都有用過訊飛聽見的智能會展服務。


去過傳統發佈會的都知道,有時候臺上嘉賓說的東西漏聽,是補不回來的,尤其是一些名詞,你只能猜測他剛才說了什麼,總不可能當著幾百人的面舉手要求嘉賓重複一遍。


這個會展服務,可以實時將雙語字幕放到大屏幕上,一邊聽一邊看,對整理思維流程非常有用。


如果你平時關心發佈會,會發現智能會展提供的實時雙語字幕已經成了越來越多會展的標配,不要以為後臺有人在高速錄入,那,就是科技。


5


在技術上,訊飛已經有了一定成果:


2016年,國安智能語音高難度技術評測,訊飛評測效果全面第一。


2019年3月,機器閱讀理解國際權威評測SQuAD 2.0任務中科大訊飛再次登頂冠軍,並同時在EM和F1兩個指標上全球首次均超越人類平均水平,一舉創下比賽的全新紀錄。


但訊飛為何擁有這種技術,是一個比訊飛的技術更有價值的故事。


科大訊飛的董事長劉慶峰是一個神奇的人。


我看過劉慶峰的採訪,在談到企業經營的時候,他雖然妙語連珠,但是眼睛很平靜,整個人的氣質看起來就是一個平平無奇的企業家形象。但是談到技術,談到做技術的那些歲月,你會突然感覺,他整個人都在發光。


當一個男人像一個孩子談到自己心愛的玩具一樣談著自己的事業,油膩中年的臉孔上都充滿了少年的意氣風發。你會情不自禁的被他感染,相信他的眼睛裡真的有未來。


1999年,劉慶峰離開中科大,帶著一些夥伴開始創業,科大訊飛就此誕生。


很難想象,早在21年前,就已經有這樣一群人,去佈局語音交互這樣的近未來科技。更難以想象的是,就是這麼一群人,在一窮二白的情況下,一步一個腳印,走出了今天的成果。


劉慶峰有一段話,我非常喜歡,他說:


“你去找風口這是不對的,只有你喜歡,你去堅持到風口到來的那一天,你可能會成為最大的贏家。”


這幾年因為風口來的太多太急,有太多追風口的故事在發生,但這樣追逐風口,卻只製造了一個又一個泡沫,泡沫破碎後,一切一無所有。


真正推動世界,推動技術進步的,往往就是那些能夠堅守自己心愛事業的人。


科大訊飛99年成立,就一直在聚焦語音,他的整個業務鏈,都建立在語音識別這個核心之上,訊飛聽見,又是科大訊飛中最專精語音識別的部分。所以,當世界需要一個新的人機交互方式,世界需要語音操縱的時候,他們自然而然的就脫穎而出。


劉慶峰還有一段話說:“很多科學研究他需要傳承的,他可能三年不鳴,甚至十年冷板凳,甚至一輩子冷板凳,你要把這個革命的火種和科學的信念讓一代一代人一起(傳承下去)。”


華為、小米、字節跳動、360……訊飛能夠得到眾多頭部級公司的青睞,正是因為他們過去積累下的東西,因為這些堅持,他們才能掌握核心科技,才能在技術升級中佔據領先地位。


一家擁有技術的公司值得敬畏,但他為了得到這些技術堅持的理念,或許才值得更多創業者借鑑。


6


過去,語音識別這一技術被國外壟斷,他們的中文語音識別技術一塌糊塗,但在國內沒有好的競品,以至於在中國橫著走。調戲siri就是很多國人對語音交互的唯一理解。


科大訊飛通過這二十年的追趕,逐漸趕上了國外的腳步,在中文語音識別上獨佔鰲頭,甚至在和國外語音識別系統對抗的過程中依然收穫不菲。


訊飛聽見僅僅在19年就斬獲數十個獎項,在中文語音轉文字這一領域搶到了領先的地位。


這種領先看起來可能不起眼,但科技的發展,總是由一些散碎的發明組合而成,這些散碎的發明單獨很弱小,但組合起來,就將發揮出幾何倍數的力量。


當語音交互只能用來當語音輸入法打字的時候,恐怕大部分人不會意識到,它還可以成為一個優秀的即時轉錄、翻譯軟件用來文字創作。


當訊飛聽見給春晚配字幕的時候,恐怕大部分人也意識不到,它將會成為聽力障礙者的耳朵。


當會議結束就能用人工智能技術快速輸出會議記錄的時候,大部分人意識不到這種準確同步背後的技術積累。


小米一直致力於建立自己的AIOT體系,而這個AIOT體系最核心的關鍵,就是交互的入口,這個入口過去更多是通過手機,現在已經一定範圍內轉向了語音,未來,勢必要徹底倒向語音。


在人機交互的這條路上,人類已經走過了一條很長的路,從打孔紙帶,到鍵盤鼠標,再從鍵盤鼠標到觸摸屏,語音交互,或許是下一個人機交互的入口,它將會徹底改變我們使用電子產品的方式。


而訊飛在語音上的投入,為我們搶下了人機交互時代的入場門票。


如果你問我訊飛是什麼,我會告訴你,他們是一群妄人,因為他們試圖重修禁忌的巴別塔。


神用語言割裂人,而人將用智慧打破語言的隔閡,重建那個通天的建築。


這一次,我們不但要建起一個全人類能夠自由交流的巴別塔,還要讓這塔通到天上去,成為真正的通天塔,去連接我們未曾見過的世界,我們會讓電腦聽得懂人說話,將AI引入到我們的生活中。


這座通天塔的盡頭會是什麼?


也許不是天堂,而是更浩瀚更遙遠的宇宙,是技術發展的無盡想象,是科學家們腦洞遠方的神秘未知,是夢想者頑固的執著。


但這不重要,因為我們知道。


通天塔,就在那裡。


分享到:


相關文章: