微軟Project Tokyo讓視障群體“看見”世界其它頭條網

微軟Project Tokyo讓視障群體“看見”世界

當你和三兩好友聚會，你們在交談中會很自然地面向正在說話的人，頻頻對視，或身體前傾表示正在聆聽。眼神和肢體語言是交流中非常重要的一部分，但對盲人和視障群體來說，這幾乎是不可完成的任務。而微軟研究院 Project Tokyo 項目正在通過 AI 技術構建個性化智能代理，賦予視障群體更多能力，讓不可能成為可能。

12歲的失明男孩 Theo 坐在廚房的一張桌子旁。他戴著微軟 HoloLens 左右轉動頭部，攝像機、深度傳感器和揚聲器環繞著他的沙棕色頭髮。

當他面朝微軟劍橋研究院高級研究軟件開發工程師 Martin Grayson 時，Theo 聽到一聲提示音，“Martin”從他耳朵上方響起來。

“Martin，”西奧笑了，“它用五秒讓我認出了你。” Martin 站在一個齊膝高的黑箱旁，其中的計算硬件正支持著 Theo 使用的機器學習模型的運行。

Theo 再次轉動頭部，又一個名字響起來，“Tim”。

“Tim，你在那裡！” Theo 高興地“看”向 Tim Regan，他是微軟劍橋研究院的高級研究軟件開發工程師，同時也是 Theo 的編程老師，每兩個月，Theo 都會去 Regan 家中學習編程課程。Regan 此前在研究項目 Code Jumper 中認識了這個失明的男孩，Code Jumper 是專門為視障兒童開發的物理編程語言，用一種可觸摸的方式，讓對計算機科學感興趣、但視力上有困難的孩子們體驗編程的樂趣。

他們正在進行的項目 Project Tokyo 希望為人類定製智能個人代理，用 AI 技術來延伸人們能力的界限。對長期身處黑暗與未知的 Theo 來說，能夠實時地“認出”周圍的人們，是一種非常新奇的體驗。“不僅僅是說話的人，那些沒有說話的人，我從來不知道他們是誰、在哪兒。AI 技術讓我能用這種特別的方式感知到他們的存在。”

Project Tokyo 有著更長遠的研究願景——構建能夠擴展所有用戶能力的智能個人代理，不僅僅是能夠完成特定任務的端到端的系統，而是構建一個能自適應每一個人的不同需求的 AI 服務系統。

微軟劍橋研究院高級研究軟件開發工程師 Martin Grayson（左）和微軟研究院高級研究員 Cecily Morrison（右）正在進行測試

源自巴西殘奧會的靈感

Project Tokyo 誕生於2016年，由微軟研究院首席研究員 Ed Cutrell 和微軟劍橋研究院高級研究員 Cecily Morrison 共同發起，他們此前都有與盲人和弱視群體一起設計技術的經歷，因此決定從視障群體入手，看看智能個人代理能如何幫助他們增強和擴展能力。“視障群體往往是新技術的早期採用者，是非常好的合作對象，” Cecily Morrison 說，“我們一起想象未來關於人工智能的新體驗。”

在前期調研中，他們跟隨一群參加巴西殘奧會的運動員和觀眾，從英國出發前往裡約熱內盧，觀察他們在機場、運動場館、觀光遊覽等種種活動中，如何與他人進行互動。Cutrell 注意到，“我們人類對如何與人互動有非常細緻和詳盡的社會理解——瞭解周圍是誰，他們在做什麼，與我的關係是什麼，但對於盲人來說，這些我們認為理所當然的線索都消失了。”

研究團隊與盲人和弱視社區一起舉辦了一系列研討會，來探討有哪些潛在的技術能夠為他們改變這一點。參與者中，有一位50多歲的盲人音頻工程師 Peter Bosher 提到一個常見的場景，“當兩三個以上的人共處一室，人們會開始用眼神交流和肢體語言來表示‘我在和這個人或者那個人說話’，這一點對盲人來說真的非常困難。”

因此他提出，有沒有一種技術能夠為盲人提供他們周圍的人的信息？這一想法立刻引發了大家的共鳴。

微軟研究院首席研究員 Ed Cutrell 與項目中經過改裝的 HoloLens 設備

HoloLens 的進化

明確了 Project Tokyo 想要創造什麼樣的 AI 體驗，研究團隊以微軟混合現實眼鏡 HoloLens 為基礎構建 AI 技術。

HoloLens 能將全息圖投影到用戶可操縱的真實世界中，為構建與環境實時交互的 AI 代理提供了非常好的基礎。HoloLens 的灰度相機陣列可提供接近180度的環境視角，它的高分辨率彩色相機能夠高精度地進行面部識別，而位於用戶耳朵上方的揚聲器能夠提供空間感極其真實的音頻，讓聲音從特定的方位響起。

研究團隊中的機器學習專家開發了一系列計算機視覺算法來識別環境中不同人的位置信息。其中一個模型用於檢測環境中人的姿勢，計算他們相對於用戶的位置和距離，另一個則能夠分析高分辨率相機拍攝的照片流，來識別和匹配照片中的人物是誰。隨後這些信息將通過音頻提示告訴用戶。

比如，如果設備在用戶左側一米遠處檢測到朋友 A，用戶左耳將聽到咔嗒聲，聽起來像是來自左側一米遠處。用戶想知道這個人是誰，一個嗡嗡的音效會將用戶的視線引向 A 所在的方位。當 HoloLens 的中央攝像頭對準了 A 的臉部，用戶會聽到一個尖銳的咔噠聲提示用戶已經面朝 A 了。如果系統識別出了 A，就會為用戶念出 A 的名字。

作為音頻工程師，Peter Bosher 在項目早期參與了音頻體驗的部分，“我特別喜歡這個工具為失明的我們帶來的這種‘凝視’的感覺，它能讓我們有一些肢體語言上的溝通。”

盲人音頻工程師 Peter Bosher（中）在微軟劍橋研究院查看系統的最新版本

與視障社區一起製作原型

隨著研究團隊對技術的開發，研究人員開始進一步與視障社區合作，邀請盲人或視力不佳的成年人來親身體驗和測試這項技術，提供真實的反饋信息。

有幾位用戶認為不停地轉動頭部讓人感到很尷尬，希望能在頭部固定的情況下輕鬆地獲取系統收集的信息。這些反饋又使研究團隊開發了更多功能，比如在用戶頭部固定時，系統能用具有空間感的聲音，對辨認出的所有人作一個概述。

如果我們感受到他人的視線，我們會從眼神交流開始自然地和對方展開交談。研究團隊據此研發了另一個實驗性的功能，當環境中的某個人看向用戶時，系統會在那個方向發出提示音，但這個提示音後不會出現對方的名字。

“不給出名字會讓你將注意力轉向那個試圖引起你注意的人，將頭轉向他們，而當你直視對方時，系統會告訴你他的名字。” Grayson 向一位體驗者解釋這個細微的設計。

“我完全同意這一點，視力健全的人就是這樣反應的。他們從眼角捕捉到某個人，然後轉過頭去叫他們的名字。”這位體驗者說。

經過改進的 HoloLens，攝像頭上方還裝有一個 LED 燈帶，白色表示正在追蹤接近用戶的人，綠色代表已為用戶識別這個人。這個功能可讓與用戶交流的朋友知道他們已經被“看見”了，使交流更加自然，也能讓他們自由地選擇進入和移出設備的視野。

幫助視障兒童學習社會互動

隨著研究的深入，研究團隊發現，這項技術還擁有幫助盲人或弱視兒童發展社會互動能力的潛力。

此前的研究表明，約有三分之二的失明或弱視兒童表現出了與自閉症兒童相似的社交行為，比如在談話中似乎沒有在與談話對象交流，常常將頭靠在桌子上露出一隻耳朵。於是，研究團隊開始探索這一技術是否可以幫助他們學習發起和維持與他人的社會互動。

Theo 參與到這項體驗中，來幫助研究團隊更好地讓系統適配兒童的行為特徵。比如孩子們總是喜歡坐在一起，但常常坐不了幾分鐘就起身跑來跑去。Theo 回憶起最初測試的場景，“系統有時會同時報出兩個名字，這讓我很難聽清，所以我說這一點需要改動。”

研究人員還仔細觀察了 Theo 自由使用系統的方式。比如在一次家庭用餐時，Theo 開始巧妙地反覆左右轉動頭部，讓系統說出正在與他說話的人的名字。

“Theo 在用這個技術保持對談話者的空間注意力，” Morrison 當時感到很驚訝，“我們之前並沒有想到，這對他來說無疑是一種行之有效的保持注意力的方式。如果他能保持注意力，他就可以與談話者將話題進行下去。”

在實際測試中，更多的用途證實了這項技術對幫助視障兒童學習社會互動的潛能。

和其他失明兒童一樣，Theo 在社交場合中也會將頭擱在桌子上露出一隻耳朵。研究人員和 Theo 玩了一系列遊戲，來發掘他用身體和頭部交流時可能產生的力量。

在遊戲中，研究人員和 Theo 要解決一個小組問題。Theo 知道問題的答案，研究員們只知道問題的主題，而且只有在 Theo 看著他們時，他們才能交談。如果 Theo 移開視線，他們必須立刻停止討論。“那一刻，Theo 突然意識到自己能夠掌控一段談話。他開始理解‘看到’他人的力量，它不僅賦予了他交流的技能，更使他習得了一套全新的社會能力。”

現在 Theo 很少把頭放在桌子上說話了。無論是否帶著特製的 HoloLens，Theo 都會將自己的身體和臉面向想要談話的人。這是否會為 Theo 帶來長期的變化還是一個未知數，研究團隊也尚不能確定其他失明或弱視力兒童是否也會做出類似的反應。因此研究團隊正在進入下一階段，研究這項技術對更多兒童、年齡範圍更廣泛的人群的影響。

失明少年 Theo 正在廚房裡參與用戶測試

Project Tokyo 的未來

為了構建適用於更多人的智能個人代理系統，更廣泛的研究工作正在進行中，包括讓用戶更自由地根據偏好調整系統的機器學習技術。例如，微軟劍橋研究院機器學習研究員 Sebastian Tschiatschek 正在研究用戶如何告知系統他們希望聽到的信息的種類和數量。

由於用戶的視力水平不同，對信息的需求也不一樣。個性化的需求讓 Tschiatschek 必須採取非常規的機器學習方法，“我們想以某種數學形式將問題形式化，但對這個問題來說並不容易。許多開發工作都是通過嘗試，真正與人互動，瞭解他們的好惡，從而增強算法來實現。”此外，用戶在系統提供已知信息時會感到失望，還有很多這樣的問題尚待研究團隊解決。

最終，Project Tokyo 將構建可擴展所有用戶能力的智能個人代理。研究團隊將與視障社區中的更多兒童繼續探索，包括 Morrison 先天失明的7歲兒子 Ronan。

“我們在 Theo 身上看到的情況讓人倍受鼓舞，他正在以前所未有的方式掌控自己的世界，” Morrison 充滿期待，“我認為我們將在 Ronan 和更多的人身上看到這一點。”

分享到:

閱讀更多 派顯商業評論 的文章

關鍵字: 微軟研究院人工智能設計