用手勢控制智能家居，聽起來有點酷！

2018-12-18 11:45:07 AI中國

點擊上方關注，All in AI中國

手勢→預測→行動

您可以在此處找到Github項目存儲庫中的代碼，或在此處查看最終的演示文稿幻燈片。

（github傳送門：

https://github.com/athena15/project_kojak

PPT傳送門：

https://docs.google.com/presentation/d/1UY3uWE5sUjKRfV7u9DXqY0Cwk6sDNSalZoI2hbSD1o8/edit#slide=id.g49b784d7df_0_2488）

靈感

想象一下，你正在舉辦一個生日聚會，每個人都玩的很開心，音樂也嗨到了極限，我們經常在抖音上看到的大聲呼喚天貓精靈、小米小愛等智能音響的場景，在這種時候就不起作用了，很可能它們根本聽不到你的聲音，基本上你也找不到遙控器，但如果這個時候你在談話當中張開一隻手，某個手勢，你的智能家居設備就可以識別這種姿勢，關閉音樂，然後調亮燈光打到生日壽星的臉上。那確實是有點浪漫，也有點酷的。

背景

很長時間我都對手勢檢測感到好奇。我記得當第一部微軟Kinect問世的時候- 我只用一揮手就可以玩遊戲並控制屏幕。慢慢地，谷歌主頁和亞馬遜Alexa等設備發佈，似乎手勢檢測失去了語音的雷達的支持。不過，隨著Facebook門戶網站和亞馬遜回聲秀(Amazon Echo Show)等視頻設備的推出，我想看看是否有可能構建一個能夠實時識別我的手勢的神經網絡，並運行我的智能家居設備！

數據和我的早期模型

我對這個想法感到很興奮，並迅速採取了行動，就像我被射出大炮一樣。我開始在Kaggle.com上使用手勢識別數據庫，並探索數據。它由20,000個標記的手勢組成，如下面所示。

奇怪的圖像，但標籤豐富

當我閱讀圖像時，我遇到的第一個問題是我的圖像是黑白的。這意味著NumPy陣列只有一個通道而不是三個通道（即每個陣列的形狀是（224,224,1））。因此，我無法將這些圖像與VGG-16預訓練模型一起使用，因為該模型需要RGB的3通道圖像。這是通過在圖像列表上使用np.stack解決的，X_data：

一旦我克服了這個障礙，我就開始建立一個模型，使用一個訓練-測試分割，完全顯示照片10個人中的2個。在重新運行基於VGG-16架構的模型後，我的模型獲得了總體0.74的F1分數。這是非常好的，因為超過10個類的隨機猜測平均只能得到10%的準確率。

但是，訓練模型以識別來自同質數據集的圖像是一回事。另一個方法是訓練它以識別以前從未見過的圖像是另一種。我嘗試調整照片的光線，並使用深色背景- 模仿模特訓練過的照片。

我也嘗試過圖像增強——翻轉、傾斜、旋轉等等。雖然這些圖像比以前做得更好，但我仍然無法預測，而且在我看來是不可接受的——結果。我需要重新思考這個問題，並提出一種創造性的方法來使這個項目發揮作用。

要點：訓練你的模型，讓它儘可能接近真實世界中的圖像

重新思考問題

我決定嘗試新的東西。在我看來，訓練數據的奇怪外觀與我的模型在現實生活中可能看到的圖像之間存在明顯的脫節。我決定嘗試構建自己的數據集。

我一直在使用OpenCV，一個開源計算機視覺庫，我需要一個工程師一個解決方案，從屏幕上抓取一個圖像，然後調整大小並將圖像轉換成我的模型可以理解的NumPy數組。我用來轉換數據的方法如下：

簡而言之，一旦您啟動並運行相機，您可以抓取框架，對其進行轉換，並從模型中獲取預測：

在網絡攝像頭和我的模型之間的連接管道取得了巨大成功。我開始思考什麼是理想的圖像，輸入到我的模型之中。一個明顯的障礙是很難將感興趣的區域（在我們的例子中，一隻手）與背景區分開來。

提取手勢

我採用的方法是任何熟悉Photoshop的人都熟悉的方法- 背景減法。從本質上講，如果你在你的手進入場景中先拍了一張照片，你可以創建一個“蒙版”，除了你的手之外，它將刪除新圖像中的所有內容。

背景掩蔽和二進制圖像閾值

一旦我從我的圖像中減去背景，然後我使用二進制閾值使目標手勢完全變白，背景完全變黑。我選擇這種方法有兩個原因：它使手的輪廓清晰明瞭，這使得模型更容易在不同膚色的用戶之間進行推廣。這創造了我最終訓練模型的照片“輪廓”般的照片。

構建新數據集

現在我可以準確地檢測到我的手中的圖像，我決定嘗試新的東西。我的舊模型沒有很好地概括，我的最終目標是建立一個能夠實時識別我的手勢的模型- 所以我決定建立自己的數據集！

我選擇專注於5個手勢：

我策略性地選擇了4個手勢，這些手勢也包含在Kaggle數據集中，所以我可以在以後對這些圖像交叉驗證我的模型。

從這裡開始，我通過設置我的網絡攝像頭來構建數據集，並在OpenCV中創建一個點擊綁定來捕獲和保存具有唯一文件名的圖像。我試圖改變幀中手勢的位置和大小，這樣我的模型就會更完善。很快，我建立了一個每個包含550個輪廓圖像的數據集。是的，你沒看錯，我拍攝了超過2700張圖片。

訓練新模型

然後我使用Keras和TensorFlow構建了一個卷積神經網絡。我開始使用優秀的VGG-16預訓練模型，並在頂部添加了4個密集層和一個drop層。

然後，我採取了不尋常的步驟，選擇在我之前嘗試過的原始Kaggle數據集上交叉驗證我的模型。這是關鍵，如果我的新模型無法概括為之前沒有訓練過的其他人的手的圖像，那麼它並不比我原來的模型好多少。

為了做到這一點，我將相同的變換應用到我應用於訓練數據的每個Kaggle圖像——背景減法和二進制閾值處理。這給了他們一個類似我的模型熟悉的“外觀”。

L，好吧，Palm轉換後的Kaggle數據集手勢

結果

該車型的性能超出了我的預期。它幾乎可以對測試集中的每個手勢進行正確分類，最終獲得98％的F1分數，以及98％的精確度和準確度分數。這是個好消息！

正如任何經驗豐富的研究人員所知道的那樣，在實驗室中表現良好而在現實生活中表現不佳的模型價值不大。在我的初始模型遇到同樣的失敗後，這個模型在實時手勢上表現良好。

智能家居集成

在測試我的模型之前，我想補充一點，我一直都是一個智能家居愛好者，我的願景一直是用我的手勢控制我的Sonos（無線wifi音箱）和飛利浦Hue燈。為了方便地訪問Philips Hue和Sonos API，我分別使用了phue和SoCo庫。它們都非常簡單易用，如下所示：

使用SoCo通過Web API控制Sonos可以說更容易：

然後，我為不同的手勢創建了綁定，以便使用我的智能家居設備執行不同的操作：

當我最終實時測試我的模型時，我對結果非常滿意。模型在絕大部分時間都準確地預測了我的手勢，並且我能夠使用這些手勢來控制燈光和音樂。有關演示，請參閱：

來源：https://towardsdatascience.com/training-a-neural-network-to-detect-gestures-with-opencv-in-python-e09b0a12bdf1

分享到:

閱讀更多 AI中國 的文章

關鍵字: Kaggle 此處 GitHub

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"

用手勢控制智能家居，聽起來有點酷！

相關文章:

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

Hive分桶表

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

第一章 Spring Framework概述

opencv人工智能深度學習這樣實現人臉的年齡檢測

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

Redis內存分析工具--rdr安裝與使用

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

一行代碼提升遷移性能

利用相似幾何信息，做可泛化3D形狀分割模型

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

分佈式緩存，真香

特徵工程的力量

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

SpringBoot如何優雅的使用RocketMQ

css代碼規範工具stylelint

越南人口近億，國土卻僅有中國的三十分之一，為何還有大米出口呢？

南京城有哪些老字號的清真館子？

IPS屏有什麼缺點，為什麼手機廠家都不用了？

科創板受理企業達72家，會不會上市以後，對股市資金造成“虹吸”，股市開始下跌？

國家對西安奔馳利之星會做出什麼樣的處罰？為何媒體曝光才會引起關注？

66萬奔馳車漏油事件鬧得沸沸揚揚，為什麼鮮有知名人士出來打抱不平呢？

66萬奔馳事件，就目前而言對奔馳造成的負面影響，是不是超過66萬了？

雷克薩斯跟奔馳哪個保養貴？

倒車時把對方的奔馳前保險槓頂了一下，對方非得要求給他換新的，該怎麼辦？

凱恩賽季報銷了，孫興慜能否單核帶著熱刺多線作戰？

優質木門有什麼特徵？

就現在的物價，你覺得多少工資才能滿意？

感覺身邊人收入並不高，但好像人人都有房有車，穿名牌，錢是哪來的呢？

你覺得西安女研究生奔馳漏油維權事件最好的解決方式是什麼？

66萬奔馳事件，就目前而言對奔馳造成的負面影響，是不是超過66萬了？

有哪些適合13歲小女孩的古裝？

用便宜口紅很丟人嗎？

夏天要來啦，女生應該怎麼搭配衣服？

皮膚偏黑的人穿紅色漢服好看嗎？

有哪些讓你驚豔不已的小眾平價口紅？

漢服工藝是否講究？

有人說應該把中小學校服，改為漢服樣式，你覺得是否可行？

該如何推廣漢服民族服飾？

工作兩年的人應該怎麼規劃才能不被剛畢業的超過？

有哪些平價貌美的腮紅可以推薦？

現在國家放開落戶政策，對三四線城市的房價有無影響？

農村如果全面放開三胎，會不會迎來人口增長高峰期？你願不願意生？

高通驍龍660處理器性能如何？

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪