使用Fast.ai和OpenCV進行視頻面部表情和意識檢測

從實時視頻或視頻文件中檢測面部表情和意識。背後的靈感是什麼?通過網絡攝像頭看著我,但被深度學習所取代

實時視頻分類器演示

介紹

本教程的目標?使用fast.ai庫訓練面部表情分類模型,從您的網絡攝像頭或視頻文件中讀取面部表情,最後添加面部標記以跟蹤您的眼睛以確定意識!、

、在進行該項目時,面臨的一大挑戰是弄清楚如何使用經過訓練的分類器,使其能夠有效地用於實時視頻和視頻文件。

第一步是用卷積神經網絡訓練圖像分類模型。我使用的數據來自https://www.kaggle.com/jonathanoheix/face-expression-recognition-dataset

我使用了構建在PyTorch之上的fast.ai庫來訓練我的分類模型。使用resnet34預訓練的權重和訓練數據集對模型進行訓練,並以.pkl文件的形式導出。有關分步說明,請在我的存儲庫中查看Google colab筆記本,其中包含用於訓練模型的所有代碼:https : //github.com/jy6zheng/FacialExpressionRecognition

最大的挑戰是首先找到一個公共數據集,然後清理數據。最初,當我使用Kaggle數據集時,我只能訓練到0.328191的錯誤率,這意味著大約68%的時間它是正確的(一點也不好)。當我繪製產生最大損失的圖像時,我很快意識到大量數據被錯誤地標記了(左邊是模型的預測表達,右邊是被標記的情感)。

使用Fast.ai和OpenCV進行視頻面部表情和意識檢測

下排第三名的女孩顯然不開心

清除數據後,錯誤率降低了16%以上。現在,分類器的準確度約為84%,這意味著它可以正確識別84%的面部圖像。仍然有一些不正確和骯髒的數據,因此還有更多改進的空間。

使用Fast.ai和OpenCV進行視頻面部表情和意識檢測

使用Fast.ai和OpenCV進行視頻面部表情和意識檢測

如您所見,中性和悲傷的面孔最容易讓人感到困惑

在直播視頻上使用訓練好的模型

現在,是時候採用我們的分類器並將其用於實時視頻流了。首先,最好創建一個虛擬環境,以便該項目具有自己的依賴性,並且不會干擾任何其他項目。然後,下載所需的軟件包和庫。創建一個名為liveVideoFrame.py的文件(或任何您想命名的文件)並導入以下內容:

<code>from scipy.spatial 
import distance as dist
import numpy as np
import cv2
from imutils import face_utils
from imutils.video import VideoStream
from fastai.vision import *
import imutils
import argparse
import time
import dlib/<code>

我想要該選項將預測保存在.csv文件中並保存標記的視頻,因此我添加了參數解析功能。我還導出了訓練有素的分類模型,並將其移至我的工作目錄。

<code>ap = argparse.ArgumentParser()
ap.add_argument("--save", dest="save", action = "store_true")
ap.add_argument("--no-save", dest="save", action = "store_false")
ap.set_defaults(save = False)
ap.add_argument("--savedata", dest="savedata", action = "store_true")
ap.add_argument("--no-savedata", dest="savedata", action = "store_false")
ap.set_defaults(savedata = False)
args = vars(ap.parse_args())path = '/Users/joycezheng/FacialRecognitionVideo/' #change this depending on the path of your exported model
learn = load_learner(path, 'export.pkl')/<code>

現在是時候開始我們的視頻流了。我從imutils.video使用VideoStream,因為我發現它比cv2.VideoCapture的運行速度更快。注意:內置網絡攝像頭的視頻流源為0,如果您使用其他攝像頭(例如插件),則視頻流的源將不同。

Haar級聯分類器用於識別視頻幀中的正面。我們有一個名為data的數組來存儲我們的預測。timer和time_value用於在我們的數據中標記每個預測的時間,以便在.csv文件中預測增加1s。

<code>face_cascade = cv2.CascadeClassifier("haarcascade_frontalface_default.xml") 
vs = VideoStream(class="lazy" data-original=0).start()
start = time.perf_counter() 
data = []
time_value = 0
if args["save"]: 
 out = cv2.VideoWriter(path + "liveoutput.avi", cv2.VideoWriter_fourcc('M','J','P','G'), 10, (450,253))/<code>

現在,我們將實現一個while循環,該循環從視頻流中讀取每個幀:

  1. 由於圖像分類器是在灰度圖像上訓練的,因此每個幀都轉換為灰度
  2. 級聯分類器用於查找框架中的人臉。我將minneighbors參數設置為5,因為我發現它在實時視頻中效果最好。對於錄製的視頻文件,我將其設置為較高的值,因為可以保證每幀中都有一張臉
  3. 由於我們的分類器是在沒有太多背景的特寫臉部上訓練的,因此使用0.3的緩衝區為臉部裁剪了灰度圖像
  4. 然後將文本和邊界框繪製到每個框架上並顯示
  5. 然後使用out.write(frame)將每個幀保存到視頻編寫器
<code>while True:    
    frame = vs.read()    
    frame = imutils.resize(frame, width=450)     
    gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)   
    face_coord = face_cascade.detectMultiScale(gray, 1.1, 5, minSize=(30, 30))
    for coords in face_coord:        
        X, Y, w, h = coords        
        H, W, _ = frame.shape        
        X_1, X_2 = (max(0, X - int(w * 0.3)), min(X + int(1.3 * w), W))        
        Y_1, Y_2 = (max(0, Y - int(0.3 * h)), min(Y + int(1.3 * h), H))        
        img_cp = gray[Y_1:Y_2, X_1:X_2].copy()        
        prediction, idx, probability = learn.predict(Image(pil2tensor(img_cp, np.float32).div_(225)))
        cv2.rectangle(                
            img=frame,                
            pt1=(X_1, Y_1),                
            pt2=(X_2, Y_2),                
            color=(128, 128, 0),                
            thickness=2,            
        )        
       cv2.putText(frame, str(prediction), (10, frame.shape[0] - 25), cv2.FONT_HERSHEY_SIMPLEX, 0.7, (225, 255, 255), 2)    cv2.imshow("frame", frame)    if args["save"]:
        out.write(frame)
    if cv2.waitKey(1) & 0xFF == ord("q"):
        breakvs.stop()
if args["save"]:
    print("done saving video")    
    out.release()
cv2.destroyAllWindows()/<code>

現在,我們有了與imutils和OpenCV一起使用的fast.ai學習模型,可以根據實時視頻預測面孔!

接下來,是時候確定面部的意識了。函數eye_aspect_ratio從眼睛的座標計算出眼睛的縱橫比。每隻眼睛的位置和座標可從dlib預訓練的面部界標檢測器中找到。函數data_time用於每1秒間隔將預測添加到數據數組中。

<code>EYE_AR_THRESH = 0.20
EYE_AR_CONSEC_FRAMES = 10COUNTER = 0def eye_aspect_ratio(eye):
    A = dist.euclidean(eye[1], eye[5])
    B = dist.euclidean(eye[2], eye[4])
    C = dist.euclidean(eye[0], eye[3])
    ear = (A + B) / (2.0 * C)
    return eardef data_time(time_value, prediction, probability, ear):
    current_time = int(time.perf_counter()-start)
    if current_time != time_value:
        data.append([current_time, prediction, probability, ear])
        time_value = current_time
    return time_valuepredictor = dlib.shape_predictor("shape_predictor_68_face_landmarks.dat")(lStart, lEnd) = face_utils.FACIAL_LANDMARKS_IDXS["left_eye"]
(rStart, rEnd) = face_utils.FACIAL_LANDMARKS_IDXS["right_eye"]/<code>

在循環人臉座標的for循環中,添加以下代碼塊。使用dlib人臉界標檢測器檢測眼睛並將其繪製到框架上。當兩隻眼睛之間的平均計算出的眼睛縱橫比小於十個連續幀(您可以根據自己的喜好進行修改)的閾值時,該臉部將標記為分散注意力。

<code> rect = dlib.rectangle(X, Y, X+w, Y+h)
 shape = predictor(gray, rect)
 shape = face_utils.shape_to_np(shape)
 leftEye = shape[lStart:lEnd]
 rightEye = shape[rStart:rEnd]
 leftEAR = eye_aspect_ratio(leftEye)
 rightEAR = eye_aspect_ratio(rightEye)
 ear = (leftEAR + rightEAR) / 2.0
 leftEyeHull = cv2.convexHull(leftEye)
 rightEyeHull = cv2.convexHull(rightEye)
 cv2.drawContours(frame, [leftEyeHull], -1, (0, 255, 0), 1)
 cv2.drawContours(frame, [rightEyeHull], -1, (0, 255, 0), 1)
 if ear < EYE_AR_THRESH:
 COUNTER += 1
 if COUNTER >= EYE_AR_CONSEC_FRAMES:
 cv2.putText(frame, "Distracted", (10, 30), cv2.FONT_HERSHEY_SIMPLEX, 0.7, (0, 0, 255), 2)
 else:
 COUNTER = 0
 cv2.putText(frame, "Eye Ratio: {:.2f}".format(ear), (250, 30), cv2.FONT_HERSHEY_SIMPLEX, 0.7, (0, 0, 255), 2)
 time_value = data_time(time_value, prediction, probability, ear)/<code>

最後,在代碼的底部,我們可以將數據另存為數據框,然後另存為.csv文件。

if args["savedata"]:
df = pd.DataFrame(data, columns = ['Time (seconds)', 'Expression', 'Probability', 'EAR'])
df.to_csv(path+'/exportlive.csv')
print("data saved to exportlive.csv")

您可以通過運行以下命令在命令行中測試代碼:

<code>python liveVideoFrameRead.py --save --savedata/<code>

與實時視頻相比,我對視頻文件使用了非常相似的方法。主要區別在於,預測會每幀數發生一次,可以使用命令行參數“ frame-step”進行修改。完整的代碼如下:就是這樣!現在,您可以從視頻文件和實時網絡攝像頭中預測面部表情。

感謝閱讀!


分享到:


相關文章: