使用Fast.ai和OpenCV进行视频面部表情和意识检测

从实时视频或视频文件中检测面部表情和意识。背后的灵感是什么?通过网络摄像头看着我,但被深度学习所取代

实时视频分类器演示

介绍

本教程的目标?使用fast.ai库训练面部表情分类模型,从您的网络摄像头或视频文件中读取面部表情,最后添加面部标记以跟踪您的眼睛以确定意识!、

、在进行该项目时,面临的一大挑战是弄清楚如何使用经过训练的分类器,使其能够有效地用于实时视频和视频文件。

第一步是用卷积神经网络训练图像分类模型。我使用的数据来自https://www.kaggle.com/jonathanoheix/face-expression-recognition-dataset

我使用了构建在PyTorch之上的fast.ai库来训练我的分类模型。使用resnet34预训练的权重和训练数据集对模型进行训练,并以.pkl文件的形式导出。有关分步说明,请在我的存储库中查看Google colab笔记本,其中包含用于训练模型的所有代码:https : //github.com/jy6zheng/FacialExpressionRecognition

最大的挑战是首先找到一个公共数据集,然后清理数据。最初,当我使用Kaggle数据集时,我只能训练到0.328191的错误率,这意味着大约68%的时间它是正确的(一点也不好)。当我绘制产生最大损失的图像时,我很快意识到大量数据被错误地标记了(左边是模型的预测表达,右边是被标记的情感)。

使用Fast.ai和OpenCV进行视频面部表情和意识检测

下排第三名的女孩显然不开心

清除数据后,错误率降低了16%以上。现在,分类器的准确度约为84%,这意味着它可以正确识别84%的面部图像。仍然有一些不正确和肮脏的数据,因此还有更多改进的空间。

使用Fast.ai和OpenCV进行视频面部表情和意识检测

使用Fast.ai和OpenCV进行视频面部表情和意识检测

如您所见,中性和悲伤的面孔最容易让人感到困惑

在直播视频上使用训练好的模型

现在,是时候采用我们的分类器并将其用于实时视频流了。首先,最好创建一个虚拟环境,以便该项目具有自己的依赖性,并且不会干扰任何其他项目。然后,下载所需的软件包和库。创建一个名为liveVideoFrame.py的文件(或任何您想命名的文件)并导入以下内容:

<code>from scipy.spatial 
import distance as dist
import numpy as np
import cv2
from imutils import face_utils
from imutils.video import VideoStream
from fastai.vision import *
import imutils
import argparse
import time
import dlib/<code>

我想要该选项将预测保存在.csv文件中并保存标记的视频,因此我添加了参数解析功能。我还导出了训练有素的分类模型,并将其移至我的工作目录。

<code>ap = argparse.ArgumentParser()
ap.add_argument("--save", dest="save", action = "store_true")
ap.add_argument("--no-save", dest="save", action = "store_false")
ap.set_defaults(save = False)
ap.add_argument("--savedata", dest="savedata", action = "store_true")
ap.add_argument("--no-savedata", dest="savedata", action = "store_false")
ap.set_defaults(savedata = False)
args = vars(ap.parse_args())path = '/Users/joycezheng/FacialRecognitionVideo/' #change this depending on the path of your exported model
learn = load_learner(path, 'export.pkl')/<code>

现在是时候开始我们的视频流了。我从imutils.video使用VideoStream,因为我发现它比cv2.VideoCapture的运行速度更快。注意:内置网络摄像头的视频流源为0,如果您使用其他摄像头(例如插件),则视频流的源将不同。

Haar级联分类器用于识别视频帧中的正面。我们有一个名为data的数组来存储我们的预测。timer和time_value用于在我们的数据中标记每个预测的时间,以便在.csv文件中预测增加1s。

<code>face_cascade = cv2.CascadeClassifier("haarcascade_frontalface_default.xml") 
vs = VideoStream(class="lazy" data-original=0).start()
start = time.perf_counter() 
data = []
time_value = 0
if args["save"]: 
 out = cv2.VideoWriter(path + "liveoutput.avi", cv2.VideoWriter_fourcc('M','J','P','G'), 10, (450,253))/<code>

现在,我们将实现一个while循环,该循环从视频流中读取每个帧:

  1. 由于图像分类器是在灰度图像上训练的,因此每个帧都转换为灰度
  2. 级联分类器用于查找框架中的人脸。我将minneighbors参数设置为5,因为我发现它在实时视频中效果最好。对于录制的视频文件,我将其设置为较高的值,因为可以保证每帧中都有一张脸
  3. 由于我们的分类器是在没有太多背景的特写脸部上训练的,因此使用0.3的缓冲区为脸部裁剪了灰度图像
  4. 然后将文本和边界框绘制到每个框架上并显示
  5. 然后使用out.write(frame)将每个帧保存到视频编写器
<code>while True:    
    frame = vs.read()    
    frame = imutils.resize(frame, width=450)     
    gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)   
    face_coord = face_cascade.detectMultiScale(gray, 1.1, 5, minSize=(30, 30))
    for coords in face_coord:        
        X, Y, w, h = coords        
        H, W, _ = frame.shape        
        X_1, X_2 = (max(0, X - int(w * 0.3)), min(X + int(1.3 * w), W))        
        Y_1, Y_2 = (max(0, Y - int(0.3 * h)), min(Y + int(1.3 * h), H))        
        img_cp = gray[Y_1:Y_2, X_1:X_2].copy()        
        prediction, idx, probability = learn.predict(Image(pil2tensor(img_cp, np.float32).div_(225)))
        cv2.rectangle(                
            img=frame,                
            pt1=(X_1, Y_1),                
            pt2=(X_2, Y_2),                
            color=(128, 128, 0),                
            thickness=2,            
        )        
       cv2.putText(frame, str(prediction), (10, frame.shape[0] - 25), cv2.FONT_HERSHEY_SIMPLEX, 0.7, (225, 255, 255), 2)    cv2.imshow("frame", frame)    if args["save"]:
        out.write(frame)
    if cv2.waitKey(1) & 0xFF == ord("q"):
        breakvs.stop()
if args["save"]:
    print("done saving video")    
    out.release()
cv2.destroyAllWindows()/<code>

现在,我们有了与imutils和OpenCV一起使用的fast.ai学习模型,可以根据实时视频预测面孔!

接下来,是时候确定面部的意识了。函数eye_aspect_ratio从眼睛的坐标计算出眼睛的纵横比。每只眼睛的位置和坐标可从dlib预训练的面部界标检测器中找到。函数data_time用于每1秒间隔将预测添加到数据数组中。

<code>EYE_AR_THRESH = 0.20
EYE_AR_CONSEC_FRAMES = 10COUNTER = 0def eye_aspect_ratio(eye):
    A = dist.euclidean(eye[1], eye[5])
    B = dist.euclidean(eye[2], eye[4])
    C = dist.euclidean(eye[0], eye[3])
    ear = (A + B) / (2.0 * C)
    return eardef data_time(time_value, prediction, probability, ear):
    current_time = int(time.perf_counter()-start)
    if current_time != time_value:
        data.append([current_time, prediction, probability, ear])
        time_value = current_time
    return time_valuepredictor = dlib.shape_predictor("shape_predictor_68_face_landmarks.dat")(lStart, lEnd) = face_utils.FACIAL_LANDMARKS_IDXS["left_eye"]
(rStart, rEnd) = face_utils.FACIAL_LANDMARKS_IDXS["right_eye"]/<code>

在循环人脸坐标的for循环中,添加以下代码块。使用dlib人脸界标检测器检测眼睛并将其绘制到框架上。当两只眼睛之间的平均计算出的眼睛纵横比小于十个连续帧(您可以根据自己的喜好进行修改)的阈值时,该脸部将标记为分散注意力。

<code> rect = dlib.rectangle(X, Y, X+w, Y+h)
 shape = predictor(gray, rect)
 shape = face_utils.shape_to_np(shape)
 leftEye = shape[lStart:lEnd]
 rightEye = shape[rStart:rEnd]
 leftEAR = eye_aspect_ratio(leftEye)
 rightEAR = eye_aspect_ratio(rightEye)
 ear = (leftEAR + rightEAR) / 2.0
 leftEyeHull = cv2.convexHull(leftEye)
 rightEyeHull = cv2.convexHull(rightEye)
 cv2.drawContours(frame, [leftEyeHull], -1, (0, 255, 0), 1)
 cv2.drawContours(frame, [rightEyeHull], -1, (0, 255, 0), 1)
 if ear < EYE_AR_THRESH:
 COUNTER += 1
 if COUNTER >= EYE_AR_CONSEC_FRAMES:
 cv2.putText(frame, "Distracted", (10, 30), cv2.FONT_HERSHEY_SIMPLEX, 0.7, (0, 0, 255), 2)
 else:
 COUNTER = 0
 cv2.putText(frame, "Eye Ratio: {:.2f}".format(ear), (250, 30), cv2.FONT_HERSHEY_SIMPLEX, 0.7, (0, 0, 255), 2)
 time_value = data_time(time_value, prediction, probability, ear)/<code>

最后,在代码的底部,我们可以将数据另存为数据框,然后另存为.csv文件。

if args["savedata"]:
df = pd.DataFrame(data, columns = ['Time (seconds)', 'Expression', 'Probability', 'EAR'])
df.to_csv(path+'/exportlive.csv')
print("data saved to exportlive.csv")

您可以通过运行以下命令在命令行中测试代码:

<code>python liveVideoFrameRead.py --save --savedata/<code>

与实时视频相比,我对视频文件使用了非常相似的方法。主要区别在于,预测会每帧数发生一次,可以使用命令行参数“ frame-step”进行修改。完整的代码如下:就是这样!现在,您可以从视频文件和实时网络摄像头中预测面部表情。

感谢阅读!


分享到:


相關文章: