使用Fast.ai和OpenCV进行视频面部表情和意识检测

从实时视频或视频文件中检测面部表情和意识。背后的灵感是什么?通过网络摄像头看着我,但被深度学习所取代

实时视频分类器演示

介绍

本教程的目标?使用fast.ai库训练面部表情分类模型,从您的网络摄像头或视频文件中读取面部表情,最后添加面部标记以跟踪您的眼睛以确定意识!、

、在进行该项目时,面临的一大挑战是弄清楚如何使用经过训练的分类器,使其能够有效地用于实时视频和视频文件。

第一步是用卷积神经网络训练图像分类模型。我使用的数据来自https://www.kaggle.com/jonathanoheix/face-expression-recognition-dataset

我使用了构建在PyTorch之上的fast.ai库来训练我的分类模型。使用resnet34预训练的权重和训练数据集对模型进行训练,并以.pkl文件的形式导出。有关分步说明,请在我的存储库中查看Google colab笔记本,其中包含用于训练模型的所有代码:https : //github.com/jy6zheng/FacialExpressionRecognition

最大的挑战是首先找到一个公共数据集,然后清理数据。最初,当我使用Kaggle数据集时,我只能训练到0.328191的错误率,这意味着大约68%的时间它是正确的(一点也不好)。当我绘制产生最大损失的图像时,我很快意识到大量数据被错误地标记了(左边是模型的预测表达,右边是被标记的情感)。

下排第三名的女孩显然不开心

清除数据后,错误率降低了16%以上。现在,分类器的准确度约为84%,这意味着它可以正确识别84%的面部图像。仍然有一些不正确和肮脏的数据,因此还有更多改进的空间。

如您所见,中性和悲伤的面孔最容易让人感到困惑

在直播视频上使用训练好的模型

现在,是时候采用我们的分类器并将其用于实时视频流了。首先,最好创建一个虚拟环境,以便该项目具有自己的依赖性,并且不会干扰任何其他项目。然后,下载所需的软件包和库。创建一个名为liveVideoFrame.py的文件(或任何您想命名的文件)并导入以下内容:

<code>from scipy.spatial import distance as dist import numpy as np import cv2 from imutils import face_utils from imutils.video import VideoStream from fastai.vision import * import imutils import argparse import time import dlib/<code>

我想要该选项将预测保存在.csv文件中并保存标记的视频,因此我添加了参数解析功能。我还导出了训练有素的分类模型,并将其移至我的工作目录。

<code>ap = argparse.ArgumentParser() ap.add_argument("--save", dest="save", action = "store_true") ap.add_argument("--no-save", dest="save", action = "store_false") ap.set_defaults(save = False) ap.add_argument("--savedata", dest="savedata", action = "store_true") ap.add_argument("--no-savedata", dest="savedata", action = "store_false") ap.set_defaults(savedata = False) args = vars(ap.parse_args())path = '/Users/joycezheng/FacialRecognitionVideo/' #change this depending on the path of your exported model learn = load_learner(path, 'export.pkl')/<code>

现在是时候开始我们的视频流了。我从imutils.video使用VideoStream,因为我发现它比cv2.VideoCapture的运行速度更快。注意:内置网络摄像头的视频流源为0,如果您使用其他摄像头(例如插件),则视频流的源将不同。

Haar级联分类器用于识别视频帧中的正面。我们有一个名为data的数组来存储我们的预测。timer和time_value用于在我们的数据中标记每个预测的时间,以便在.csv文件中预测增加1s。

<code>face_cascade = cv2.CascadeClassifier("haarcascade_frontalface_default.xml") vs = VideoStream(class="lazy" data-original=0).start() start = time.perf_counter() data = [] time_value = 0 if args["save"]: out = cv2.VideoWriter(path + "liveoutput.avi", cv2.VideoWriter_fourcc('M','J','P','G'), 10, (450,253))/<code>

现在,我们将实现一个while循环,该循环从视频流中读取每个帧:

由于图像分类器是在灰度图像上训练的,因此每个帧都转换为灰度级联分类器用于查找框架中的人脸。我将minneighbors参数设置为5,因为我发现它在实时视频中效果最好。对于录制的视频文件,我将其设置为较高的值,因为可以保证每帧中都有一张脸由于我们的分类器是在没有太多背景的特写脸部上训练的,因此使用0.3的缓冲区为脸部裁剪了灰度图像然后将文本和边界框绘制到每个框架上并显示然后使用out.write(frame)将每个帧保存到视频编写器

<code>while True: frame = vs.read() frame = imutils.resize(frame, width=450) gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY) face_coord = face_cascade.detectMultiScale(gray, 1.1, 5, minSize=(30, 30)) for coords in face_coord: X, Y, w, h = coords H, W, _ = frame.shape X_1, X_2 = (max(0, X - int(w * 0.3)), min(X + int(1.3 * w), W)) Y_1, Y_2 = (max(0, Y - int(0.3 * h)), min(Y + int(1.3 * h), H)) img_cp = gray[Y_1:Y_2, X_1:X_2].copy() prediction, idx, probability = learn.predict(Image(pil2tensor(img_cp, np.float32).div_(225))) cv2.rectangle( img=frame, pt1=(X_1, Y_1), pt2=(X_2, Y_2), color=(128, 128, 0), thickness=2, ) cv2.putText(frame, str(prediction), (10, frame.shape[0] - 25), cv2.FONT_HERSHEY_SIMPLEX, 0.7, (225, 255, 255), 2) cv2.imshow("frame", frame) if args["save"]: out.write(frame) if cv2.waitKey(1) & 0xFF == ord("q"): breakvs.stop() if args["save"]: print("done saving video") out.release() cv2.destroyAllWindows()/<code>

现在,我们有了与imutils和OpenCV一起使用的fast.ai学习模型,可以根据实时视频预测面孔!

接下来,是时候确定面部的意识了。函数eye_aspect_ratio从眼睛的坐标计算出眼睛的纵横比。每只眼睛的位置和坐标可从dlib预训练的面部界标检测器中找到。函数data_time用于每1秒间隔将预测添加到数据数组中。

<code>EYE_AR_THRESH = 0.20 EYE_AR_CONSEC_FRAMES = 10COUNTER = 0def eye_aspect_ratio(eye): A = dist.euclidean(eye[1], eye[5]) B = dist.euclidean(eye[2], eye[4]) C = dist.euclidean(eye[0], eye[3]) ear = (A + B) / (2.0 * C) return eardef data_time(time_value, prediction, probability, ear): current_time = int(time.perf_counter()-start) if current_time != time_value: data.append([current_time, prediction, probability, ear]) time_value = current_time return time_valuepredictor = dlib.shape_predictor("shape_predictor_68_face_landmarks.dat")(lStart, lEnd) = face_utils.FACIAL_LANDMARKS_IDXS["left_eye"] (rStart, rEnd) = face_utils.FACIAL_LANDMARKS_IDXS["right_eye"]/<code>

在循环人脸坐标的for循环中,添加以下代码块。使用dlib人脸界标检测器检测眼睛并将其绘制到框架上。当两只眼睛之间的平均计算出的眼睛纵横比小于十个连续帧(您可以根据自己的喜好进行修改)的阈值时,该脸部将标记为分散注意力。

<code> rect = dlib.rectangle(X, Y, X+w, Y+h) shape = predictor(gray, rect) shape = face_utils.shape_to_np(shape) leftEye = shape[lStart:lEnd] rightEye = shape[rStart:rEnd] leftEAR = eye_aspect_ratio(leftEye) rightEAR = eye_aspect_ratio(rightEye) ear = (leftEAR + rightEAR) / 2.0 leftEyeHull = cv2.convexHull(leftEye) rightEyeHull = cv2.convexHull(rightEye) cv2.drawContours(frame, [leftEyeHull], -1, (0, 255, 0), 1) cv2.drawContours(frame, [rightEyeHull], -1, (0, 255, 0), 1) if ear < EYE_AR_THRESH: COUNTER += 1 if COUNTER >= EYE_AR_CONSEC_FRAMES: cv2.putText(frame, "Distracted", (10, 30), cv2.FONT_HERSHEY_SIMPLEX, 0.7, (0, 0, 255), 2) else: COUNTER = 0 cv2.putText(frame, "Eye Ratio: {:.2f}".format(ear), (250, 30), cv2.FONT_HERSHEY_SIMPLEX, 0.7, (0, 0, 255), 2) time_value = data_time(time_value, prediction, probability, ear)/<code>

最后,在代码的底部,我们可以将数据另存为数据框,然后另存为.csv文件。

if args["savedata"]:
df = pd.DataFrame(data, columns = ['Time (seconds)', 'Expression', 'Probability', 'EAR'])
df.to_csv(path+'/exportlive.csv')
print("data saved to exportlive.csv")

您可以通过运行以下命令在命令行中测试代码:

<code>python liveVideoFrameRead.py --save --savedata/<code>

与实时视频相比,我对视频文件使用了非常相似的方法。主要区别在于,预测会每帧数发生一次,可以使用命令行参数“ frame-step”进行修改。完整的代码如下:就是这样!现在,您可以从视频文件和实时网络摄像头中预测面部表情。

感谢阅读!