论文:A Differential Approach for Gaze Estimation with Calibration
视觉估计Gaze Estimation:
根据人的图片计算人眼睛的视角,估计人观察的方向,应用,可以应用眼睛控制的游戏
一般流程:摄像机可以用照片的方式得到人的面部图片,由于人脸的方向不同,故先利用3D摄像机矫正人脸得到正面的人脸图片,因此人的视线则变为上下左右四个方向,获取人眼视角方向后,结合人的头部方向,综合可以得到人眼的最终视线方向。
挑战:
由于人眼的大小不同,人脸的方向不同等等给视觉估计带来很大的挑战
方法:
根据人眼图片计算绝对的视觉方向,会有很大误差,因此,这篇文章选择相对稳定的相对距离进行研究。
baseline:利用3层卷积层和2层全连接层,根据输入图片计算人眼视角gaze direction。
损失函数:L1
baseline缺点:
由于数据集中的人是一个个有特点的个体,具有自己的特色,而非同一个人的图片,因此通过baseline网络训练的模型预测的结果和ground truth存在一个偏差,如下图,拟合曲线和y=x之间总存在一个角度。
存在线性关系:
利用标定数据进行最小均方误差(LMSE)优化,得到模型的线性参数,从而得到最终的优化后结果。
研究方法:
总体框架:不同个体之间的绝对视觉估计存在差异,但是相对距离比较稳定
(1)Siamese Network可以计算两张图片之间的Gaze difference,训练时选取不同人的同一个眼睛的图片,利用网络预测两者的视觉差异。
(2)测试时,将待估计的图片与多张图片计算视觉差异,从而根据相对值加差异值得到最终平均结果
Siamese Network
利用siamese network计算两张图片之间的视觉估计差异。
损失函数:
Gaze inference
利用校验集的图片,计算测试图片与Dc张校验图片之间的gaze difference,根据已知的校验图片的视觉估计,计算图片视觉估计真实值。
结果:
评估标准:值越小越好
结果: