测品娱乐
您的当前位置:首页结合lbp特征和深度学习的人脸表情识别

结合lbp特征和深度学习的人脸表情识别

来源:测品娱乐
计算机测量与控制.2020. 28(2)・174・文章编号:1671 - 4598(2020)02 - 0174 -05

Computer Measurement & ControlDOI: 10.16526/j. cn1i.11 — 4762/tp.2020.02.036

设计与应用中图分类号:TN919. 8

文献标识码:A结合LBP特征和深度学习的人脸表情识别张广世S葛广英1朱荣华S孙群2(1聊城大学 物理科学与信息工程学院,山东聊城252059;

2.聊城大学机械与汽车工程学院,山东聊城252059)摘要:对于人脸表情识别&传统方法是先提取图像特征&再使用机器学习方法进行识别&这种方法不但特征提取过程复杂且

泛化能力也差;为了达到更好的人脸表情识别效果&文中提出一种结合特征提取和卷积神经网络的人脸表情识别方法;首先使用 基于Haar — like特征的AdaBoost算法对于数据库原始图片进行人脸区域检测&然后提取人脸区域局部二值模式(Local Binary

Patterns, LBP)特征图&将其尺寸归一化后输入到改进的LeNet—5神经网络模型中进行识别;在CK+和JAFFE数据集上采用

10折交叉验证方法进行实验&分别为98.19%和96.35 %的准确率;实验结果表明该方法与其他主流方法相比在人脸表情识别上

有一定的先进性和有效性%关键词:图像处理;LBP特征;人脸检测;卷积神经网络;人脸表情识别Facial Expression Recognition Based on LBP Features and DeepLearningZhang Guangshi1 & Ge Guangying1 & Zhu Ronghua1 & Sun Qun2(1. College of Physics and Information Engineering, Liaocheng University, Liaocheng 252059, China;2. College of Mechanical and Automotive Engineering, Liaocheng University, Liaocheng 252059, China)Abstract: For facial expressions recognition, the traditional method is to execute feature extraction and recognize by machine

learning. This method not only has complex feature extraction process but also poor generalization. In order to achieve better facial

expression recognition, the paper proposes a facial expression recognition method combining feature extraction and convolutional neu­ral network. Firstly, the AdaBoost algorithm based on Haar — like feature is used to detect the face region of the original image of the

database,andthenextractthelocalbinarypatterns (LBP)featuremapofthefaceregion,normalizethesizeandinputitintotheim-

proved LeNet—5 network to recognize. The recognition rate is 98. 19% and 96. 35% respectively in the CKh and JAFFE database

with10—foldCross—validation method Theexperimentalresultsshowthatthismethodhascertainadvancementandefectiveness infacialexpressionrecognitioncomparedwithothermainstream methodsKeywords: image processing; LBP feature; face detection; convolutional neural network; facial expression recognition0引言人脸表情在人与人交流过程中扮演着重要的角色&是

bor, KNN)、随机森林,7- (random forest, RF)等分类方

式。但这些方法所提取特征受人为干扰因素过大,会造成

进行情感信息交流的主要方式。随着大数据与人工智能时 代的来临&如何在人机交互中实现计算机对人脸表情的识

人脸表情信息的丢失,导致最终分类准确率不高,除此以 外,这些方法对其他数据的泛化能力也较低%在2012年,

Krizhevsky 使用卷积神经网络(convolutional neural net­

别,成为了当下的一个热门研究领域%现如今人脸表情识别大多分为两个方向&先提取人脸

works, CNN)模型在ImageNet竞赛中取得冠军&其Top —5错误率为17% &远超过传统方法下的图像分类正确率,

表情特征再使用分类算法进行识别的传统方法和深度学习

下的人脸表情识别方法%在提取特征方面&众多学者提岀 了 LBP特征,1-、尺度不变特征变换(scale — invariant fea­

ture transform, SIFT)2-、灰度共生矩阵(gray—level co — occurrence matrix, GLCM),3-和 Gabor 小波变换,4-等特征提

这一现象引发了研究人员的广泛关注&从此深度学习被广

泛应用于图像分类问题中。例如Tang囚将CNN与SVM相 结合&在FER2013数据集上达到了 71.2%的识别率。

Jeon[9]等结合方向梯度直方图(histogram of oriented gradi­ent, HOG)和CNN来进行人脸表情识别,取得了较好的

取方式&在分类算法上则有支持向量机(support vector

machine, SVM)5-、K 最近邻分类,6- (k―NearestNeigh-收稿日期2019 -07 -09;修回日期2019 -07 -26%基金项目:引导地方科技发展专项资金计划%作者简介:张广世(1993 -\"男,山东聊城人,硕士研究生,主要 从事图像处理方向的研究%葛广英(19 -),男,山东聊城人,教授,硕士生导师,主要从事

识别效果%本文也将使用CNN的方式来识别人脸表情&首 先提取数据库图片LBP特征&将其尺寸归一化之后输入到

改进的LeNet — 5神经网络中进行识别,实验结果表明&所 提方法在CK+和JAFFE数据库中可获得非常好的识别

效果%1系统流程文中系统流程如图1所示,主要过程包括:1)图像预图像处理、物联网方向的研究%第2期张广世,等:结合LBP特征和深度学习的人脸表情识别・175・处理%采用基于Haar—like特征的AdaBoost算法来提取人 脸区域&然后提取人脸区域LBP特征并将其尺寸归一化, 以作为神经网络的输入;2\"改进神经网络%原始的LeNet

—5网络是用来识别手写体数字图片,该种图片背景单一且

法改善了基本LBP算法无法识别大尺寸纹理特征的缺点%本文中所提取到的人脸表情LBP特征图如图3所示%较为简单&因此原始网络不适合直接对复杂的人脸表情进 行识别,需要对网络的各种参数和结构进行调整;3\"实验

与评估%使用调整好的神经网络对输入图片进行训练和识 别,统计准确率来判断文中方法性能%图1系统流程图2图像预处理CK+与JAFFE数据集中的原始图像包含了人脸区域和

背景&需要经过预处理去除冗余信息&才适合作为神经网

络的输入图像,本文中的预处理为:人脸检测、LBP特征 提取和尺寸归一化%2. 1人脸检测本文采用基于Haar — like特征的Adaboost算法检测人

脸区域,该算法运算速度和正确率都很高&可满足实时检

测的要求。该方法基本思想是使用Adaboost算法将基于图 像特征的弱分类器训练为强分类器&再将强分类器组合成

级联强分类器来检测人脸区域&所检测出的人脸图像如图2 所示%图2人脸检测示意图2. 2 LBP特征提取LBP是一种描述纹理的算法&具有旋转和灰度不变

性,0-等特点&被广泛地应用于纹理分析、图像匹配等领域%

常用的LBP有两种:基本LBP算法和圆形LBP算法%基本

LBP算法是将中心点像素值和中心点8邻域像素值作比较&

如果8邻域像素值小于中心像素值&则标记为0,否则标记 为1,然后从左上角开始顺时针将二值化后的8邻域像素值

组合成一串8位二进制数字,然后将其转换为10进制数字& 由该数字来代替中心像素值%圆形LBP算法则是将基本

LBP算法的3X3邻域扩展到任意圆形邻域,该邻域可由参

数% 3\"表示为邻域像素个数3为该邻域半径,该算 (a)原始图像 (b)圆形LBP特征图像(c)基本LBP也在图像图3 LBP算法示意图图3中可以看出处理后的图像可明显突出表情特征%2.3 尺寸归一化通过双线性插值算法将已经检测出来的人脸LBP特征

图尺寸进行调整&使得所有的神经网络输入图片尺寸相同, 避免了输入到神经网络后出现的尺寸不匹配问题%尺寸归

一化算法为双线性插值算法&其基本思想是将待求像素点 周围4个点的像素值进行加权平均&最后计算出待求点的

像素值%该方法可一定程度上避免失真&保持图像的清晰

度%尺寸归一化之后的图像如图4所示%图4尺寸归一化示意图3神经网络模型3.1卷积神经网络卷积神经网络是前馈式的神经网络&可从输入数据中 自动提取特征&具有很强的学习和表达能力&非常适合图 像分类问题%该网络通常包含以下部分:卷积层、池化层、

全连接层,1-%一般来说&卷积层和输入图像直接相连&通过使用不 同的卷积核将输入图像转变为抽象程度更高的图像特征并

传给下一层&卷积层的计算过程如式(1)所示:Y + <((/「+〃)

⑴式(1)中Y为第F层第m个通道的输出,/!\"为激活 函数& IJ为第F — 1层第-个特征图& 为卷积核 3 为卷积

运算,2为相应的偏置%通常在卷积层之后会再加入池化层&池化层不但可以

对特征降维&而且可以较好地保持特征的尺度不变性&同 时也能降低神经网络的运算量%池化层计算公式如式(2) 所示:I + fl9o8n(I「⑴ +2)

(2)其中:I和I「分别表示当前层输出特征图和上一层输 出特征图,1为当前池化层的权重值,2为该层相应的偏

置项%・176・计算机测量与控制表1改进后的LeNet—5网络结构第28卷层数C1S2C3S4C5S6F7F8F8网络类型卷积核尺寸卷积9X92

61X61池化3X3卷积5X5126X26池化3X3卷积3X3111X11池化3X32

5X5全连接——1X1全连接——1X1全连接——1X1步长输岀特征图尺寸2

30X302

13X13填充方式全0填充无无全0 填充无无———式(2)中,Ham!:')表示池化函数,通过移动内核 将特征图划分为多个不重叠的子特征图,然后对每个子

来提取人 脸 图 像 特 征 效 果 不 好& 本 文 将 调 整 卷 积 核 大 小 & 具体为表1 所示 %特征图的像素进行数值运算,常见的有求平均值和最大值% 最大池化与平均池化相比,优点在于可更多的保留图像纹

理特征,考虑到对人脸表情进行识别,要更多关注不同表 情之间的细微纹理差别,所以在该层中采取最大池化方式%全连接层的作用是将图像的二维特征组合为一维特征, 通常放在卷积层和池化层之后%该层输出公式如式(3)

所示%Y = +F)

(3)其中:Y和厂T分别为输出和输入,8为全连接层的权 重值,2为全连接层的相应的偏置项%3.2 改进的LeNet-5网络模型LeNet—5模型最初是用来识别手写体数字,其准确率

达到98%以上,是一种经典的神经网络模型,具体结构如

图5所示%全连接

图 5 Lenet—5 网 络 结 构 图使用LeNet—5模型对人脸表情进行识别,发现损失值

收敛速度过慢,准确率较低%经分析之后对网络结构进行 改进,具体如下:1) 原始LeNet—5是用来进行手写体数字识别,其图 片相对简单,尺寸也较低,为32 X 32;而本文所进行的人

脸表情识别图像复杂尺寸图片会使 得 图 像 损, 且不同表情之间差异较小失 特 征 信 息 ,使用低 & 所 以 本 文 将 输 入 图 像 尺寸调整为128X128%2) 调整卷积核的个数%卷积核的个数影响到之后输出

的特征图个数,考虑到人脸表情过于复杂,本文将增加卷 积核的个数以提高网络分辨表情的能力,将前6层的卷积 核个数分别设置为16( 16( 32( 32( 和,同时将后3

层全连接层的输出节点个数分别设置为128, 和7%3) 调整卷积核的尺寸大小%卷积核的尺寸与提取到的

特征质量有关,原始的LeNet—5采用5X5的卷积核,用

4) 将sigmoid激活函数替换为Leaky ReLU激活函数%

原有sigmoid函数计算量过大,并且在输入过大或者过小

时,输出会接近+ 1和一1斜率很低,在使用梯度下降法

时梯度下降过慢,会严重降低训练速度,不适合当前网络 结构%所采用的Leaky ReLU函数与当前卷积神经网络常用

的ReLU激活函数相比,其优点在于可以避免当输入为负 值时导致权重无法更新的问题%5) 在原有的前4层网络之后,新加入第5层卷积层和

第6层池化层%本文网络结构输入图像尺寸为128 X 128, 经过前4层网络之后特征图尺寸为11X11,需要继续降低

尺寸,减少计算的复杂度%6) 在第一层全连接层之后加入Dropout函数,Dropout

可用来解决网络模型中数据过拟合的问题,也可以增强网

络模型的泛化能力%7) 使用学习率指数衰减法对网络结构进行优化%使用

该方法可提高神经网络训练速度,使训练过程中损失曲线

更加稳定的下降,减少曲线的震荡次数%改进之后的网络模型结构如表1所示%表1结构包含卷

积层、池化层和全连接层,输入层和softmax层未列于此

表中%4实验结果与分析4.1实验数据与环境本文将分别在CK +与JAFFE公开数据集上进行测试, 由于JAFFE数据集不包含轻蔑类型的表情,因此本文将去

除CK+数据集中的轻蔑类型,最终将表情分类为生气、厌 恶、恐惧、悲伤、快乐、惊讶、中性7种人脸表情%由于

CK +和JAFFE数据集原始表情数量较少,本文将原始人

脸表情图像以仿射变换方式对样本数量进行扩充%扩充后 的CK +数据集图像为76张,JAFFE数据集图像为46

张%人脸表情图像样例如图6所示%本文方法使用硬件信息如下:GPU为NVIDAGe-

ForceGTX1660 6G, CPU 为 InterCorei3 8100 3. 6 GHz,内

存为8 G;软件信息如下:操作系统为Window 10,安装

Python3. 6. 5和TensorFlow深度学习框架%神经网络中所

设置超参数如下:初始化学习率为0.0005,学习率衰减指 数为0.96,动量为0.9,正则化系数为0.001, dropout设 置为 0.5 &Epoch 为 20%第2 期张广世,等:结合LBP特征和深度学习的人脸表情识别・177・由表3可知&本文方法对CK +数据集不同表情识别率

i均达到了 95%以上&其中高兴和惊讶的识别率为100% ;在

JAFFE数据集准确率稍低&但也有5种表情识别率在95%

生气厌恶恐惧以上&足以证明本文方法的有效性%为了更加直观地观察神经网络的性能&本文绘制了 JAFFE和CK +数据集的损失值和准确率曲线&如图7

所示%高兴中性悲伤惊讶图6 CK十与JAFFE数据集人脸表情样例JAFFE DatabaseJAFFE AcciuracyJAFFE Loss42输入图像和网络结构之间的交叉对比为证明本文方法的有效性&并探索何种方式才能得出 最高的正确率,本文将使用10次10折交叉验证方法,对不 同的输入图像输入到不同的网络中得到的准确率做出了统

计&具体如表2所示%表2 CK十与JAFFE数据集实验准确率CK十JAFFE输入图像类型LeNet—Pro— LeNet—LeNet—Pro— LeNet—5/%5/%5/%5/%原数据集图像85. 3194. 5882. 6792. 61基本LBP87. 5795. 9185. 2393. 76圆形 LBP(8,3)88. 1996. 3886. 9395. 84圆形 LBP(8,5)87. 239& 1987. 5996.35圆形 LBP(8,7)86. 3695. 84. 2994. 37表2中第1列为不同的输入图像类型&第2列和第3列 为使用原始LeNet—5网络和改进之后的LeNet—5网络对

CK +数据集上的输入图像进行识别的准确率&第4列和第

5列为使用原始LeNet—5网络和改进之后的LeNet—5网

络对JAFFE数据集上的输入图像进行识别的准确率%从表2可以看出&使用原始LeNet—5网络来进行人脸 表情识别准确率较低&即使输入图像为LBP特征图像&也

只提升了 2%〜3%左右的准确率&其原因在于原始的网络 结构并不适合人脸表情识别,需要做出针对性的调整才能

使准确率得到提高%由实验数据可知将数据集图像所提取 的圆形LBP (8, 5\"特征图输入到改进的LeNet—5网络 中&其识别率可达到最高&在CK +和JAFFE数据集可以

分别达到98. 19%和96. 35%的准确率%为进一步查看本文中方法性能&使用上述方法统计不

同表情的准确率&如表3所示%表3不同表情识别准确率CKh/%JAFFE/%生气9(.6192. 14厌恶98.0595. 69恐惧99.1497. 86快乐10099. 17中性96.3(93. 48悲伤96.17. 86惊讶10098. 31A—°0 500

1000一 1500— 2000(a) JAFFEIterationCK+Database数据集上的实验19-«-CK+LossCK+Accuracy e* * 来 來*****>QL_0

______500__

1000 1500 2000(a)CK+Iteration数据集上的实验图7不同数据集损失和准确率曲线图从图7中可以看出&随着迭代次数的增加,JAFFE和

CK +数据集的损失值和准确率均趋于平缓&且损失值可以

迅速下降&说明本文所设计的网络模型较为合理%43与其他方法的对比表4和表5展示了使用其他方法在JAFFE和CK +表 情数据集的识别率对比%表4 JAFFE数据集实验准确率方法JAFFE/%LBP + SRC[12]87. 42SVM[13] 7Ar,4-91.86. 45本文方法96. 35表5 CK十数据集实验准确率方法CKh/%CNN,5-92. 15CNN,6-94. 49多通道CNN[17]94. 58SA】18-96. 5本文方法98. 19由表4可知&使用深度学习对人脸表情进行识别要比 传统方法的准确率高%这是因为传统方法所提取特征难以

-178 -计算机测量与控制第28卷完全描述人脸表情特点,进而在分类算法中准确率难以得

[5- Hsieh C C, Hsih M H, Jiang M K, et al. Effective semantic

featuresforfacialexpressionsrecognitionusingSVM [J- Mul­

到提咼%由表5可知&虽然同样采用了深度学习的方法来进行

timedia Tools and Applications, 2016, 75 (11) : 6663 - 6682.人脸识别,但本文方法的准确率是最高的。文献[15-和 文献[16-所使用卷积神经网络结构较为基础&没有针对

[6- WangX H, Liu A, ZhangS Q Newfacialexpressionrecogni-

tion based on FSVM and KNN [J-. Optik, 2015 , 126 (21):

人脸表情识别问题对网络结构做岀针对性的调整&且训练 样本较少&最终准确率较低;文献[17-虽然对网络结构

3132 - 3134.[7- Pu X, Fan K, Chen X, et al. Facial expression recognition from

imagesequences using twofold random forestclassifier [J- Neurocomputing& 2015 , 168 : 1173 - 1180.做岀了改进,但其特征提取能力不如本文方法,使得准确

率不高。文献[18-使用HOG提取特征,再使用主成分分 析法降维&最终将特征向量送入深度稀疏编码网络中进行 识别%其总体准确率尚可&但单一表情识别率如恐惧和悲 伤不如本文方法准确率高%[8- Tang Y. Deep learning using linear support vector machines [J/

OL-. arXiv: 1306. 0239 [2015 — 02一 21-. https : //arxiv. org/

abs/1603 0239[9- JeonJ, ParkJC, JoYJ, etal Areal—timefacialexpression

recognizerusingdeepneuralnetwork [A- InternationalCon- ferenceon UbiquitousInformation Managementand Communi­

5结语本文结合LBP特征提取与改进后的Lenet—5网络对人 脸表情进行识别,其结果要优于主流方法。为更好地提取到 图像特征,将原始图像的LBP特征输入到网络模型中去,并

cation [C-. New York, ny: ACM, 2016 : 1-4.[0-王景中&李 萌.基于LBP和PCA机器学习的手势识别算

法[J-.计算 机测量 与控制& 2015, 23 ( 4 ): 1320 - 1322, 1326对比了输入哪一种LBP特征图准确率更高;将Lenet — 5网 络进行以适用于人脸表情识别,包括输入图像尺寸的调整、

[1-杜 洋&王展青.基于改进卷积神经网络的手写数字识别

[-.计算机测量与控制& 2018, 26 (7): 256 - 261卷积核的调整、层数的调整和加入神经网络优化算法等。文章下一步计划是将本方法应用于不同的数据集中以

[2-赵栋杰.改进的LBP算子和稀疏表达分类在人脸表情识别上

的应用[-.电子设计工程& 2016, 24 (20): 174 - 177.查看方法性能&此外还需要加强神经网络泛化能力%参考文献:[1- Ding Y, Zhao Q, Li B, et al. Facial expression recognition from

image sequence based on LBP and Taylor expansion [J-. IEEE

[3-钟志鹏&张立保.基于多核学习特征融合的人脸表情识别

[-.计算机应用 & 2015 , 35 (2): 245 -249.[4-苏志铭&陈靓影.基于自回归模型的动态表情识别[-.计

算机辅助设计与图形学学报& 2017, 29 (6): 1085 - 1092.Access,2017 & 5 : 19409 - 19419.[5-卢官明,何嘉利,闫静杰&等.一种用于人脸表情识别的卷

积神经网络[-.南京邮电大学学报(自然科学版),2016,

36 (1): 16-22.[2- LiH,Ding H,Huang D,etal Aneficientmultimodal2D+

3Dfeature—basedapproachtoautomaticfacialexpressionrec-

ognition [J - Computer Vision and Image Understanding,

[16-徐 鹏&薄 华.基于卷积神经网络的人脸表情识别[-.

2015, 140: 83 - 92.微型机与应用 & 2015, 34 (12): 45 -47.[-李 蕊.局部遮挡条件下的鲁棒表情识别方法研究与系统实现

[D-.北京:北京工业大学& 2015[4- Zhou J, Zhang S,H MEI,et al. A method of facial expression

[7-张金刚&方圆,袁豪&等.一种识别表情序列的卷积神经

网络[-.西安电子科技大学学报& 2018, 45 (1): 150 - 155.[18- Zeng N, Zhang H, Song B, et al. Facial expression recognition

vialearningdeepsparseautoencoders [J- Neurocomputing,

recognition based on Gabor and NMF [J-. Pattern Recognition

and Image Analysis, 2016, 26 (1): 119 - 124.2018, 273: 3 - 9.(上接第156页)参考文献:公司 & 2006: 6-1-6-28.[-郝智刚.试论PLC与智能仪表的通讯设计与实现[-.山东

工业技术, 2018 (20): 158[-侯 浪.三菱QPLC应用技术研究[D-.武汉:武汉理工大

学, 2008[-三菱电机自动化(中国)有限公司.MELSEC—Q/L结构体

编程手册(特殊指令篇)[M-.上海:三菱电机自动化(中 国)有限公司 & 2010: 5 - 58 - 5 - 106.[2-程维湖.电气自动控制中PLC技术的应用[J-.山东工业技

术& 2019 (18) : 155 - 185.[3-李 锋.PLC在电气自动化控制中的应用探讨[J-.机电信

息,2019 (17): 16-17.[4-杨 剑&袁 浩.基于三菱Q系列PLC工业生产控制系统的

[-张 磊.AIBUS现场通信总线的PLC工控设计方案[-.现

代制造 & 2006 (9): 62 - 63.[0-潘 丰&王胜阳&刘 凯&等.基于ModBus的远程数据采

集器设计[-.河南科技学院学报(自然科学版),2019, 47 (2): 65-71.设计实验室科学& 2010, 13 (2): 162 -1.[-郭家星.三菱Q系列PLC与安规测试仪的串口通信[J-.机

械工程与自动化& 2013 (5): 185 - 186.[1-三菱电机自动化(中国)有限公司.GX Works2操作手册

(结构化工程篇) [M- 上海: 三菱电机自 动化 (中国) 有限

公司 & 2010: 12-2-12-12.[-三菱电机自动化(上海)有限公司.Q系列串行通信模块用

户手册(基础篇)[M-.上海:三菱电机自动化(上海)有限

因篇幅问题不能全部显示,请点此查看更多更全内容