基于格拉斯曼流形上谱聚类的视频人脸识别 VIDEO FACE RECOGNITI..
计算机应用与软件Vol 31 No. ComputerApplications SoftwareMay 2014 基于格拉斯曼流形上谱聚类的视频人脸识别 (武汉科技大学城市学院信息工程学部 湖北 武汉 430083) (武汉大学测绘遥感信息工程国家重点实验室 湖北 武汉 430079) 收稿日期: 2013 01。杨华勇,讲师,主研领域:数据挖掘,人 工智能,生物信息处理。 林晓丽,讲师。 林立宇,讲师。 针对传统的三维(3D)人脸识别算法仅考虑特征提取而不能很好地运用于实际视频人脸识别系统的问题,提出一种基于格拉斯曼流形谱聚类的动态3D 视频全自动识别系统。 首先通过去除孤立点、 均匀采样、 剪裁、 姿势纠正等过程将3D 视频数据集 进行规范化; 然后从训练视频的不同位置提取出可变长度的局部视频片段,使用基于谱聚类的高效算法将其表示为格拉斯曼流形 最后,将所得到的聚类中心和测试视频中的点相匹配,并且利用基于表决的策略来完成测试视频的人脸识别。在大型通用 3D 视频数据库BU4DFE 上的实验验证了该算法的有效性。 实验结果表明,与几种较为先进的视频人脸识别算法相比,该算法取得 了更好的识别效果。 关键词 人脸识别 格拉斯曼流形 三维视频 面部表情 中图分类号 TP391 DOI:10.3969 issn.1000386x. 2014. 05. 043 VIDEO FACE RECOGNITION BASED ON SPECTRAL CLUSTERING ON GRASSMAN MANIFOLD Yang Huayong LinXiaoli LinLiyu InformationEngineering, City College WuhanUniversity Technology,Wuhan 430083, Hubei, China) (StateKey Laboratory InformationEngineering Surveying,Mapping RemoteSensing, Wuhan University, Wuhan 430079, Hubei, China) Abstract Traditionalthreedimensional face recognition methods only consider feature extraction wellapplied actualvi deo face recognition systems. Aiming problem,we propose dynamic3D video automatic recognition system which spectral clustering Grassmanmanifold. Firstly, standardises3D video datasets through outliers removing, uniform sampling, clipping posturecorrecting. Then, extractslocal video clips which lengths variablefrom different positions trainingvideo, usesspec tral clusteringbased efficient algorithm representthem Glassmanmanifold. Finally, derivedclustering centre testingvideo, completesface recognition testvideo using votebased strategy. The effectiveness proposedmeth od largescalepopular 3D video database BU4DFE. Experimental results show proposedalgorithm has better recognition effect than several rather advanced video face recognition algorithms. Keywords Facerecognition Grassman manifold Spectral clustering Threedimensional video Facial expression 人脸表情自动识别已广泛应用于许多新兴领域,如情感计算和智能人机交互 HCI(Human Computer Interaction)等 于二维(2D)相机的普及,大多数现有的人脸表情识别是使用2D 静态图像或视频完成的 然而,2D面部数据存在一些固 有的问题,如光照条件变化和姿态变化等,三维(3D) 数据形态 可以有效地解决2D 数据面临的问题 文献[4]和文献[5]针对近期3D 人脸表情识别 FER(Facial Expression Recognition)给 出了全面的研究,研究结果表明,如今几乎所有的3D 人脸表情 识别工作是基于静态3D 图像的,通常认为3D 视频可以就人脸 的动态特征提供更多的信息,这对于表情识别至关重要。 自从3D 视频数据库BU4DFE 公开后,仅开发出少数几种基于3D 视频的表情识别方法。 例如,文献[6]用一种可变形网 格(视频的第一个网格)使其适应其它网格,并跟踪其变化从而 提取出几何特征。 首先,对相应的2D 纹理图像的第一帧进行 人工标注,并使用主动外观模型AAM(Active Appearance Model) 方法 跟踪后来的帧图像中的这些标注点;然后使用线性判别 分析LDA(Linear Discrimination Analysis)方法 针对每个网格构建出最优区分性特征空间。 最后,通过贝叶斯决策规则评估 每个隐马尔可夫模型 HMM(Hidden Markov Model) 中测试视频的概率值,从而决定测试视频的表情类型。 文献[10]通过一 种包含四个状态的模型(中立发生极限偏移) 对面部表情序 列进行建模。 首先,使用迭代最近点ICP(Iterative Closed Point) 算法 [11] 将视频的所有3D 网格与第一个网格对准; 然后,使用 自由形变FFD(FreeForm Deformation) [12] 捕捉视频帧之间的移 杨华勇等:基于格拉斯曼流形上谱聚类的视频人脸识别169 动,这种移动在向量场中描述;最后,使用HMMs 对完整表情序 列的时间动态进行建模。 基于面部水平曲线的3D 视频表情识 别方法,文献[13]通过使用 Chamfer 距离比较跨帧的曲线从而 提取出时空特征,同时使用了一种基于 HMM 的决定边界焦点 算法进行分类。 然而,现有3D 人脸识别方法往往偏向于从3D 视频中提取特征,但这些方法无法用在正式的视频人脸识别系 基于上述分析,为了解决传统的3D人脸识别方法中存在 的问题,提出了一种基于视频分块聚类的格拉斯曼流形 [15] 自动 识别系统,能够从3D 视频中识别出六种不连续的面部表情,实 验结果表明了本文算法的有效性及可靠性。 本文的贡献在于: 发展了3D视频人脸识别的自动框架; 对所有的3D视频 规范化之后,本文提出的系统使用一个滑动窗口从视频的不同 位置提取视频片段,并用一组基向量表示这些视频片段,这些片 段可视为Grassmanian 流行上的点; 使用一种高效的基于图的谱聚类算法,可分别聚类出六种的表情的视频片段,且在最终 检索视频进行匹配时仅考虑聚类中心; 此外,本文提出的系统无需任何用户协作或人工标记面部标注,整个过程自动化完 成,从而使流形算法能够更好地应用于现实视频人脸识别中。 格拉斯曼流形上的谱聚类聚类可以概况为: 给定一组点{x }并给出每对点的相似度比较,将所有点划分成群组,这样同一组中的点是相似 的,而不同组内的点不相似。 根据定义,流形是一种拓扑空间,其局部与欧式空间相似。 格拉斯曼流形是R 的所有线性子空间的空间。针对格拉斯曼的一组点{ ,该矩阵信息丰富,携带了流形上所有点对的相似性得分。 如前文所述,格 维子空间,计算中,这些点保存在高瘦的正交化矩阵R 中,可使用典型相关分析计算格拉斯曼流形上每对点的相似度。 一种计算两点 的典型相关的有效方法是对 21进行奇异值分解,典型相关是对角矩 的奇异值。谱聚类的理论表明规范化的图拉普拉斯矩阵 更合适,聚类的效果更佳。 对于矩阵L,其规范化的图拉普拉斯 行所有元素的总和。计算 norm之后,按照算法 示的步骤继续完成聚类过程。与现有的聚类算法不同(其每一 次迭代都需要计算格拉斯曼流形上的均值和距离),提出的谱 聚类算法将该问题缩减到一个低维的欧式空间中,所以聚类过 程更加快速、 有效。 与最近发表的一种在格拉斯曼上聚类的方 法相比,所提谱聚类算法在运行速度上比它快几个数量级(大 约10 算法1 在格拉斯曼上的谱聚类 输入: 流形上的点: 计算规范化的图拉普拉斯Lnorm 计算Lnorm 的首个m 特征向量; 包含Lnorm 规范化3D视频数据库 通过完全自动化的面部规范化过程使得视频中所有网格的 大小和分辨率都一致,图1 所示为3D 面部规范化过程的框图, 细节过程在下文给出。 3D面部图形规范化 以点云矩阵P 表示3D面部,其中m 是点的总数,P 坐标。3D面部图像包含孤立 点,如图1(a) 中圈出的区域所示,找出所有点深度(z 可以去除孤立点,任何深度超出μ 极限的点可视作为孤立点被过滤掉,成功探测出鼻尖之后,以鼻尖为中心半径范围r(r 85mm) 裁剪面部,图1(d) 展示了裁剪出的3D 面部,采用与文献 中相似的技术进行姿势纠正,计算出点云矩阵(P)的均值 向量μ 协方差矩阵的主元分析(PCA)得到特征向量矩阵 V,用来使点 云矩阵P 沿它的主轴对齐,其中P′ 姿势纠正点云再次重新采样成统一的方形网格160 160,分辨率为1mm。 算法设计及分析目前格拉斯曼流形上的聚类技术在聚类算法( 拉斯曼流形上计算平均和聚类的方法可以大致分为内在的和外在的,内在的方法完全局限于流形本身,而外在方法可将流形上 的点嵌入欧式空间并使用欧式度量进行计算。 无论使用内在或 外在的方法进行迭代过程计算都十分耗时,且计算量很大。 献[14]首先使用一种外在方法将格拉斯曼流形上的点嵌入欧式空间,然后运用均值偏移算法。 聚类算法中进行迭代时将流 行转换到其切空间,然后回到流形,该过程十分缓慢、 耗时。 近,文献[15]提出了一种基于Karcher均值的半内在方法,本质 上是一种迭代方法,可用来计算流行上一组点的均值,表明了使 用谱聚类可避免格拉斯曼上的迭代计算,因此,聚类问题可以简 计算机应用与软件2014 化为图拉普拉斯矩阵的特征向量分解。受文献[14,15]的启发,本文提出的基于3D 视频的面部表 情识别系统的完整流程如图2 所示,线下训练阶段,系统从训练 视频的不同位置提取视频片段,分别学习六类的表示; 线上测 试阶段,通过类代表获得提取的检索视频的片段的相似度,同时 使用一种基于表决的策略来决定检索脸部的类别。 表情视频的 总体模式包含这些片段: 中立,紧接着是发生、 极限和偏移。 肉眼观察数据库中的视频时,注意到中立发生极限偏移的次 序并不一定适用于每个视频。 例如,一些视频开始于表情的发 生阶段,跳过了中立阶段,或者在一些视频中,执行者可能不回 到表情的偏移阶段。 因此,将完整视频序列作为一个整体进行 建模可能导致性能降低,需要在视频的不同位置提取不同长度 的局部视频片段。 基于3D视频的面部表情识别系统框图 针对给出的包含n 帧的规范化视频序列 使用一个可变长度的滑动窗口沿着序列提取视频片段。使用不 同长度的滑动窗口的动机来自于经过观察,如果某人在特定的 帧数量期间内执行一种表情活动,另一个人可能在不同的帧数 量期间内执行相同的表情活动。 每个提取出的视频片段被表示成一个矩阵 可以丢弃身份信息,仅保留所需的X 的变形信息。通过X′ 的列形成正交单位向量组,可视作为基向量。 这些基向量按重要性降序排列,携带了视 频片段中包含的重要的表情变形信息。 向量,分别对应于从高兴、悲伤和惊讶这三种表情中提取的视 频片段的顶层4 个奇异值。 从高兴、悲伤和惊讶这三种表情中提取的 视频片段的顶层4 个基向量 这些基向量的集合(即,包含了 中顶层基向量的高瘦的标准正交矩阵)可视作为格拉斯曼流形上的点。 因为本文算法 仅考虑顶层的4 个基向量,所以点位于G 25600,4 ,很明显,G 25600,4 维度很大,需占用大量内存。用局部二值模式LBP(Local Binary Pattern) 的深度值就可以克服这个问题。 的非重叠块,针对每个块计算 LBP u2 8,1 的直方图R 59 944的特征向量所表示,导致点位于G 944,4 而不是G 25600,4 通过如上过程可获得视频的流形上的点,针对从一类表情的训练视频中提取的所有视频片段都执行相同的过程,计算出 格拉斯曼上的点。 接着对这些点进行聚类,相似度图拉普拉斯 矩阵L 显示出一些点与其他点大不相同,这些点来自于视频中 表情表现为不正确或不一致的方式的部分。 因此,对于每一类 表情仅考虑最相似的200 个点,并将它们组成 10 个集群,计算 出每个集群的均值。 最后,将 10 个集群的中心视为类表示,并 将其使用在分类步骤中。 按照相似的过程,可计算出所有六类表情的类表示,给定查 询视频,对其归一化和提取视频片段之后,将视频片段视作 用典型相关,可计算出类表示中查询视频的所有点的相似度。每个点只能对与其最相似的类表示投票。 最后,得到投票数最 多的类就视为查询视频的类别。 内存Intel(R)Core(TM) 93GHz Win dows XP 机器上完成,编程环境为Matlab 数据集基于 BU4DFE 数据库中的视频,评估了本系统的性能。 BU4DFE 数据库包含101 个人(58 个女性,43 个男性),年龄范 围1845 岁,来自于不同的种族和名族,包括亚洲人(28),黑人 (8),拉丁美洲人(3)和白种人(6)。 在心理学家的监督下拍摄, 每个对象包含六种不同的表情: 愤怒、 厌恶、 恐惧、 高兴、 悲伤 和惊讶,拍摄后生成了4 秒的视频序列,以25 秒的速度,随时间变化呈现2D 纹理图和3D 图形。 实验结果及分析训练时使用了包含六类表情的54 个人的视频,测试时使用 个人的视频。为了获得一致的实验结果,分别选择不同的 训练样本和测试样本共执行了10 组实验,实验的平均结果如表 混淆矩阵(%)识别率 愤怒 厌恶 恐惧 高兴 悲伤 惊讶 愤怒 95. 83 1787. 50 16.67 66. 67 16.67 98.94 95.83 98.94 可以看出,有一组系统的分类精度达到了97.22%, 而其它几组分类精度在88. 89%以上波动。 高兴和惊奇是执行 最一致的表情,系统针对这两者的分类精度达到了 98. 94%。 厌恶和恐惧是更不明显的表情。 对于不同人的视频,这两个表 情通常表现得不一致,导致系统总体性能的降低。 对于所有的 杨华勇等:基于格拉斯曼流形上谱聚类的视频人脸识别171 表情,本系统的总体平均分类精度为94.97%。 识别率比较为了检验所提系统的优越性,实验将本文算法与较为先进 的技术相比,包括三维动态变化模型3DDRM(3D dynamic range model) 条件主动外观模型CAAM( Condition Active Appear ance Model 隐马尔可夫后处理模型HMMPM HiddenMarkov Model 非线性均值漂移黎曼流形算法(NMSRM) [14] ,各算法的参数设置与各自所在文献相同, 与几种较为先进算法的比较结果方法 精度 备注 3DDRM 95. 44% 手工标注83 个标注,测试了六种表情 CAAM 96. 44% 仅测试高兴、 愤怒和惊讶 HMMPM 89. 93% 仅测试高兴、 愤怒和惊讶 NMSRM 95. 22% 仅测试高兴、 悲伤和惊讶 本文算法 94. 97% 完全自动化,测试了六种表情 本文算法 98. 94% 仅测试高兴、 愤怒和惊讶 可以看出,3DDRM得到95. 44%的分类精度,然而, 该算法依赖于手工标记83 个面部标注,不仅是不合理的耗时过 程,而且可能会渲染不准确, 很难适用于大量的实际应用。 CAAM、 HMMPM 针对3 种表情,即愤怒、 高兴和惊讶,分别得 到了96. 44%、 89. 93%的平均分类精度。 NMSRM 针对3 情,即悲伤、高兴和惊讶,获得了95. 22%的分类精度。 当本文 算法完全自动化,测试六种表情时,取得了94. 97% 的识别率, 如果仅考虑3 种表情(与CAAM、 HMMPM 相似的愤怒高兴惊 讶或与NMSRM 相似的悲伤高兴惊讶)进行测试时,本文算法 取得了98. 94%的平均识别率,由此可以见本文算法在分类精 度方面的优越性。 性能比较为了更好地校检本文算法的优越性,将本文算法与 3D DRM、 CAAM、 HMMPM 及NMSRM 几种较为先进的算法的复 杂度进行了对比,包括训练阶段时间复杂度、 测试阶段时间复 杂度及空间复杂度,比较结果如表3 所示,其中,其中,m 各算法的复杂度比较方法 训练阶段时间复杂度 测试阶段时间复杂度 总体空间复杂度 3DDRM O(mnL)O(2m NMSRMO(2m O(2mnL)O(2m 可以看出,与3DDRM算法相比,本文算法在训练阶 段的时间复杂度稍微高了一点,其它均相同; CAAM算法相 比,时间复杂度与本文算法相当,但是空间复杂度却比本文算法 高了一倍; 与HMMPM 算法相比,本文算法的训练阶段时间复 杂度稍微高了点,但是测试阶段的时间复杂度比HMMPM 算法 低了一半; NMSRM算法相比,本文算法的训练阶段、 测试 阶段时间复杂度及总体空间复杂度均低了很多。 在大大提高识 别率的同时,本文算法仍然能够保持与其它相关算法相当甚至 更优的复杂度,由此可见其优越性。 针对传统的3D人脸识别方法仅考虑特征提取而不能很好 地运用于实际视频人脸识别系统的问题,提出了一种从3D 频中自动识别面部表情的系统。在规范化原始3D 视频后,该 系统从视频的不同位置提取出局部视频片段,并将它们表示在 格拉斯曼流形上。 在大型通用3D 视频数据库 BU4DFE 上测试 了所提系统的性能,实验结果表明,与几种较为先进的方法相 比,本文算法取得了更高的分类精度。 未来会考虑结合其它先进的方法,将本文算法应用到其它 的视频人脸数据集上,进行大量的实验,进一步改进本文算法的 识别率及识别效率,从而更好地运用于3D 实时视频人脸识别 系统。 能系统学报,2010,5(1):1016. 模式识别与人工智能,2009,22(6):809814. 动化学报,2010,36(1):153158. 中国图象图形学报,2009,14(5):764772. 基于Gabor 多方向特征融合与分块直方图 的人脸表情识别方法[ 自动化学报,2011, 37 14551463. SunY,Yin Facialexpression recognition based 3Ddynamic range model sequences ComputerVision ECCV2008. Springer Berlin Heidelberg,2008:58 71. 计算机辅助设计与图形学学报,2013,25(4):510 518. 尹洪涛,付平,沙学军.基于 DCT 和线性判别分析的人脸识别 电子学报,2009,37(10):22112214. 隐马尔可夫后处理模型在视频人脸识别中的应用[J]. 计算机应用,2010(004):960 963. [10] Sandbach G,Zafeiriou S,Pantic M,et al. Recognition 3Dfacial ex pression dynamics VisionComputing,2012,30( 10): 762 773. [11] 光学精密工程,2012,20(9):20682077. [12] 基于自由形变的3D 非线性医学图像配 中国医学影像技术,2011,27(12):25362540. [13] Sandbach G,Zafeiriou S,Pantic M,et al. Static dynamic3D facial expression recognition:A comprehensive survey VisionComputing,2012,30(10):683 697. [14] Subbarao R,Meer Nonlinearmean shift over Riemannian manifolds InternationalJournal ComputerVision,2009,84(1):1 20. [15] Turaga P,Veeraraghavan A,Srivastava A,et al. Statistical computations stiefelmanifolds videobasedrecogni tion PatternAnalysis MachineIntelligence,IEEE Transactions on,2011,33(11):2273 2286.
No comments:
Post a Comment