科学家发现了一种应用于智慧医院等领域的人脸识别模型

人脸识别工具是一种计算模型，可以在众多领域得到应用，医学领域的智慧医院环节也不例外。

在医院的就医环节，医院的管理人员可以用人脸识别代替社保卡、身份证等识读设备。在医保支付环节，人脸识别还可以进行支付认证。在医院影像领域，人脸识别可以和PACS系统很好结合，辅助医疗技术影像科的专家识别身份，判定疾病的症状等。人脸识别，智慧医院领域领域必不可少。

虽然现在大多数现有的人脸识别模型都表现得非常好，但仍有很大的改进空间。伦敦玛丽女王大学的研究人员最近为人脸识别创造了一种新的、有前景的架构。

“使用卷积神经网络(CNN)和基于边缘损失的整体方法主导了人脸识别的研究，”进行这项研究的两名研究人员孙仲林(Zhonglin Sun)和Georgios Tzimiropoulos说。

“在这项工作中，我们从两个方面出发:首先，我们使用视觉转换器作为一个架构来训练一个非常强的人脸识别基线，简称fViT，它已经超过了大多数最先进的人脸识别方法。其次，我们利用视觉变压器(ViTs)的固有属性来处理从不规则网格中提取的信息(视觉标记)，设计出一种用于人脸识别的管道。”

大多数广泛使用的人脸识别方法都是基于CNN，这是一类人工神经网络，可以自主学习在图像中寻找模式，例如识别特定的物体或人。虽然其中一些方法取得了非常好的性能，但最近的工作突出了另一类人脸识别算法的潜力，即视觉变压器(ViTs)。

与CNN相比，ViTs将图像分割成特定大小的补丁，然后在这些补丁中添加嵌入。CNN通常全面分析图像。然后，得到的向量序列被馈送到标准转换器，这是一个深度学习模型，它对正在分析的数据的不同部分进行不同的加权。

研究人员在他们的论文中解释说:“与CNN相反，ViT实际上可以在从不规则网格中提取的补丁上工作，并且不需要用于卷积的均匀间隔采样网格。”“由于人脸是由部分(如眼睛、鼻子、嘴唇)组成的结构化对象，并且受到深度学习之前基于部分的面部识别开创性工作的启发，我们建议将ViT应用于代表面部部分的补丁。”

由Sun和Tzimiropoulos创建的视觉转换器架构，被称为部分fViT，由一个轻量级网络和一个视觉转换器组成。网络预测面部标志的坐标(例如，鼻子，嘴巴等)，而变压器分析包含预测标志的补丁。

他们的架构在所有测试数据集上都取得了惊人的准确性，与许多其他最先进的人脸识别模型相当。此外，他们的模型似乎在没有经过专门训练的情况下成功地勾画出了面部地标。