Core Image 实现面部识别

作者:Gregg Mojica 翻译:BigNerdCoding。 已将原文部分代码修改为 Swift3 ,有问题一起讨论。原文链接

Core Image 作为功能强大 Cocoa Touch 框架自带的组件,是 iOS SDK 中不可或缺的重要组成部分。然而,大多数情况下它却总在被开发者选择性忽视。 在这篇教程中,我们将会介绍其中的面部识别功能,以及如何在开发过程中使用该功能。

接下来的内容

面部识别功能早在 2011 年 iOS5 发布的时候就已经存在了,但是该功能并没有引起太多的关注。面部识别 API 除了让开发者检测脸部是否存在外,还可以更加细致的检测是否在微笑、闭眼。

首先,我们会创建一个简单应用并使用面部识别 API 将图片中的脸部区域使用方块高亮标记。在第二个示例中,我们将通过创建一个应用程序来查看更详细 API 使用方法,该应用程序允许用户拍摄照片,检测面部是否存在以及获取用户的面部坐标。 通过这些示例,我们将学习所有关于 iOS 面部检测的内容,以及如何利用这个强大,但又被遗忘在角落里的 API。

紧跟步伐,往下看!

配置工程项目

下载初始工程并用 XCode 打开,工程中除了一个 storyboard 并且绑定了一个 imageView 到 IBOutlet 别无其他。

在开始面部检测前,我们需要导入 Core Image 的类库。打开 ViewController.swift 文件并添加如下代码:

import CoreImage

开始面部识别

在初始工程中我们有一个 IBOutlet 的 imageView 变量,并且该变量已经与 storyboard 建立了连接。接下来我们编写面部识别的代码。直接复制下面代码到文件中,后面会有详细分析。

func detect() {
    
    guard let personciImage = CIImage(image: personPic.image!) else {
        return
    }
    
    let accuracy = [CIDetectorAccuracy: CIDetectorAccuracyHigh]
    let faceDetector = CIDetector(ofType: CIDetectorTypeFace,context: nil,options: accuracy)
    let faces = faceDetector!.features(in: personciImage)
    
    for face in faces as! [CIFaceFeature] {
        
        print("Found bounds are \(face.bounds)")
        
        let faceBox = UIView(frame: face.bounds)
        
        faceBox.layer.borderWidth = 3
        faceBox.layer.borderColor = UIColor.red.cgColor
        faceBox.backgroundColor = UIColor.clear
        personPic.addSubview(faceBox)
        
        if face.hasLeftEyePosition {
            print("Left eye bounds are \(face.leftEyePosition)")
        }
        
        if face.hasRightEyePosition {
            print("Right eye bounds are \(face.rightEyePosition)")
        }
    }
}

我们来看看上面的代码作了些什么:

  • 第3行:使用 personPic 视图中的图片创建了 CIImage 对象。

  • 第7行:设置识别的准确度 accuracy 为 CIDetectorAccuracyHigh。 您可以从CIDetectorAccuracyHigh(提供高处理能力)和CIDetectorAccuracyLow(提供低处理能力)中选择合适的准确度。 对于本文而言,我们选择CIDetectorAccuracyHigh,因为我们想要高精度。

  • 第8行:使用 accuracy 创建 CIDetector 对象。

  • 第9行:调用 faceDetector 对象上的 featuresInImage 函数,获取图片中所有的面部。

  • 第11行:遍历 faces 数组并将数组中的变量转为 CIFaceFeature

  • 第15行:创建 UIView 类型变量 faceBox,用于高亮识别的区域。

  • 第17行:设置 faceBox 的边框宽度。

  • 第18行:设置 faceBox 的边框颜色。

  • 第19行:设置 faceBox 的背景颜色为 clear

  • 第20行:将 faceBox 作为子视图加入到 personPic 视图中。

  • 22~28行:除了可以进行面部检测外,我们还可以检测面部中的左眼和右眼。这段代码只是演示 CIFaceFeature 中部分属性的使用所有也就没有进行高亮。

接下来我们直接在 viewDidLoad 中调用 detect 函数,添加以下代码:

detect()

运行程序你可能看到如下结果:

看起来不太正确,但是查看控制台的打印结果又好像检测到了。

Found bounds are (177.0,415.0,380.0,380.0)

造成这种现象的原因是我们还有一些细节问题未处理:

  • 面部识别功能是在原图上进行的,而该图片可能分辨率非常高,所以我们需要将原图和视图之间进行大小拟合。检测到的区域需要重新计算转换为视图中的位置。

  • 另一个重要的细节是:Core Image 和 UIView 的坐标系统不一致。我们需要对坐标系进行转换,以保障位置计算是的参照是一致的。

为了解决上诉两个细节问题,我们将 detect() 函数中的代码替换为:

func detect() {
    
    guard let personciImage = CIImage(image: personPic.image!) else {
        return
    }
    
    let accuracy = [CIDetectorAccuracy: CIDetectorAccuracyHigh]
    let faceDetector = CIDetector(ofType: CIDetectorTypeFace,options: accuracy)
    let faces = faceDetector!.features(in: personciImage)
    
    // For converting the Core Image Coordinates to UIView Coordinates
    // 计算坐标转换的矩阵,先对称后平移
    let ciImageSize = personciImage.extent.size
    var transform = CGAffineTransform.init(scaleX: 1,y: -1)

    transform = transform.translatedBy(x: 0,y: -ciImageSize.height)
    
    for face in faces as! [CIFaceFeature] {
        
        print("Found bounds are \(face.bounds)")
        
        // Apply the transform to convert the coordinates
        // 坐标转换
        var faceViewBounds = face.bounds.applying(transform)

        
        // Calculate the actual position and size of the rectangle in the image view
        // 坐标系重新映射完成后,计算是视图中的位置和偏移
        let viewSize = personPic.bounds.size
        let scale = min(viewSize.width / ciImageSize.width,viewSize.height / ciImageSize.height)
        let offsetX = (viewSize.width - ciImageSize.width * scale) / 2
        let offsetY = (viewSize.height - ciImageSize.height * scale) / 2
        
        faceViewBounds = faceViewBounds.applying(CGAffineTransform.init(scaleX: scale,y: scale))
        
       
        faceViewBounds.origin.x += offsetX
        faceViewBounds.origin.y += offsetY
        
        let faceBox = UIView(frame: faceViewBounds)
        
        faceBox.layer.borderWidth = 3
        faceBox.layer.borderColor = UIColor.red.cgColor
        faceBox.backgroundColor = UIColor.clear
        personPic.addSubview(faceBox)
        
        if face.hasLeftEyePosition {
            print("Left eye bounds are \(face.leftEyePosition)")
        }
        
        if face.hasRightEyePosition {
            print("Right eye bounds are \(face.rightEyePosition)")
        }
    }
}

代码中发生改变的地方已经备注了:首先我们计算得到进行坐标转换的矩阵,然后我们进行坐标后计算出原图中的识别区域映射在视图中的正确位置。

现在再次运行程序的话,你就能看见高亮区域正好就在我们希望的位置。

创建带面部识别的照相 App

想象一下你有一个相机/照片应用程序拍摄照片。 一旦拍摄完成,就检测图片中是否存在脸部。 如果存在的话,你就可以用一些标签来对该照片进行分类,反之亦然。 虽然本文中的目的不是创建一个照片存储的应用,但是接下来还是会编写一个实时相机应用程序来进一步研究面部识别 API 的一些细节。 为此,我们需要集成 UIImagePicker ,并在拍摄照片后立即运行我们的 Face Detection 代码。

在初始工程中我们已经创建了 CameraViewController 类,接下来我们丰富其中的代码:

class CameraViewController: UIViewController,UIImagePickerControllerDelegate,UINavigationControllerDelegate {

    @IBOutlet var imageView: UIImageView!
    let imagePicker = UIImagePickerController()

    override func viewDidLoad() {
        super.viewDidLoad()

        imagePicker.delegate = self
    }

    @IBAction func takePhoto(_ sender: AnyObject) {
        if !UIImagePickerController.isSourceTypeAvailable(.camera) {
            return
        }
    
        imagePicker.allowsEditing = false
        imagePicker.sourceType = .camera
    
        present(imagePicker,animated: true,completion: nil)
    }

    func imagePickerController(_ picker: UIImagePickerController,didFinishPickingMediaWithInfo info: [String : Any]) {
        if let pickedImage = info[UIImagePickerControllerOriginalImage] as? UIImage {
            imageView.contentMode = .scaleAspectFit
            imageView.image = pickedImage
        }
        dismiss(animated: true,completion: nil)
        detect()
    
    }

    func imagePickerControllerDidCancel(_ picker: UIImagePickerController) {
        dismiss(animated: true,completion: nil)
    }
    
}

首先,我们完成了 UIImagePicker 的代理设置。然后我们在代理方法 didFinishPickingMediaWithInfo 中图片赋值给了 imageView。最后我们让拍照视图消失并调用 detect() 对面部进行识别。

上面的 detect() 的实现如下:

func detect() {

    let imageOptions =  NSDictionary(object: NSNumber.init(value: 5),forKey: CIDetectorImageOrientation as NSString)
    let personciImage = CIImage(cgImage: imageView.image!.cgImage!)
    
    let accuracy = [CIDetectorAccuracy: CIDetectorAccuracyHigh]
    let faceDetector = CIDetector(ofType: CIDetectorTypeFace,options: accuracy)
    let faces = faceDetector!.features(in: personciImage,options: imageOptions as? [String : AnyObject])
    
    
    if let face = faces.first as? CIFaceFeature {
        print("found bounds are \(face.bounds)")
        
        let alert = UIAlertController(title: "Say Cheese!",message: "We detected a face!",preferredStyle: .alert)
        
        alert.addAction(UIAlertAction.init(title: "OK",style: .default,handler: nil))
        
        present(alert,completion: nil)
       
        
        if face.hasSmile {
            print("face is smiling");
        }
        
        if face.hasLeftEyePosition {
            print("Left eye bounds are \(face.leftEyePosition)")
        }
        
        if face.hasRightEyePosition {
            print("Right eye bounds are \(face.rightEyePosition)")
        }
    } else {
        let alert = UIAlertController(title: "No Face!",message: "No face was detected",preferredStyle: .alert)
        alert.addAction(UIAlertAction(title: "OK",handler: nil))
        present(alert,completion: nil)
    }
}

此处的 detect() 函数实现和之前的哪个类似,只不过添加了识别结果的提示信息展示功能。

CIFaceFeature 对象已经内置了多个属性和方法来帮助我们处理更加细节性的问题。例如用 .hasSmile 来检测用户的笑容,.hasLeftEyePosition.hasRightEyePosition 来检查左右眼(当然,我们希望一切都是完美的)。

另外我们也可以通过 hasMouthPosition 属性来检查图片中是否存在嘴巴,并且在存在的情况下访问 mouthPosition 属性来获取位置。代码如下:

if (face.hasMouthPosition) {
    print("mouth detected")
}

如你所见,使用 Core Image 框架完成面部检测是如此的简单。除了笑容、眼睛、嘴巴的检测之外,我们还可以通过 leftEyeClosedrightEyeClosed 来判断眼睛是不是闭着的。

总结

本文我们研究了 Core Image 框架中面部识别相关的 API,并且成功将其应用到了照相应用中。该 API 功能强大且使用简单,我希望这篇文章能让你对这个被忽视的有一些新的认识。

完整参考代码地址

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


软件简介:蓝湖辅助工具,减少移动端开发中控件属性的复制和粘贴.待开发的功能:1.支持自动生成约束2.开发设置页面3.做一个浏览器插件,支持不需要下载整个工程,可即时操作当前蓝湖浏览页面4.支持Flutter语言模板生成5.支持更多平台,如Sketch等6.支持用户自定义语言模板
现实生活中,我们听到的声音都是时间连续的,我们称为这种信号叫模拟信号。模拟信号需要进行数字化以后才能在计算机中使用。目前我们在计算机上进行音频播放都需要依赖于音频文件。那么音频文件如何生成的呢?音频文件的生成过程是将声音信息采样、量化和编码产生的数字信号的过程,我们人耳所能听到的声音频率范围为(20Hz~20KHz),因此音频文件格式的最大带宽是20KHZ。根据奈奎斯特的理论,音频文件的采样率一般在40~50KHZ之间。奈奎斯特采样定律,又称香农采样定律。...............
前言最近在B站上看到一个漂亮的仙女姐姐跳舞视频,循环看了亿遍又亿遍,久久不能离开!看着小仙紫姐姐的蹦迪视频,除了一键三连还能做什么?突发奇想,能不能把舞蹈视频转成代码舞呢?说干就干,今天就手把手教大家如何把跳舞视频转成代码舞,跟着仙女姐姐一起蹦起来~视频来源:【紫颜】见过仙女蹦迪吗 【千盏】一、核心功能设计总体来说,我们需要分为以下几步完成:从B站上把小姐姐的视频下载下来对视频进行截取GIF,把截取的GIF通过ASCII Animator进行ASCII字符转换把转换的字符gif根据每
【Android App】实战项目之仿抖音的短视频分享App(附源码和演示视频 超详细必看)
前言这一篇博客应该是我花时间最多的一次了,从2022年1月底至2022年4月底。我已经将这篇博客的内容写为论文,上传至arxiv:https://arxiv.org/pdf/2204.10160.pdf欢迎大家指出我论文中的问题,特别是语法与用词问题在github上,我也上传了完整的项目:https://github.com/Whiffe/Custom-ava-dataset_Custom-Spatio-Temporally-Action-Video-Dataset关于自定义ava数据集,也是后台
因为我既对接过session、cookie,也对接过JWT,今年因为工作需要也对接了gtoken的2个版本,对这方面的理解还算深入。尤其是看到官方文档评论区又小伙伴表示看不懂,所以做了这期视频内容出来:视频在这里:本期内容对应B站的开源视频因为涉及的知识点比较多,视频内容比较长。如果你觉得看视频浪费时间,可以直接阅读源码:goframe v2版本集成gtokengoframe v1版本集成gtokengoframe v2版本集成jwtgoframe v2版本session登录官方调用示例文档jwt和sess
【Android App】实战项目之仿微信的私信和群聊App(附源码和演示视频 超详细必看)
用Android Studio的VideoView组件实现简单的本地视频播放器。本文将讲解如何使用Android视频播放器VideoView组件来播放本地视频和网络视频,实现起来还是比较简单的。VideoView组件的作用与ImageView类似,只是ImageView用于显示图片,VideoView用于播放视频。...
采用MATLAB对正弦信号,语音信号进行生成、采样和内插恢复,利用MATLAB工具箱对混杂噪声的音频信号进行滤波
随着移动互联网、云端存储等技术的快速发展,包含丰富信息的音频数据呈现几何级速率增长。这些海量数据在为人工分析带来困难的同时,也为音频认知、创新学习研究提供了数据基础。在本节中,我们通过构建生成模型来生成音频序列文件,从而进一步加深对序列数据处理问题的了解。
基于yolov5+deepsort+slowfast算法的视频实时行为检测。1. yolov5实现目标检测,确定目标坐标 2. deepsort实现目标跟踪,持续标注目标坐标 3. slowfast实现动作识别,并给出置信率 4. 用框持续框住目标,并将动作类别以及置信度显示在框上
数字电子钟设计本文主要完成数字电子钟的以下功能1、计时功能(24小时)2、秒表功能(一个按键实现开始暂停,另一个按键实现清零功能)3、闹钟功能(设置闹钟以及到时响10秒)4、校时功能5、其他功能(清零、加速、星期、八位数码管显示等)前排提示:前面几篇文章介绍过的内容就不详细介绍了,可以看我专栏的前几篇文章。PS.工程文件放在最后面总体设计本次设计主要是在前一篇文章 数字电子钟基本功能的实现 的基础上改编而成的,主要结构不变,分频器将50MHz分为较低的频率备用;dig_select
1.进入官网下载OBS stdioOpen Broadcaster Software | OBS (obsproject.com)2.下载一个插件,拓展OBS的虚拟摄像头功能链接:OBS 虚拟摄像头插件.zip_免费高速下载|百度网盘-分享无限制 (baidu.com)提取码:6656--来自百度网盘超级会员V1的分享**注意**该插件必须下载但OBS的根目录(应该是自动匹配了的)3.打开OBS,选中虚拟摄像头选择启用在底部添加一段视频录制选择下面,进行录制.
Meta公司在9月29日首次推出一款人工智能系统模型:Make-A-Video,可以从给定的文字提示生成短视频。基于**文本到图像生成技术的最新进展**,该技术旨在实现文本到视频的生成,可以仅用几个单词或几行文本生成异想天开、独一无二的视频,将无限的想象力带入生活
音频信号叠加噪声及滤波一、前言二、信号分析及加噪三、滤波去噪四、总结一、前言之前一直对硬件上的内容比较关注,但是可能是因为硬件方面的东西可能真的是比较杂,而且需要渗透的东西太多了,所以学习进展比较缓慢。因为也很少有单纯的硬件学习研究,总是会伴随着各种理论需要硬件做支撑,所以还是想要慢慢接触理论学习。但是之前总找不到切入点,不知道从哪里开始,就一直拖着。最近稍微接触了一点信号处理,就用这个当作切入点,开始接触理论学习。二、信号分析及加噪信号处理选用了matlab做工具,选了一个最简单的语音信号处理方
腾讯云 TRTC 实时音视频服务体验,从认识 TRTC 到 TRTC 的开发实践,Demo 演示& IM 服务搭建。
音乐音频分类技术能够基于音乐内容为音乐添加类别标签,在音乐资源的高效组织、检索和推荐等相关方面的研究和应用具有重要意义。传统的音乐分类方法大量使用了人工设计的声学特征,特征的设计需要音乐领域的知识,不同分类任务的特征往往并不通用。深度学习的出现给更好地解决音乐分类问题提供了新的思路,本文对基于深度学习的音乐音频分类方法进行了研究。首先将音乐的音频信号转换成声谱作为统一表示,避免了手工选取特征存在的问题,然后基于一维卷积构建了一种音乐分类模型。
C++知识精讲16 | 井字棋游戏(配资源+视频)【赋源码,双人对战】
本文主要讲解如何在Java中,使用FFmpeg进行视频的帧读取,并最终合并成Gif动态图。
在本篇博文中,我们谈及了 Swift 中 some、any 关键字以及主关联类型(primary associated types)的前世今生,并由浅及深用简明的示例向大家讲解了它们之间的奥秘玄机。