AI人工智能技术是通过怎样的方式实现人脸识别和图片识别的?

aliangcn


《复仇者联盟: 终局之战》美国未开映已尽破预售纪录,单是全美预售金额估计达6亿美元,而中国的开售票房,也已超过10亿人民币,果然是未出发先兴奋。

《复仇者联盟: 终局之战》最终全球的票房将高达60亿美元,因此不少人以「十年」去形容漫威影业在《复仇者联盟: 终局之战》取得的成功。

漫威真的是十年才磨出一剑?

由2008年《钢铁侠》公映开始,连同上映的《复仇者联盟: 终局之战》,漫威合共出品了22部的漫威电影宇宙衍生片,不计《复仇者联盟: 终局之战》预售票房的金额,其余21部电影在全球合共取得超过183亿美元的票房。

由此可见,《复仇者联盟: 终局之战》只是漫威过去10年磨出的其中一把剑,因为漫威已在过去10年多,磨出了合共22把令不少电影人「眼红」的宝剑,同时每把宝剑平均价值超过8亿美元。

可是,令人唏嘘的是2008年《钢铁侠》打开MCU电影系列成功之门的背景,乃是美国雷曼兄弟倒闭、引发全球金融海啸发生之年,当漫威为全球电影市场带来新的局面,重新打造英雄电影之际,全球金融市场在金融海啸后,又有没有真正的英雄联盟出现过?

至少在联储局推出前所未有的量化宽松货币政策(QE)后,现在联储局似乎为如果从QE全身而退而感烦恼,同时全球企业的债务问题亦没有因为金融海啸而汲取教训,反而全球75%的经济体系正面对债务水平过高的问题,同时全球贫富悬殊越来越严重,所以当电影业有复仇者联盟创造神话之时,全球经济及金融体系其实也需要复仇者联盟的助攻。

漫威宇宙幕后大佬是迪士尼

要讲漫威概念股,第一只不得不提的是迪斯尼,迪斯尼早于2009年收购漫威娱乐,不过因为当时漫威娱乐早已将旗下不少受欢迎角色的电影版权出售,例如将蜘蛛侠电影版权售予索尼、将X战士、神奇四侠、死侍电影版权售予福克斯等,所以漫威宇宙的角色迟迟未能聚首一堂。

迪斯尼也一直努力收集漫威宇宙的角色的版权,包括以713亿美元的「天价」收购福克斯,而该交易亦于上月顺利生效,即X战士、神奇四侠、死侍等角色日后有机会明正言顺于漫威电影宇宙中出现,叫不少支持者十分期待。

投资银行高盛也看好迪士尼收购福克斯和推出自家串流平台后的发展,给予了迪斯尼「买入」的评价,目标价为142美元,现价约为135美元。特别是近年来迪斯尼大力开发中国市场,业绩逐年上升。

迪斯尼控股多家中国公司

据企查查平台显示,华特迪士尼公司(纽约证券交易所上市名称:DIS)华特迪士尼公司及其子公司和联营机构, 是家庭娱乐和媒体业务的多元化国际企业之首,其五项主要业务包括媒体网络、主题乐园及度假区、影视娱乐、迪士尼消费品及迪士尼互动媒体集团。迪士尼公司是道琼斯工业平均指数30个组成公司之一,上一财政年度总的收入达三百四十亿美元。

AI换脸黑寡妇变同福掌柜“佟湘玉”,斯嘉丽却难高兴?

就复仇者联盟4在中国首先上映大获成功的时候,调皮的网民玩起了AI换脸的游戏。有人把主意打到了“黑寡妇”斯嘉丽约翰逊身上,而她的换脸角色竟是《同福客栈》里的“掌柜的”佟湘玉。

整个人的气质都洋气了

作为好莱坞收入最高的女演员之一,斯嘉丽·约翰逊显然无法对中国网民的行为认同。因为她曾深受AI换脸的危害。早在2012年的时候,一名黑客泄露了包括斯嘉丽在内的诸多名人的裸照。虽然不法分子最终被判处10年徒刑、为后来者敲响了警钟,但是近年来兴起的人工智能换脸术,又催生了一批近乎完美换脸的不雅影片。

方便却被滥用,AI换脸技术的黑暗面

Google在2015年推出开源软件库「TensorFlow」,使得资源不仅免费更变得开放、易得,自此让机器学习研究的门槛从实验室带进了大众的笔记本电脑中。

不过TensorFlow的威力现在Google也难易控制,在「FakeApp」出现后不仅是名人可能变不雅片主角,身边好友、同学等一般民众都将更容易受害。最初「deepfake(深伪)」制作影片所用到的工具,是基于TensorFlow 和Keras 等开源软件,素材则是透过Google图片搜索、公开图库取得,共同的特点就是公开开放且免费。

「每个技术都可能被用来做坏事,这个我们拦不住,主要区别在于做这件事对每个人来说有多容易。」毋庸置疑,任何一项新技术的发明初衷都是为了改善人类的生活,

它们绝大多数也确实做到了。其实这种「换脸」技术,其原型和相似技术几年前就广泛应用于影视行业之中了。《速度与激情7》中,由于主演保罗·沃克意外去世,电影公司找来他的两个弟弟担任替身,在后期中使用CGI 技术替换掉了弟弟的脸,让保罗成功「复活」,圆了无数冬粉一个梦。

但是如果是你亲戚朋友的脸被替换了呢?如果把犯罪现场所拍摄嫌疑人的脸换成你呢?如果在你不知情的情况下,不法分子发给你家人一段有你露脸的绑架视频呢?

中国AI技术世界领先

中国在AI领域正快速追赶美国,再过大约10年可能成为AI市场的领导者。美国目前在AI领域的投资不足。

中国的目标是在2030年之前成为AI技术的领导者。中国最早可在2025年之前达成目标。在2020年之前中国会追上美国,2025年之前就会做得比美国好,2030年之前就主导整个AI产业。

企查查数据平台显示中国人工智能企业超37000家

中国在AI技术领域的论文占比,从1997年4.26% 成长至2017年的27.68%,遥遥领先其他国家。而被高度引用的论文,代表了论文在该领域的代表性与重要性,中国也在2013年超越美国成为世界第一。

中国、日本、美国三者占全球总体专利公开数量的74%,其中中国又略微领先其他两国。全球专利主要集中在语音识别、图像识别、机器人以及机器学习领域。

截至2017年,中国AI技术人才数量达18,232人,占世界总量8.9%,仅次于美国的13.9%。

截至2018年6月,中国AI技术企业数量已达1,011家,位列世界第二。与第一名的美国2,028家有不小的差距。且中国AI技术企业高度集中在北京、上海与广东,北京又以395家企业位列世界第一。主要的企业应用技术集中在语音、视觉与自然语言处理三方面。

从2013年到2018年第一季,中国AI技术领域的投资与融资占全球60%。但创投投资金流偏向大型企业,从投资的数量来看,中国仍是AI技术领域创投最活跃的国家。

不过斯嘉丽尽可放心,因为中国目前已经禁止任何人以深度伪造技术替换影片中的人物面部,目的在避免侵犯肖像权、危害社会公益。


海外智账


用通俗的话总的来说,就是利用大数据抽取规律,再利用规律去预测(回归)、分类、聚类未知的输入,得到输出(结果)。

单说图片识别:

这里面的大数据就是已知的输入(图片)和已知的结果(图片的标签),抽取规律也就是相应的算法(卷及神经网络),预测、分类、聚类就是得到图片的结果(图片识别)。

可以分为以下几步:

第一步:数据的预处理。

图片是由一个一个的像素组成的,就拿入门的案例说吧,MNIST数据集,是一个手写数字的数据集,每一张图片都是由28×28个像素点形成的。

就像这样:

总共有60000张这样的图片,而图片的标签(也就是结果)也是已知的(0~9),那么设输入为x输出为y,

计算机是无法读懂图片的,所以我们要将图片转换成计算机所能认识的东东。

矩阵:

x就是一个28×28的矩阵每一个点表示图片中相应位置的灰度。有的神经网络为了更简化的计算,将28×28 的矩阵,转换为一个1×784的向量(一维矩阵)。这里的x是28×28×1,这个1表示的是单通道,也就是只有一种颜色。如果是彩色图片的话,那么就应该是28×28×3,这个3表示的是RGB三个颜色通道。

y就是一个数字,0~9。

有些算法还会降x,y进行归一化,也就是转换为0~1之间的矩阵、数字。

第二步:抽取特征。

卷积(特征提取)的具体计算方法:

其中input为输入,filter叫做卷积核(暂且理解为滤波器),output叫做特征图,特征图的个数和filter的个数是相同的(filter W0、filter W1)。既然是矩阵,那么可以设中间的参数是W,于是就有Wx+b = output。这里的W是我们最终要训练出来的。

计算方法:

w0与x蓝色区域做内积(对应位置相乘后相加):

f1第1层 = 0×1+ 0×1+ 0×1 + 0×-1+ 1×-1+ 1×0 + 0×-1+1×1+1×0 = 0

f1第2层 = 0×-1+0×-1+0×1 +0×-1+0×1+1×0 +0×-1+2×1+2×0 = 2

f1第3层 = 0×1+0×0+0×-1+ 0×0+2×0+2×0+ 0×1+0×-1+0×-1+ = 0

那么根据神经网络得分函数:f(x,w) = wx+b

这里的b =1

那么输出的得分值就为f1+f2+f3+b = 0+2+0+1 =3

最右边绿色的矩阵第1行,第1列,就是3

将卷积核在输入矩阵滑动,

同理可以计算

这里的输出叫做特征图。

这里就可以看出,经过卷积核Filter(滤波器),将图片浓缩了,浓缩之后,再进行一次非线性的处理,用一些非线性的函数将线性结果非线性化(叫做激活函数),这层叫作卷积层。

这里只是一层,大型数据集(输入很多的情况)一层是不够的,需要很多层,输入-卷积-输出-卷积-输出........。

比如VGG-16,就有16个卷积层。

进一步浓缩叫做池化层。

同样有一个filter,将特征图进行MAX(取最大值)或者MEAN(取均值),进一步浓缩特征。

浓缩完特征之后,接着后面的层叫做全连接层。

就是将权重参数W(矩阵),分别乘以池化完成的结果,得到最终的分类结果比如前边所说的0~9的手写字体,要分10个类别,如果池化完成的结果是1×64,那么全连接层就应该是64×10,最终得到1×10的矩阵,就是分类0~9的结果。

以上最重要的就是要求W,也就是最前边说的,根据大数据找规律。

第三步:参数更新

那么还有问题,W是多少谁知道?

没人知道,这里是根据计算机一步一步的试出来的,

先随机的给出一组W,算出结果Y1,利用已知的x当做输入,用已知的y与y1坐差值,那么Y1-y就会有一个差值,就是预测值和真实值的差值。称作损失函数,有些叫做代价函数。当代价函数最小的时候,预测值Y1和真实值y的差距越来越小,当差距在我们可以接受的范围内,那么就可以认为,由权重参数W生成的Y1可以对输入x进行预测和分类。

那么如何让损失函数最小呢?这里并不是求导后求极值点,而是对损失函数求导数,调整W,使得差值沿着导数的方向前进,最终达到极小值点。

这时候得到的W就是我们最终要的结果了。

第四步:利用参数

既然得到了W,我们就可以利用这个W,将一个未知结果的x输入,从而得到通过W计算出的y,这个y就是图片识别的结果。

现在有很多的开源深度学习框架,是各大著名公司封装好的函数(已经造好的轮子),

以下是一个卷积神经网络识别MNIST的小例子(基于google深度学习框架TensorFlow):

只是经过了21次的参数更新,最终的识别准确率在99%以上。

输出结果:

Extracting MNIST_data/train-images-idx3-ubyte.gz

Extracting MNIST_data/train-labels-idx1-ubyte.gz

Extracting MNIST_data/t10k-images-idx3-ubyte.gz

Extracting MNIST_data/t10k-labels-idx1-ubyte.gz

第0次迭代,测试集准确率是0.7688

第1次迭代,测试集准确率是0.7831

第2次迭代,测试集准确率是0.8829

第3次迭代,测试集准确率是0.8883

第4次迭代,测试集准确率是0.889

第5次迭代,测试集准确率是0.8919

第6次迭代,测试集准确率是0.8908

第7次迭代,测试集准确率是0.893

第8次迭代,测试集准确率是0.894

第9次迭代,测试集准确率是0.8949

第10次迭代,测试集准确率是0.8927

第11次迭代,测试集准确率是0.8935

第12次迭代,测试集准确率是0.8948

第13次迭代,测试集准确率是0.9873

第14次迭代,测试集准确率是0.9881

第15次迭代,测试集准确率是0.9864

第16次迭代,测试集准确率是0.9885

第17次迭代,测试集准确率是0.9906

第18次迭代,测试集准确率是0.9876

第19次迭代,测试集准确率是0.9884

第20次迭代,测试集准确率是0.9902


医疗兵皮特儿


人工智能技术中,人脸识别和图片识别,都是利用DCNN(深层卷积神经网络)提取图片特征,然后在图片特征上进行一定的操作。

特征提取

这里的特征,可以理解成通过一定的计算公式将三维矩阵存储的图片转换为一定纬度可以方便计算的矩阵(最简单例子,一个向量),其实,可以看做数据降维啦,图片那么大的分辨率,如果基于图片计算,太耗费计算量和存储量。

特征提取:图片>网络>一个向量



人脸识别:

人脸识别是一对一比对或者一对多比对,假设,你需要对person A进行人脸识别,那么前提,你的图片数据库里有A的图片,然后利用卷积神经网络,提取person A的图片的特征,将这个图片的特征和图片数据库中所有图片提取的特征进行比较,距离最相近的图片判定为同一个人,那么数据库中最相近的那个人对应的属性不就是我们想要得到的么?

人脸识别:提取图片特征;和数据库中图片特征进行比较;距离最近的判定为同一个人;识别人的属性



图片识别:

最简单的分类问题吧,首先,这个,你需要知道图片识别出来存在多少种可能性,也就是图片共有多少个类别; 然后,通过网络对图片提取特征,通过网络预测图片属于每一种类别的可能性(softmax了解一下),然后,定义可能性最大的那个类别为预测类别。

图片识别:利用网络预测图片属于每一个类别的可能性,可能性最大的那个为预测类别

当然啦,这上面说的网络都是指训练好的网络,具体如何训练的,这里讲起来有些麻烦,我的文章里大多在介绍人工智能领域一些方向的前沿算法,有兴趣可以欢迎交流学习。


AI深度学习求索


图像识别是人工智能的一个重要的研究课题,同时也是其他比如自动驾驶,图片检索,信用贷款,安防安检等诸多应用的基础。

首先我们来看图像识别中的主要任务有哪些。面对一张图片,我们可能发出的几个基本问题:

  • 图片中是否包含某种物体
  • 图片中某种物体在什么位置
  • 图片中都有哪些物体
  • 图片属于什么场景,或者描述了怎样的场景

以上种种都是在图像识别中可能的研究问题和方向,当然随着科技的发展,更多复杂的、精细的图像识别方面的问题在诞生。


接下来我们以图像识别的发展进程引入,探究AI技术是怎样处理图像识别的问题,并逐步大放异彩的。

在视觉领域做图像识别,物体识别的研究已经有几十年历史,但是直到几年以前,有影响的图像识别产品并不多,一个是OCR,一个是指纹,一个是人脸检测。

图像识别刚开始的时候是从单一的物体识别做起,并且识别的主要是简单规则的几何形状物体。

对于这一类的图像识别,早期曾经采用过几何的方法、结构的方法、规则的方法,也用了一些比较简单的模式识别的方法。

在80年代后期、90年代期间,机器学习有了一个飞速的发展,出现了一些了不起的研究成果,包括:支持向量机方法,AdaBoosting方法,计算学习理论等一些成果出现。这些成果使得机器学习和识别大大的往前走。人脸检测是2001年的事,OCR和指纹是九十年代的事。从2001年、2002年开始有了更广泛的图像识别研究,研究人员开始思考是否存在统一的方法框架进行图像识别,能否将机器学习领域的出色成果应用到图像识别上。

著名华人女科学家李飞飞等提出使用“词袋”(bag of words)方法用于图像识别。

在识别图像的时候,我们可以把图像中的“高频词”放在一起来识别图像。这里的“词”是什么?直观地说就是小的图像块。比如我们要识别一张人脸,这样的图像上就会有像皮肤一样,或者像眼睛一样的图像块。而相对来说,如果识别自行车,就会出现和车有关的图像块,如:车座、车梁。这些图像块就是“词”。这样就可以采用“词袋”方法。实际上,图像中的词不是我们说的这么直观,而是下方这样的图像小块。它是很底层的图像块,非常小,3*3,5*5或者7*7大小的图像块。这样小的图像块不表达很抽象的语义。

这种方法提出后,有很多有意思的相关的论文发表。但是这种方法还有缺陷。在图像识别领域有一个ImageNet物体识别比赛,给你一些图像,让你去设计和训练你的算法。比赛的时候就是提供一些新的图像,要求算法告诉哪张图片是什么类别。如果预测前5个类别中有标准答案,就算预测正确。否则预测错误。这个比赛在2010年的第一名的成绩是72%,到2011年第一名的成绩是74%。我们知道,全世界那么多优秀的团队,有那么好的资源去做这个事,每年的进步大概就是1%-2%的样子。

真正的突破是在2012年深度学习的引入。Hilton的团队使用了深度学习进行ImageNet比赛,以大幅领先第二名的成绩夺冠,其Top5错误率只要15.3%,使这一竞赛有了质的飞跃,同时也促进了图像识别和深度学习的发展。


从上面的发展进程中可以看到,AI或机器学习或深度学习技术主要是在进入21世纪之后在图像识别上取得了巨大进步。各类理论和算法层出不穷,我们挑选部分里程碑式的工作进行说明。

词袋模型

词袋模型(Bag-of-Words)最初产生于自然语言处理领域,通过建模文档中单词出现的频率来对文档进行描述与表达。后来被引入计算机视觉领域, 由此开始大量的研究工作集中于词包模型的研究,并逐渐形成了由下面四部分组成的标准目标分类框架:

  • 底层特征提取

底层特征是物体分类与检测框架中的第一步,底层特征提取方式有两种:一种是基于兴趣点检测,另一种是采用密集提取的方式。

兴趣点检测算法通过某种准则选择具有明确定义的、局部纹理特征比较明显的像素点、边缘、角点、区块等,并且通常能够获得一定的几何不变性,从而可以在较小的开销下得到更有意义的表达,最常用的兴趣点检测算子有 Harris 角点检测子、FAST(Features from Accelerated Segment Test) 算子、LoG (Laplacian of Gaussian)、DoG (Difference ofGaussian)等。密集提取从图像中按固定的步长、尺度提取出大量的局部特征描述,大量的局部描述尽管具有更高的冗余度,但信息更加丰富,后面再使用词袋模型进行有效表达后通常可以得到比兴趣点检测 更 好 的 性 能 。 常 用 的 局 部 特 征 包 括 SIFT(Scale-invariant feature transform,尺度不变特征转换)、HOG(Histogram of Oriented Gradient, 方向梯度直方图) 、LBP(Local Binary Pattern, 局部二值模式) 等。

这里要说明一点是,近年来得到广泛关注的深度学习理论中一个重要的观点是手工设计的底层特征描述子作为视觉信息处理的第一步,往往会过早的丢失有用的信息,直接从图像像素学习到任务相关的特征描述是比手工特征更为有效的手段。

  • 特征编码

底层特征中可能包含了大量的冗余与噪声,为提高特征表达的鲁棒性,需要使用一种特征变换算法对底层特征进行编码,从而获得更具区分性、更加鲁棒的特征表达,这一步对物体识别的性能具有至关重要的作用

重要的特征编码算法包括向量量化编码、核词典编码、稀疏编码、局部线性约束编码、显著性编码、Fisher 向量编码、超向量编码等。

  • 特征汇聚

空间特征汇聚是特征编码后进行的特征集整合操作,通过对编码后的特征,每一维都取其最大值或者平均值,得到一个紧致的特征向量作为图像的特征表达。这一步得到的图像表达可以获得一定的特征不变性,同时也避免了使用特征集进行图像表达的高额代价。最大值汇聚在绝大部分情况下的性能要优于平均值汇聚,也在物体分类中使用最为广泛。由

  • 使用支持向量机等分类器进行分类

从图像提取到特征表达之后,一张图像可以使用一个固定维度的向量进行描述,接下来就是学习一个分类器对图像进行分类。这也是机器学习算法用武之地。各类机器学习的分类器应用到其中,常用的分类器有支持向量机K 近邻

神经网络随机森林等。基于最大化边界的支持向量机是使用最为广泛的分类器之一,在图像分类任务上性能很好,特别是使用了核方法的支持向量机。随着物体分类研究的发展,使用的视觉单词大小不断增大,得到的图像表达维度也不断增加,达到了几十万的量级。这样高的数据维度,相比几万量级的数据样本,都与传统的模式分类问题有了很大的不同。随着处理的数据规模不断增大,基于在线学习的线性分类器成为首选,得到了广泛的关注与应用。

深度学习模型

深度学习模型近年来在图像识别上也取得了良好效果,其基本思想是通过有监督或者无监督的方式学习层次化的特征表达,来对物体进行从底层到高层的描述 。 主 流 的 深 度 学 习 模 型 包 括 自 动 编 码 器(Auto-encoder)受限波尔兹曼机(Restricted Boltzmann Machine, RBM)深度信念网络(Deep Belief Nets, DBN)卷积神经网络(Convolutional Neural Netowrks, CNN)生物启发式模型

等。

自动编码器(Auto-encoder)是上世纪 80 年代提出的一种特殊的神经网络结构,并且在数据降维、特征提取等方面得到广泛应用。自动编码器由编码器和解码器组成,编码器将数据输入变换到隐藏层表达,解码器则负责从隐藏层恢复原始输入。隐藏层单元数目通常少于数据输入维度,起着类似“瓶颈”的作用,保持数据中最重要的信息,从而实现数据降维与特征编码。自动编码器是基于特征重构的无监督特征学习单元,加入不同的约束,可以 得 到 不 同 的 变 化 , 包 括 去 噪 自 动 编 码 器(Denoising Autoencoders)稀疏自动编 码器(Sparse Autoencoders)等,在数字手写识别、图像分类等任务上取得了非常好的结果。

受限玻尔兹曼机是一种无向二分图模型,是一种典型的基于能量的模型(Enery-based Models,EBM)。之所以称为“受限”,是指在可视层和隐藏层之间有连接,而在可视层内部和隐藏层内部不存在连接。受限玻尔兹曼机的这种特殊结构,使得它具有很好的条件独立性,即给定隐藏层单元,可视层单元之间是独立的,反之亦然。这个特性使得它可以实现同时对一层内的单元进行并行 Gibbs 采样。受限玻尔兹曼机通常采用

对比散度(Contrastive Divergence,CD)算法进行模型学习。受限玻尔兹曼机作为一种无监督的单层特征学习单元,类似于前面提到的特征编码算法,事实上加了稀疏约束的受限玻尔兹曼机可以学到类似稀疏编码那样的Gabor 滤波器模式。

深度信念网络(DBN)是一种层次化的无向图模型。DBN 的基本单元是 RBM(Restricted Boltzmann Machine),首先先以原始输入为可视层,训练一个单层的RBM,然后固定第一层 RBM 权重,以 RBM 隐藏层单元的响应作为新的可视层,训练下一层的 RBM,以此类推。通过这种贪婪式的无监督训练,可以使整个 DBN 模型得到一个比较好的初始值,然后可以加入标签信息,通过产生式或者判别式方式,对整个网络进行有监督的精调,进一步改善网络性能。DBN 的多层结构,使得它能够学习得到层次化的特征表达,实现自动特征抽象,而无监督预训练过程则极大改善了深度神经网络在数据量不够时严重的局部极值问题。Hinton 等人通过这种方式,成功将其应用于手写数字识别、语音识别、基于内容检索等领域。

卷积神经网络(CNN)最早出现在上世纪80 年代,最初应用于数字手写识别,取得了一定的成功。然而,由于受硬件的约束,卷积神经网络的高强度计算消耗使得它很难应用到实际尺寸的目标识别任务上。卷积神经网络具有更为强大的特征表达能力。

大数据时代的来临,更激发了数据驱动的深度学习模型的发展,实现了更高效的特征提取与图像分类,将图像分类的发展推向一个新的高度。


百草庄


通过CNN网络。

目前进行人脸识别的主要方式还是卷积网络,虽然Hinton后来提出了胶囊网络,但是新的网络依然处于发展早期,还有很多需要完善的地方,相关的软件配置以及工具包也并不成熟,距离普及会用还有一段时间。

首先强调下人脸识别和图片识别没有本质上的区别,如果一定要说区别的话,人脸识别会通过捕捉面部特征点来进行三角构建,特征点是属于基本不随年龄发生变化的区域,这样而已基本排除由化妆、装扮以及年龄变化所带来的面部识别失效影响,但是整容的话另说。

至于CNN网络进行图片识别,首先是通过数次卷积以后,提取到图片的高维特征,这些特征在同类图片中会必然性的出现,并且具有组合特性,之后利用全连接网络可以对高维特征进行组合判别,不同的特征会指向不同的类别,不同的特征组合最终会给出不同的结论。


榻榻米的榻榻


问题中的人脸识别和图片识别都属于模式识别讨论的范畴,识别图像有两大步骤,第一是特征提取,第二是分类。

我们知道,图像是由数字组成的,可以把图像想象成一个矩阵,最简单的提取特征的方法是求这个矩阵的特征向量,相似的图片拥有相似的特征向量,假设利用二范数来做特征向量的相似性度量的过程就是分类,简单的说,特征提取出来了,然后对特征设置一个阈值(这个阈值可以是训练出来的也可以是经验值),在阈值范围之内就是正样本。

随着科技技术的不断进步,硬件的不断升级,特别是gpu对矩阵运算的提速,神经网络技术越来越多的运用到图像识别领域,现在我们讲的ai技术、深度学习,大部分指的是神经网络,它是一种仿生物学的数学理论,有许多神经元在其中传导,故名思义神经网络。网络是分多层次的(深层次的),来训练图像,故又叫深度学习。

神经网络作为一种图像识别方法如今被广泛运用到各个领域。但它离不开模式识别的两大步骤,特征提取和分类。只不过其特征是抽象的,神经网络的网络模型训练出来的数据与网络模型相结合就是分类器。

如果想要更多的理解图像识别还需要深入学习模式识别和机器学习相关内容,单凭这点手打内容远远不够。


图像算法实践


通过专用的算法。

简单来说,人脸或者是图像,在计算机看来都是一样的像素的组合而已。通过一套算法,识别出某个像素周围的像素种类,进行分类,判断等等操作,最终输出一个结果,这就是识别的大概流程。

而具体每个算法如何详细操作,如何优化,这就是各家厂商的商业秘密了。

感兴趣的可以搜集更多详细资料和论文,这里就不赘述了。

欢迎讨论


原来一分钟


其实说白了就是通过大数据分析,图像识别。不过目前国内大部分图像识别技术是开源的。


分享到:


相關文章: