化学试剂厂家
免费服务热线

Free service

hotline

010-00000000
化学试剂厂家
热门搜索:
技术资讯
当前位置:首页 > 技术资讯

百度人脸辨认搜索是怎样实现的

发布时间:2020-03-10 10:23:20 阅读: 来源:化学试剂厂家

A5交易A5任务 SEO诊断淘宝客 站长团购

如果用户给出一张图片,百度识图会判断里面是不是出现人脸,如果有,百度识图在类似图片搜索以外,同时会全网寻觅出现过的类似人像。  如何通过一张图片,找到另外一张图片?

对搜索引擎而言,寻觅图片之间的内在联系,与常见的关键词搜索并没有本质区分都是通过关键特点的比对,依照一定的逻辑规则完成匹配。但是不同之处也是不言而喻的,以图片为输入发起的搜索,存在多种搜索含义的可能。

比方,一张图片可能既包括风景又包括人,用户想要寻觅的是类似风景、类似布局结构的图片还是类似的人?谷歌以图搜图功能,乃至可以根据一张图片猜出拍摄地,但并不会尝试对图片中的人物精确匹配。多数搜索引擎都会如此。

而且大部分以图片作为输入的搜索引擎,例如tineye(2008年上线)、搜狗识图(2011年上线)等,本质上是进行图片近似拷贝检测,即搜索看起来几近完全一样的图片。2010年推出的百度识图()也是如此。

在经历两年多的沉寂以后,百度识图开始向另一个方向探索。

上周的百度年会中,李彦宏特地提到百度识图:以图搜图的准确率从20%提升到80%。不过与之前相比,百度识图找到类似图片的能力仿佛并未显著提升,那末改变从何而来?李彦宏把这类明显的提升归因于刚上线的人脸辨认搜索。

与之前的区分在于,如果用户给出一张图片,百度识图会判断里面是不是出现人脸,如果有,百度识图在类似图片搜索以外,同时会全网寻觅出现过的类似人像。

新增加的技术简而言之,首先是人脸检测并提取出特点表达,随后再据此进行数据库比较,最后依照类似度排序返回结果。其实,人脸检测并不是新技术,相干研究已有三十年历史,但是直到去年底,百度才决定推动这1技术付诸实施。

这里面自然有战略层面的斟酌。两年前,李彦宏就对未来做出读图时期的判断;去年的KDD大会上,李彦宏提出的九大待解技术挑战中,基于内容的图象搜索技术被列在第三;现实层面百度的图片相干产品、云相册等均对这1技术有需求。

百度还希望借助这1途径,发掘图片之间的联系,进而激起二次阅读。但是要把想法变成现实,百度最少要解决两个问题:1是算法,2是数据。

算法方面。一样是基于图片进行搜索,人脸辨认和以图搜图其实不一样。百度资深工程师陶吉告知创事记,百度人脸辨认首先其实不关注完全的图象结构,其次色彩也没有任何意义。最主要的特点表达来自于面部纹理,并进行一些再加工。

具体算法作为商业机密,难以对外界表露。不过资料显示,目前人脸辨认算法中LBP是比较流行的一种特点提取方式,即通过像素周边8个邻近像素的灰度值和中心灰度值比较,得到一个八位编码,然后再根据编码的直方图进行分类。

而影响算法效果的因素还可能包括预处理、特点选择、特点点定位精度、分类器设计和后处理乃至各种方式的融会、阈值选择等各个方面。

一张图片中,人脸最少有4040像素(约一个指甲盖大小),才会被当作有效的辨认对象。如果一张图片中多个人像,目前百度的解决办法是仅辨认尺寸最大的那个,未来百度将提供焦点选择功能,用户可以通过选点肯定搜索对象。

数据方面。算法的改良如果算是充分条件,数据的处理则是必要条件。从机器搜索的角度看,光照、姿态、表情、角度等因素,均是影响巨大的因素,所谓笑和不笑,都是不同。所以用来训练的数据量越大,变化的包容性就越好。

人脸辨认搜索实际使用时,同一张人脸积累的数据越多,越能在匹配比较时提供更好的支持。为此百度需要把全网近百亿范围的图片抽取出来,然后把没有人脸的数据去掉,再海量扫描1遍,建立起尽可能高效的索引。

人脸辨认引入搜索引擎,必然会加重外界关于隐私泄漏的担心。百度强调人脸搜索只会在公然的信息范围内进行,封闭的个人相册并不会被触及。

这还触及准确率、召回率等概念。假定数据库里有一百张刘德华的图片,用刘德华的头像发起搜索,前50张结果中40张是真正的刘德华,那末前50张的召回率就是40%,准确率是80%。一样假设数据库中只有两张路人甲的图片,当用路人甲的头像发起搜索,前50张可能只有1张真正的路人甲,那末前50张的召回率是50%,准确率是2%。

由于名人在网上的照片较多,能被用户感知到的准确率要比普通人高很多,而召回率是用户感知不到的。据泄漏,人脸辨认搜索技术会在百度云相册内部进一步结合,帮助用户在图片之间建立联系,而且未来不排除开放API的可能。

除上述技术讨论以外,从百度的研发体系看,人脸辨认搜索也颇具代表性。

这个前后投入几十个工程师、百度基础技术部的多媒体部门负责核心算法的项目,去年11月下旬立项,12月底就已上线运行。这个速度在百度其实不常见,因此也有人半开玩笑的说这是百度近期改风格运动成效的代表。

值得注意的是百度新成立的基础技术部。这个部门由百度首席科学家王海峰带领,并且直接向李彦宏汇报。听说一些李彦宏会亲身参与一些重点项目。自然语言处理、互联网数据发掘、多媒体、推荐和个性化等技术研发,均由百度基础技术部负责。

还是在百度年会上,谈及近期遇到的挑战,李彦宏称百度不会忽视渠道的价值,但技术才是未来产业的关键。相信技术的气力,未来就在我们手里,李彦宏发出这样的号令。明显,百度的变奏已是必定要上演。

(孟鸿)

中国光大银行股份有限公司北京丽水嘉园社区支行

重庆市三福能源有限公司

重庆丰都名山旅游(集团)有限公司