首页 -- >> 新闻频道-- >> 圆梦中关村第二阶-- >> 圆梦中关村专栏
APP下载

为机器装上“双眼”

发布时间:2017-12-06 14:49 来源:中青在线 

演讲人:商汤科技ceo徐立    

    我进入视觉科学的领域有两个原因。

    这里分享一个故事,我和我博士导师的导师去希腊开会的时候他指着一个学者问我是否认识,我想在这个领域出名的老年学者特别多,并不认识。

    他说这是他导师的导师——也就是我导师的导师的导师的导师,我立马有种学术圈不好混的感觉,因为从辈份上来说我可能到处碰到师叔,太师叔……所以还是先进工业界吧(笑)

    上个理由多半有点任性。还有一个就是,我觉得计算机视觉本身是很美的。

    我在上海交通大学读大三的时候选毕业设计的课题就与自然语言处理相关,但我总觉得文字上的变换并没有引发我自己内心的认同感。

    所以当时在选方向的时候,我就做了计算机视觉方面的选题,加入戚飞虎教授的视觉实验室,当时做的是自然场景下的文字检测和识别。

    可如果在处理视频、图象或者各种内容的时候,当你把这些内容处理完,有一个直观的、对应的视觉结果的时候,你就会觉得这个应用会带来一种满足感    

    我进入这个行业是因为视觉很美,从而才开始接触了各种各样的视觉方面的一些应用,只不过在现在工业界的讨论,忽略了视觉的美的因素。

    举个最简单的例子,拍一张照片,拍摄过程中因为光线不好等问题会存在手抖的现象,看不清上面的文字。同样我们视觉解决的问题就是从这些模糊的照片当中恢复出原来的内容。

    所以我想说视觉成像部分在很大的一个程度上,它是帮人眼做延伸,使得人能够看清本身看不清的内容。恢复的结果虽然不能说是一张很漂亮的图片,但是它确实是可以能够把上面的一些结构都恢复的比较清楚。

    当然这是最初级别的。实际上,一旦当某一个应用它已经达到了人识别的准确率,那么这样的一个工具就会替代现有的人力来完成这样的任务。

    这种应用从图像当中包含的我们最传统的车牌识别、文字识别、车型识别,在公安交通当中应用比较广泛的,金融领域的需求也很大。

    尽管我是追求美感,但科技要照进的是现实。

    商汤科技的梦想就是要做“世界领先,原创开拓”,为人类带来真正具有历史意义的改变和突破。所以,当很多巨头提出对商汤科技的并购意向时,商汤科技团队选择了拒绝。

    而在图像识别这一块正是商汤正在开拓的领域,是值得我们为之付出居大的心血的。

    随着金融的互联网化,实际上对人和物的关系绑定的便捷性和安全性其实都提出了更高的要求

    比如我用手机App发生一些金融行为的时候,很多时候传统的方法是把验证码发我的手机上,它会说OK这个验证码不要告诉别人,实际上我手机上装的很多App会自动读这些验证码,有自动读短信的功能。

    而且互联网金融行为过程中,因为有这种线上的轻量级、快捷化的行业趋势在,所以对人和物的关系绑定的一个强行的控制能力是非常多的

    比如远程支付,双方其实也不知道对方是谁,不知道对方在哪里,这个过程中的信息的监管取证各方面,相比传统金融模式都存在非常大的难度。

    所以,以人脸识别为代表的生物特征识别技术,给金融行业提供的远程的个人身份核验的能力,就是为了更有效、准确、快捷地去人和物的绑定。

    我昨晚一直在想,怎么能让各位听我讲人工智能的深度学习和金融业之间的关系,想想我还是从蒙太奇说起?

    苏联电影导演列夫·库里肖夫为了弄清楚蒙太奇的并列作用,给俄国著名演员莫兹尤辛拍了一个无表情的特写镜头,并且这个镜头分别和一盆汤、一口安放死者的棺材、一个小女孩的镜头并列剪辑在一起,观众在观看过程中认为莫兹尤辛演技非常好,分别表现出了饥饿,悲伤及愉悦的感情。

    我们就想证明一件事情,人类视觉是有欺骗性的包括银行在开户方面,已经证明银行营业员要完全100%的肉眼识别,难度太大。那么远程身份识别必定是未来的大势所趋。

    金融中的人脸识别,主要用途分两种:一种是身份核验,用我们行话叫1:1。其实你已经知道了你当前操作的这个待核验人的身份,接下来只要对这个身份和这个人之间进行一个信息核验。

    比如,我说我叫XX,其实你只要核实一下我的脸是不是XX,是不是就是商汤的XX就可以了。

    另外一种我们称之为叫1:N,他应用在规模化的场景应用中,打个比方我今天去我们家门口的理发馆理发,我可能办了卡,我希望我不用报名字,也不用掏出我的VIP卡,到门口刷一下脸他就知道是我,我理发完了自动扣钱。

    这样一个场景因为实际上我也没有说出我是谁,但是理发馆知道他的VIP一共就几百人,这样的情况下是1:N的应用,他对于不清楚的目标对象进行了检索然后找到了正确的目标对象。

    很多人可能会问,人脸识别的技术水平到达一个什么样的程度了?其实,我们现在在金融行业进行这样的认证支付,它的安全性已经非常高了,我想远超大多数行业者所认为的水平,单纯从人脸识别这一点上来讲。

    我们最担心的无非两种情况,并非本人的,机器“傻”,认错了人;是本人的,机器“笨”,认不出来,这其实代表着人脸识别系统的一个安全性。

    但是刷脸这个行为每次都是独立的,所以其实他的安全性试多少次都是百万分之一,所以从这个角度来说已经超过了6位的数字银行卡密码。我刚才讲商汤最新的算法误识率达到千万分之一,其实等效7位的数字密码,已经超过了现在数字密码的安全性。

    是不是意味着说人脸识别就已经可以完全取代银行卡密码甚至达到一个更高的安全性呢?

    其实不是这样的,首先人脸识别单纯从识别技术它已经非常高了,达到并且超过了银行卡的本身的现存密码支付的一个安全级别。但是实际的一个系统,对应的攻击者他其实会尝试绕开你最强的那堵墙。

    我们现在接很多规模非常大的客户,一天的人脸识别注册量可以到几百万其实在我们线上的服务过程中,就会看到非法攻击者会尝试运用各种各样的攻击手段

    有照片、视频,甚至有人会用照片去生成3D的视频动作,会把照片贴在一些3D的模型上然后进行一些动作的驱动,包括他们会进行一些PS,会用各种各样的手段尝试把一个人的照片仿冒成一个像是真人的情况,然后对你的系统进行攻击。

    面对这个困难,我们的解法是什么呢?

    其实我们通过实际的业务获取到了各种各样的攻击方式,然后应用人工智能最新的深度学习的引擎,我会去学习各种各样的攻击方式,我会看各种各样的攻击的类型以及它背后所蕴含的特征,然后会得到到对于这些攻击的分辨能力

    当我拥有这样的分辨能力,我在做人脸识别之前我先进行这样一个分辨,我就能够进行真人和黑客的区分。其实攻击者的技术手段也在不断的升级,防御者的技术手段也在不断的升级,这是一个矛盾的互相升级的较量。

    商汤现在可以做到什么水平呢?我们可以把误识率达到千万分之一,在这个月之前我们在市面上最先进的线上服务提供的指标是百万分之一。百万分之一的安全性等效甚至超过一个6位的数字银行卡密码。

    我刚才讲商汤最新的算法误识率达到千万分之一,其实等效7位的数字密码,已经超过了现在数字密码的安全性。

    2014年下半年,投资机构IDG主动找上我们,游说香港中文大学多媒体实验室的骨干创业。其实我们当时在业内各自有自的圈子和领域,其实大可不必出来创业。

    此前,香港警方曾向我们团队寻求帮助:一些高速行使的逃逸车辆,监控录像过于模糊,希望他们恢复出逃车辆的信息

    香港警方愿意为服务埋单。这种实践给予了团队巨大的成就感。

    作为一个研究者,我们一直所秉承的就是,学术与工业应用的一种转化,其实,这本身对于一个科研人员就是不能回避的责任。而要最好的实践这种转化,商业资本的运作是一个很好的途径。

    这段时间来,我们一直尽量减少在媒体上的曝光,想把经历主要放在科研上,我们也一直都是这么做的。并不是我们不注重公关,而是觉得作为一个科技型企业最核心的竞争力仍旧是技术和产品。谢谢!

【责任编辑:齐琪】
相关文章
你可能还喜欢看
热点新闻更多>>
图片阅读更多>>