上周,盛况空前的年世界人工智能大会在上海完美上演。7月10日,商汤科技联合创始人、首席执行官徐立作了题为“人工智能创新策源力”的主题演讲。
徐立认为,包容、长尾应用和开放,是人工智能创新的三个策源力。而这背后的根源,是对人工智能认知的提升。这也延续了他在去年世界人工智能大会中关于“人工智能发展观”的话题。
如下是徐立的演讲内容,《CC封面人物》在这里完整分享给大家:
技术试错创造增量价值
大家好,欢迎来到“大爱无疆·致远”商汤人工智能企业论坛,非常有幸在今年这样的情况下,依然能够继续和大家在线上及线下一起讨论人工智能,讨论人工智能的创新策源。
首先,我们讨论一些技术以外的东西,上海要打造人工智能发展高地,要做人工智能的创新策源地,那么究竟有哪些要素是真正推动创新策源的创新力?我今天的演讲题目是“人工智能创新策源力”。
创新很多都来源于艺术。下面这幅画是疫情期间,我家小朋友画的一幅马。当看到这幅画的时候,我就立刻觉得有点不对。实际上没有一匹马是真实像这样四蹄腾空奔跑的,一般只有兔子会这么跑,虽然有些马也叫“赤兔”,但说的并不是这个意思。
我立马指出这个问题说马奔跑的姿势不对。可是小朋友说,不是,马就是这么奔跑的。所以,出于好奇我就去网上搜索奔跑的马,然后就搜到了一幅名画,《昭陵六骏图》。
下面这匹也是四蹄腾空的马,是唐太宗的六匹战马之一。事实上,以四蹄腾空这种形式画奔马的,历史上大有人在,著名的画家郎世宁,还有各式各样的中西方油画,不少都以这种方式来展现奔跑。
为什么当时会有这样画法?实际上这是大家对奔跑的马认知程度不够所造成的。
这个问题也不是我第一个研究的,年,欧洲摄影家Muybridge就提出了疑问,所以他用摄影技术连续拍摄了12帧奔跑的马,第一次向世人揭示了马是怎么跑的。马奔跑过程中,并没有一个四蹄腾空的状态,也就是说之前的人都画错了。
但是,这些错误的探讨、错误的绘画,并没有给艺术带来局限。反倒是说像我们的昭陵六骏,从墙上的浮雕、石碑,再到最后的画卷,是真正意义上推动了写实绘画风格。直到今天,中国画马第一人许勇的马还是对昭陵六骏写实画风的传承。错了没有关系,错误的概念在这个过程中得到理解,并且正确的部分被延伸下来,就会对后世产生影响。
我想说这种探索,就像胡适所讲:怕什么真理无穷,进一寸有一寸的欢喜。
每往前迈一步,就相当于有更多东西能够沉淀下来。人工智能,其实面临着一个与画马相似的过程。
年,当我们在语音识别领域取得巨大突破的时候,行业里很多人说人工智能深度学习在语音中的成功只是一个巧合。
年,当人工智能真的在图像领域大放异彩时,业界讨论最多的却是人工智能、深度学习是不是过热了。
伴随着质疑声,我们看下谷歌趋势(GoogleTrends)对于深度学习热词的搜索,下面图里的曲线代表了业界对人工智能的热衷程度。年时还只是个小高峰,而在这之后,深度学习人工智能才正式意义上进入了大规模的爆发,并且影响到各行各业,这都是在质疑声中发生的事。
同样,行业中一个标杆性的案例——人脸识别,也一路受到类似质疑。作为解锁和认证的一个手段,大家会讨论人脸识别的准确率是不是足够:人脸识别很容易就误识,长得很像的弟弟能不能解锁自己的手机……我相信这些质疑,大家都不绝于耳。
我们要做技术,推动创新,其实对它的态度不能是求全责备,没有一个技术是%准确的。我们只有以一个包容的态度去认可技术的时候,它才有真正的发展。
以商汤为例,我们今天已赋能4.5亿台手机的人脸解锁功能,覆盖几乎中国所有手机品牌,日均人脸解锁次数达到亿次,大家已经默认人脸能代替密码;在酒店大堂等很多需要认证的地方,商汤总共有20多万台智能设备在线为大家提供服务,每年酒店入住超过3亿人次,我相信,很多人都已经习以为常了,在各式各样的试错发展过程中,我们发现这些应用已经被普罗大众所接受。
当人脸识别精度不再成为被质疑的点,去年我们又迎来各式各样新的讨论。包括:用3D人脸面具去仿冒一个人来解锁,还有用视频生成的方式是不是真能够忽悠机器解锁。人工智能真假鉴别能力的问题又引起大家一番讨论,而就在这样的质疑当中,更多城市级别的应用发生了。
比如我们的地铁刷脸乘车方案,在郑州、西安、哈尔滨等多个城市,已经大规模推出了刷脸支付乘车,现在的技术已能够解决城市级别的应用。
可以看到,在技术试错的过程中,每一步的试错都会带来增量的价值,我认为这是驱动创新的一个重要因素。
长尾应用完善价值闭环
接下来,我们看另外一个例子。
这是商汤办公楼下的一张照片,行人熙熙攘攘。如果用行人检测算法,我们能够把图像中所有行人都有效标识出来,好像已经对这张图像进行了充分的解读。
但是,如果要真正对图像中所有事情都进行分析,我们发现世界远远要比这个复杂——所有的物体、行人、交通信号灯、指示牌组合在了一起。这样一张简单的图片、日常生活中的普通图片,都会有数百种单一的物体和场景的识别,更不要说理解这些物体、场景之间的关系。
简单来说,我们要判断一件事情,比如判断一个人在骑摩托车,我们需要检测人、摩托车和地面;如果是人在停摩托车,我们需要检测人在摩托车边上,在马路边上。如果一只鸽子在天空中飞,那它是信鸽;鸽子在盘子里,可能就是一只乳鸽。
所有这些关系是要通过把物体和物体之间关联起来。著名工业设计师凯瑞姆讲过:一个人平均每天要接触到多个物体。而现代汉语辞典中,总共有1万多个名词的物体,种类非常多。如果我们只考虑以上例子中那种三个要素的结合,也要处理多万种可能性,也就是说对于一张现实生活场景中非常普通、简单的照片,也需要分析千万级别可能性,才能对它有一个基础的解读。
举个例子,下面这张照片中,我们能够用行人检测算法把行人都检测出来。但是,如果作为一个智能城市的检测案例判断行人有没有翻越栏杆,我们就需要检测关系,人的持续动作、栏杆、地面,才能真正识别出来这是一个攀爬的动作。所以,这样一个简单的应用,牵扯到的复杂度就已经非常高。
事实上,我们现在在城市管理的各个细分场景中,推出了很多类似这样的场景理解、识别的算法模块,它能够解决我们日常生活中各式各样的问题,深入到城市的每一个毛细血管中。
下面再举两个例子。
共享单车前几年非常火,但也随之带来了单车停放和管理的问题。年,共享单车初露端倪时,有人曾估计会带来接近3.5万个整理单车的额外工作岗位,假如共享单车呈指数级提升,可能会有数以十万计的工作人员需要每天去处理这些共享单车的停放问题,包括停放位置是不是违停,是不是倾倒等。
其实,我们用上面所介绍的方法,就能够解决共享单车的停放监管问题,能够识别它的违停,可以检测车和车之间的关系,车和停放区域的关系,车是不是停成整齐的一条线等。
再看另外一个比较有意思的例子,这个可能是二三线城市会遇到的问题,粪车偷排。很多粪车找到一个井盖,没有停到固定的位置上就进行偷排,对环境污染非常严重。当我们要解决这个问题时,需要解决粪车和井盖的检测、井盖异常的检测等。
可是,我一直问我们同事一个问题,车停在那里,怎么知道它到底是抽还是排呢?我们根本看不到管子里面的情况。但我的同事跟我解释,其实根本不需要,只要是有井盖异常,并且粪车在那停的时间过长,在不该停车的地方停了,就是一个违规报警——把时间维度放到这个问题里。
我们的算法可以把时间、地点、人物关系串联,使我们真正能够解决这些城市管理中长尾的、细小的应用。
接下来看一下商汤在上海长宁区做的一网统管的案例。
一个是关于共享单车的,另一个是乱扔垃圾的,大家看一下视频。
02:17第一个案例中,记者去模拟了一次共享单车的乱停放,仅12分钟后这个违规行为就从发现到被志愿者解决了。乱扔垃圾的案例中,借助一网统管,志愿者们也只用9分多钟就完成了从发现到处置的整个过程,当然我们也可以看到上海市民素质还是非常高的,在人工智能发挥作用之前,就有人工已经先发挥了作用。
各式各样的细小应用,也随着疫情的延伸出现了新的变化。
看一下西班牙,疫情期间政府限制大家出行,但因为有时宠物需要出门,所以只允许遛狗可以上街。因此,当地出现了各种各样的花式遛狗,有溜玩具的、遛行李箱的,甚至借邻居的狗去溜的,所以这个过程中就需要城市治理有一个“狗只”识别功能。目前,我们的系统中有一个大型犬只是否系狗绳的识别,并且能够判断是不是狗。
右边的图是我们进行识别之后的,可以判断第一个是溜螃蟹,并不是狗,其他三张图片中的狗都被正确识别出来。事实上,算法还能解决识别不同类型的犬只。城市综合治理接下来要解决狗只上牌的问题,我相信在这方面算法会起到很大的作用。
当然算法也不是无所不能的,也会有一些特殊的案例:这个看上去非常像狗的动物,其实是人假扮的。可能在这种情况下,我们对算法还需要有一些容忍度。
以上讲到的这些应用在日常生活中都是比较小众的,垃圾抛洒、粪车偷排、违停、遛狗。但是,长尾的这些应用才是真正完善价值闭环的核心。
什么叫长尾应用?像人脸识别、行人识别这些大家