首页 >> 科技 >> 视频寻踪,无处可藏:商汤这样的AI公司正在影响我们每个人

视频寻踪,无处可藏:商汤这样的AI公司正在影响我们每个人

陈晓平 来源:21世纪商业评论 2017-07-12
商汤科技联合东方网力,正在迅速推进“AI+安防”的产业升级,遍布的摄像头将有能力追踪到公民的所有行迹,“鹰眼”已经成为现实。

文/ 谢金萍 陈晓平

2008年,有部好莱坞电影《鹰眼》,描述大数据技术运用于视频监控,可从海量影像中捕捉既定目标,而个人在遍布的摄像头前无从遁形,已不再是科幻故事。

如今,以深度学习技术为代表的人工智能正开始渗透至视频监控领域,可以更快、更准确地识别、跟踪、检索海量视频中的信息内容,多家安防厂商正投入大量资金,不遗余力研发“视频智能化”相关的技术和产品,部分产品在2017年已开始实现商业化应用。

《鹰眼》剧照

可检索、可追溯、可自动分析、可深度挖掘的视频智能化,正成为现实,以后,只要一张身份证,即可快速检索其在摄像头留存的影像,分析其行动轨迹,无疑,这将创造巨大的社会价值和商业价值。

4月11日,商汤科技宣布完成4.1亿美元B轮融资,估值超过百亿人民币,视频智能化的商业图景正在迅速展开。

第四类侦查

2004年,中国政府提出建设“平安城市”,在这一综合性的管理系统中,视频监控扮演着关键的角色,公共场所的摄像头数量开始迅速增长。

东方网力总经理赵永军告诉《二十一世纪商业评论》(下称《21CBR》)记者,视频监控系统可分三大部分:第一部分为摄像头,在前端采集信息,记录图像、视频,实现内容可视化;第二部分是通过联网将前端收集到的信息传输回后台各级指挥中心;第三部分为系统管理平台,其存储、分析传输回来的信息。

其中,内容可视化、视频联网,只是基本的要求,市政管理部门真正关心的是视频内容及其延伸价值。而核心的信息内容,不外乎是人、车、物,如何将这些关键信息提炼出来并进行分析,成为迫切需求。

“为了满足公安等部门要提取视频中成千上万的人、车、物等数据信息,目前大数据、云计算、云储存等新技术开始广泛应用于视频监控领域。”赵永军说。东方网力成立于2000年,多年来一直专注于视频核心技术的研发与产品化,现在市值约为140亿元人民币。

对于视频信息内容的管理、检索和分析,公安部门的需求尤其旺盛,并形成了一整套的案件侦破方式,比如,针对攀爬入室盗窃的案件,基于视频分析可大大提升侦破的效率。2009 年后,公安部明确提出,图侦(视频图像侦查)成为继技侦、刑侦、网侦之后的第四大侦查技术。“由像到人”的视频破案成其公安机关最主要的破案手段之一。

政府部门高度重视视频监控,但是,囿于传统分析技术的局限,大量工作只能依赖人工进行。人工处理效率较低,尤其人眼睛长时间盯着屏幕,大约每隔15-16 分钟即会视觉疲劳,所追踪的线索,可能在眼睛一睁一闭之间即错过。如何处理大量视频数据,将视频的元素提炼出来,进行结构化处理,成为其亟待解决的痛点。

当前针对海量视频信息内容的筛选,一种解决方案是“视频摘要”技术(即视频浓缩)。商汤科技主任研发工程师闫俊杰博士告诉《21CBR》记者,这种技术主要依赖背景建模和图片拼接两项技术完成,其原理是先通过对视频的分析,提取运动目标,然后对各个目标的运动轨迹进行分析,将不同的目标拼接到一个共同的背景场景中,以某种方式进行组合。

可检索、可追溯、可自动分析、可深度挖掘的视频智能化,正成为现实

视频摘要技术分为动态和静态两类。前者指的是,在不动的场景下,将不同时间内出现的运动物体提取出来,叠加在同一个场景中,提高寻找目标的速度。比如,一段视频中,一位穿红色衣服的女性是关注对象,可用鼠标锁定此人,双击即能切换到其现身的原始画面;后者则是进行镜头探测、关键帧提取、场景聚类等一系列操作,从原始视频中剪取生成的一系列静止图像的集合,最终生成具有代表性的关键帧序列或缩略视频。

这种摘要技术的出现,极大提高了工作效率,比如,一段24小时不间断的视频内容,可以此进行关键信息浓缩,处理成数小时甚至30分钟,便于快速观看。

闫俊杰告诉《21CBR》记者,虽然视频摘要技术提高了处理速度,但是由于背景建模不是很稳定,比如在风吹动树这种比较明显的动态场景下,或是比较拥挤的场景下对于拥挤物体的区分,背景建模容易失效。另外,视频摘要一般需要离线处理,视频素材的存储空间需求更大,也缺乏实时性,而且大量工作仍然要依靠人工处理。

人会疲劳,会犯错,但是机器不会,那么,有没有更加智能化的技术呢?

解构视频

更彻底的视频分析解决方案,即使以人工智能的方式,实现视频结构化。

“视频结构化是将传统的基于人力查看的视频监控系统,提升成基于智能搜索、主动分析、综合服务的视频大数据智能平台的关键。”商汤科技CEO徐立告诉《21CBR》记者,结构化具有三个重要意义:对视频内容提取关键信息进行存储,基于语义进行自动检索,未来更高层级的搜索以及大数据分析和挖掘。

具体来说,即是针对感兴趣的目标、物体(包括人、车、非机动车、路牌等),可由人工大脑自动逐一检测出来,进行跟踪,厘清其属性。比如,具体到一个人,分析包含年龄、性别、衣着、手提物品等各式各样类型的属性;车可以包含车牌、车型、颜色等一系列的属性。确定属性后,使用者即可进行功能性搜索,比如以图搜图或者文字搜索,在海量的视频信息中找到具体目标。

假设这样一个场景,110接到一个电话报警,“在一个十字街口看到有一辆蓝色的凌志车,撞上了一辆黑色的宝马”,若在传统场景,具体哪个十字街口说不清,要在海量数据中搜索这样一段视频非常困难。若进行结构化后,即可利用关联字——蓝色的凌志、黑色的宝马,以及十字路口,将相关的视频内容检索出来。

再者,无论存储在云端或是本地计算机,传统的视频存储量一直是一个问题。尤其2013年,中国开始实行智慧城市建设,摄像头越来越高清,视频的数据体量越来越大,存储成为重要瓶颈。而若白银案这种连续多年的案件,长时段视频存储对于案件侦破至关重要。

而一旦形成视频的结构化,即可只存储视频中的有效内容,比如集中在人、车、物,这样大大便利于信息的检索。而且,同一段视频内容,各不同部门可各自所需,例如交警部门感兴趣的,主要是视频中的车和非机动车等信息数据。

如此一来,可大量去除没有意义的视频内容,设定关键信息的属性,进行高度压缩的存储,“有可能120G的视频,一些部门需要的信息,可以压缩到几K,”徐立说,这样关键信息将得到永久性的保存。比如2016年轰动一时的白银案,当时若能实现监控且储存结构化信息,那么,一检索作案时段犯罪现场的人员往来关键信息,在多个场合同时出现的犯罪嫌疑人很可能会被锁定,案件侦破可能相对容易很多。

问题是,如何进行视频结构化呢?

闫俊杰解释说,对视频进行结构化数据处理的技术难点在于,一是如何解决视频处理量比较大的问题;二是属性识别的提升、准确率的提升,以及如何覆盖更多的场景(比如晴天、阴天)。

解决方案涉及时下流行的一个热词,深度学习技术。这是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,可模仿人脑的机制来解释数据,例如图像、声音和文本。

徐立之所以选择创业,一个诱因是,当年在香港中文大学从事图像处理研究时,香港警方主动上门,他们有一些逃逸车辆视频,车子开太快,识别不清,要求用技术方式复原车辆的信息,警方对成果非常满意,付钱买单了,“当时我们开始意识到,计算机视觉的学术研究已经能够转换为工业应用了。”徐立说。

计算机视觉大体可分为三个层次:图像处理、模式识别和图像理解。而视频是连续的图像,比静态图像中的物体检测复杂度更高。据闫俊杰介绍,基于深度学习的视频识别技术是以图像识别作为基础,就是在图像识别检测、比对、分类的基础上,结合了比如选帧、多帧融合、时序预测、质量评估等多种需要和视频融合的方式。

商汤科技的人脸布控系统

“计算机视觉用于视频结构化,一个技术成熟的标志在于可被拿出来进行竞赛。”徐立说。他指的是ImageNet竞赛,这是人工智能领域的权威竞技场。2015年,ImageNet竞赛新增一项视频物体检测的任务。

在该项新任务的比拼中,赛事主办方选择了30个类别的物体,商汤科技联合香港中文大学多媒体实验室组成的团队,在28个类别中准确率最高,第二名只赢了两个;商汤科技整体62%的准确率,也高于第二名51%的准确率,最终以11%的压倒性优势领先并夺冠。值得注意的是,国内最大的监控产品供应商海康威视也组队参与了ImageNet竞赛。

东方网力一名技术工程师向《21CBR》记者解释,传统的视频分析方法依赖于人工构建的特征,而深度学习技术则是由算法从数据中去学习特征,特征的鲁棒性(指控制系统在一定的参数摄动下,维持其它某些性能的特性)、泛化能力优于传统方法。基于GPU的深度学习,在实际应用中,其并发处理量和处理速度等性能上,都有明显优势。

赵永军评价,这些学术成果对于视频应用,是一种技术性的“突破”,“深度学习技术引入到了视频的智能化应用,实际上可以理解为让计算机有了思维,让计算机有了思想。”

需求强劲

作为一家技术公司,商汤科技在上游拥有技术资源,需要拓展应用场景,而东方网力在行业内有非常强的行业积累。“东方网力在视频连接、平台技术等方面有技术储备,我们的核心能力是在海量视频中去捕捉需要的信息。”徐立解释说。两家公司一拍即合,2015年,双方成立合资公司。

视频结构化的第一目标要素是人,而合作已经有实质性的成果。

比如,两家曾在火车站进行人脸对比的数据测试,选择了13 路视频监控,即13 个场景,在车站内正常流动的环境组织了30 个人走一段时间。每天都会组织30 个人,都分别在这13个场景下走一遍,在无意识、不配合的情况下正常走动。这样,要找人就是30×13=390 人次了。这30 个人在后台的人口数据库中,而系统基本上每天能找到当中的280~330 人次,如果误报率进一步下降,即有十分重要的实用价值。

徐立表示,人脸识别技术在很长的范围时间内,之所以没能在公安部门等运用起来,就是早期误报率太大,对工作反而形成干扰,“要在公安部门中使用人脸识别技术,一方面要求真正抓取技术准确率要提高,另一个是误报率要很小才行。”

目前,在对象处于静态并主动配合下,人脸识别技术准确率高达95%以上,在实际应用的监控视频中,目标人物处于无意识、非主动的状态,所提取出来的人脸往往难以识别,某些特别复杂的场景下,准确率可能只有40%-50%,这是视频技术应用的一大瓶颈。不过,从动态视频中进行人脸识别的技术难题也已实现突破。

多目标智能跟踪监控平台业已成现实

据徐立介绍,市面上流行两种类型摄像机设备,枪机高清摄像机,可提供相当于4K的画面;另外一种是球机,可视作是长焦镜头。在视频提取时,之前往往遇到这样的困境,枪机摄像机200米开外的事物往往是看不清楚的,如果用球机变焦,又只能看到局部,无法看到全部。那么,全部场景提取和局部清晰变焦如何才能兼得呢?

利用人工智能技术,就可实现“枪球联动”,就是用枪机去提取所有的场景,其中检测出来感兴趣的关键信息,借助算法控制,用球机一个个进行变焦扫描,进行车型检测、人脸识别对比。

2016年4月,商汤科技宣布并购新舟锐视,后者创立于2011年,是一家从事制作硬件的科技公司,核心产品是智能摄像头长焦联盟机,并成立“商周锐视”,这家公司融合了商汤在软件和算法方面的领先优势,以及新舟锐视在硬件及市场拓展方面的成熟经验,力求构建拥有计算机视觉和深度学习原创技术的领先智能安防平台,并已经推出了“多目标智能跟踪一体机监控平台”。

不仅是人脸识别,实现数据结构化之后,可以实现更多的智能应用。

以传统的车辆智能监测记录系统(俗称“卡口系统”)为例,它是视频监控中的一种核心应用,主要面向交通管理,现有系统中,通过以车牌为核心,用于提取车牌信息。实际上,对于视频内容而言,大量有效信息卡口系统并没有提取出来,比如车的类别、车型大小、车身颜色,但是,借助数据结构化就能有效提取所有相关信息,比如,通过卡口的车,可以具体到现代汽车品牌、伊兰特系列2007年款。

查处“套牌”是交通部门的一项常规工作,传统的套牌分析方式,是通过视频监控,利用时间、空间分析两个车牌不可能同时出现在不同的地点,才判定它是套牌,非常复杂,现在则不同,“汽车的各种特征都成为数据,针对车的不同特征提取相关信息进行比对,可以实现不单纯依赖车牌判定是否为套牌,这样会简化很多工作”赵永军说。

在侦破案件时,这种车辆信息的作用更大。因为很多案件都是团体作案,几辆车协同进行,那么,如何通过一辆车去判断另一辆车,以确定两者之间存在协同关系嫌疑?这些都可以通过分析车辆的运行轨迹、其常落脚点以及时间等数据,得出正确的结论。甚至在一个小区内,哪些车辆经常出现、哪些比较陌生、哪些是第一次出现,均可以分析出来。

在视频监控领域,商汤科技形成了以深度学习为核心技术的三大技术产品形态,除了人脸布控系统和视频结构化系统,还开发了一套智能人群行为分析系统(SenseCrowd),该系统适用于大量人群的行为分析和管理,通过统计场景内的人数、跟踪人群的移动速度和方向、异常行为分析等,进行实时人群监测,并做智能预警。利用这种系统,2015年元旦上海的踩踏事故,就有可能避免。

赵永军表示,视频监控行业现对深度学习的应用需求非常强劲,“深度学习技术是近些年刚刚引入的技术,在行业内,对深度学习反应程度之热烈,大大地超出了我们意料,”赵永军说。

徐立告诉《21CBR》记者,深度学习技术在视频的大规模商业化才刚刚开始,行业内一般是第一年看演示、做预算,第二年进行项目实施,现在是未实施先火,是因为所有人都非常看好该技术在行业内的应用,产生大量新的需求,“2016年,交通、安防、公安、楼宇安全等行业都提出了很多需求,有很多人看过项目演示,预计2017年的话,各行业的需求会更多,最终形成一个较大市场的规模。”

如今,这种巨大的需求,已经点燃了投资者的热情,并开始转化为商汤科技的高估值。



相关标签: AI  监控  安防  
0
0
发表评论
loading...
相关文章