首页 >> 科技 >> 商汤科技CEO徐立:融资4.1亿美金的AI独角兽,要做英特尔一样的赋能者 | 专访

商汤科技CEO徐立:融资4.1亿美金的AI独角兽,要做英特尔一样的赋能者 | 专访

沈玉姗 来源:21世纪商业评论 2017-07-12
“商汤一直把自己定位成一家以原创技术驱动的公司。商汤能做的是集中力量攻破核心算法和技术。”

7月11日晚间,人工智能公司商汤科技宣布完成4.1亿美元B轮融资,包括著名私募公司鼎晖领投的B-1轮,以及由赛领资本领投、近20家投资机构、战略伙伴参投的B-2轮。

加上此前宣布由IDG资本、StarVC等投资机构的投资,商汤科技累积融资额达4.5亿美元,成为全球融资额最高的人工智能独角兽企业。

作为国内人工智能最先成熟的工业级赛道,计算机视觉长期被外界视为坐拥“四个独角兽”的巨型角斗场。据iiMedia Research数据显示,我国人工智能创业公司所属领域分布中,处于计算机视觉领域的公司最多,高达35家,堪称当前人工智能创业最火热的领域。

商汤科技成立于2014年,早期以研发实力和学术氛围著称,并频频获得资本青睐,本轮融资也创下全球人工智能领域单轮融资最高纪录。商汤方面称,当前公司市场价值超过100亿人民币,2016年客户和业务量较上一年度实现数十倍增长,服务客户包括中国移动、银联、华为等在内逾400家。

商汤科技(SenseTime)CEO徐立

当前,智能视频被视为“人工智能+安防”领域的商用热点。徐立早前曾提出,视频结构化业务将在今年爆发。“AI+安防”的市场容量有多大?在经历人脸识别的行业混战后,商汤又将如何攻克视频业务的堡垒?商汤科技联合创始人、CEO徐立博士于日前接受《21CBR》专访时对上述问题做了解答。

以下是徐立接受《21CBR》专访的主要内容:

视频业务是下一争夺点

安防一直是国家大力发展的领域,也是十三五规划的重点行业。从政府投入来看,今年也要投入2000-3000亿。传统安防领域的最大厂商,去年营业额在300多亿。所以,这块目前有足够的市场空间。

我们从去年开始主推视频结构化。视频结构化是什么意思?就是对视频中我们认为感兴趣的人和物体,包括车辆、非机动车、路牌等进行检测、跟踪,并将监测对象的属性分析出来,从而获得有关对象的各种各样的结构化信息。

比如与人有关的年龄、性别、穿什么衣服、有没有拎包,车辆则包含车牌、车型、颜色、角度等一系列属性。

结构化视频解决的是关键信息的存储问题。一段视频中,往往只有某个人、某辆车出现的那一小段是有意义的。我们把整个视频中的这类目标找出来,把视频大文件压缩并保存为几张照片,未来在需要的时候还可以检索出来,验证某个人在哪里出现过,这就是一种结构化的过程。

今年的视频业务和去年的人脸识别有些类似。去年,业内都在尝试和落地人脸识别的具体应用,到今年进入相对成熟期,业务增长很快。今年,智能视频业务也在各地展开试点,包括交通、安防、公安、楼宇,整体发展正处在一个大的行业机会点上。

视频业务何时落地,核心问题在于明确产品的商用标准。工业界的一个标准红线是评估产品是否超过所谓人眼的准确率,例如在特定环境下比所有警察都看得准,那么机器就可以大批量替代肉眼。这也是人脸识别逐渐商用化的原因。

但是,视频内容的分析效果和人相比还有差距,比如对动态的人脸捕捉、视频内容的分析、通用物体的属性识别等。所以,核心算法的突破将成为最关键的落地因素之一。

目前全球每天有2.5亿只安防摄像头在记录,但有多少人会每天观看、分析这些摄像头里的内容?视频数据输入达到一定规模,但在智能处理上还很欠缺。当一个智能算法可以完全替代人类,能够将视频里人们感兴趣的部分进行分析、归纳、整理,并最终输出报告,这会是一个非常伟大的工程,好比工业革命带来的生产效率变革,这个工程也一定会到来。

商汤在安防领域的产品体系分为两类:一类是成熟的业务系统,需要基于客户方的具体业务逻辑进行设计,比如怎样做多视频协调,如何做人像处理等,代表产品是SenseFace人脸布控系统和SenseVideo视频结构化系统,另一类是业务系统中的核心算法模块,包括动静态比对服务器、人群分析服务器和结构化服务器等,属于相对标准化的产品。

举个例子,我们在视频结构化系统上做了很大突破。以往的视频结构化系统只能通过身高、性别等属性来查询视频信息,SenseVideo实现了自然语言的信息查询。对于办案人员来说,通过自然语言来描述罪犯、完成案件信息的视频检索是更常见的业务逻辑,也比根据属性搜索来得更加精准,未来将是一个新的业务形态。

标准化产品逻辑

目前商汤在安防市场是较为领先的,前十大安防厂商里有一半以上是我们的客户,商汤为其提供标准化模块和业务子系统。同时,我们也在国内重点城市建立本地化业务。相比单点开客户,与集成商合作的方式能够将商汤与电信方、施工方等连接起来,在各地做出标杆性的项目后,以标准化形式加速铺开。去年,商汤的智能视频业务(Intelligent Video Analytics)已经占公司整体业务的近一半。

我一直认为,B2B公司如果要实现规模化,产品一定是相对标准化的。如果每次销售的方案都是定制化服务,企业的ROI(投资回报率)就会比较低。

这里的标准化不是一蹴而就的,而是来自产品和项目的逐次迭代。比如前面提到的比对服务器,再往上可能是一套带着摄像头的子系统,最后则是一整套的训练部署平台。通过深入行业、做细项目,商汤不断把标准化的范围扩大,并聚合客户的需求从而形成共有需求,最终完成标准化产品的打磨过程。

人工智能在工业场景的实战中会冒出许多新的研究问题,可能此前从没有人研究过,能够带来一些新机遇。但是,打磨产品的很大关键在于,首先要明确定义业务逻辑中需要研究的问题是什么,与产业深度结合是在帮助商汤定义清楚很多基础的研究性问题。针对这些问题再进行核心算法的突破,就能带来整个应用场景的变化。

比如,我们最近发布的SensePose单目实时动捕技术,根据纯粹的RGB摄像头就可以做到大规模的姿态恢复,对于提升视频理解会有很大帮助。这在以前只有深度相机才能做到,现在我们已经能够将芯片成本降得很低。

这次的AlphaGo也给了这样一个启示。围棋的场景应用没有发生任何变化,人类棋谱在这段时间内也没有增加。在这样的情况下,核心算法的突破可以硬生生带来三个子的差距。这也说明了在很多垂直应用上,问题定义清晰结合算法突破,能够真正把一些技术推向实用。

因此,商汤一直把自己定位成一家以原创技术驱动的公司。商汤能做的是集中力量攻破核心算法和技术。这个技术不是单点的、闭门造车的技术,而是以打通上下游的客户需求、构建产业链条来实现的。就像英特尔不直接向终端用户销售芯片,而是通过上下游的合作伙伴,比如主板厂商、主机厂商等实现笔记本电脑的销售,但用户仍然了解产品背后有英特尔领先的芯片技术,这也是商汤所追求的:做行业的赋能者。

智能的极限远未到来

很多人觉得,深度学习已经形成开源生态,技术没那么重要了,打通行业才是关键。这里面有一个重要前提:深度学习是否已经成熟、不会再变化了。

然而,学术界目前有关深度学习的文章大部分都是工程实践型的,新的实验结果不断推翻前人做出的理论解释,指导下一代工业级应用的技术原理有待被归纳总结,人工智能距离成熟的“黑盒”还差得很远。

例如,从近年来物体识别竞赛的结果看,识别准确率在2013-2017年之间提升了300%,按照每18个月提升一倍的速度来看,基本与摩尔定律吻合。也就是说,在某些垂直领域,算法的演进已经进入摩尔定律时代,不是既有算法的变化,而是本质上重新设计出一套新的引擎算法,从而形成巨大的提升空间。

商汤这些年从最早的AutoEncoder(自编码算法)到GAN(贝叶斯生成对抗网络),再到Reinforcement Learning(增强学习),虽然都叫深度学习,其实每一套框架都不同,是深度学习里的不同学术分支。算法演进的结果是性能上的巨大差异,未来三五年间,深度学习还将迎来革命性的变化,如果不赶上,就会被淘汰。

至于人脸识别技术的同质化,也是有待商榷的。以抓逃为例,1:1的人像比对准确率已经远远超出人眼,但如果要在全国14亿人像库中进行1:N的实时动态比对,目前没有一家公司能够做到,更多只能在细分场景中使用。

比如在某个小区或楼栋里识别出外来可疑人员。我认为,这不能算做是最优化的应用。怎样拓展技术边界、把精度推向下一个极限,是人工智能算法迭代的核心关键。

商汤内部学术创新的氛围很好。今年,我们在CVPR上发了13篇文章(注:CVPR是IEEEConference on Computer Vision and Pattern Recognition的缩写,是由IEEE举办的计算机视觉和模式识别领域的顶级会议),录取率达到往届录取率的2倍以上,其中更有近一半是实习生作为第一作者完成的。但是,我们更强调商业化的变现能力和长期稳定的现金流,而稳定变现也是PE投资方最为看重的能力之一。

我认为,技术创业有两种可能性:第一类是通过技术上大的领先性和差异化,带来时间窗口和强壁垒。第二类则是对技术的应用看得非常准,知道在什么地方能够快速落地变现,从而走在行业前面。这两方面商汤都在努力,也有信心最终能够在市场上形成比较大的差异化。

相关标签: 人工智能  商汤科技  
0
0
发表评论
loading...
相关文章