1,深度学习最早的是应用在感知领域,包括计算机视觉,语音听觉,自然语言处理;
2,第二个就是决策,它能够在大数据领域,消费、金融、医疗、教育、BI这个领域里面能够很好的去发现规律,解决规律,帮我们去处理数据,帮我们7×24小时干活,
3,反馈。如果有了感知,如果有了决策,如果再配上各种各样的跟机械和其他东西结合起来,那就意味着它不但能理解周围,能做决策,它还能自主的把任务给完成。
1,第一个问题是计算架构。现在的深度学习要处理大量的数据,他们对于计算的要求是非常非常高的;
2,第二个是算法框架,还需要更多算法、框架、模型的优化;
3,回馈,广义的Mechanical各种各样的回馈组件,比如我们做了很好的应用,计算机视觉做好了,叠加很多的信息,我怎么很好的把它反馈到眼睛里面来,又需要新的硬件来解决这个问题。
以下为演讲全文:
大家好,其实今天我应该不是主角,真正最厉害的人余凯、印奇、文渊才是今天的主角地他们是在国内人工智能领域里面最厉害的三家公司,也是最厉害的三个人。而我们非常有幸能跟他们发生投资或者是各种各样的关系,但是我们今天请他们三个人来真的不是因为我们是他的股东,真的是因为他们是在国内这个领域里面最好的公司。
最近AlphaGo、人工智能很多热点都来自于深度学习这件事的进展。深度学习这件事其实只是(机器学习)的一个分支,(机器学习)本身也是人工智能的一个分支,人工智能这件事已经持续了很长,深度学习本质上是几十年前提出的概念,大概在五六十年代就提出了,但一直没有取得太大进展。至于为什么它现在不叫神经网络,叫深度学习了?正是因为神经网络这个东西在几十年前都没有什么进展,所以它在很多年前在业界、学术界、工业界的名称都已经臭掉,凡是有人说我是搞神经网络的,都被当作骗子。后来依然坚持神经网络的,都不敢跟别人去说自己是研究神经网络的,他们怎么办?这些人很聪明,换个名字,我不叫神经网络,叫深度学习,这样他们就能重新去做。这是开玩笑的,也是说明这件事有多难。
这件事的进展应该是06年,(杰·培根)发表的一篇新论文,对于神经网络的传导处理有新方法,第二个更大的推动是计算能力的提升,从06年开始,尤其是GPU显卡的出现,让做深度学习网络的人拥有比原来超过一百倍的计算能力。以前做不出来,一方面是因为理论还不太完善,更重要的是没有足够多的处理能力,使得这个模式没有办法被验证,没有办法被有效的研究。所以从06年开始,深度学习这件事情就取得了很大的进展,最近几年,语音识别、图象识别,AlphaGo下围棋等各种各样的事情,它们的原点取决于06年在深度学习方面的突破。
深度学习跟以前的机器学习,或者以前的人工智能有什么区别呢?以前的人工智能,或者说广义机器学习,要么只能处理非常明确的数据,非常明确的逻辑和规律,比如做金融模型,会经常做回归分析,相关性分析,从某种意义上讲这也是一种机器学习,只不过只能做非常简单明确的结构化数据,而且只能发现简单的规律,复杂一点的事情比如图片、声音,各种各样的东西都是没法处理的。要么就像当年深蓝下围棋一样,人把找到的规矩作出数学模型,做成算法。与其说是机器在学习,不如说是人在学习。而且很多东西不是通过很简单的制定规则就能做好,这太复杂了。
后来到80年代的时候,有一些进展,李开复在这个领域是专家,大家在试图基于很多数据,通过统计学的方法让机器从大量的数据里面自动发现一些模式,某种意义上我们把它当做浅度学习,不叫深度学习,在当时带来了很多突破性进展,比如手写识别、语音识别,都在这个理论上,比如当时发明了SVM,下象棋这类东西都发现了,取得了很多进展,但依然不能满意。因为准确率依然限制在一定的水平,并且依然不能做更复杂的事情。
然后大家就在想一件事,人脑是怎么处理和看那些复杂事情的?无论是下围棋,还是看这里有一个人,那里有一只猫。其实人脑是一个高度多层抽象的思维体系。比如我们看这是一张脸的时候,首先我知道这是一个圆形,一个黑色的圆形,有眼睛,而如果有一块图片有眼睛有鼻子,然后有嘴巴,它可能就是一张脸。实际上人脑里把第一层次的数据一层层的抽象出来,然后在高层次高抽象的定义里面去做理解和思考。
再比如图片也是一样,当我们看一张图片的时候,首先是一个个象素,一个个点,各种各样的颜色的点,基于这个点判断这是不是一辆摩托车,实际上做不到。但如果用大量的数据训练,很容易发生规律,几个点排列是一条线,各种角度的线聚在一起是一个点,或者能形成一些边缘的简单的特征,而一些小的特征聚合起来是更高端的特征。比如说一些边缘和线连起来是圆的概念,而更上面一个三角形和两个圆特定的组合可能就是鼻子,再往上各种各样的组合就是一张脸。其实模型不是真的这么算的,但是便于理解的话,深度学习就是把一层层的浅度学习连接起来,把大量数据扔进去之后,它能从底层的数据里面抽象出低阶的特征,再把低阶的特征组合起来形成高阶的特征和抽象,甚至再形成最大的特征,比如说大的物体,猫、人、车。
谷歌当年曾经做过一个实验,他用了九层的神经网络,然后把大量没有任何预处理的图片和视频扔进去,进行训练之后,在没有任何人告诉的情况下形成了猫的概念。
深度识别这件事它到底能干什么?它实际上就是这么回事,首先它有大量数据,这个数据是以亿或者十亿为单位,对于这种复杂的非结构化的数据,在不需要人类指导的情况下,能主动的逐层发现和提取里面的特征和规律。第二个对于有明确的输入输出的这些问题,比如说像识别物体,AlphaGo下棋,哪怕没法去定义规律是什么,没法具体去描述规律,只要给它足够的数据去训练,它就可以建立模型,拟合这个规律去获得最优解。传统的(机器学习)是对于那些没法清晰定义的问题是没法做的,比如下围棋,你没法描述这个点该怎么摆,没关系,你不能描述,只要把足够多的数据给它,他就能拟合出一个模型,比如说你没法精确的去描述象素点是怎么构成一只猫的,猫有黑猫、白猫,脸侧过来的猫,转过来的猫,没关系,只要给他足够多的数据,它就能把这个问题给解决。
但这个也是有限制的,你做出来的这个东西实际是黑盒子,其实它能解这个问题了,不代表这个模型真的理解这个问题。模型里面有百万亿,甚至亿级的参数在里面。其实深度学习的特征就表明了它能干很多事情,但是也不能干很多事情,比如说AlphaGo前段时间说它能解决特定的问题,它能抽取抽象的特征,但是它不能进行所谓的联想,我们定义中的思考,包括它也不能去很好的处理很多开放性的事务,比如我们俩进行开放性的谈话,这也不是靠深度学习能解决的。但我依然认为这是在人类历史上一个特别重大的事件,可以比拟互联网或当年工业革命的事件。因为它是人类历史上第一个有可能去扩展人脑力的工具,人类历史上第一次发明能取代脑力的机器工具。
其实以前发明很多工具,比如说机器解决的是体力上的机械动作,扩充人的体力,替代人的体力活动。但人类历史上从来没发明过一个工具或者掌握一个工具是可以扩充人的脑力,所以人类上可以去扩充人的脑力和替代人的脑力的重复劳动。而这个单独的进展本身还不够,它认为跟其他领域比如说跟传感器、自动化,各种各样的东西结合起来,在未来十年或二十年的里,它真的有可能替代掉我们现在50%的工作。
但大家也不要担心,比如说在座的各位,基金经理,投资,包括我们做风险投资的,这些事情我们肯定不会被电脑取代。但是如果做的类似于文书,办公室的很多白领,包括很多工场的工作,真的有可能以后就没有了。前段时间很多媒体上讨论的那些偏科幻的事情会不会发生,我个人认为在我们现在可看得到的时间内应该不会发生,因为我们现在所有的人工智能方面的理论,想要做到小说或者媒体描述的通用人工智能,现在连理论基础都没有,更不要说去实现它了。什么时候出现,谁都不知道。比如说人工智能本身也是花了很多年的酝酿才达到一个理论突破,才有可能十年之后出现,也有可能几十年永远不出现,就跟量子力学或者相对轮发现之后,接下来一百年整个物理界也没有太大的理论突破和进展,所以谁都不知道下一个真正的人工智能会什么时候出现。但即使是现在的机器学习、深度学习和人工智能进展已经是够伟大的一件事。
刚开始说了(机器学习),这个东西很厉害,能去干哪些事?它具体能有什么应用?我自己把它划分了三个。
第一个其实深度学习最早的应用并不是下棋,深度学习最早的是应用在感知领域。包括计算机视觉,语音听觉,自然语言处理。它是在这个领域突破,而这个领域其实也是非常重要的一件事。想象一下,如果通用的感知被完整研发出来之后,就意味着电脑系统或者自动化系统或者广义的Robot机器人拥有能完整识别理解周围的现实世界的能力。
你想象一下,当电脑系统或者广义的机器人能真正看东西,能知道这是人,这是车,这是椅子,并且知道两个人这样的姿势是在打架,这样的姿势是在恋爱,你想象一下,有了这个广义的感知能力,自动驾驶才能实现。有了广义的感知能力,家庭机器人才能实现,有了广义的真正的感知能力,所谓真正的像带智能的工业自动化才能实现,就是让机器人拥有真正的视觉、听觉,然后真正的对语意的理念。包括更广义的感知,因为电脑不是人,他可以接受的数据,除了标准的光,标准的声波以外,他还可以接受各种各样传感器的处理,各种各样非常复杂的,它可以把这些东西当做它们的某种感知,然后去很好的处理和理解它们。
第二个是决策,刚才说AlphaGo下棋,延伸到我们这个里面,它能够在大数据领域,消费、金融、医疗、教育、BI这个领域里很好的发现规律,解决规律,帮我们去处理数据,帮我们7×24小时干活。但是这个也是我们刚才说的,在局限性的环境下。由此对于我们传统上的很多数据处理和理解,因此可以达到一个更高的高度。这也是我说为什么将来很多办公室白领工作会被取代,因为很多办公室白领工作,低阶段白领工作或者文书工作其实只是筛选处理。
最后一个是反馈,如果有了感知,有了决策,再配上各种各样的跟机械和其他东西结合起来,那就意味着它不但能理解周围,能做决策,它还能自主的完成任务。这就是将来在十至二十年的范围内更大程度上能取代大量人类工作的基础。自动驾驶汽车的传感器、摄像头感知,它的中央控制决策怎么开车、决策。同样的理论,应用到制造业、服务业各种各样的自动化,智能传输、智能硬件、家电硬件各种各样的领域,非常非常多的工作,我们以后都不用再干了。
前景很美好,但还是在萌芽的早期,虽然大家看到它能下棋了,自动驾驶车已经在路上跑了,但是离我们刚才说的前景还很早。因为还有很多的问题虽然理论上已经有突破,实践上还需要很多的时间去解决。但换个角度,每个要待解决的问题就意味着一个投资机会。因为没有问题的话,也用不着投资。
第一个问题是计算架构,现在的深度学习要处理大量的数据,他们对于计算的要求是非常非常高的。大家也知道AlphaGo下棋动用了多少台机器,多少台处理器,多少张显卡,只是下一个棋而已。然后我们在座的刚才投资公司做自动驾驶的时候,你要让自动驾驶里面拥有视觉部分,能识别路面,能识别车,能做各种各样的感知,它至少都要有250瓦到500瓦功耗的GPU和阵列。250到500瓦的功耗听起来好像放在车里还可以接受,你想象一下如果把它放在一个由锂电池供电的机器人,或者放在什么上面,250到500瓦的功耗肯定受不了。包括需要的计算能力,比如用在大数据里面,虽然谷歌、百度之类的都已经用深度学习做大数据的事,但是它的广告系统里面还没有真正大规模使用,原因很简单,机器学习串出来的模型都有几亿到几十亿的参数,模型大小是以GB为单位,如果你每秒多少次的系统调用,每次都要这么大的模型进行这么大预算量的运算,受不了。
所以普及的话还是需要计算架构要有突破,把现在的计算效益和计算能耗品提高一到两个数量级,这里面有很多事可以做,可能就新的芯片公司的机会,他们可能会出现新的英特尔,新的IBM,新的高通,他们是做芯片的,可以做运算能力更快,更节能的芯片。然后也有可能做新的软件上的计算架构,比如模型压缩,比如很多软件算法公司的机会。
第二个是算法框架,现在还在早期,有各种各样的应用,其实还是需要更多算法、框架、模型的优化。如果我们将来做一个自动化或者人工智能的公司,如果每个领域都自己研发的话,肯定受不了,所以几年之内一定会出现去研发比如做通用模块的,通用视觉模块的,通用语音模块的,通用自然语言模块的,通过其他模块的公司,他们做好这些模块之后,具体做业务的公司就可以直接采纳他们的模块,然后来做具体实际的应用。
传感器也是非常重要的一点,在现在为止能让机器很好的理解周边,实际上需要很多输入,而这输入对应的传感器有的还不具备,有的还太贵。比如说自动驾驶汽车里面用的激光雷达现在的价格是七万美元,GPS好象也是几万美元,用的激光投影仪价格也是上万美元,这还只是已经存在的很多传感器,包括深度摄像头很多这些东西,现在要么太贵,要么性能不太好,但这个东西必然能够通过时间把成本降下来,而意味着每个做好这些元器件的公司将来很有可能成为下一个大疆或者其他的公司。
最后跟回馈的部分相关,广义的Mechanical各种各样的回馈组件,其实在这里面你要能做一个,比如说工业里面为什么一个机械手钉那么贵?是因为无论是说他们用的高速度的马达,还是各种各样的其他相关组件,每提高一个数量级价格都是几个基数的往上升,包括有些回馈的组件现在可能还不存在,比如Magic Leep为什么它估值几十亿美元,阿里还投它,因为它本质上就做了一个回馈组件是视网膜投影组件,能算好和合成图象很好的投射到数网膜里面,跟真实图象来叠加像这样的组件,现在还都不存在。比如我们做了很好的应用,计算机视觉做好了,叠加很多的信息,我怎么很好的把它反馈到眼睛里面来,又需要新的硬件来解决这个问题。
所以广义的来说,现在很多深度学习和(机械语音)这些事情已经有部分能投入使用,但还有很多问题需要解决,当然本身我也说了,问题都是投资机会。
这个是我们自己感觉的一个时间表,每根线是三到四年的时间。刚才说的这些基础模块,比如说计算架构、算法框架、传感器,各种各样的硬件,我们自己的工具大概需要三到四年的时间不断的成熟,比如计算芯片可能需要三到四年的时间才出来,比如我们跟富士康其他做传感器的公司也联络,我们花三到四年的时间把激光雷达的价格降到几百美金以下,包括刚才说的算法框架所有这些东西。
所以第一拨能出来应用的其实是这些,就是视觉、语音、自然语言处理,现在已经能用的这些成果的一些应用。比如印奇(Face++)的人脸识别,这个不需要很多其他的模块,自己已经成熟,现在已经可以用了,已经用在网上银行安防、安全的很多领域,这是第一拨不依赖这些基础模块就能直接使用的公司。包括语音识别自然源处理,这些东西已经可以直接使用了,或者现在直接开始研发了,但是其他的很多应用,比如说商业应用,比如我们想象中有很多的广义的自动化机械用在服务业,用在物流业,用在制造业,反而不会那么早开始。这里面有什么问题呢?用在商业领域的很多应用,它本身都是垂直应用,加在一起虽然非常大,但单个市场的规模都不大。所以在基础模块没有研发完成,没有便宜的基础模块使用的情况下,并不值得为一个单独的垂直小市场去做特别复杂的事,还不如等到比如三年之后各种各样的东西都成熟了,再用市场上比较完整的现存模块去做这些事。所以如果你看到现在说可以用广义的人工智能去做行业解决方案,或者做制造智能,肯定是假的。
有少数我们觉得例外的这些领域,比如说自动驾驶,AR、VR,包括可能(JOR)这些领域也算,这些领域的特点是单个市场足够大,比如说车这个市场,自动驾驶汽车想象力太大了,以至于说就算各种各样的基础模块还没有完成,你得为他做专门的定制研发,就算成本特别特别高,市场大到你可以从现在就开始做。自动驾驶汽车现在就可以开始做,但是出阶段性的成果依然要三年时间,出真正的完整的可以在路上随便跑,什么路况下都随便跑,不受任何限制,我觉得时间还是相当漫长的。哪怕谷歌的车已经在路上到处跑了,还是要花更多的时间。希望谷歌能在六年之内能够达到目标,但也只是希望。但是即使没达到目标这个,能在受限环境自动无人驾驶已经很有价值了。
真正能在家庭帮你完成复杂任务的机器人,我觉得反而最后才能出现。因为首先送给家庭的这个东西成本受限是非常严格的,比如用在医疗领域的一些自动化的东西,它可以承担数百万的成本,比如给病人做手术,但是家庭里面的成本需要最低,环境最不可控,人对它的预期最不确定,所以这个东西反而是要到最后才能出现,当这个东西出现之前,先出现一些简单的玩具的还是可以的,比如给小朋友带点语音识别的玩具,或者扫地机器人,这些反而能早出来,真正广义的家庭机器人出现我觉得还是会非常晚的。当然我知道软银出了一个在家的机器人,那个其实更多的是一个玩具。
我们在这个领域广义的来说涉足了挺多公司,今天来的megvil 、Horizon Robotics、第四范式,这三家公司我认为是在中国这个领域中最好的公司。这个是我们广义的计算机识别公司,现在主要的产品是人脸识别,将来会逐渐发展到计算机通用识别,识别各种各样的物品。第四范式第一个产品方向是金融,他们的产品已经进入了各大银行。这个很不容易,因为一家没有关系的纯技术公司,纯靠技术的优势,没有任何的销售努力就大量进入国内主要的金融机构。这是做企业应用的,诸葛这个是做智能数据的,这个是做通用机器学习的服务,如果有做机器学习需求,可以使用他们的服务。这边是各种各样的广义的感知的,这是跟农业相关的,BROADLINK是在国内IOT,就是物联网里面智能硬件里面用的非常多的。
小鱼在家是在家陪伴通讯机器人,我们还有一些做智能城市的,比如把美国所有的垃圾筒和污水处理的网络都装上传感器,并且平行优化的公司。doradoot是做水相关的。但这些其实还不够了,我们其实还在看更多的,刚才讨论的每个问题,无论是计算机架构,还是元器件、传感器,我们都在试图寻找好的公司和标的来投资。