嵩山智库

如今，人们经常会向研究人工智能的人提出问题：和国际先进水平相比，中国的人工智能处于什么位置？不少人给出的答案：和世界人工智能差距不是很大，这几年，中国在学术研究方面也取得了很多进展，在重要的国际会议、重要的期刊杂志上，中国的（论文）文章也占了相当的比重。中国有数量庞大的网民，在网络数据上占有相当优势的地位，而且中国市场有如此大的需求，所以最后的结论是：中国赶上和超过世界人工智能的最高水平，必须也是可以做到的。

这个答案对不对？今天的报告就是要回答这个问题，我的回答是“不完全对”。首先，中国的人工智能，研究、开发、产业水平，跟世界相差不大，这句话不完全（对），在基础、算法的研究上，中国和世界（顶尖）水平还相差甚远，这个是不争的事实。人工智能在1956年（诞生）成立的时候，是美国人建立的学科，这61年中，一直是美国在引领人工智能领域的发展。这个当然是成为过去了，问题是，现在还是美国和加拿大等北美的国家在引领这个领域的发展，他们在不断的创新，如果我们不重视（基础/算法理论研究），不在这些领域赶上他们，会非常制约中国的创新能力，特别是原始创新的能力。如果这点不重视，不抓紧，要赶上或超过世界的先进水平是有困难的。

2.深度学习拓展了AI的技术边界

我的报告题目是《基于大数据的人工智能》，主要是谈人工智能和大数据，我用它作为例子分析一下，中国在人工智能领域如何赶上和超过世界的先进水平。

首先认识一下基于大数据的深度学习。深度学习的提出，在人工智能领域中是一个重大突破。以往，人工智能只能用来解决人们对它非常了解，而且能够清楚的将它表达出来的问题，例如医疗诊断，人们大体上能够说清楚一个症状是由什么疾病引起的；例如下象棋，每下一步都能够说明它的理由，等等。但这些（问题领域）非常有限，深度学习拓展了人工智能所能解决问题的边界。

其次，深度学习具有一定的通用性。比如，人们（用深度学习）做图像识别，不一定要具备非常丰富、专业的图像知识，外行也能做。即使你不是这个领域的专家，也能把深度学习应用到这个领域。所以，深度学习是一种大众化的工具，它把解决问题的领域大大延展了。而且，这个领域即便没有很深度的了解，但是只要拥有充分的数据就能够做（研究）。

正因为如此，对大众而言，这些奇迹引发人们认识到了深度学习的威力。第一，就是在图像识别领域，在某一个图像库里，机器识别准确度略微超过人类，或者机器的误识率低于人类，（展示）这是微软做的工作；百度做的工作是在语音识别（展示），识别错误率略低于人类，在两个领域的识别上机器都超过了人类。

其中，震动最大的还是AlphaGo，为什么会引发大家的震动。机器超过人，在数字计算方面早就已经实现，人们一点不感觉惊讶，因为计算机的本行就是计算，所以在数字计算上超过人类，大家并不觉得奇怪。

现在，在语音、图像识别、下围棋方面，以往都被认为是人类最擅长的，居然也被机器超越了，所以人们觉得惊讶、震动。

3.深度学习成功的三大法宝

现在要分析两个问题：一个问题是这些奇迹会不会在今后不断的发生，大家都希望把深度学习的方法用到其他领域可能会产生新的奇迹，这些奇迹会不会发生，在什么样的情况下会发生；第二，如何推动深度学习继续向前发展。

首先，要分析一下，这些奇迹来自何处？为什么机器下围棋能超过人类，为什么在图像识别的某些方面会超过人类，成功的因素是什么？我认为有三大法宝：头一个是数据，第二个是计算资源，第三个是算法。这就是深度学习成功的三大法宝。大家对于前面两个方面比较注意、有体会，很多人还没有体会到算法的重要性。我这里继续用AlphaGo作为例子，具体谈谈它怎么来使用这三个法宝。

AlphaGo战胜人类棋手，跟象棋（人机大战）完全不一样。象棋程序是怎么做的呢，就是把象棋大师的下棋经验编成程序放在机器里，所以做象棋程序的人相当一部分是象棋大师，而且请了好多的象棋大师帮忙，深蓝打败了卡斯帕罗夫，其实不是机器打败的卡斯帕罗夫，而是大师的群体打败了他，也就是说人们利用机器把一群大师群体的智慧和经验总结起来，才打败了个别的大师。但是围棋不同，围棋（程序）里，懂围棋的很少，最高的是围棋业余五段，做出来的东西居然能打败世界冠军，靠的是什么？靠的就是刚才说的三大法宝。

机器用了两个多星期的时间，学了7千万局棋局，这7千万局棋局就是历史以来大师们下过的所有棋局。（机器）自己又跟自己下，跟李世石下之前也下了千万局的棋局。也就是说比所有的棋手多下了几千万局的棋，最后的结果是4比1战胜（李世石）。最好的棋手一生中所下的棋局是百万级，而AlphaGo下过的棋局是几十亿级的，这两项数据非常不对称，（人类）绝对是输的。这里可以看到，一个是数据的力量，第二个是计算资源的力量，大家没有看到背后算法的力量。但AlphaGo能够在两三周里学到几千万个棋局，靠的是什么，其实是靠学习算法，它自己能自己下棋，靠的是什么，靠的是强化学习算法，没有这些，它是做不到的。

4.满足四个条件机器才能超过人类

是不是所有问题，只要有数据，就能够做到这么好呢？不是！这要受四个条件限制：头一个条件当然是需要有大量的数据，第二个是完全信息，第三个是确定性，第四个是单领域和单任务。只有这四个限定条件达成后才有可能做到刚才说的，达到或者超过人类的水平。有很多问题（同时）符合这些条件，比如说医疗数据，可以做大数据处理，像某些疾病的医疗诊断，医疗图像的识别，医学图像识别等等，只要（问题领域）符合这四个条件，都可以做，而且经过努力，依靠那三大法宝是可以达到或者超过人类的水平。但是，大量的工作并不符合以上四个条件，不符合中间一条两条或者四条都不符合，如果一旦不符合这四个条件中的任何一个，现在的人工智能技术就有困难。

所以，现在的问题是下一步怎么办。单业务的问题，单领域的问题，下围棋的程序只能下围棋，不能下象棋。但是人类很多棋手象棋和围棋都下的很好，语音识别系统只能识别语音，不能识别文字，这些多任务问题怎么解决？不久前，Google发表了一篇文章，文章的题目也很震动人，一个模型可以学所有的任务，当然这里面有夸大说法（的成分）。

但是，这也就意味着在一个网络里，一个模型里可以学多项任务，它一共学了八项，这八项任务中有五项是属于机器翻译的，有英文翻译成法文，英文翻译成德文，法文翻译成德文等等，有图像识别，图像解释等等，一共八项任务在一个网络下学习。如果这个问题解决了，就能让计算机解决更复杂的问题，因为这不仅涉及到一个领域，还涉及到另外的领域。当然这是个初步工作，但是它有个非常好的苗头

对此，以往大家是困惑的，语音也在里面学，文字也在里面学，图像也在里面学，会不会互相干扰呢，过去我们怕装不同东西的时候它会乱了，会互相干扰，但Google得出来的结论，不仅不会互相干扰，在一定程度上还略微有帮助。这个帮助领域可能很广，语音的东西帮助机器翻译，机器翻译会帮助图像，这是个非常重大的成果。这就说明人大脑里可以做很多事情，它们互不干扰而且能够互补。（北美）还在引领这些发展，如果中国只低头用深度学习去解决（应用）问题，这个确实需要，但是如果不去研究一个目的背后需要解决的问题，中国要达到引领是不可能的。

目前看，相当一部分问题不符合刚才讲的四个条件。简单举一个例子就是无人驾驶车。无人驾驶车到现在为止，在特定的条件下可以用它，如果在交通非常繁忙的地方，美国、德国都规定这个时候司机不能下车，无人车上都必须得有司机。为什么会有这个规定呢？这不是坐无人车的人的责任，这是人工智能的问题。

因为这是在一个开放的环境下，大数据解决不了它，大家不要认为大数据可以解决一切。同样，自然语言理解，大数据也不能解决，它是一个开放的领域，因为人类说话的时候各个领域的话都可以说。简单解释下，为什么在复杂的交通环境里司机不能下车，原因很简单，大家看一下这个路况（展示复杂路况图），计算机能搞明白吗，中国式的过马路计算机能搞明白吗，美国式的过马路计算机就能用吗？也不能用，因为突发的事件，新的场景，新的路况是层出不穷的，你不可能把它所有情况都算到。

但是人为什么可以呢，机器为什么不可以呢？理由非常简单，就是人工智能现在做不到举一反三，人工智能现在学习的是举一百反一。它要训练几千万上亿的样本，你的测试新的样本只有几万，现在多的有几十万，它是学过才能够识别，没学过的识别不了，也就是所谓的举一反三能力，用专业话讲就是推广能力，这是怪人工智能，不怪坐车的人。

所以，这里面有大量的研究工作要做，美国人也在引领这些研究，我们如果不去关心，那么问题就会很大。我们要解决小样本甚至零样本学习的问题，小样本学习就是用很少的样本学习和训练，然后就可以推广到应用。比如小孩学习一个马或者牛的概念，只要看一下马或牛，甚至看一下马的图片就能认识真正的马，计算机不行，得把所有情况所有背景下的马都得让它看，要看成千上万个它才能识别。

第二，样本少了怎么办？现在有自动产生样本，这点也是美国人提出的方案。两个对抗的深度网络就可以产生各种各样的样本。包括，现在可以逐步地（自动）产生非常复杂的环境和路况，这就可以解决样本不足的问题。因为有大量的问题根本没法取样本。

5.深度学习并非万能

回头看，深度学习也不是非常完美的。很多人以为用深度学习去做产业或者应用是不会有问题的，但是这里要强调，深度学习有大量的隐患，这些隐患在很多应用场合下是绝对不允许的。首先，它需要大量的样本，有些问题很难获取很多样本，比如特殊疾病，罕见疾病，根本没有那么多样本。当然推广能力差已经说过了。给它什么（数据训练），它就只能学到这个，最重要的是，不可理解性，现在看到深度学习建立的系统，实际上跟人的思路很不一样。

因此，这句话说它（机器）的识别能力超过了人，这只是在非常特定的环境下这么说，其实很多方面它不如人。比如它识别率比人高，只是说它区别马和牛能力比人高，就是在一定的数据库下它识别能力比人高，但是它根本上不认识马和牛，所以这个不理解性问题很大。将来如果做一个人机系统，决策系统的话，机器做出来的决策人都不知道它怎么做出来的，那怎么用呢？

我们看一下为什么机器学习的效率这么低，还要使用那么多样本，比如用这张图告诉（机器）说这里有一只猫，这个猫在这里面信息流占了多少比重呢？我们有计算过是1.1%，也就是说提供的这个样本只有1%左右有用，99%没有用，因为提供这个照片告诉它这里是一只猫，计算机根本不知道猫在哪儿，所以这就迫使人们必须用大量的样本，告诉它这是猫，在草地的猫，在另外的背景里猫会变成这样，要用各式各样的样本在不同背景下的猫去训练它，它才能认识，只有跟它相近的背景、相近的角度拍下的猫它才认识，如果背景变了，猫拍摄的角度变了它也不认识了，所以这是它的一个根本性的问题，它不理解，但人是看了这个猫就理解这个猫。

第二，鲁棒性差，左边这个图这个猫是熊猫，中间这个图我们加了一点线可它还是熊猫啊，可是计算机把它判断成长臂猿了，这就叫鲁棒性，很容易错，因为它本质上不认识猫。虽然做出来的表面上看起来性能跟人一样，实质上跟人是非常不一样的，所以我们说的能超过人都是在特定意义上说的。

机器把这个环境的猫都学了，我们来了一个新样本也是猫，环境跟它完全不一样，它不认识了，这就叫推广能力，它无法举一反三，至于刚开始说的无人车问题，训练的时候可以这样过马路，换成另外一种形式过马路，你没教它它就不知道怎么弄了。比如说，对人来讲马上能区分出来，一个男的一个女的肯定不是一个人，但是机器里绝对把他看成一个人，因为从各种特征来看很多是一样的，因为它不认识什么是男什么是女，所以，机器做的事和人是不一样的。

所以，现在实际要解决的问题就是人和机器能够合作的问题。大家都在强调，今后的方向肯定是人和机器合作，要各发挥所长，这里面有一个问题就是机器如何理解人，人如何理解机器。过去的重点是放在机器如何理解人上面，比如说人类的语音命令，用自然语言发的命令它能够听懂，这是所谓自然语言对话。

其实忽视了一个非常重要的另外一个点就是人如何理解机器，这是由深度学习引起的，因为深度学习出来以后，它做出来的事情人非常不理解，这就给人机共同合作带来了巨大的困难，所以现在很多的重点除了做自然语言理解，理解用户的意图等等这些工作外，还要集中在人如何理解机器的方面。

为什么会发生这种情况，为什么机器的思路跟人不一样，因为机器处理的方式要用专业的语言。机器怎么识别猫呢？它只是从一些局部的特征，局部的纹理来识别它，它根本不是从猫的整体，因为机器要取得整体的特性是非常困难的，它只取得局部的特性，所以它都是在利用局部特性，在一个特征空间里去认识猫，跟人认识猫的角度完全不一样，人认识猫是从所谓语意空间里，是通过它的各种各样的属性来识别它，比如猫有四条腿，猫有尾巴，猫有长胡子等等，机器不是这么认识它的。

总结一下，人工智能做了两件事，一件是属于文本处理。早期的，以知识为基础，在一个称为语意的符号空间。也就是说文本在机器里用符号来表示，而且这个文本就是用原来自然语言表示。但是做起来有两个难点，一个难点就是要从文本符号、符号序列中挖掘出它的知识很困难，而且符号的处理非常低效能。所以早期的人工智能没有得到很大的发展。

往后进入深度学习时代，深度学习时代依靠的是数据，它是在向量空间里来处理的，因为向量对计算机来讲非常好处理。深度学习为什么那么有效，重要的原因是用想象来处理的。缺点是做出来的东西是不可理解的，跟人的做法完全不同。将来怎么利用它呢，所以无法利用。现在大量的研究工作是集中在寻找中间量，称之为语意的想象空间，右边取一个词“语意”，左边取一个词“向量”，所以任务就变成了两个，如何把文本符号的东西变成向量。至于如何将数据空间把它提升到语意中来，也是不久前Google发表的文章提出了一个方向。另外，如何从数据中间提取知识，人们常说的数据挖掘。这些领域进展都非常快，一旦这些问题突破了，人工智能不论是技术，还是产业都会得到进一步的飞速发展。

目前，这些研究不仅只是大学或者科研机构的事情了，企业也都在纷纷参与。我有个团队也是围绕上面的问题，重点是如何突破将来人工智能要解决的基础和关键问题，而不仅只是低头跟随性的应用深度学习，只有从这点上着手，我们才有可能实现（在人工智能领域）追赶、超过或引领的目标。