周志华：“数据、算法、算力”人工智能三要素，在未来要加上“知识”

2021-02-27 17:48:00

原标题：周志华：“数据、算法、算力”人工智能三要素，在未来要加上“知识”| CCF-GAIR 2020

编者按：2020 年 8 月 7 日，全球人工智能和呆板人峰会（CCF-GAIR 2020）正式开幕。CCF-GAIR 2020 峰会由中国计算机学会（CCF）主理，香港中文大学（深圳）、雷锋网联合承办，鹏城实验室、深圳市人工智能与呆板人研究院协办。从 2016 年的学产联合，2017 年的产业落地，2018 年的垂直细分，2019 年的人工智能 40 周年，峰会一直致力于打造海内人工智能和呆板人领域范围最大、规格最高、跨界最广的学术、工业和投资平台。

在第一天的人工智能前沿专场上，南京大学计算机系主任、人工智能学院院长、CCF会士、ACM、AAAI、IEEE、IAPR Fellow周志华教授以“反绎学习”为题发表了大会陈诉。

周志华表示，当今的人工智能热潮是由于呆板学习，特别是其中的深度学习技能取得巨大进展，在大数据、大算力的支持下发挥出巨大的威力。呆板学习算法模子用了更多数据和算力后，得到的性能增长可能远超算法模子设计者的预想。但是，把模子“做大”要支付高昂的成本代价。

因此，他认为，在人工智能研究上，学术界和工业界相宜有差别的分工：把“对性能的寻求”交给工业界，学术界回到本源，做“探路”和“思索未来”的事情。

如何将“呆板学习“与“逻辑推理”相联合，是人工智能领域的“圣杯问题”，以往的积极有的是“重推理”，有的是“重学习”，另一侧未能充实发挥气力。周志华教授提出了“反绎学习”，希望在一个框架下让呆板学习和逻辑推理二者能更平衡更充实地发挥效用。

他说到，“现在都知道人工智能技能发挥作用需要数据、算法和算力这三要素，未来需要把知识这个要素也思量进来。知识凝聚了人的智慧。已往十几年，我们都是从数据驱动的角度来研究人工智能，现在是时候把数据驱动和知识驱动联合起来。”

以下为周志华教授的现场演讲内容，雷锋网作了不改变原意的编辑及整理

周志华：列位专家、朋友，各人上午好。感谢CCF和杜子德秘书长约请，作为CCF的老会员，很兴奋来到场这个活动。今天我跟各人分享的主题是《Abductive Learning（反绎学习）》。

人工智能技能的发展需要三个要素：数据、算法和算力。前几年，“大数据期间”是一个热词。各人都知道，大数据自己并不一定意味着大价值。数据是资源，要得到资源的价值，就必须举行有用的数据分析。在今天，有用的数据分析主要依赖呆板学习算法。

今天的人工智能热潮主要就是由于呆板学习，特别是其中的深度学习技能取得巨大进展，而且是在大数据、大算力的支持下发挥出巨大的威力。

谈到深度学习，就要谈到深度神经网络。深度神经网络是非常庞大的体系，要训练出来需要许多数据、很强算力的支持。人工智能算法模子对于算力的巨大需求，也推动了今天芯片业的发展。比方现在训练深度神经网络用到的GPU，更早是用于动画、渲染。如果没有深度神经网络这么大的需求，GPU也很难有今天这么大的市场，更不消说现在另有TPU等新的设计。

以是我们可以看到，人工智能算法模子的发展，与算力、芯片发展之间，有相互促进的作用。这几方面的要素是互相促进、互相支持。

把“对性能的寻求”交给工业界

另一方面，把强盛的算力、超大的数据往上堆，可能把现有呆板学习算法模子的能力发挥到极致，所能到达的性能水平甚至可能令算法研究者自己都感到惊讶。这种“鼎力大举出奇迹”的“暴力美学”，已经产生出了非常强盛的模子。

比方说，最近各人谈到的当前最大人工智能模子——GPT3。它用到的训练数据是45TB，模子参数1750亿参数，模子巨细700G。基于这个模子，许多困难的问题像自然语言处置惩罚里的许多问题都取得大幅度进展。

我们来看看这篇关于GPT3的论文。和我们这个学科一般的论文不太一样，作者非常多，31位作者。文章后面有分工先容，有的作者是专门写代码、有的是专门调参数、有的专门做数据采样、有的专门写论文…… 流水线分事情业，简直是工业化大生产的模式。

再看看论文中的算法模子，可以看到，都是已有的技能，内里每一部门都不是新的。但是，基于强盛的工程化组织，让它发挥了巨大作用。焦点要点就是做大、做大、再做大。

做大就一定支付代价。读这篇文章可以注意到内里有一句话，说作者发明这个事情中有一个Bug，但是由于成本太高，就没有重新训练。据说训练一次的成本约莫1300万美元，以是即便发明有Bug，也就忍着算了。

如许的模子可以或许解决许多问题，带来很大的性能提升。但是云云高昂的成本，也给我们从事人工智能研究的人带来了新的挑战，特别值得让学术界从事人工智能研究的学者思索一个问题：昂贵的成本必须换来效益回报，模子性能提升，在工业界能提升经济效益，有时哪怕性能提升一两个点，带来的回报可能足以弥补投入。但学术界如果花这么大成本，怎么能带来足够的回报？

学术界和工业界在人工智能研究上，相宜有差别的分工：把对“性能”的寻求交给工业界，学术界不必过多地存眷“性能”，由于模子性能提高那么几个点，对于学术界并没有多大的意义，仅仅是发表几篇论文的话，对不起这么巨大的投入。固然，我们造就了人才，人才是无价的，但是不消花这么多成本也可以造就优秀人才。

把对性能的寻求交给工业界，那么学术界做什么呢？回到本源，做学术界该做的事情：“探路”、“思索未来”。只要是全新的探索，乐成了可以指出新的门路，即便不乐成，也可以指出此路不通，都是有巨大意义的。一条门路探明之后，进一步的改进和提升就交给工业界。

“推理+学习”的难题

开头我们说到，人工智能技能发挥作用要有算法、算力和数据三大要素，未来是不是还如许呢？要不要往内里加工具？这是我们现在要思索的。

疫情期间我们跟互助者，包括公司企业和医学专家，一起做了一点事，做的人工智能疫情分析推演模子为相干部门疫情防控决议做了一点微小的辅助。这个事情中大量使用了呆板学习技能，但是仅有呆板学习够不敷？不敷！我们使用了许多高水平医学专家、病毒专家的知识。我们深深领会到，如果呆板学习技能可以或许跟专家知识很好地联合起来，大概会发挥超出我们预想的作用。

事实上，在人工智能领域有一个长期存在的“圣杯”问题，就是我们什么时候可以或许把呆板学习和逻辑推理很好地融合起来？如果可以或许得到一个完备的框架，可以或许让这二者同时在其中很好的发挥作用，那这是我们非常希望到达的一个目标。

为什么要思量这件事？我们起首可以看一看。逻辑推理它非常容易来利用我们的知识，而呆板学习呢比力容易来利用数据、利用证据、事实。但是如果从人类决议来看，许多决议的时候同时要使用知识以及证据。那么这两者能不能很好地弄到一起去呢？

非常遗憾，虽然逻辑推理和呆板学习在人工智能汗青上有许多研究，但是这两者基本上是独立发展起来的。比方说在1956年代到1990年代期间，逻辑推理和知识工程是人工智能的主流技能，但这时候呆板学习的研究还很冷清。而到了90年代中期之后，呆板学习研究变得非常的热门，但这时候逻辑推理和知识工程的研究又变得冷清起来，甚至今天从事这方面研究的人在全世界都已经很少了。

如果想把两者联合起来，最主要的停滞是什么呢？最主要的是，这两者险些是基于完全差别的表示方式。

逻辑推理我们一般来说可以认为它是基于一阶逻辑规则的表示。这里我们看一个例子，这内里有三个子句，第一个字句：对于任意X和Y，如果X是Y的怙恃，那么X比Y年长；第二个字句：对于任何两小我私人，X是Y的妈妈，那么X就是Y的怙恃；第三：LuLu是FiFi的妈妈。现在如果我们问：谁更年长一些？那么如果从如许的一个逻辑体系，我们马上就可以知道，第三句话，我们知道Lulu是Fifi的妈妈，那么从第2句话我们就知道她是Fifi的怙恃。又从第1句话我们知道她肯定比Fifi年长。逻辑推理就是基于如许的一些逻辑规则描述出来的知识，来帮助我们做如许的推理判断。

呆板学习呢，它走的是另外一个路线。我们会网络许多的数据，比方说把这个数据组织成这么一个表格情势，每一行就是一个对象或者事件，每一列是描画它的一个属性或特性，这就是所谓的“属性-值“表示情势。如果从逻辑的角度来看，这种表示是非常基础的命题逻辑的表示方式，可以把属性值表对应成逻辑真值表。而命题逻辑和硬件逻辑中心是有非常大的差别，很紧张的就是有对于“任意”以及“存在”如许的量词会产生作用。一阶逻辑表示由于涉及量词，比方说如果要把“任意”这个量词拆开把每个可能的X当做一个样本，那就会酿成无穷大的样本集。如果把一阶逻辑中的谓词比方说“parent”看成一个属性，那么你会发明，每个逻辑子句描画的并不是某个样本，而是在描画样本之间的某种关系。于是，当我们把谓词直接当做属性试图睁开成平凡数据集的时候，会发明数据集里甚至没有真正的属性-值的描述。

虽然很困难，但各人都知道，如果能把两者联合起来，可能会有更大的威力，因此汗青上已经有许多研究者在做积极。我们可以归结是大抵两个偏向的积极。一个偏向主要是做逻辑推理方面的学者，实验引入一些呆板学习内里的基础的技能或者观点。这内里形成了一大类技能，有许多的做法。我们举一个最简朴的例子，比方说刚刚给各人看到的几个子句，每个逻辑子句是确定的：要么建立，要么不建立。我们现在可以给每个逻辑子句加上一个权重，一定水平上我们可以认为它反应这个子句建立的概率。好比说：如果一小我私人是大学三年级，另一小我私人是大学一年级，那么第一小我私人很可能比第二小我私人年长，这个可能性是80%。通过加一个0.8，我们就使得这个事实酿成一个概率的建立。如许得到的带有概率权重的子句，就可以举行一定水平的概率推理。

另一个偏向是从呆板学习的角度，实验把一些逻辑推理方面的工具引进来。比方说我们看到有这么一条子句，如果一小我私人他吸烟，那么他很有可能得癌症。有了这么一个知识，我们就可以在做贝叶斯网初始化的时候，把任何一个X，如果他smoke，我们就把它和cancer之间的这条边连起来，也就是说我们用这个开端的规则帮助我们做这个网络的初始化。初始化之后，原来贝叶斯网该怎么学就怎么学。

以是我们可以看上面这两大类做法。第一类，我们可以看到它是把呆板学习往逻辑推理中引，但是后面主体照旧通过推理来解决问题，以是我们称它是推理重而学习轻。第二种做法基本上是反过来，它把逻辑推理的技能往呆板学习内里引，但是后期主要的解决问题是靠呆板学习，以是我们称它是学习重而推理轻。总是一头重一头轻，这就意味着有一头的技能没有充实发挥威力。

以是我们现在就想，能不能有一个新的机制帮助我们把这两大类技能的威力都充实地发挥起来呢？我们最近提出了一个新的方案，叫做Abductive Learning。

什么是“反绎”？

要去理解Abductive learning之前，我们先来理解这个abductive是什么寄义。

在人类对知识的处置惩罚上，或者说对现实问题的抽象上，我们通常有两种做法。

一种是演绎，我们从一个一般性的原理出发，然后把一些特定的结果可以或许得出来，而且这个得出的历程是有保障的。比方说我们做定理证实，起首拿到一些数学正义，然后基于这些数学正义，把与它们一致的全部别的定理都证实出来。这就是一个“从一般到特殊”的历程，这是演绎。

另一种做法是归纳，就是说我们先看到一些特定的事实，然后我们从特定的事实中总结出一般的纪律。实在呆板学习做的就是这么一件事。我们看到许多许多的数据，然后希望学习出反应一般纪律的模子，这就是“从特殊到一般”。

定理证实可以说是演绎的典型代表，而呆板学习是归纳的典型代表。我们今天讲到的这个反绎，不太一样。Abductive这个词在逻辑里有时候翻译成诱导。但是在我们这个框架下，再把它翻译成诱导就不是特别合适，以是我们另译为反绎。反绎学习就大抵是把演绎反向嵌入到呆板学习归纳历程中去。

反绎是什么意思呢？它是起首从一个不完备的观察出发，然后希望得到一个关于某一个我们特别体贴的集合的最可能的解释。直接从这句话来理解可能有困难。那么下面我就先给各人看一个例子，是关于怎么去破译玛雅历法这么一个故事。

各人知道中美洲有一个陈腐的玛雅文明。他们建立起了非常庞大、精致的历法体系，详细是有三套历法。

左边这三个石柱子上画出了许多的图案，每个图案它会表达一个寄义。看中心赤色方框中心的5个图像，考古学家知道是对应了玛雅的一个历法叫做长历。这是一组看起来像是IP地址的数字，它现实是不严酷的20进制，描述了一个日期，就是玛雅文明认为从创世开始一共颠末了几多天。这内里第1个和第4个是什么寄义还不知道，以是打了问号，第2个图像对应于18，第3个对应于5，末了一个对应于0。

接下来，蓝色框出来这两位，对应于玛雅的神历。左边这个图像是什么寄义还不知道，打了问号；右边这个符号已经知道代表一个工具叫做Ahau。这两位联合起来也代表了一天。实在这两位一个是指月，一个是指日，有点像我们中国天干、地支的搭配，类似于在说“庚月子日”。但仅靠它肯定是不准确的，即便知道“庚月子日”也不知道详细是哪一天，由于汗青上有许多的庚月子日，还需要要和别的信息联合起来。

末了这两位是13 Mac，对应玛雅的太阳历，是说这一年第13个月第14天。但是，这是哪一年？仅凭它还不知道。

但是如果这三个历法里的问号都清晰了，那么这一天的定位就非常准确了。现在需要把这三个问号破译出来。我们有一个紧张的知识：这三个历法体系，由于它们指的是同一天，那么展现出来的这三个问号的值一定会使这三个计数到达一致。

那我们看看考古学家会怎么做这个事。拿到这个图像之后，他们起首根据以往破译图像的经验去“猜“ 这些数字是什么。但这很难，考古学家现在只知道这两个赤色的应该是同一个数，蓝色的应该是另外一个数，但这个赤色的既有可能是1，也有可能是8，也有可能是9。由于玛雅人刻石柱是手工而不是呆板做的，每次都有变化。比方说各人看到最上面这个赤色的图像，它好像和这个1最左边这个很像，和8的第二个也很像，跟9最右边的这个也比力像。

然后接下来考古学家做什么呢？他们把可能的情况全部睁开。比方说如果我们认为赤色的这个是1，那我们现在这个蓝色的就有几种可能，2 3 4 5 6 7这些可能都有，比方右边的最下面一行是1.18.5.7.0，这是从观察到的图像得出的推测。也就是说从观测到的石柱，他们得出了这么几个可能的假设。接下来的一步，他们就要利用所掌握的知识来做判断。

所掌握的知识是告诉我们现在这三个历法体系，它对应的日期应该是同一天。这里恰好找到赤色是1、蓝色是6的这一行，对应的破译结果是长历的创世以来第275520天，恰好是神历中一年的倒数第三天，也恰好是太阳历中第13个月的第14天，统统都一致了！于是，这就得到告终果。

这就是反绎的历程。

我们回首一下，起首它来自一个不完备的观察，有的图像是什么我们知道，有的图像是什么我们不知道。然后基于这个观察，我们得到一个假设。有了这个假设之后，根据我们的知识来找一个最可能的解释。而这个解释就是现在赤色，蓝色这个我们当前所体贴的集合。这就是反绎的寄义。

我们现在转头看一看现在的呆板学习。起首我们要有许多instance，这是我们的样本。我们要有许多label，这是关于训练样本的已经知道的结果。我们把它合起来做监视学习，训练出一个分类器。

反绎学习的设置不太一样。我们有一些样本，但只有样本的体现，不知道结果。这就类似于适才在玛雅这个故事内里我们看到许多图像，但这个图像对应的寄义是什么还不知道。反绎学习中假设有一个知识库，这就类似于适才考古学家所拥有的关于历法的知识。同时我们另有一个初始分类器，这就好比说考古学家一开始看到这个图像，他会猜这个图像到底是什么？那么他凭什么猜呢？是他脑子内里有这么一个分类器。

在这个学习中，我们先把全部的数据提供应这个初始分类器，这个初始分类器就会猜出一个结果，比方说赤色的可能是1等等。然后得到这个结果之后，我们就会把它转化成一个知识推理体系它可以或许接受的符号表示。好比说从这些label内里，得到了A，非B，非C等等。

那么接下来这一步，我们就要根据知识库内里的知识来发明有没有什么工具是不一致的？适才在玛雅历法的故事里，第一轮就一致了，但在一般的使命中未必那么早就能发明一致的结果。如果有不一致，我们能不能找到某一个工具，一旦修改之后它就能酿成一致？这就是我们要去找最小的不一致。假设我们现在找到，只要把这个非C改成C，那么你得到的事实就和知识都一致了。我们就把它改过来，这就是赤色的这个部门。那这就是一个反绎的结果。而反绎出来的这个C，我们现在会回到原来的label中，把这个label把它改掉，接下来我们就用修改过的label和原来的数据一起来训练一个新分类器。这个历程可以不停地迭代下去。这个分类器可以取代掉老的分类器。这个历程一直到分类器不产生变化，或者我们得到的事实和知识库完全一致，这时候就停止了。

可以看到，左边这一半就是在做呆板学习，而右边这一半是在做逻辑推理。而且，它不是说一头重一头轻，而是这两者互相依赖，一直如许循环处置惩罚下去，这么一个历程。反绎学习的情势化描述，我们今天就不睁开了。

反绎学习的讨论与案例

有几点内容我们来讨论一下。起首我们看这个数据部门。在反绎学习中，这个数据只需要有instance，不需要有label。那么我们靠什么来做监视学习呢？主要就是靠初始分类器以及知识库中的知识。可以认为这个监视信息是来自于数据之外的地方，以是从这个角度上说，反绎学习可以看成是一个很广义的弱监视学习。但另一方面，如果初始数据中确实是有label的，那这个学习历程，label信息完全可以用上去。比方说，我们把真的label和反绎出来的label一起用来对分类器做更新等等。

第二个方面，初始的分类器从哪来？这可以有许多的措施，比方说类似于深度学习的预训练或者迁移学习，做一个使命时可以用另外一个使命的结果做开端模子。甚至把数据聚类的结果作为粗糙的出发点，有时也可以。这里的要害是，初始分类器未须要准确可靠，只不外用它把历程启动起来。当初始模子非常粗糙时，如果知识库的知识靠谱，那就能通过知识库的信息来修正分类器，能举行下去。如果知识不太精准，而初始模子比力好，也能往放学。如果两者都好，固然可以做得更好。也就是说，至少有一个好就能往下做。固然，如果数据没有label、初始分类器不靠谱、知识也不靠谱，那如许的使命自己就没法做。

那接下来，这个知识库从哪来？这个目前照旧需要人类专家来提供。最近一些关于知识图谱的事情能提供许多帮助。另外，有可能初始的知识并不是完善的，那么这个历程中，也可以通过对数据的学习来对知识做精化，以是反绎学习自己也可以认为是一个对知识精化的历程。

接下来这个历程中涉及到怎么样详细地去做学习，去做推理等等，这些详细算法机制的设计。反绎学习自己是一个框架，对内里这些机制细节做差别的设计，可以产生出差别特点的反绎学习模子和算法。

下面就先容一个简朴的例子，面临的这个使命是破译长代码。

比方上面三行代码，这个代码是以图像情势出现，比方说第一行是正例，第二行是反例，能不能判断第三行是正例照旧反例？这里训练数据的长度和测试数据所用的长度不一样。而且，数据的语义是什么事先也不知道。这和破译暗码有点像。现在思量简朴的XNOR问题。

第一个是DBA使命，左边是训练数据，每个数据都是由5个图像组成，可以认为它是5位，0+0=0是正例，1+0=0是反例。我们对这5位图像组成的数据学习之后，测试数据是右边如许，长度要比训练数据长得多，而且有些数据特点也差别，比方训练数据中的等号总在倒数第二位，而测试数据中的等号可以出现在很不一样的位置。第二个RBA使命更困难，连图像的寄义都看不出来，图像都是随机天生的。

我们用了一个简朴的实现。呆板学习部门就是用卷积神经网络，逻辑推理部门用ALP，都有开源代码可以直接用。把两者衔接起来，中心的优化求解历程跟一般呆板学习里不太一样，我们在神经网络、统计学习里的优化一般用到的是数值优化，通常用梯度降落来做，但现在是面临符号优化，不能求导、梯度降落。这里就用到我们研究团队近五六年一直在做的零阶优化要领，不消求梯度地做优化。把这几个技能联合起来，就是这个简朴的实现。

我们看看这个实验结果，图上蓝色和紫色分别对应基于卷积神经网络、 LSTM处置惩罚得到的结果。下面有一条横线对应的是随机推测，上面一条横线对应的是人的水平。第一个图的DBA使命，我们可以看到，如果长度在12位以内，神经网络比人做得好。但是长度凌驾12位，人比这些神经网络要强。橙色部门是反绎学习的结果，通过把呆板学习跟逻辑推理联合起来之后，在这个使命上比一般人做得好。右边的RBA使命情况类似，在这个更困难的使命上，随着串长度的增长，全部要领的性能都在降落，但是基于反绎学习的要领照旧比人的水平高一些。

实验里这个简朴使命自己并不紧张，紧张的是显示出把呆板学习和逻辑推理以”相对平衡”的反绎学习方式联合起来，虽然仅用了很简朴的实现，就焕发出令人兴奋的能力。今后如果设计出更精致、巧妙的实现方式，可能会给我们带来更多惊喜。

各人感兴趣的话，上面第一篇文献是发表在中国科学上的文章，跳出细节来描述整个框架，很容易读。第二个是描述了适才的这个详细实现。

末了做一个简朴的小结和展望：我们现在经常在谈数据、算法和算力三要素，未来大概应该思量进知识这个要素，知识凝聚了人类积累的智慧。已往十几年，我们都是从数据驱动的角度来研究人工智能，现在可能是时候把数据驱动和知识驱动联合起来了。我们的这个事情只是非常粗浅的开端探索，这里的研究空间很大，各人如果有兴趣，信赖会在这方面做出更好的事情。谢谢！

P.S：演讲竣事后，周志华教授还为《呆板学习理论导引》以及《集成学习：基础与算法》两本新书举行了签售会，两本书分别出书于2020年6月和8月，前者为有志于呆板学习理论学习和研究的读者提供一个入门导引，后者则体系性地论述了集成学习，两本书在签售会现场引起读者和现场观众的积极回声。

温馨提示：目前，大会现场票已罄，应观众强烈需求，现新增少许第三天 8 个专场通票，今天是末了的时机，马上申请抢座：https://gair.leiphone.com/gair/free/s/5f28d5ae607bf。雷锋网(公众号：雷锋网)

雷锋网原创文章，未经授权克制转载。详情见转载须知。

周志华：“数据、算法、算力”人工智能三要素，在未来要加上“知识”

关于我们

版权信息

周志华：“数据、算法、算力”人工智能三要素，在未来要加上“知识”

关于我们

网站标签

版权信息