张钹|张钹院士：解决AI安全问题，把知识驱动和数据驱动结合起来

在信息产业发展与技术发展过程中，过往的安全性问题主要来自于大型软件设计的一个漏洞或者缺陷，或者这个缺陷的造成往往被利用了，对系统进行攻击产生一些安全问题。这个是相对来说容易克服的，一旦发现漏洞后，把漏洞补上即可解决。
而发展到人工智能技术时则出现一个全新的安全问题，其不是来自于设计时有漏洞，而是来源于算法本身的不安全性。这个问题是非常难以解决的，必须对算法本身做一个彻底的改变。
8月3日，中国科学院院士、清华大学人工智能研究院名誉院长张钹在RealAI主办的人工智能产业治理论坛上作了《人工智能产业治理与创新发展》的报告，提出发展第三代人工智能的思路，以及如何通过技术创新，解决人工智能算法的不安全性问题。
张钹表示，对人工智能的治理有两个含义：一是防止人工智能技术被误用，就是无意识的误用，因为人工智能算法本身带来不安全问题，是很难被预先发现。所以，有时候在使用过程中间会出现很多错误，如果我们在使用的过程中不注意到这个问题会产生无意识地错用，造成严重后果。第二类问题是有意识（故意）地滥用人工智能技术，就是利用人工智能算法的不安全性，去造成对人工智能系统的恶意攻击或者滥用，这个必须要通过法律法规来解决，加以制止。
张钹此次演讲主要聚焦于算法本身的不安全性问题，以及解决之道。

文章插图

文章插图

第二代人工智能则使用当下常听到的深度学习方法，即通过深度神经网络的模型模拟人类的感知，如视觉、听觉、触觉等。比如想让计算机识别出马，就先收集大量有关动物的图片，并把图片分成两类。一类作为训练图片，训练计算机识别马和其他动物，通过多层次神经网络学习。另一部分图片（没有学习过的图片）作为检测图片。如果90%识别对了，识别率即90%，误识率为10%。这种办法不需要领域知识，同时由于神经网络规模很大，可以处理大量数据。在给定图像（语音）库下，该方法可以达到甚至超过人类的识别水平。

文章插图

文章插图

文章插图

文章插图

在这个思路下有两种方法。范式一是把所有处理都放在一个连续空间里作为向量进行处理。原来的深度学习方法，即使用非常局部的特征来区分鸟与其他动物，是很容易受到攻击的。当下的解决方式是尽可能通过各种各样的途径加上用概率或向量的方法表达的知识。常用的一种方式是在训练时使用对抗样本，即告知机器，该样本尽管在某些局部特征上与鸟相同，但不是鸟。但这种办法只是治标，即只对这种对抗样本有识别能力，对抗样本换成另外一种形式失去效用。
范式二是无监督学习的方法。无监督学习的内容是建立周围常见物体的模型，比如人类的学习方式，其在生命早期就建立了狗和猫的模型，而且很容易通过举一反三建立起马的模型。
在计算机中就是通过无监督学习或预训练产生很多马的模型。但问题在于建立一个物体的模型，特别是像马这样的非刚体模型，会有很多种的变形，这不仅仅是视觉的不同，而是比如像躺下的马与跑起来的马就是完全不同的模型，于是建立什么样的模型是需要探讨的问题。