1知识图谱与人工智能的关系
在人工智能应用层出不穷的今天,作为软件从业者,我们都非常关注如何在自己研发的应用中使用人工智能技术,以提高软件的智能化水平。
回顾过往人工智能应用,主要利用了语音识别、图像识别方面的成果,但是不如想象般遍地开花。究其原因,我们发现,以机器学习为基础的人工智能应用往往需要满足以下几个特点:
1)必须具备充足的数据,而且这些数据是准确可靠的;2)需要具备完整的信息,例如下棋,是完整信息博弈,只要算的快就可以,而人的决策往往是在不具备完整信息的情况下做出的;3)结果是明确的,人很容易确定结果是否正确,即使暂时不能确定,确定的代价也不高;4)过程往往是静态的,缺乏动态的可预测性。
这些特点导致很多情况下无法采用机器学习方式,进行人工智能的应用。例如在大型装备的故障诊断中,我们无法具备大量准确的故障数据进行学习,因为很多故障没有发生过或者很少发生;故障发生后对故障原因的判定,也不是一个很容易判定的结果,因为故障现象难以重现;故障发生后应急方案的制订,目前深度学习、神经网络的方式,由于人无法了解其推理过程,产生的预案也往往不敢使用。
上述四点只要能够改善某一点,就可以给人工智能的应用带来更广阔的空间,这也是知识图谱作为人工智能一个重要方向的原因。
知识图谱(KG Knowledge Graph)是 Google 2012 年提出的概念,并成功应用于搜索引擎当中。但什么是知识图谱,Google并没有给出明确的定义,目前业界的定义例如维基百科、百度百科都是从 Google 搜索引擎中知识图谱的运用出发,进行相关的功能描述。
我们可以把知识图谱,理解为对知识的一种结构化描述,它以结构化的形式描述客观世界中概念、实体及其之间的关系,便于计算机更好的管理、计算和理解信息。它是新一代的知识库技术,通过结构化、语义化的处理将信息转换为知识,加以应用。
通常结构化知识是以图的形式进行表示,学术术语可以成为语义网络。图的节点表示概念和实体(学术术语称为语义符号),图的边表示节点之间的关系(学术术语称为语义关系),此外每个节点还有属性。
例如:人物、娱乐人物、歌手、影视演员都是概念,这几个概念之间有从属关系,周杰伦是一个实体,周杰伦是歌手,也是影视演员,周杰伦的出生日期等就是属性,周杰伦的妻子是昆凌,昆凌的丈夫是周杰伦,这就是关系,从上述关系可以推理出昆凌的丈夫是一个娱乐人物。
这个简单的示例表明,通过概念、实体以及之间的关系进行知识结构化表示,就可以让计算机具备推理能力,这种推理能力:
1)可以不需要大量数据基础就可以建立起来;2)不一定需要完备的信息就可以进行推理;3)推理的过程是可以评估的,人可以通过推理过程判断结果是否准确;4)可以进行对未来的预测。这就可以在一定程度上解决目前机器学习方式面临的问题。
研究知识图谱、人工智能的时候,我们经常遇到很多专业术语,例如语义网络、本体、知识库等等,理解起来非常费力。实际上如上例而言,用图的结构来表示知识就是语义网络,图的节点表示概念和实体,学术术语称为语义符号,图的边表示节点之间的关系,学术术语称为语义关系。
本体(Ontology)的源自于哲学领域,在哲学中的定义为“对世界上客观事物的系统描述”。哲学中的本体关心的是客观现实的抽象本质,而在计算机领域,本体是一种描述知识的方式。自从本体的概念引进后,就出现了资源描述框架 RDF(Resource Description Framework)、网络本体语言 OWL(Ontology Web Language)这样的语言进行标准化的知识表示。
其实本体也是基于图、概念、实体、属性、关系这些来描述知识的。传统人工智能领域采用了大量的学术术语,而Google的一个创新就是利用“知识图谱”这样直白的语言,形象的表述了一个复杂事物,用 AlphaGo 这样直观的示例,普及了人工智能的概念。而本文也希望尽可能用类比的方式,采用易于软件研发理解的语言来介绍使用知识图谱的过程,这也是取名“解开知识图谱神秘面纱”的初衷。