因果逻辑关系是机器“吃透”人类语言的关键
研究发现很多实验室数据其实是无效的,一旦环境改变了,人工智能就会“一脸懵圈”,背后的原因是关系纽带的不对,比如图像识别,实验者认为引发人工智能做出判断的因素是图片的纹理和颜色,而实际上人类在识别图像时还会考虑因果关系,这就是差别。
为了攻克这方面的缺陷,科学家们提出了深度生成模型,它的优势在于通过激励人工智能在训练中预测未来,从而通过培养模型的因果逻辑性提升输出的准确性,以及深层对抗模型可以不断提升输出的准确性,更重要的是人工智能通过训练最终具备预测未来以及制定计划的能力。
在机器学习的训练中,不仅需要注意因果逻辑,还需要注意用于训练的样本数据需要遵循独立同分布原则(Independent and identically distributed):关注用于训练的数据集的代表性和迁移性,样本数据的分布特征必须和测试用数据集、母体数据保持一致,研究发现确保数据分布一致性可强化训练模型的因果逻辑推理能力。
人工智能娃娃游戏平台(BabyAIgame)
人工智能娃娃游戏平台模仿婴儿的成长过程,设置了‘学习者’和‘人类’的游戏或场景。学习者就是‘babyAI’,我们为学习者设计任务,任务以自然语言的形式出现,比如去某个地方、打开、捡、放等,通过与人类用自然语言互动帮助学习者理解周围的环境。
从科学实验的角度出发,项目的实施过程将会是趣味性十足的!
首先,大量的人机交互数据(尤其是语言)将会被收集,随着玩家(人类)越来越多,数据库也会越来越大。
另外,游戏甚至允许人类玩家在游戏中自行设计任务,任务难度逐渐提升。
该项目最大的挑战来自于样本数据的复杂性,哪怕只是非常简单的任务,比如让计算机挪动小件物体,对于训练用的数据量要求也是非常巨大的,因此我们首先需要海量的数据服务于这个雄心勃勃的计划:记录真实世界中成年人与婴儿之间互动的数据。
“意识先验”理论:过滤冗余数据,降低算力消耗
图片来源: Bengio的演讲 Challenges for Deep Learning towards Human-Level AI
传统的深度学习理论需要大量的数据,注意力机制的出现为解决训练数据容量的难题带来了解决思路,但仅仅具备无意识的认知能力(第一类认知系统)还远远不够。
为了将机器的推理能力提升到人类水平,我们在现有模型的基础上,增加预测未来的能力,即意识先验(The Consciousness Prior),直观的说就是人工智能看到“下雨”,联想到“人们会打伞”。
意识先验借用了注意力机制的部分原理筛选出少量、“高纬”的数据,用作大量的预测训练,将无意识层次的数据归类为“低纬数据”,使用少量的、更直接的高层次数据提升了模型预测和推理能力,也减少了训练用时,最终成为有“意识”的类人脑。