映射是什么意思
原作者
F. Guerin
Department ofComputer Science, University of Surrey, Guildford GU2 7XH, United
Kingdom.
摘要人工智能系统还不能与人类的能力相匹配,将知识应用于不同于他们被编程或训练的情况。在视觉对象识别中,利用自顶向下的信息(从模型中)进行推理的方法已被证明在困难条件下对识别实体是有效的。在这里,这种类型的推理被称为“映射”,它被证明是一种关键的机制,可以解决将知识应用到各种不同或具有挑战性的情况,跨越一系列人工智能领域,如视觉、机器人学或语言。本文最后讨论了映射与解决常识知识问题的相关性。
1.简介人工智能中有两个主要问题:如何将知识应用于各种情况,以及如何获取知识(学习)。本文的重点是第一部分。它包括知识表示和推理,重点放在(非经典)推理上。我们关注的重点是推理行为,它决定了某些数据是否可以被视为(或解释为)属于某个特定的类,而不是在使用不同知识的长推理链上。
与人类相比,人工智能(AI)系统的一个显著弱点是无法将现有知识应用于新问题,或应用于不同于其编程或训练目的的情况(在某些情况下也称为转移能力)。这导致系统无法识别新环境中的物体或活动,或无法使技能适应变化(Davis和Marcus,2015;Ersen等人,2017年)。这些系统拥有知识,但当情况发生变化时,它们无法应用知识。这个问题在学习阶段和最终部署阶段都会影响人工智能系统。深度学习,目前占主导地位的方法,是相当好的从头开始的学习方法,但较少能够利用先前的知识快速学习。LeCun(2018)给出了一个机器学习通过强化学习驾驶汽车的例子(没有先验知识):它可能需要跑上千次悬崖才能学会躲避,而大多数人类在大约20个小时内学会驾驶汽车,而不会撞车,这在人工智能标准中是非常显著的。人类必须能够应用他们对运动物体、动量、重力、摩擦力等的先验知识,使他们的学习问题更容易(见第4.2.1节中的讨论)。 Lake等人(2016年)给出了类似的例子,说明了学习玩游戏时人类与人工智能的这种鲜明的对比。这些作者指出,学习系统需要能够利用好世界的模型。
无论是用于学习,还是用于部署的系统,都需要在不同的情况下应用知识。人类很容易做到这一点。当为一项新任务进行训练或处理一个意外情况时,人们应用他们在不同环境中所学的知识,例如身体互动或社会互动。这就是为什么在人工智能无法应对变化的众多行业中,人类仍然是唯一可行的工人。将知识应用于一个情境是一个推理的问题:这种情境属于一个范畴,我们对这个范畴有着先前的知识或经验。它是一种非常基本的认知行为。人工智能显然缺少一些非常基本的东西。这篇论文是关于一种(非经典的)推理,可以更接近人类的能力,并暗示了代表性。其本质是一个自上而下的过程,将概念知识“映射”到较低层次的数据上,从而通过其他方式来表示数据。
自上而下的“映射”机制对于视觉感知(Epshtein et al.,2008)或计算机视觉(见第4.1.1节)来说并不是什么新鲜事。然而,它可以推广到认知的其他方面,具有跨人工智能领域的潜在应用,如高级视觉任务、语言处理和机器人技术。这是有利的,我们已经在视觉映射工作模型(见第4.1节),这有助于我们设想其他认知任务的实现,并评估各种任务映射的适当性和预期收益。与这种从视觉到其他认知任务的转变相匹配,这篇论文背后的一个推测性假设是,进化到灵长类动物视觉感知的复杂解释的大脑回路可能已经被复制并用于人类的其他认知任务。以下是主要贡献:
?说明一种机制(映射)的广泛适用性,以解决从低级感知处理到高级抽象概念的一系列人工智能应用领域的问题。(4.1.2, 4.2, 4.1.3节).
?解释映射与人工智能长期最终解决方案的相关性,以获得常识知识(第6章).
?解释映射在类比中的作用(第4.3.1节).
2.人类的映射机制作为映射的具体示例,考虑图片的描述,其中面部结构(在更高的描述层)可以根据眼、鼻、嘴、眉毛(在较低的层)组件之间的空间关系来描述。映射机制是一个自上而下的过程,其中较低层的一组元素被分组并解释为对应于较高层的组成成分。例如,在嘈杂或光线不好的条件下对人脸的视觉感知中,每个低水平的元素本身可能无法清楚地识别和识别(图1(a))。当一个模棱两可的感知元素(例如,由嘴产生的)被解释为“嘴”时,部分是由于它与其他面部元素的关系,这是映射的结果。这种映射思想在视觉感知心理学中有着悠久的历史,例如Gregory(1997)将其追溯到19世纪的冯·亥姆霍兹。
好处1. 通过利用更高层次的先验知识和其他可用数据,映射可以为不明确的数据段分配意义。
一般来说,映射使用分层的合成知识结构,其中较高的层(例如面部)描述较低层(例如眼睛、鼻子、嘴巴)中的组件之间的关系。映射有助于在从真实世界数据(例如,嘴巴的一部分)感知到的元素和抽象知识结构(例如,嘴的符号)中的组件之间创建映射,其中该结构定义了组件之间允许的关系。在知觉中,映射与自下而上的过程一起(交互地)工作,以识别物体、单词或事件(Epshtein等人,2008;Samuel,1981;Indurkhya,2006)。
图1(a)是由实际面部构成的,因此将其解释为面部将被认为是常规的。图1(b)是一个实际的悬崖,但人类的映射机制可以很容易地将其解释为一张脸;这被称为新颖映射(Indurkhya,1992)。同样的机制可以产生传统的和新颖的映射:在这两种情况下,它都将抽象的知识结构映射到现实世界的元素。不同之处在于社会对真实世界数据中的基本事实或典型认知的共识;新颖的映射导致识别一些不典型的东西。
图1.(a)上:低质量的人脸图像(b)中:看起来像悬崖上的一张脸(图片来自SnappyGoat)(c)下:先进的映射,图像可以代表一个人安慰另一个人。
新颖映射之所以有趣,是因为它对创造力很重要。有时,创造力对于识别数据中某个概念的实例很重要;它可能需要一个新的视角来观察一些粗略分析无法看到的东西。值得强调的是,在处理(或机制)上,传统映射和新颖映射之间没有区别:有些东西可能仅仅因为被许多人忽视而没有被典型地认识到,随着人们转向更抽象的任务,“基本真理”的概念变得更易于解释。在这两种情况下,都需要一种方法来搜索知识结构和世界数据之间的可能映射。这种灵活的映射对于下面几节讨论的人工智能任务非常重要。
好处2. 映射通过一个概念从一个领域到另一个领域的新颖应用,或者通过在一个领域中使用概念来促进不同的视角,从而允许创造性。
在悬崖面的例子中,人们可能意识到一种映射机制在起作用,例如,在看到眼睛和鼻子时,人们可能会在适当的位置寻找类似嘴巴的东西。这些困难的条件只会让观看者更清楚地看到映射过程。在日常认知中,大多数映射都是在潜意识中发生的。映射必须在人类感知中一直发生,因为典型的观看条件是困难的,因为人类视觉器官中有许多“缺陷”,特别是在视觉的边缘(O’Regan,1992)。例如,血管和神经轴突使视网膜的重要区域模糊不清,锥体的分布稀疏且不均匀。
好处3. 映射有助于在困难条件下识别概念。
图1(c)中更高级的映射例子超越了纯粹的视觉概念,因为它涉及情感状态和社会互动。理解这幅图像需要一个反复的推理,其中自底向上的视觉检测到一般的形式,触发这种可能性,这代表了人类的形式;这反过来又触发了一个映射,以想象人类的形式在一个匹配的姿势,导致情感状态和社会互动的认识。最初创作这幅作品的艺术家进行了一个类比(第4.3.1节),其中人体领域各部分之间的关系被映射到曲别针领域的可用对象和部分上。人类领域中的高级关系(如头部或手臂的弯曲)将曲别针领域中的低级组件组织起来,形成相同的关系。曲别针中没有实际的手臂,但是当来自人类领域的关系强加在曲别针的部分上时,我们可以将适当关系中的部分识别为“手臂”。
以上例子是视觉感知中的识别,它是更一般的识别或判断的特殊情况。考虑一个非视觉的例子,坐在有软垫的座位上,然后意识到它是湿的。寒冷的直接感觉可能会触发潮湿的概念,自上而下,当一个人移动时,对衣服粘性的期望(人体没有专门针对湿度的传感器;这个概念有一个复杂的映射到触觉和寒冷的传感器,以及它们与皮肤运动的关系。)在更高层次的认知中,识别可以被称为判断,例如在阅读文本或看电影时,以及判断一个角色是否富有。低层次的元素成为行为或社会互动的细节,而高层次的概念则是富有意味着什么的复杂模型。认知(或判断)是最基本的推理行为,也许是认知行为;即决定某物属于某一类或范畴。以下是跨越不同领域的进一步示例:判断食物(例如煎饼或煎蛋饼)是否与布料足够相似(具有类似的“可折叠”特性),从而可以转移类似的操作;看着窗外,判断“正在下雨”这句话是否属实(Indurkhya,2016);判断公司账户中的一系列交易是否表明正在发生内幕欺诈,或者更一般地说,评估一系列事实,判断一个人是否有可能犯罪。
在所有情况下,底层的自下而上的数据都是模糊的;如果有足够的证据被认为是存在的,映射将指定一组低层元素的解释,这些元素支持对高层概念的认识。总之,映射是人类认知的一个核心机制,存在于各个层次并跨越领域,在剩下的部分中,我们看到它是如何应用于人工智能的。
3.在计算机中的映射机制映射可以以各种方式实现,如下一节所示。图2说明了总体思路,为后续章节介绍了术语。‘模型’是采用的主要数据结构,且它是层次结构的,最少有两层,高层描述下级元素之间的关系;如前一节中描述“嘴”、“眼睛”等之间关系的“脸”。多个模型存储在长期记忆中,并被选为解释数据的候选模型。选择过程超出了我们的范围,但可以使用任务上下文,或其他上下文因素使特定的解释成为可能。选定的模型在推理过程的工作空间中实例化。这涉及到自顶向下和自下而上过程的交互作用,以确定特定模型与数据的拟合程度。将模型的元素特定地分配给数据元素称为映射或解释。同一个模型可能以不同的方式映射到数据,例如看到岩石中的某个面与元素的映射不同。推理过程还通过寻找能够连贯地解释数据的最佳映射集来协调各种映射尝试,或者强制执行满足其他目标或外部压力的映射,例如,如果在操作中我们希望看到特定的启示,或者如果我们被要求应用一个特定的模型。上述映射的好处1(消除数据歧义)可以解释如下:映射是指基于本地数据的低级别数据元素同样可以解释为x或y,但我决定称之为y,因为这有助于我有一致的证据来识别更高级别的概念,以y为组成部分。我强迫解释数据,或预测。在新颖映射的例子中,y根本不是y,我知道,但是把它当作y来处理有助于我完成一个可能有一些优势的类比;例如如果一个机器人把煎锅宽大的底座当成锤头,然后可以用它来锤打东西。
图2. 迭代推理的概念概述,其中自下而上的过程与自上而下的映射相互作用,以找到数据的最佳解释(其中解释是模型元素到数据的映射)。
在最近的许多人工智能中,主要的方法是一个纯粹的自下而上的过程,即从低级数据到对概念的判断。这条路径需要打开,以便在中间插入搜索过程,以便在概念(及其子组件)和较低级别数据之间可能的替代映射中进行搜索。搜索的每个可能的候选映射都需要对低级数据进行不同的重组。映射的简单实现可以通过搜索过程生成候选映射,并使用经过训练的评分函数来评估候选(Abelha和Guerin,2017;Ben Yosef等人,2018);这里,自上而下的信号是通过评分函数的选择来实现的。更复杂的实现可以在层之间使用更多的消息传递来“商定”合适的映射(George et al.,2017)。
4.人工智能应用本节解释映射在视觉中的应用,以及它如何可能应用于其他流行的人工智能任务。它还强调了这些任务中现有技术的严重困难,并解释映射如何提供一种克服这些困难的方法。
4.1.计算机视觉中的映射4.1.1节给出了视觉识别任务中如何通过计算实现映射的具体示例。4.1.2节解释了如何将其应用于更高层次的视觉任务。
4.1.1.物体或字符识别中映射的现有实现Ben Yosef et al.(2018)提出了一个两阶段过程,首先以自下而上的前馈方式识别图像的一个或多个对象类,然后自上而下映射这些检测到的类的先前学习模型,以确认该对象类是否确实存在,并给出详细解释(如果存在)。他们的对象类模型(如马头,图3)由原语和原语之间的关系组成。基本体由轮廓、点和区域组成。例如,对于轮廓-轮廓关系,关系包括:轮廓端点的相对位置、轮廓端点之间的平滑延续、两个轮廓之间的长度比和轮廓平行度。
图3. Ben Yosef等人(2018)的完整解释系统可以进行新颖的映射,将人造物体解释为马头。左:模型的轮廓、点和区域(矩形)映射到实际马头的照片(常规映射/解释)。中间:人造的东西。右图:马的轮廓、点和区域到人造物体的映射(新颖的映射/解释)。这些图片转载自BenYosef等人(2018),并获得了作者的许可。
映射发生在自上而下的过程中,形成了对给定的疑似a类新颖图像的详细解释。模型中描述的关系和原语指导在图像中搜索与模型要求匹配的原语和关系。为原语测试的唯一关系是存储在类a的模型中的关系。解释过程的结果是,系统具有从图像中检测到的原语到该类模型中已知的原语部分和关系的映射,因此可能以类似人类的方式解释;如这是马头的顶部轮廓,这是底部,这是耳朵等。与前馈CNN相比,该系统在识别小图像块时具有更高的精度。这种受人类启发的方法的一个副作用是,从轮廓等方面为对象学习的模型可以用于新的映射。例如,图3显示了当为马头学习的模型被要求对人造物体产生解释时发生的情况(作者致力于修改模型以拒绝这种误报,但是这个过程也可以很容易被偷懒掉,使得这种视觉类比发生。)
随后,这项工作被扩展到处理代理-代理的互动,如“拥抱”、“握手”、“安慰”或“帮助”(BenYosef和Ullman,2018)。
这涉及到模型捕获两个不同代理中元素之间的关系,即超越单个对象/代理中的关系。作者还注意到图像理解思想进一步扩展到更抽象的概念:
这里使用的术语“图像理解”取决于图像解释过程,但它可以更抽象,因为它使用的概念超出了物理世界的组成部分和它们之间的关系,例如目标、情绪、判断,如“危险”和其他(Ben Yosef和Ullman,2018年)
第二个映射示例出现在识别CAPTCHA扭曲文本的系统中(George et al.,2017)。这里的模型是文本字符的层次组合模型;即由各种定向线段和角度组成的。推理采用具有层次结构的“递归皮层网络”(recursive corticalnetwork——RCN),并执行正向传递(自下而上)来生成有关当前字母的初始假设,然后执行反向传递(自上而下,对应于映射)来测试假设并解释数据,通过信念传播进行推理。例如,如果字母A和K在图像中部分重叠,可能会产生幻觉字母V,并且是自下而上传递之后的建议之一(除了A,K)。然而,A和K可以解释图像而不需要V,所以V可以被拒绝。RCN还具有横向连接,用于协调特征分组的选择,以形成更高层次的特征;这确保了字母形状的平滑轮廓(实际上实现了一些gestalt原则)。
上面讨论的两种映射实现是完全不同的,但是与前馈模型相比,它们都为各自的任务带来了显著的好处。视觉中的其他映射示例也存在(Epshtein等人,2008;Leibe等人,2008年;Malik等人,2016年;Shanahan,2005年)。这说明映射是一个相当普遍的识别原理,因此各种不同的实现方式都能给这一普遍原理带来好处。然而,在目前主流的计算机视觉中,自顶向下过程的例子通常很少,这主要是纯粹的前馈。
4.1.2.映射在视频活动识别中的应用首先考虑短期的,或“原子的”行为:在ActivityNet 1.3版数据集中特别困难的行为包括冒烟、抓握和拥抱;这些动作需要细粒度的辨别(Gu et al.,2017),因为这些动作中的许多动作只能通过详细分析对象部分之间的关系来区别于其他类似动作(Ben Yosef和Ullman,2018详细探讨了静止图像)。事实上,拥抱是Ben Yosef和Ullman,2018)在静态图像上采用基于模型的方法(使用映射)解决的主要行动之一,该方法可以详细分析人的部分,例如一个人的手和另一个人的背,以及他们在图像中的关系。这种细粒度分析允许系统区分拥抱和表面相似的动作,如打架。这表明,在视频分析中,我们可以通过对视频中的静止图像应用映射来提高识别能力。
转移到时间扩展的活动,人们可以推断(虽然还没有尝试)期望跨时间序列应用映射思想将提高时间扩展活动的性能;即原始元素是对象与主体在某一时间点的相互作用,高阶关系是原始元素之间的时间关系,可能在更抽象的活动中延伸到更高的层次。例如,将货物装载到车辆中的模型可以从一个人携带某物开始(通过特征姿势和步态可以识别),然后与车辆接触,装载活动,然后无障碍的人离开。以不同顺序进行的大多数相同的原子活动是卸载的模型。原子行为本身是模棱两可的,可以通过映射的整体活动模型来赋予其意义;尤其是在仅部分原子探测准确的嘈杂环境中工作时。这里跨时域的映射具有使映射适合于静止图像的空域的特性。活动成分的模糊性在现有视频分类技术难以处理的活动中很常见,例如,手从嘴里往下的运动可能是吸烟或进食的一部分。
视频中活动的消歧类似于CAPTCHA识别中的分割问题,即不清楚某一图像片段属于哪个字符;通过激活几个可能的候选字符,并将它们向下映射,以确定图像的其他部分可能是该字符的一部分,我们可以对数据给出合理的解释。视频中的类似情况是,视频的一个时间段可能是几个长期活动的一部分(但并非所有这些活动都在视频中实际发生)。通过激活可能的长期活动的模型并将其映射到数据中,人们可以找到最能解释数据的活动,并拒绝不需要解释数据的可能性。
跨时间识别事件和识别CAPTCHA字符之间的另一个类比是,事件可能会被扭曲,例如家庭活动,被另一个活动的一部分打断,或者以非标准的方式以不典型的动作进行。同样,模型的自上而下拟合可以通过允许活动部分发生位置的变形来适应这种情况,就像验证码中的字符部分一样。此外,还存在需要计算的关系的复杂性,这表明需要自上而下的方向,以允许系统对必须计算的关系进行选择。例如,要区分ActivityNet(Heilbron et al.,2015)中的困难课程,如“小提琴演奏”和“检查小提琴”,可能需要计算人和小提琴之间的相对姿势。要区分混合饮料和做蛋糕,还需要复杂的关系。所有这些都需要及时的活动模型,这些模型可以从数据中得到潜在的启示(见Dubba等人,2015)。
视频活动识别的技术水平远不如目标识别,阻碍了其在现实世界中的多种应用;因此迫切需要新的办法。在2018年(AVA数据集)对人类行为进行分类和定位(视频中的时间和空间)的竞赛中,最佳平均精度为21%(Ghanem等人,2018)。分类是这一挑战的主要难点(Gu等人,2017)。AVA challenge的作者假设,更好的识别需要丰富的运动和互动模型(Gu等人,2017)。领先的方法没有使用自上而下的处理(Girdhar等人,2018;蒋等,2018)。
2015年ActivityNet挑战赛(Heilbron et al.,2015)提供了关于活动识别困难原因的进一步见解,该挑战赛不局限于原子活动。首先,他们注意到,跨越较长时间的活动是最难分类的,这并不奇怪,因为使用的典型技术没有使用活动的时间扩展模型。其次,他们注意到相似的活动会引起混淆,特别是对于相似的物体或上下文,以及相似的动作;这也就不足为奇了,因为这些技术使用来自网络的特征来进行对象识别,其中包含一些短距离的时间信息和运动特征,但没有长距离的时间模型。家庭活动(如整理衣物、修剪草坪、回收利用)是最困难的一类活动。这些活动的结构在低层次上是高度可变的,例如活动可能被中断和恢复,并且可能以不同的顺序发生,但是仍然存在结构,它只是需要一个更复杂的模型来解释可能的变化。这与体育运动这一类的活动形成了鲜明的对比,体育运动“通常包含一个重复的、结构化的时间序列,并且通常在类似的场景环境中进行”(同上),现有的前馈模型在这些方面非常有效。总体而言,时间动作定位(即确定特定动作在视频中何时开始和结束)“仍然是计算机视觉中最具挑战性的未解决问题之一”(Ghanem et al.,2018)。
4.1.3.映射在高级视觉任务中的应用更高层次的任务采用更抽象的概念;例如在视觉中:图像字幕(Anderson等人,2018年),回答关于图像的问题(视觉问题问答)(Kafle和Kanan,2017年),识别视频中更抽象的概念(Hauptmann等人,2007年)。这些可能需要识别实体之间的抽象关系(例如友谊),由于表面外观的多样性(这需要更多的前馈神经网络训练示例),这比对象识别更具挑战性。使用映射的基于模型的方法可以将模型映射到更广泛的曲面实现,而无需看到如此多的示例,如George et al.(2017)的结果所示。映射需要一个有关概念的模型。例如,对于“友谊”,它将明确描述人们之间可观察到的关系,例如一起参加活动、凝视、微笑等。获得这样的模型是一个有待解决的挑战。
需要映射的另一个视觉任务是视觉上下文。据推测,存在“背景框架”,即编码特定场景中可能对象及其关系的知识的结构(Bar,2004);通过对场景的快速粗略处理,上下文框架被激活,然后对场景元素的感知施加自上而下的影响(同上)。例如,Torralba(2003)展示了模糊的户外街道场景中的相同形状如何根据其位置和方向被视为汽车或行人。这表明街道场景的上下文框架是一个概率模型,它只允许建筑物、街道、车辆和行人在特定的位置、比例和方向上相互关联。给定一个模糊图像,可识别的建筑物在后面,街道在前面,街道远端地面上水平拉长的模糊物体很可能是一辆汽车,但同样的模糊物体旋转90度,在靠近观察者的街道上,很可能是一个行人。根据这个公式,在第2节中描述的人脸模型很可能只是包含上下文框架的更一般的模型类的一个特例。
4.2.机器人中的映射机制映射机制有助于机器人技术在开放环境中的应用(例如,家庭或工作场所中的日常任务以及各种各样的物体或场景)中取得进展,而在这些环境中,当前的性能远远低于人类水平(Ersen等人,2017)。虽然机器人可以用特定的材料为特定的任务编程,但当环境发生微小变化时,它们并不能很好地概括自己的行为。例如,请参见亚马逊采摘挑战赛(Correll et al.,2016)中的采摘产品之争。类似的家务活;虽然有机器人编程折叠衣服将针对某些服装可用(Miller等人,2012年),这是一个相当大的飞跃,考虑如何机器人可以转移任何知识的情况下折叠煎饼(Beetz等人,2011年),这需要特定的编程。然而,人类,即使是小孩子,也很容易跨域迁移。以类似人类的方式迁移的能力将大大有助于解决开放环境中机器人技术的挑战。据推测,这种迁移需要创造性的元素,通过在场景之间建立映射来工作(Fitzgerald等人,2017)。这是类比的机制,假设需要一个自上而下的过程来重组自下而上的知觉数据(Hofstadter和FARG,1995;Indurkhya,,1992)。请参阅第4.3.1节的进一步讨论。
本节的其余部分推测映射如何应用于机器人学,模型是结合感知和动作的机器人技能(即,所涉及的运动由感知返回的值参数化;参见Gajewski等人,2019)。映射可以让一种技能在不同的情况下转移。理想情况下,机器人应该能够像人类小孩一样,学习一种新的操作技能,然后渴望将其应用到每一种提供机会的情况中(就像俗话说的“如果你只有一把锤子,一切看起来都像钉子一样”)。例如,考虑一个“钉孔”技能,其中包括检测孔及其方向的感知例程,以及识别(圆柱形)钉的形状和长轴。假设机器人已被编码为一种技能,包括第一阶段,将销钉末端压入孔中,但不在正确的插入方向,然后是第二阶段,销钉在旋转至正确方向时与孔的内边缘保持接触(使用力反馈),接着是最后一个阶段,将其推入孔中。运动的每个阶段都将根据关键点(例如最近的光圈边缘)和通过特定场景的感知提取的方向进行参数化。为了实现映射,感知程序需要使用分层组合模型:孔的孔径必须建模为由相邻边缘段之间的关系组成,围绕一个空间(类似于上面描述的将字母“o”建模的方式,George et al.,2017)。孔的内壁必须同样建模为墙段的组合。这个模型可以映射到不同的场景中,以识别近似的洞,例如在一个装满杂货的板条箱中,有一个缝隙形成一个近似的洞;在这里,围绕间隙的项目有足够的边缘组件,以适当的配置接近孔径。确定孔径和孔方向后,可应用运动技能插入,例如瓶子。这项技术同样可以推广到一个打开食品罐头用于插入炊具。为了处理复杂多变的形状,我们可以先用粗网格近似形状,然后再搜索孔径的元素。
在这种映射中,感知的过程是自上而下的。从完成任务的需要开始,这会触发可能的技能,然后选择作为这些技能先决条件的感知要素。例如,试图看到可能的洞,即使只是近似匹配。感知分组过程(例如,将分离的边或曲面视为一个长边或曲面)和感知近似(例如,忽略细粒度细节,或近似拟合几何形状)可能会受到自上而下压力的影响。这种自上而下的方法克服了如果它们都是从环境中自下而上触发的,那么对于感知抽象来说,可能的近似匹配太多的问题。当任务以这种方式施加自上而下的压力时,我们可以说感知或表征是“任务驱动的”(Guerin和Ferreira,2019;Zhu等人,2020)。可以根据需要在特定时间创建一次性表示,如果任务不同,可以稍后为同一场景创建不同的表示。这也暴露了映射的强制方面:在将模型映射到某个情况时,它可以创建相似性,而不是简单地记录现有的相似性(Kittay,1982)。
第二个例子展示了匹配的感知元素如何不必全部属于一个特征(例如光圈),而是可以是本技术中引用的不同部分。假设一个架子上有一组长方形的谷类食品盒,像书柜里的书一样紧紧地包装着,这样每个盒子的小侧面都面向机器人,每个盒子都被楔入其他盒子之间。假设机器人有一种移除盒子的技能,首先对盒子的顶面施加压力,然后向后拉,使盒子旋转,并露出左右两侧,以便随后抓取。让我们称之为技能“拉表面旋转”。此模型中的关键环境元素(技能描述)是顶面,顶面将被推动,架子上的盒子支撑的表面,抵抗推动,拉动的方向,其中必须有自由空间。当机器人想要将技能转移到不同的场景时,它需要在新场景中的关键模型元素和实体之间进行映射。这是有效地将新场景的元素的解释作为技能描述的一部分(类似于图像中的轮廓如何被指定作为上面的脸部或马头的一部分的解释)。例如:一个比萨饼盒平放在冰箱里。机器人需要通过从技能元素到场景元素的可能映射进行搜索。在这种情况下,它搜索新目标对象的可用曲面,以及可以应用运动的方向,并模拟这些曲面的效果,最终选择在侧面上推动并向上旋转长方体。这个搜索过程需要一个自下而上的信息之间的相互作用,这些信息来自于环境所提供的信息,任务的自上而下的需求决定了要搜索的元素,同时还需要模拟来尝试技能到环境元素的潜在映射。目前还不存在这样的实现。第5.2节将进一步讨论总体思路。
好处4. 映射可以让技能转移到新颖的场景中。
从映射过程的角度来看,这实际上与上面所说的好处2或3没有什么不同,但对于机器人技能,需要添加一些新的过程,以检查从场景到技能的映射的物理合理性(例如,在悬崖上识别人脸时不需要)。使用映射来转移技能可以被认为是幼儿将一种新的技能应用于一切事物;一个人应该能够尝试从一种技能到任何场景的映射,例如推一个表面,拉一个物体旋转。在许多情况下,结果很差,就像人们可以尝试在任何悬崖或者云朵上看到一张脸。这也是在“桌面”中做“同样的事情”背后的想法(Hofstadter和FARG,1995)。在另一个方向上,我们可以修复场景并应用库中的所有技能来查看生成了什么。这是映射的一个富有成效的方面:代理可以通过应用其技能生成场景的多个不同的可能新颖的表示。其中一些可能会为操纵问题带来有趣的创造性解决方案。同样值得欣赏的是日常操作中的创造力。非结构化环境中的日常活动涉及到对以前从未在完全相同的配置中遇到的场景的解释。此外,所应用的技能对于学习过这些技能的代理来说通常是独特的(在细节上)。这就是为什么映射行为可以被视为一种“认知主体通过它将其创造精神传递给环境”(Indurkhya,2006)。
上述对拉动-旋转技能的描述省略了从学习技能(例如,从示范中)进步所涉及的步骤(Burke et al.,2019;Zhang et al.,2018)通过理解基本要素及其关系,在给定场景中概括该技能(参见例如Huang et al.(2019))。在任何学习场景中,都有许多表面、边缘和物体的元素,机器人最初不会知道哪些元素对技能的成功很重要。向通用技能的发展可能涉及在应用于新场景时的试错,或者应用因果模型来解释场景中发生的事情。在这里,我只关注一个映射机制,它采用一个现有的模型(这里的技能),并将其应用到各种场景中。应用程序构成了一种推理或判断:如果机器人找到了元素的映射,并且确信它应该工作,那么机器人已经做出判断,该场景属于该技能可以应用的类。
4.2.1.物理知识传授第一章我举了一个例子,将运动物体的先验知识,例如动量和摩擦力,转移到一个新的场景中(学习驾驶)。在人类中,这可能是通过早期发育来实现的。将物体推到表面上,可以了解不同的摩擦力,以及克服静摩擦力的经验。动量的开始可以通过摆动一个重物,例如一桶水,并发现阻止它的困难,以及它在碰撞中移动其他物体的破坏力来学习。摩擦和动量概念的结合可以通过运行和停止的知识来体验,从而导致在砾石表面或其他摩擦较低的表面上滑动。这些只是一些互动的例子;人类在发展过程中可能会经历很多,并可能通过自监督学习(例如,关于预测,见LeCun和Misra,2021),对相似的经历进行归纳,从而产生动量和摩擦的广义“图式”。图式是抽象层次的模型,例如动量,表示一个普通的重物体和一个运动路径,以及它减速的困难程度,或者它通过障碍物的能力。它只比实际经历的情节抽象了一步;它不是现代教科书中的物理知识,而是古代人所共有的。知识是含蓄的,与某些有经验的上下文相联系,而不一定泛化为普遍的规则,这就足够了。这样的模型可以通过映射应用到一个有移动对象的新场景,当元素被实例化(映射)到该场景时,创建一个适当的期望;例如在学习驾驶者中建立期望,即在试图快速转弯时,有可能在砾石上滑行并继续笔直行驶。将这些想法转化为机器人技术需要一个类似的训练机制,具有不同的经验和自监督学习来推广模型。物理相互作用的每一个模型或模式(如上面的动量模型)都捕捉到一个物理片段。一大组模型将近似于人类对物理学的直觉概念。
4.3.用于高层级理解的映射机制在视频检索或文本理解(如摘要)的高级应用中,需要识别视频或文本中更抽象的概念。例如,背叛或坠入爱河的概念,这些可能根本没有在媒体中明确提及。从视频或文本中识别这些概念涉及到相同的推理过程,如果两者都被翻译成沿时间轴发生的场景和活动的抽象表示,那么更高层次的概念就是这个抽象描述中实体之间的关系。理解文本需要读者将概念与正在展开的故事的模拟相匹配,提供替代方案(在可能有多种解释的情况下),然后在模拟不一致时驳回替代方案(Allen,1995);理解视频需要同样的方法。例如,假设任务是确定第一次背叛行为被描绘的场景,以及背叛行为对被背叛者变得明显的场景。我们需要一个背叛的模型,其中包括两个角色在某个时候建立的信任关系,以及一方在另一个时候针对另一方的利益采取的一些自由裁量的行动,特别是当这些行动构成实现某个目标的计划的一部分时。许多行动在孤立的情况下可能是模棱两可的,但随着计划和目标逐渐被认可,这些行动就具有了更明确的含义。这可能意味着,根据后来的披露(即,在假设存在的概念的自上而下的压力(映射)下),故事早期部分的场景有了新的解释。另一个例子是“欺诈”的概念。有了一个复杂的公司内部欺诈模型,人们可以开发一个人工智能应用程序,通过预测这个模型来检测公司账户中的欺诈行为。与背叛的例子一样,许多交易起初很难解释,但经过进一步分析,其中一些交易可能符合欺诈企图的准备行为模式。我们可以再次看到观察者在判断背叛或欺诈时的主观作用,并回顾4.2节中的讨论。其中指出,映射是一种行为,“通过这种行为,认知主体将其创造精神投入到环境中”(Indurkhya,2006)。
在这些例子中,推理过程涉及自下而上的解释和来自合理模型的自上而下的映射之间的相互作用。这就假定了复杂的计划和概念模型,比如背叛。表面形态的多样性和训练数据收集的困难使得这类问题更适合模型映射方法。人类学习这些模型需要时间,孩子看一部复杂的电影不会像成年人那样解读场景,新手也一样。即使对于孩子们理解的概念来说,映射对于他们在各种各样的情况下都能被识别也是很重要的。
完全理解自然语言可能需要使用语言处理之外的模型进行映射,例如从感觉运动交互中学习。为了模拟文本中描述的物理情况,并理解各种行为或事件的后果,至少需要对物理情况进行部分模拟(见第6节末尾关于映射在模拟中的作用的进一步评论)。在物理情境之外,语言中的许多概念借用感觉运动经验或其他具体的类比经验(Lakoff和Johnson,1980),例如时间“耗尽”的概念,就好像它是一个液体或粒子的容器;人类对这类语言的理解可能需要与物理模型相联系,通过类比,以与人类相同的方式理解后果。
语言不是孤立的。大脑中的理解系统将语言与物体和情境的表征联系起来,并通过充分利用我们对世界的多感官体验、我们对运动行为的表征以及我们对以前情境的记忆来增强语言理解(McClelland等人,2020年)
4.3.1.映射在新颖的类比中的作用在前面小节中描述的映射和进行新的类比之间的区别在于,上面被映射的模型通常应用于它被映射的域,而在新的类比中,模型通常来自不应用于该数据的域。以此类推,有一个源头和终点,例如在“说话者是蜿蜒的”一句话中,源头是一条河流,在山谷或漫滩中缓慢蜿蜒,侵蚀和沉积沉积物;目标是一个正在演讲的演讲者。新的类比除了需要映射外,还需要搜索过程。在曲流示例中:有必要搜索目标“语音”的各个方面(例如说话人的身体运动、单词发音、主题选择等),这些方面可能作为映射到源模型的元素,而且有必要搜索可以建模并映射到目标的源的各个方面(例如速度、变化方向、侵蚀?)。这是一个平行搜索过程,两次搜索的初步结果之间存在交互作用。映射是这种相互作用中自上而下的强制元素,因为它将源的结构强加给目标(相似性创建方面由Kittay,1982 指出)。自下而上和自上而下的平衡可用于阻止对目标施加任意结构。在曲流隐喻中,不同的人最终的结果可能会有所不同:有些人可能会关注于改变演讲主题方向,而另一些人可能会关注于演讲速度慢和缺乏明确的目的。
对于隐喻性语言,人工智能中的一种常见方法是将其解释为更常见的表达,计算机可以使用标准技术(Mao等人,2018)处理,使用为常见隐喻编写替代意义的词典资源。这种方法失去了一些原始意义的细微差别。类比机制有助于实现人类层面的理解:隐喻中的概念将通过映射应用于新颖领域的元素,从而在计算机中创建类比的表示。一般来说,语言处理需要在自上而下的过程中,将可能的候选概念表达与正在进行的故事相匹配,这与视觉中的模型拟合或机器人学中的迁移映射有相似之处。在如何应用概念方面需要有相当大的灵活性。例如,考虑“这可以装着(contain)水”和“我们需要承担(contain)这起丑闻的后果”,“包含”或“容器”需要知识表示(概念表示),这可以在应用中提供极大的灵活性。即使是最简单的词似乎也需要同样的映射设备:
为了检查盘子是否在桌子上,我们可以查看桌子上方的空间,但是为了确定一幅画是在墙上还是一个人在火车上,等效的检查将失败。在所有输入域上以相同方式操作的单一函数不能解释这些完全不同的函数评估结果。另一方面,我们的认知系统似乎不太可能将“on关系”在完全独立的表象中采用明显不同知识编码。这项工作的发现却为另一种观点辩护,事实上,在这三种情况中,每一种情况都使用了一个单一的on概念,但它的含义和表示都足够抽象,可以与每个特定的应用领域进行灵活的交互,并根据上下文进行调整(Hill等人,2019)
这种类比机制也可以应用于机器人技术中,在不同领域间传递技能。在映射一个“源”和一个“目标”的语言中,源是它所处典型情况下我们希望它应用的技能,目标是我们试图使技能适应的不同领域中的新场景。4.2节假设源的关键元素是已知的,只需搜索表示目标的方法即可映射组件。在一个全新的类比中,还需要寻找可能的方法来表示源代码。这种类比机制的效果是,场景对多个视角开放(如4.2节),而且每项技能一经学习就可以非常通用(跨领域)(尽管在尚未了解跨领域转移的后果时,早期应用可能不太成功)。这可能更接近于人类如何首先在一个环境中学习一项技能,然后可以迅速推广到其他环境中。
5.人工智能中映射的现状和流行程度尽管映射技术可以为机器人技术或视频分析等高级视觉任务带来优势,但在这些领域中,映射技术的研究还很少;相反,绝大多数工作使用前馈神经网络(FFNNs)。许多可能的原因包括:它目前并不流行(许多研究人员只是追随主流趋势);人们发现改进和扩展现有技术(如FFNN)比构建新方法更容易;4.1.1节的映射例子表明在设计新模型和注释数据集(Ben-Yosef et al.,2018)以及推理算法(George et al.,2017)方面需要相当大的努力。本节考虑介绍映射理论的研究状态和相关工作。
5.1.组合模型其他地方已经广泛讨论了组合模型的必要性(Lake等人,2016)。具有部件之间关系的组合模型可以容纳以训练数据中看不到的方式组合部件的示例,这是一种克服更简单的模式识别方法所需的训练数据爆炸的方法(参见Yuille和Liu,2018第7节)和Chollet,2017第9章)。对于一个复杂的概念,组合模型允许它以完全不同的表现形式被识别,这方面的例子在第二节中讨论。4.3.节捕获底层结构的生成模型允许“综合分析”或“生成推理”(van Bergen和Kriegeskorte,2020)。然而,尽管上面提到的著名研究人员已经认识到了组合模型的必要性,但目前的大多数工作并没有使用组合模型。
深度学习模型学习了训练分布的流形,这就限制了它们在训练分布中的表现形式,并且在成功之间进行了一些插值。如果使用深度学习模型来生成样本,则当在在没有训练样本的空间区域中生成样本时,它可以生成不切实际的样本,并且在潜在空间变得明显不能吻合现实。例如,在以姿势为条件的GANs生成图像中,当强制使用分布之外的姿势时,人的腿可能会碎裂(Ma等人,2017)。努力拉长T恤衫的袖子会导致手臂呈现介于皮肤和衣服之间的中间颜色。该模型没有捕捉到现实世界的底层结构。相比之下,人类可以利用他们对潜在现实世界结构的背景知识来超越他们所看到的表现。例如,一个人可以理解一个芭蕾舞演员的姿势,即使他的身体出现在一个他们以前从未见过的形状(例如,身体直立时用腿做180度的角度,一条腿向上,一条腿向下)。为了推广到可能的但在训练例子中看不到的情况,有必要对基础骨骼结构和关节上的约束进行建模。很难看出当前的方法是如何在没有强主观偏置的情况下从表面现象中学习到这一点的。
5.2.模型到数据的映射:推理系统George et al.(2017)表明,模型的迭代推理相对复杂,即使对于简单的概念也是如此。Lake等人(2016年,第。4.3.1)还讨论了模型推理的计算挑战。这两个例子都与文字有关。Ben Yosef等人(2018)利用物体小部分的模型进行推理。有必要向更高层次的概念发展,例如人类活动,以及物理和社会互动的模型。我们在George et al.(2017)中看到了所需推理算法的概要,以及van Bergen和Kriegeskorte(2020)绘制的迭代推理:在较高和较低层之间传递消息的迭代,以收敛于对数据的解释。更复杂的推理可能需要一块黑板或一个工作空间,在那里构建候选的解释并竞争成为胜出的解释。工作空间还需要链接到世界知识和模拟,以施加合理性约束。虽然为复杂概念建立推理算法的努力令人望而生畏,但令人兴奋的是,这可能是一种“主算法”,可用于各种各样的感觉运动和认知任务。
5.3.模型:表示、推理和学习映射依赖于层次组成模型。这些结构可以手工设计或学习。在结构是手工设计的情况下,这仍然不像经典的人工智能,在设计师设想的外部场景中,人工智能会遭受脆性(Brooks,1991)。经典人工智能假设其符号与世界实体之间存在一对一的映射关系;世界只有一种解释方式:设计师设想的“基本事实”解释。带有映射的系统是不同的,因为解释不是由设计者固定的:系统本身可以寻找不同的方式将符号映射到现实世界的实体,并且可以随时更改其解释,并且可以提出设计者可能没有想到的解释。这意味着映射使知识结构极易转移,扭曲了系统对现实的看法,并适用于各种各样的情况(可能会导致犯错误);这和经典的人工智能有很大的不同。
实现映射的一个障碍是需要先学习模型。一般来说,对于复杂的概念,这种学习应该如何进行还不清楚,而且可能很困难。偏好用学习而不是手工制作模型可能源于害怕重复经典人工智能的错误,因为手工制作的模型在连接到现实世界时被证明是脆弱的,而且手工制作模型的复杂性有限。然而,如果工作能够在三个主要的人工智能问题上并行进行,它们可能会互相帮助:1. 表示(理解模型应该是什么样子);2. 推理(将模型映射到数据);3. 学习模式。如果我们更多地了解更接近人类水平的分类模型类型(例如Ben Yosef et al. 2018显然已经做到了),并允许有效的推理,那么这将有助于我们理解如何设计学习算法来学习这些类型的模型。目前人工智能学习的主导地位阻碍了表征和推理的发展。
5.4.深度神经网络的相关工作如果映射和组合模型是人类认知的核心,那么为什么纯前馈神经网络(FFNNs)在人类能够完成的某些任务上相当成功呢?van Bergen和Kriegeskorte(2020)解释了如何将递归神经网络(RNN,即具有反馈或自顶向下连接)展开为模拟RNN的更大FFNN,其中递归连接成为跳跃(或残差)连接,这也许可以解释计算机视觉模型如何在没有重复连接的情况下获得高性能。这是一个重要的见解:虽然我们通常认为映射是自上而下的,但在FFNN中也可以达到同样的效果。具体地说:如果几个FFNN层给我们一个猜测“这可能是一个马头”,那么我们可能想再次查看轮廓,以检查马头的顶部是否确实与我们期望的形状在那里,因此我们可以将较低轮廓层的结果再次传给下一个FFNN层(通过残差连接)。但是,RNN的FFNN版本效率较低,如果展开,某些RNN将导致不可行的展开的FFNN。van Bergen和Kriegeskorte主张使用生成模型和迭代算法进行推理,特别是为了“对输入的变化具有鲁棒性”。FFNN需要看到训练中变化的例子,而生成模型可以“想象”不在训练分布中的组合。
如果与FFNN方法相比,性能优势不显著,就很难鼓励研究更人性化的基于模型的方法。转移到更高级别的任务可能会带来更大的性能差异,其中FFNN展开方法可能不可行,并且同一概念可能有更多不同的表现形式,这意味着FFNN所需的训练集和训练时间变得不可行。
最近的一些工作确实在神经网络框架内引入了迭代推理的元素。Goyal等人(2021b)介绍一个工作区(workspace),选定的专家模块可以向其提供信息。然后将工作区的内容广播到所有专家模块。键-查询-值注意力用于决定谁可以向空间中写入内容,以及之后模块从空间中读取哪些信息。在另一种方法中,Goyal等人(2021a)使用工作记忆来存储有关实体的信息,并使用神经“产生式规则”对其进行操作。如果规则与内存中的某些实体匹配,则会触发该规则并执行计算以更新工作内存。计算由多层感知器实现。Mittal等人(2020年)描述了深度递归神经网络结构的实验,其中自底向上和自顶向下信号相结合;它们使用关键字查询值注意选择要组合的信息。他们将该系统应用于各种任务,并对如何使用自上而下的信息进行了深入分析。首先,自顶向下的信息使用非常少,例如在一个实验中,只有2.86%的注意力是自顶向下的信息。第二,当噪声加入到数据中时,人们对自上而下信息的关注度增加了,“当输入序列不太可靠时,模型学习更多地依赖于期望和先验知识。”(同上)第三,当视觉中的物体被遮挡或部分遮挡时,自顶向下的信息依赖更多。迭代推理也是最近的GLOM(Hinton,2021)的一个特点,其目的是在视觉场景中表示部分-整体层次。对于本段中的所有工作,建议的技术适用于它们所处理的任务并带来好处。然而,这些任务是相当低层级的,例如,在MNIST数字从帧边缘移动和反弹的视频中预测未来帧(Mittal等人,2020)。Mittal等人明确指出,与其他关于更高层次实体的工作相比,“当前的工作更侧重于微模块。”未来的研究将需要确定这些系统如何处理更高层次的知识,还有,是否有一种方法可以整合背景知识(目前所有的系统都是从零开始训练的)。
5.5.适合映射的任务特征映射并不是每项任务都重要,本节将介绍合适任务的特征。首先,如果没有太多的例子来训练,那么学习者将无法看到来安排各个部分的许多不同的方式,例子之间的插值将是不够的。在数据中概念以多种不同的形式出现的情况下,这种情况会更加严重,例如CAPTCHA中的扭曲文本,或者电影中可以以多种方式描述背叛。映射模型可以克服这一点,如第5.3节所述。George等人的系统比FFNN方法具有更高的精确度和数据效率(更低的样本复杂度)。第二,如果数据具有高度的模糊性,并且人们试图识别的概念与数据有着复杂的关系,那么就有三个问题:
1)自下而上的过程可以看到数据中许多事情的充分证据,但也许只有一个是正确的。这与识别CAPTCHA时字符分割的困难有关;一个本地数据片段可能是一些不同概念的一部分(或者在理解电影时,数据片段可能是电影中的一个特定事件)。
2)从零开始、从数据中学习复杂的关系是很困难的。当这种关系只是近似的时候,模型就可能被一些提供了有力证据的例子所愚弄,但这些例子的结构并不完全正确。
3)如果有多个可能的概念,每个概念需要不同的关系,那么FFNN实现将需要并行计算所有这些概念,这可能是不可行的。
相比之下,映射法可以通过自顶向下和自下而上的相互作用来解决问题(1)第一个自下而上的过程给出了关于现有概念的初步假设(只有一个子集是真正存在的),通过自上而下的生成可以找到呈现这些假设的最小概念数量,以解释每个概念所解释的数据可能属于哪一部分(George et al.,2017)。这是一种想象,更普遍地说,映射应该有助于需要想象的认知任务。如果对整个数据有一个更简单的解释,仍然可以排除存在的所有必要证据。组合模型可以解决问题(2),通过首先学习子概念,然后学习更高级的概念作为子概念之间的关系。现有的FFNN在一定程度上做到了这一点,但它们没有成功地学习到类人的组合模型,如Ben Yosef等人(2018)和Ben Yosef and Ullman(2018)所示;FFNN倾向于更多地关注纹理,他或许需要一些额外的偏见,也许还有课程学习,以迫使他们学习更像人类的组合模型。问题(3)仅通过计算第一次自底向上传递后可能出现的概念所需的关系来解决(Ben Yosef等人,2018)。
目前由FFNNs成功完成的许多任务在一定程度上具有这些特征。映射对于具有更强烈特征的任务更为相关,例如第4.3节中概述的更高级别任务。对于静止图像的识别,以下任务挑战了当前的技术,映射将是很有前途的:抽象识别(Dickinson,2009),当需要使用上下文来帮助识别时,当物体发生严重遮挡时,或多幅图像的拼贴(Russakovsky等人,2014年)(类似于抽象识别),以及当需要识别小斑块时(Ullman等人,2016年)(类似于遮挡)。
最后,映射对通用人工智能也有作用:大多数现有的人工智能系统专注于单个任务,或固定的一组任务,例如机器人拣货和下订单,或系统字幕图像,或翻译语言。在未来,人工智能系统将被期望执行更多不同的任务,直到它们被期望具有人类的多样性。映射则变得更为重要,它包含了自上而下的输入,并创建了适合于手头任务的表示。在机器人技术中,如果一个系统在进入车间时必须考虑到它可能做的每一个可能的操作,那么这个系统就会过载;取而代之的是,机器人需要由它的任务来引导,并关注可以用于任务的对象和特征(这在第4.2节中称为任务驱动表示)。在视觉上,一个人看着一个街道场景,识别出每一个可能在那里的物体,以及每一个可以推断出的概念,同样会载。与人类通常在执行现实任务时所做的相比,在图像或字幕图像中识别物体的典型计算机视觉任务是相当人工的。人类很少有识别图像中所有内容的任务,或者没有特定目的地创建标题;人类通常在接近一个场景的时候会有一个非常特殊的任务,那就是找到他们想要的东西(不一定是一个物体,但可能是一个动作或事件),这就是自上而下的方向。
6.表达的含义(概念、常识和情境)映射提供了一种将知识模型与底层数据连接起来的方法,并能在符号和次符号之间架起一座桥梁,因此它对概念和常识知识有着重要的意义。将常识知识库与世界联系起来是人工智能面临的一大挑战。为建立常识推理设计的知识库已经做出了许多努力,但是最近对常识推理基准工作的调查发现:“尽管[他们的论文的]第3节讨论了常识和常识知识资源的可用性,这些方法实际上都没有用于在基准任务上实现最先进的性能,只有少数方法用于任何最新的方法”(Storks et al.,2020,Sec。4.4); 相反,他们发现人们用不同的数据集训练深度学习模型,并且知识隐含在学习模型和预先训练的单词嵌入中。
几十年来,人工智能一直试图对常识概念进行编码,例如在知识库中,但很难将编码的概念推广到人类自然会将其推广到的所有情况,也很难理解所讲内容的自然和明显的后果。这导致脆弱的系统不能很好地处理超出设计者设想的情况。John McCarthy(1968)说:“一个程序如果能自动地为自己推断出它所说的任何事情和它已经知道的事情的足够广泛的直接后果,那么它就有了常识”;这是一个尚未解决的问题。Marvin Minsky(1998)估计,“常识就是知道世界上可能有3000万或5000万件事情,并把它们表现出来,这样当发生什么事情时,你就可以与他人进行类比。”明斯基先见之明地指出,常识需要在世界上的知识和事件之间进行类比匹配的能力,此外,还需要一种特殊的知识表示来促进这些类比。我们可以从借用基本概念的方式看出类比对常识的重要性,例如动物的尾巴,大写字母“Q”的尾巴,或时间延伸事件的尾端(另见第4.3.1节中“包含”、“开”的例子)。更重要的是,对于已知的事实,例如“一根绳子可以拉动但不能推动一个物体”,人工智能系统需要自动推断(通过类比)一块布、一张纸或一条缎带,其行为与绳子相似。对于“一块石头能打碎一扇窗户”这一事实,系统必须推断出任何类似的重而硬的物体都有可能打碎任何类似的易碎材料。使用第4.2.1节的语言,这些已知事实中的每一个都需要被视为一个模式,然后通过类比应用到新的案例中。
映射是一种可以找到类似物的机制(见第4.3.1节)从而可以弥合常识概念模型(即不是从语言语料库中学习的单词嵌入中的纠缠知识)与文本或视觉或感觉运动输入之间的鸿沟。为了促进这一点,概念应该用层次化的组成模型来表示,更高的层次描述了低层次组件中元素之间的关系(原因在第5.1节讨论)在这些子组件上需要有一个明确的符号句柄;即它们不能纠缠在一个复杂的网络中。对于视觉对象识别,一个概念可以简单地是组件特征之间的一组空间关系,但更高的概念需要一个复杂的模型,涉及多种类型的关系、部分物理理论和因果关系。第4.2节和4.3节给出了这些概念可能是什么样子的暗示,但完整的示例需要进一步的研究。
一个完整的认知系统不仅需要对单个概念进行识别,还需要基于文本、视觉等输入来表示和模拟情境中发生的事情。这意味着在一些工作空间中实例化概念,以充实场景的相关细节。有时,对于某个场景的某个部分,可用的数据很少,这必须是想象出来的。例如,假设一台机器在木制外壳中平稳地穿过一个表面,但观察者看不到下面是什么机构,观察者可能会猜想它在轮子上滚动,如果它卡住了,人们可能会想象一个轮子撞到一块小石头。这种类型的想象是另一种映射:假设先前的轮式车辆模型是可用的,那么这些部分可以映射到模拟中的位置(在实际场景中看不到的部分)。类似地,对于车轮撞到石头的情况:从以前经历过的此类事件中提取的模式可以作为模型。模拟和映射必须一起工作来想象场景,因为展开的模拟可能会触发新的映射。如果模拟是当前发生的事情,那么传感器数据可以输入以限制模拟的可能性。
7.结论映射似乎是一种核心机制,它与其他机制共同解决人类感知和认知任务。视觉映射的计算实现已经显示出了很好的结果。该机制能给其他更高层次的视觉任务以及机器人和语言处理等人工智能领域带来多大的好处还有待观察。然而,如上所述,我们有理由相信它在所有这些领域都非常重要。最后,它可能是解决长期存在的常识知识问题的一个关键组成部分,因为它能够使用类比机制将知识模型映射到各种情况。目前人工智能中很少有人尝试使用映射。没有迭代推理和没有使用概念的显式模型的深度学习更受欢迎。我希望这篇文章能鼓励更多关于映射的工作。
致谢这篇论文主要归功于Bipin Indurkhya关于人类心理学中映射的思想,并从本质上探讨了它们对人工智能的影响。早期草案得益于Yaji Sripada、Chenghua Lin、Ranko Lazic、Lilian Tang和Andrew Gilbert的广泛评论(和/或讨论)。以“欺诈”为例的想法来自Yaji Sripada。感谢Guy Ben Yosef和Shimon Ullman进一步解释了他们自上而下的过程,并允许使用图像。
原文地址 https://arxiv.org/pdf/2103.13512.pdf
本站近期相关文章推荐
论智力的测量 第一章(On the Measure of Intelligence)
神经科学启发的人工智能——论文译文
通用人工智能的实现层级
嗨,你聪明吗?——浅谈给AI做IQ测试题
论文选编——思维的标准模型(下)
请长按下方二维码,关注通用人工智能公众号,第一时间获取领域相关信息。