具身智能

作者:未知作者 笔记数:94 条

数学是否“完备”?

数学是完备的吗?即能否基于有限的公理,对所有数学命题都进行证明或证否?

:数学是一致的吗?

所有问题都是数学可判定的吗?即是否有明确的程序能在有限的时间内告诉我们每个命题的真假?

数学既不完备,也不一致。

让机器“思考”

停机问题(halting problem)就是判断任意一个程序是否能在有限的时间内结束运行的问题,

理发师悖论

一个理发师声明他只为那些不给自己理发的人理发

哥德尔不完全性定理和图灵机的提出,让20世纪初的人们意识到,试图一劳永逸地避免所有悖论的尝试本质上是徒劳的。

人工智能的诞生

即离身智能和具身智能

人工智能的发展路径则分为三个流派:符号主义、行为主义和联结主义。

行为主义(actionism),又称进化主义或控制论学派,主要关注控制论及感知-动作型控制系统。

上篇 机器可以思考吗?

在斯宾诺莎看来,人的思想、情感、欲望等可以当作几何学上的点、线、面一样来研究,先提出定义和公理,然后加以证明,进而做出理绎。

这种试图用数学来解释世界,甚至包括人类意识的观点,被称为“机械论”

人类所能达到的最高境界是为理解而学习,因为理解就是自由。

要么我们是孤单的,要么高级智能体随处都是,我们却认知不到。

第二章 联结主义:从模仿到超越

对于这些NP难问题,是否存在一种确定性的算法,它能够在合理的时间内找到或搜索出正确的答案呢?这就是著名的“NP=P?”猜想

NP=P问题,霍奇猜想,庞加莱猜想,黎曼假设,杨-米尔斯存在性和质量缺口,纳维尔-斯托克斯存在性和光滑性,DSD猜想。

这说明“本能”在“智能”中发挥了相当大的作用。

也就是说,在智能的本质没搞清楚前,联结主义学派不可能构建一个大脑的实用模型。自然最终选择了生命的杂乱而非逻辑的严谨。

并行与串行处理

信息的存储方式。符号主义学派倾向于在特定的存储位置集中存储信息,而联结主义学派认为信息是在整个网络中分布式存储的,每个节点都参与但不单独决定信息内容

相反,联结主义学派的分布式和冗余特性使其在面对单个节点故障时显示出更高的容错性。

自适应性

第三章 行为主义的世界很大

所谓P人,感知人,是指倾向于感受周围的信息、适应能力强、崇尚随机应变和自由自在生活态度的人。

先行后知

丰富的专家知识可以被看作符号系统的“世界模型”,是符号系统对所研究问题的一个整体认知

符号处理方法将所有推理任务集中在中央处理单元上,这不仅增加了推理的负担,也使系统难以快速响应实时环境变化。符号系统需要处理大量数据和复杂的逻辑规则,这些操作难以并行处理,从而导致计算效率低下。

感知层

预处理层

认知层

执行层

与其费力地构建一个“世界模型”或者“世界大脑”,不如让机器在实际环境中直接感知和行动。真实的物理世界就是机器的“世界模型”,机器只要学会如何和世界进行交互就可以了

通过研究反馈与刺激的关系来了解对象的特性,而不去纠结对象内部的组织结构,这就是行为主义方法。

控制

行为主义学派形成的标志是维纳《控制论》的问世。维纳也被称为“控制学之父”

Cybernetics(控制论)来自希腊词汇

“如果一个生物走起路来像鸭子,叫起来像鸭子,那么这个生物就是一只鸭子”,这是计算机科学界很有名的一句谚语,也生动形象地解释了行为主义学派倡导的理念

1937年七七事变爆发后,日军侵占北平(今北京),迫使维纳不得不提前结束他的中国之行。

比较知名的就是科幻小说家艾萨克·阿西莫夫在1942年提出的机器人三定律。

符号主义学派:符号主义借助逻辑推理和算法操作,依据物理符号系统假说和启发式搜索原则来解析智能

心智的抽象和计算层面。

联结主义学派:这一学派采用生物仿生学的方法,致力于通过模拟生物大脑的结构来探索智能的秘密。联结主义关注的是智能的生理承载,即大脑的实际组织结构。

行为主义学派:行为主义通过研究“感知—行动”模式,强调环境反馈与智能行为之间的直接因果关系,从而揭示智能。这一学派并不关心智能的生理或逻辑结构,而是专注于智能的行为表现。

第四章 大模型:大道之行,多则异也

CPU负责通用计算和调度,GPU进行大规模并行计算,FPGA实现高效的数据预处理,ASIC完成特定的深度学习算子加速

第五章 和光同尘,从离身智能到具身智能

一条道路是聚焦抽象活动,例如下国际象棋,我们将其称为离身智能;

另一条道路则是赋予机器真正的身体感官,并且用类似教导一个孩童的方式来训练智能体,也就是我们所说的具身智能。

“具身”的含义并非指字面上的“身体”,而是指通过身体的感知来实现的智能。

感觉和意识还源于与世界的多维度互动。

执行完行动后,智能体需要再次感知以了解环境的变化,这就形成一个“感知—认知—决策—行动—感知”的循环,它也成为具身智能体与外界交互的基础。

下篇 模仿游戏

从进化的角度来看,我们的感官系统是对环境挑战的一种适应。

它把感知、计算与通信功能融合在一起,形成了一个强大的传感网络,以支持规模化的有效感知。

多模态感知不仅仅是对感官数据的简单处理,更是一个深受先验知识、期望和经验影响的复杂过程

对复杂真实世界情境的模拟和交互,或许是实现真正智能机器的关键步骤

人类的手是大自然造出来的一件非常出色的“作品”,康德说过,手是人的外在大脑。大多数动物的手只能简单地抓东西,人类却能够用手制造出工具,能打棒球、弹钢琴,甚至写字、画画。

。或许只有当我们解决了感官的难题,具身智能的真正讨论才能开始

第七章 认知

人脑接受外界的信息,通过复杂的神经处理,转换成内在的心理活动,进而影响行为。这个转换过程就是认知过程。

机器如何像人一样理解事物的可供性呢?主要难点在于,对同一物体,不同生物会有截然不同的“可供性认知”

世界模型是智能体对外部环境的一种内部表示。

我们脑海中的世界形象只是一个模型。没有人会在头脑中想象出整个世界、政府或国家。他只有选定的概念,以及这些概念之间的关系,并用这些概念来代表真实的系统

机器学习世界模型的过程主要涉及两个步骤:表征学习和预测

科学是一种社会的、历史的和文化的人类活动,它是发现而不是发明不变的自然规律

第八章 决策

人类的决策过程可以被看作一系列复杂的思维活动和情感反应的综合体现

covariate shift

训练数据集来缓解问题。DAgger算法的核心在于,让学习者执行自己的策略,这样就能遇到许多原先未曾预见的情况。一旦遇到这些新情况,就再次请出“老师”——人类专家,来展示如何应对

ACT算法能有效提升决策模型的可靠性,并因其成组动作的丰富语义,增强了决策结果的可解释性

首先是劳动,然后是语言和劳动一起,成了两个最主要的推动力,在它们的影响下,猿脑就逐渐地过渡到人脑

斯金纳的小白鼠、桑戴克的猫,还是更有名的巴甫洛夫的狗,这些都展示了行为心理学的一个核心观点:我们的行为在很大程度上是由外界环境的反馈塑造的

第九章 行动

运动控制的核心在于神经系统与肌肉系统的协同作用。神经系统通过发出电信号来控制肌肉的收缩和放松,从而实现各种动作。

。这是一种由脊髓控制的反射,不需要大脑的控制。这类运动的能量应用效率是最高的

主观意识控制着运动的开始与结束

全过程均受主观意识支配

,我们的神经系统似乎只保证主要任务的绩效,即锤子落点,而不在意这些关节的具体运动。

自由度冗余

人体的动作自由度远远超过了完成特定任务所必需的,这意味着人体在执行任何动作时,实际上有多种可能的运动路径和关节配置可供选择

。他认为,为了防止过多信息的输入导致中枢神经系统的混乱,大脑会故意限制某些关节或肌肉群的活动,简化控制过程。这种“冻结”不是随机的,而是高度策略化的,目的是在维持必要的动作自由度的同时,减少不必要的能量消耗和运动噪声。

获得性遗传的可信度

法国生物学家拉马克在1809年出版的《动物学哲学》中首次提出了获得性遗传,并系统阐述了什么叫“用进废退”。简而言之,他认为生物体由于环境的影响或某个器官的频繁使用而发生了变化,这些新特性可以遗传给后代

拉马克式”的方法直接编程来控制机器的运动,还是遵循“达尔文式”的途径让机器拥有和人一样复杂的运动能力,哪怕这些运动能力是冗余的

拉马克式的方法侧重于直接赋予机器预设的功能和特性,这种方式快速而直接,适用于当下已经有明确需求的应用场景

达尔文式的演化策略通过模拟自然选择的机制,允许机器在给定的环境中自我优化和适应。

那么,这些任务到底难在哪里呢?交互是关键

摆在交互面前的三座大山分别是“对象”“环境”和“动态性”。

首先来看交互的对象。对象的类型无穷无尽,可能是一件衣服、一个柜子、一座山、一片海、一个人或者另一台机器

其次是交互的环境。物理世界中的交互总是发生在复杂纷繁的环境当中,充满了各种噪声和干扰

最后是交互的动态性。交互的过程往往充满了动态性,交互对象的变化、环境的变化等都无法在行动之初就确定下来

DenseFusion采用了一个创新的异构网络架构,能分别处理RGB和深度数据

除了让感知能力“卷”到极致,还有没有其他的路径能够提升机器的“知”呢?我们或许还可以从另外一个方向进行“弯道超车”:连接。

这样的群体智能显然超越了个体智能。

感知空间是一个完备的赋范线性空间(数学上称为巴拿赫空间

。Code as Policies通过训练大语言模型来为机器编写策略代码

Robotics Transformer

第十章 进化

当前的主流仿真平台如AI2-THOR、Habitat和iGibson,各具特色,它们就像具体智能体的“九年义务教育”,提供了从视觉感知到物理交互的全方位支持,为具身智能的研究提供了宝贵的资源

AI2-THOR(iTHOR、RoboTHOR、ManipulaTHOR和ProcTHOR),Habitat(1.0、2.0和最新的3.0版本),以及iGibson(0.5、1.0和2.0版本)。

具身导航、具身问答和物体操纵。