
对于研究新型计算范式的人而言,20 世纪 40 年代是一个令人神往的时代——几乎所有关键思想都在那时萌芽。1943 年,McCulloch 和 Pitts 发表首篇人工神经元模型论文,奠定了今日人工智能的源头;1945 年,von Neumann 撰写《EDVAC 报告书初稿》(First Draft of a Report on the EDVAC)免费股票配资平台,确立了延续至今的冯·诺伊曼体系结构;1947年,巴丁、布拉顿和肖克利制成世界上第一只晶体管,为集成电路和所有现代芯片奠基;1949 年,赫布提出著名的赫布学习规则,为神经科学提供了核心理论框架。
当然,那个年代同时也是世界饱受苦难的年代,对中国人民更是如此。正是在这样一个剧烈变革的时代,计算机科学开启了它的最初航程。今天,当我们再次置身“百年未有之大变局”之中,回望这一时期,得以重新体会那一代大师如何理解不同计算范式,以及他们如何思考机器与生命、模拟计算与数字计算之间的深层关系。
在这些思想文献中,冯·诺伊曼 1948 年在希克森研讨会(Hixon Symposium)上的演讲尤为关键。他在其中系统讨论了自动机与生物体的共性与差异,分析了模拟计算机与数字计算机作为两类自动机的优势与局限,并尤其敏锐地指出了模拟计算受限于精度的根本瓶颈。网络上关于该演讲的资料较少,且部分资料存在印刷与内容错误。经北京大学孙仲团队翻译并对比矫正,最终形成了逾三万字的中文稿。
回到源头,我们得以从历史中汲取启发——不必受制于既有路径来思考不同计算范式未来可能的演化方向,也能更加清晰地理解解决模拟计算精度问题的重大意义。
图片
自动机的一般逻辑理论
John von Neumann
我必须请求各位的谅解,因为我以一个局外人的身份出现在此——本次会议所涉及的绝大多数领域都并非我的专长。即便在我略有涉猎的自动机逻辑与结构领域,我的研究也几乎完全局限于数学层面。因此,如果我的发言尚有价值,其意义可能在于:我或许能为诸位勾勒出数学方法处理此类问题的视角,并帮助各位预先感受未来与数学家深入交流时可能获得的体验。这或许能指引诸位理解即将接触到的数学思维范式与研究侧重点。我期待通过你们的批评指正,重新审视我此刻的论述方法与重点布局——事实上,在学科交界地带,我需要向诸位请益之处,恐怕远多于诸位需要向我学习的部分。
自动机在自然科学中扮演着日益重要的角色,如今已占据相当显著的地位——这一进程已持续数十年。近几十年来,自动机理论也开始渗透到数学领域的某些分支,尤其是(但不限于)数学物理或应用数学方向。它们在数学中的角色,与自然界组织结构中的某些功能性特征形成了有趣的对照。相较于人工自动装置,自然生物体的运行机制其复杂与精妙程度通常远胜于前者,因此人类对它们的细节认知也远不够深入。尽管如此,我们在观察自然生物体组织结构时发现的某些规律性特征,或许能为我们的人工自动装置设计与规划提供重要启示;反之,我们在建造人工自动装置过程中积累的大量经验与面临的挑战,某种程度上也可投射到对自然生命体的解读中。
初步考虑
问题的二分法:基本单元的性质及其综合的公理化讨论。在将生命有机体(尤其是人类中枢神经系统这一极度复杂的有机体)与人工自动机进行比较时,必须谨记以下限制:自然系统的复杂程度远超人工系统,因此必须将其所代表的问题拆解为若干子问题。在当前语境下,一种尤为关键的拆分方法如下:有机体可被视为由一定程度的独立基本单元所构成。因此,我们可将问题的第一部分界定为——单个基本单元的结构与功能研究;而问题的第二部分则在于理解这些单元如何被组织为整体,以及整体功能的实现如何通过这些单元的协作得以呈现。
问题的第一部分目前仍是生理学研究的核心领域。这一方向与有机化学、物理化学中最艰深的课题密切相关,未来或许终将在量子力学的助力下取得突破。我对此领域缺乏专业资质,因此本文的讨论将不涉及这一部分。
问题的第二部分,则更易吸引我们这类具备数学或逻辑学背景与思维偏好之人。基于此视角,我们往往会通过公理化方法将问题的第一部分剥离,从而专注于第二部分的研究——即从抽象公理出发,将基本单元的性质视为既定前提,转而聚焦于这些单元如何被整合为整体系统,以及系统的宏观行为如何通过单元的交互得以涌现。
公理化方法。对基本单元行为进行公理化处理,即指:我们假定这些单元具有明确的外部功能特性——换言之,它们应被视作'黑箱'。我们将其视为一种自动运行机制,无需揭示其内部结构,仅需假设它们会对某些明确界定的外部刺激,产生某些明确界定的反应。
基于这一前提,我们便可着手研究由这些单元所构成的更庞大系统的结构、运作机制、单元间的关联方式,以及在这些系统的复杂整合过程中可被辨识的普遍理论规律性
我无需赘述这种研究方法的局限性。此类研究或许能证明所采用的公理体系具有便利性,且至少在效果层面接近现实;然而,此类方法并非验证公理有效性的理想途径,甚至可能并非特别有效的途径。公理有效性的验证本质上属于问题的第一部分——实际上,其核心正是通过生理学(或化学、物理化学)手段对基本单元的本质属性进行研究与界定。
显著的数量级差异。尽管存在上述局限性,但上文界定的'第二部分'依然重要且充满挑战。无论对'基本单元'作何合理定义,自然生物体都是这些单元极高复杂度的聚合体。人体细胞总量约为1015至1018数量级,而中枢神经系统中的神经元数量约为1010数量级。人类此前从未接触过具备如此量级复杂度的系统——所有人造自动装置的组件数量,按类似标准估算仅在103至108数量级之间。更有甚者,那些具备自然生物体般逻辑灵活性与自主性的人造系统,其复杂度甚至未达该量级上限。此类系统的典型代表是现代计算机:若对其构成单元进行合理定义,其组件总数通常仅为数千(~103)至数万(~104)量级。
讨论计算机的某些相关特征
计算机的典型运作机制。在完成上述总体性论述后,请允许我切入更具体的议题,聚焦于深入探讨技术细节的领域。如前所述,这一领域涉及人工自动装置,尤其是计算机。它们与中枢神经系统存在某种相似性——或至少与该系统的某些功能层面存在可比性。诚然,其复杂程度远逊于自然系统(即就关键复杂性指标而言规模更小),但通过这类相对简化的人工自动装置来分析生命体与组织化系统的本质问题,并以这种“青蛙视角”将其与中枢神经系统进行对照,仍不失为一种具有启发性的研究路径。
我将从一些关于计算机本身的陈述开始。使用自动机进行计算的概念相对较新。虽然从它们实现的最终结果的角度来看,计算自动机并不是最复杂的人工自动机,但它们确实代表了最高程度的复杂性,因为它们产生了最长的事件链,这些事件链相互决定和跟随。
目前,学界已形成一套相对明确的判据,用以界定高速计算机的合理应用场景。这一判据通常以数学问题所涉及的乘法运算次数为衡量标准:当计算任务需要连续执行约百万次(~10⁶)或更多次乘法运算时,采用高速计算机进行求解被认为具有总体上的合理性。
用更基本的逻辑术语来表达是这样的:在相关领域(即,在通常是应用数学的那些部分,这种机器的使用是适当的)数学经验表明,精度在小数点后十位左右是可取的。因此,单个乘法运算涉及至少10×10个步骤(数字乘法);因此,一百万次乘法相当于至少108次运算。然而,实际上,两个十进制数字的乘法并不是一个基本运算。有很多种方法可以将其分解成这样,并且它们都具有相同程度的复杂性。估计这种复杂程度的最简单方法不是计算小数位数,而是计算在二进制记数系统(以2为基数而不是以10为基数)中达到相同精度所需的位数。一个十进制数字约对应三个二进制数字,因此十位小数约对应三十个二进制数字。因此,上面提到的乘法不是由10×10组成,而是由30×30个初等步骤组成,也就是说,不是102步,而是103步。(二进制数字是“全或无”的事情,只能表示0和1。因此,它们的乘法实际上是一个初等运算。顺便说一下,10个小数的等效物是33[而不是30]个二进制数,但33×33也大约是103。因此,更合理地说,上述意义上的一百万次乘法对应于109个基本运算。
精度与可靠性要求。在人类创造的各类系统中,我尚不知晓有任何其他领域要求其结果真正依赖于人造物内部数十亿(109)步骤的序列化执行,且更进一步具备以下特征:每一步骤都实际影响结果——或者至少可能以相当概率影响结果。然而,这正是计算机的本质特征——这是它们最具体、最困难的特性。
确实,过去二十年间,已出现需要执行数亿甚至数十亿次操作步骤才能得出结果的自动装置。不过,这类自动装置的工作方式并非线性串行处理。其步骤数量庞大,是因为出于各种原因,人们需要反复重复相同实验流程。这类累积性、重复性操作流程往往能提高结果的规模——换言之(这也是关键所在),通过放大有效'信号'与污染信号的'噪声'之间的比值,使结果更具显著性。举例而言:一支麦克风需要产生数万次声波振动才能生成可被语言识别系统解析的声学信号;类似的估算在电视信号处理中可能涉及千万级操作步骤,雷达系统甚至可能需要执行数百亿次运算。但值得注意的是,如果这些自动装置在运算过程中出现失误,其影响程度通常仅与其失误步骤占总操作量的比例相关(这与所有案例中的情况并不完全一致,但相比相反的说法更接近真实情形)。因此,执行结果所需的总操作步骤越多,单个操作的失误对整体结果的干扰就越微弱。
在计算机领域,上述法则并不适用。每个运算步骤(或潜在可能)都与最终结果同等重要;任何一处误差都可能彻底破坏最终结果(此论断并非绝对成立,但通常约30%的运算步骤属于此类关键操作)。这使得计算机成为技术产物中的特例——不仅需要在极短时间内完成十亿次以上的运算步骤,而且在关键流程中(这部分流程通常被严格预定义)不允许出现任何错误。事实上,为确保整机运行可靠且不存在潜在的渐进性故障,当前工程实践中通常要求整个运算流程实现零差错。
这一严苛要求使我们对大型高复杂度计算设备有了全新认知。尤其值得注意的是,当我们将这类计算设备与自然生物体的运作机制进行对比时,这种比较在一定程度上是合理的——生物系统在维持生存功能时同样展现出令人惊叹的容错精度与流程稳定性。
模拟(类比)原理。所有计算自动装置可依据一项直观标准划分为两大类——该分类体系同样适用于生命有机体领域。这两大类别即为模拟计算机与数字计算机。
让我们先考虑模拟原理。计算机的原理可能是由某些物理量表示的数字。作为这样的量,例如,我们可以使用电流的强度,或者电势的大小,或者磁盘旋转的弧度(可能与所影响的整个转数相结合),等等。诸如加法、乘法和积分之类的运算可以通过找到以期望的方式作用于这些量的各种自然过程来执行。将电流送入测功机的两个磁体中,从而使电流倍增,从而产生旋转。然后,这种旋转可以通过连接变阻器转化为电阻;最后,通过将电阻连接到两个固定(不同)电位的源,电阻可以转化为电流。因此,整个集合体是一个“黑盒”,两股电流被送入其中,产生的电流等于它们的乘积。你肯定熟悉许多其他的方法,其中各种各样的自然过程可以用来执行这个和许多其他的数学运算。
有史以来第一台结构完善的大型计算机是一台模拟机,即V. Bush的差分分析仪。顺便说一下,这台机器不是通过电流,而是通过旋转的圆盘来进行计算的。我将不讨论那些巧妙的装置——即如何通过各种数学运算将这些圆盘的旋转角度组合起来。
我不会试图列举、分类或系统化各种各样的能够用于计算的类比原理和机制。它们会带来多重困惑。没有这条指导原则,就不可能理解这种情况,这条指导原则就是所有“通信理论”中的经典原则——“信噪比”。也就是说,每一个类比过程的关键问题是:构成“噪音”的机制的不可控波动,与表示机器运行的数字的重要“信号”相比,有多大?任何类比原理的有用性取决于它能将不可控波动的相对大小——“噪声水平”保持多低。
换一种说法:不存在一台真正能够精确地计算两个数之积的模拟机。它所能给出的,是该乘积再加上一个微小但未知的量,这个量反映了机械结构和相关物理过程所产生的随机噪声。整个问题就在于如何将这一噪声量控制到尽可能低。这一原则主导了整个相关技术的发展。例如,它导致人们采用看似复杂笨重的机械装置,而不是更为简单优雅的电气装置。(至少在过去二十年中的大部分时间里情况如此。更近期地,在某些仅需极有限精度的应用中,电气装置又重新占据了优势。)在比较机械与电气的模拟过程时,大体而言情况如下:机械结构可以将噪声水平压低到“最大信号幅度”的约 1: 104或 1: 105,而电气结构的比例很少能优于 1:10²。当然,这些比值代表的是计算基本步骤中的误差,而不是最终结果的误差;最终误差显然会显著更大。
数字原理。数字计算机采用一种熟悉的方法来表示数字,即将数字表示为若干数字符号(位)的集合。顺便说一句,这也是我们每个人在日常、非机械计算中所使用的方法——我们以十进制来表示数字。严格来说,数字计算并不一定必须采用十进制。任何大于 1 的整数都可以用作数字表示系统的进位基数。十进制(以 10 为基)是最常用的进位制,到目前为止所建造的所有数字计算机都使用该系统。然而,二进制(以 2 为基)最终可能被证明更为优越,且目前已有一些采用二进制系统的数字计算机正在建造中。
数字计算机中的基本运算通常是四则算术:加法、减法、乘法和除法。起初我们可能会认为,借助这些运算,数字计算机(与前面提到的模拟机相对)能够获得绝对精确性。然而,事实并非如此,下面的分析将展示这一点。
以乘法为例。一台数字计算机在将两个十位数字相乘时,会得到一个二十位的数字作为它们的乘积,而且不会产生任何误差。从这一点来看,它的精度是绝对的,即使机器算术部件的电气或机械元件本身具有有限精度。只要没有任何部件发生故障,也就是说,只要每个部件的运作仅在其规定的容差范围内波动,结果就将是完全正确的。这当然是数字方法最重要、最典型的优点。然而,误差作为一种正常操作现象(而不仅仅是由于部件确实损坏所造成的意外)仍然会以如下方式出现。两个十位数的绝对正确的乘积是一个二十位的数。如果机器只能处理十位数字,那么它必须舍弃该二十位数的最后十位,只保留前十位来继续运算。(出于简化,这里略去对这些数字可能进行“舍入”而带来的微小但实际重要的改进。)另一方面,如果机器能够处理二十位数字,那么两个二十位数的乘积将产生四十位,这四十位又必须被削减为二十位,依此类推。总之,不管机器被设计为处理多少位数,在连续乘法运算的过程中,迟早都会达到这一最大位数。一旦达到,再下一次乘法就会产生超出的位数,而乘积就必须截断为原有位数的一半(取前一半,并适当舍入)。因此,以最大十位为例的情况是典型的,我们完全可以用它作为示例。
因此,将一个(精确的)20位结果四舍五入到10位的规定(最大)数的必不可少的在数字计算机中引入了定性的与在模拟计算机中发现的相同的情况。当调用一个结果时,它产生的不是结果本身,而是产品加上一个小的额外项——舍入误差。当然,这个误差不是像模拟计算机中的噪声那样的随机变量。从算术上讲,它在每一个特定的实例中都是完全确定的。然而,它的确定方式是如此复杂,它在一个问题中出现的实例数量的变化是如此不规则,以至于它通常可以作为一个高度近似的随机变量来对待。
(这些注意事项适用于乘法。对于除法,情况甚至更糟,因为商通常不能用任何有限位数以绝对精度表示。因此,在第一次运算之后,通常已经需要四舍五入了。另一方面,对于加法和减法,则不会出现这种困难:如果没有超出计划最大值的增加,则和或差的位数与加数本身相同。尺寸可能会造成一些困难,这些困难在这里讨论的精度的困难中又增加了一些,但我现在不打算讨论这些。)
数字化程序在降低噪音水平中的作用。如上所述,数字计算机与模拟计算机在噪声水平上的重要区别,并非质的差异,而是量的差异。如前所述,模拟机的相对噪声水平从未低于 1/103,在许多情况下甚至高达 1/10²。而前文提到的十位十进制数字计算机,其相对噪声水平(由舍入引起)为 1/10²。因此,数字方法的真正重要性在于,它能够将计算噪声水平降低到任何其他(模拟)方法无法实现的程度。此外,在模拟机制中进一步降低噪声水平越来越困难,而在数字机制中却越来越容易。在所有模拟机中,实现 1/103的精度很容易;实现 1/104有些困难;实现 1/105非常困难;而在现有技术条件下,实现 1/106则是不可能的。而在数字计算机中,上述精度仅意味着将机器分别构建为三位、四位、五位和六位的小数精度。实际上,从每一阶段向下一阶段过渡反而越来越容易。例如,将一台三位精度的机器(假设有人想建造这样的机器)提高到四位精度,仅增加 33%;从四位到五位,增加 20%;从五位到六位,增加 17%;从十位到十一位,仅增加 10%。从“随机噪声”降低的角度来看,这显然与依赖物理过程的环境完全不同。数字方法的重要性正是在这一点上体现——而不是在其实际几乎无效的绝对可靠性上。
计算机与生物体的比较
生物体的混合特性。当我们考察中枢神经系统时,可以发现其中既包含数字式(digital)过程,也包含模拟式(analogy)过程的要素。
神经元传递脉冲。这似乎是它的主要功能,尽管关于这一功能及其是否具有排他性的问题仍远未有定论。总的来说,神经脉冲似乎是一件非有即无的事情,就像二进制数字一样。因此,数字元素显然是存在的,但同样明显的是,这不是故事的全部。生物体中发生的许多事情不是通过这种方式调节的,而是依赖于血流或其他体液介质的一般化学成分。众所周知,有机体中有各种各样的复合功能序列,从最初的刺激到最终的效果,它们必须经历各种各样的步骤——其中一些步骤是神经的,即数字的,另一些是体液的,即模拟的。在这样的链条中,这些数字式和模拟式成分可能交替增强。在某些类型的情形下,这样的链条甚至能够反馈到自身,也就是说,其最终输出可能再次刺激其初始输入。
众所周知,这种混合性质(部分神经性、部分体液性)的反馈链条能够产生极为重要的过程。例如,使血压保持恒定的机制就属于这种混合类型。感知并报告血压的神经通过一系列神经脉冲来完成这一功能,即以数字式方式进行。由这一脉冲系统引起的肌肉收缩仍可视为许多数字化脉冲的叠加。然而,这种收缩对血流的影响则是流体动力学性质的,因此属于模拟式。当血压因这种影响而发生变化,再反作用于负责报告压力的神经时,这便闭合了反馈回路,而在这一点上,模拟过程又重新转化为数字过程。因此,在这一点上,将生物体与计算机进行比较显然并不完美。生物体是极其复杂的部分数字、部分模拟的机制。而计算机,至少是在我这里讨论的现代形式中,是纯粹的数字机制。因此,我必须请你接受这一对系统的简化。尽管我十分清楚生物体中的模拟成分,并且否认其重要性是荒谬的,但为了讨论上的简洁,我仍将忽略这一部分。我将把生物体视为纯粹的数字自动机。
每个单元的附带特性。除此之外,有人可能会说,甚至神经元也不完全是一个数字元件。这一点已被反复提出,并且理由充分。如果我们仔细考虑一下,其中当然有很多道理。在相关的论断是:那种已经完全形成、可被视为“全或无”事件的神经脉冲,并不是一种基本现象,而是高度复杂的。它是构成神经元的复杂电化学体系的一种简并状态;若对其功能作全面分析,则必须将其视为一种模拟机。确实,可以以某种方式对神经元施加刺激,使得触发神经脉冲的“崩解”并不发生。在这一“阈下刺激”区域中,我们首先观察到(即在最弱的刺激下)神经元的反应与刺激成正比;随后(在更强但仍属阈下的刺激水平下)其反应遵循更复杂的非线性规律,但仍然是连续可变的,而非发生崩解的那种“全或无”类型。此外,在阈下范围内及其之外,还存在其他复杂现象:疲劳、总和效应、某些形式的自振荡等。
尽管上述观察都具有真实性,但我们也应当记住,它们可能代表了对“全或无”元件概念的不恰当的严格批评。机电继电器或真空管在适当使用时,无疑是“全或无”元件;事实上,它们正是这种元件的原型。然而,它们在本质上都是复杂的模拟机制,在适当调节的刺激下会作连续反应——线性的或非线性的——并且只有在非常特定的工作条件下才表现出“崩解”或“全或无反应”的现象。它们的这种表现与前面描述的神经元表现之间几乎没有什么差别。
换句话说,它们都不是绝对意义上的“全或无”元件(我们的技术经验和生理经验中几乎没有任何证据表明绝对的“全或无”元件确实存在);但这点并不重要。所谓“全或无”元件,更合理的定义应是满足以下两个条件的元件:第一,它在某些合适的操作条件下以全或无方式运作;第二,这些操作条件正是该元件在正常使用时的条件,它们代表了该元件所在的大系统中的正常功能状态。因此,重要的事实不是某元件是否必然且在所有条件下都具有全或无特性——这很可能从未发生过——而是它在适当的语境中是否主要以全或无方式运作,并且似乎是被“设计”成主要以这种方式运作的。
我意识到,这一定义引入了某些并不理想的标准,例如关于语境的“适当性”、关于功能的“表现”与“意图”。然而,我看不出我们能够避免使用这些标准,也无法避免依赖常识来应用它们。因此,在以下的讨论中,我将采用一个工作假设:神经元是一个全或无的数字元件。我清楚地意识到,这并不是最终定论,但我希望上述关于这一工作假设的局限性以及其使用理由的讨论能使你放心。我只是希望简化论述,而无意对任何本质上仍未解决的问题作出预断。
同样的意义上,我认为可以把神经元当作电器件来讨论。对神经元的刺激,其脉冲的发展和进展,以及脉冲对突触的刺激作用都可以用电来描述。为了了解神经细胞的内部功能,伴随的化学过程和其他过程是重要的。它们甚至可能比电现象更重要。然而,对于将神经元描述为一个“黑盒子”,一个非全即无的器件来说,它们似乎是几乎没有必要的。同样,这里的情况并不比真空管更糟。在这里,纯电现象也伴随着固体物理、热力学、力学的许多其他现象。所有这些对于理解真空管的结构都很重要,但如果要将真空管视为具有原理图描述的“黑盒子”,则最好将其排除在讨论之外。
开关元件或继电器元件的概念。从上面讨论的角度来看,神经元和真空管是同一实体的两个实例,通常称之为“开关器件”或“继电器器件”。(机电继电器当然是另一个例子。)这样的器件被定义为一个“黑匣子”,它通过能量独立的反应对特定的刺激或刺激组合做出反应。也就是说,人们期望这种反应有足够的能量来引起与引发它的刺激相同的几种刺激。因此,反应的能量不可能由原始刺激提供。它必须源于一种不同的、独立的能量来源。刺激仅仅引导,控制来自这个源头的能量流。
(这个来源,在神经元的情况下,是神经元的一般代谢。在真空管的情况下,它是维持阴极-极板电位差的功率,而不是管子是否导电;在较小程度上,它是使“沸腾”的电子远离阴极的加热器功率。在机电继电器的情况下,它是电流供应的路径,继电器是关闭或打开。)
生物体的基本转换元件,至少就我们在这里所考虑的程度而言,是神经元。最新类型的计算机的基本开关机构是真空管;在旧的继电器中,它们全部或部分是机电继电器。很有可能,计算机并不总是主要由开关元件组成,但这样的发展还很遥远。一个可能离我们更近的进展是,真空管可能取代它们在计算机中充当开关元件的角色。然而,这也可能在几年内不会发生。因此,我将只从开关元件(即真空管)的集合体的观点来讨论计算机。
大型计算机与生物体的规模比较。两台著名的、非常大的真空管计算机已经存在并在运行。两者都由大约2万个开关元件组成。一种是纯真空管机。(它属于美国陆军军械部弹道研究实验室,位于马里兰州阿伯丁,代号为“ENIAC”。)另一种是混合部分真空管和部分机电继电器。(它属于IBM公司,位于纽约,代号为“SSEC”。)这些机器比真空管计算机的尺寸要大得多,而真空管计算机将在未来几年内问世并投入使用。其中每一个很可能由2000到6000个开关元件组成。(这些规模缩小的原因在于对“存储器”处理方式的不同态度,此处不作讨论。)在以后的几年中,机器的尺寸可能会再次增加,但只要采用目前的技术和理念,就不太可能超过10,000(或者可能是10,000的几倍)个开关元件。总而言之,对于一台计算机来说,大约104个开关元件似乎是合适的数量级。
与此相比,中枢神经系统中神经元的数量估计大约为1010。我不清楚这个数字的准确性,但推测其指数至少不会偏差超过一个数量级。因此,非常显著的一点是,中枢神经系统的规模至少比我们目前能够谈论的最大人工自动机大一百万倍。探究其原因以及其中涉及的原则性问题是相当有趣的。在我看来,这确实涉及几个非常明确的原则性问题。
确定各单元的显著规模比。显然,我们所知道的真空管,与神经细胞相比是巨大的。它的物理体积大约是它的十亿倍,它的能量耗散大约是它的十亿倍。(当然,不可能给出这些数字具有独特的正确性,但上述数字是典型的。)另一方面,这种差异在某种程度上是可以补偿的。真空管在计算机以外的应用中可以达到极高的运行速度,但这些应用在此无需讨论。在计算机中,其最大速度要低得多,但仍相当可观。根据目前的技术水平,一般认为真空管的最大运作速度约为每秒一百万次动作。相比之下,神经细胞的反应要慢得多,大约为 1/2000 秒,而真正重要的是,从刺激到完全恢复并可能再次接受刺激所需的最短时间间隔,这仍然比上述时间更长,大约为 1/2000 秒。由此得到的速度比约为 1:5000,不过这个比值可能对真空管过于有利,因为当真空管作为开关器官以每秒 1,000,000 步的速率运作时,实际上几乎从未以 100% 的占空比运行。因此,像 1:2000 这样的比值似乎更为合理。因此,真空管以大约十亿倍的成本,其性能仍比神经元高出约一千倍。因此,可以说其效率低下的程度大约为一百万倍,这种说法也有一定道理。
基本事实是,在各方面,神经元与真空管相比体积都很小。如上所述,这一比例约为十亿。那么,这种差异的原因是什么呢?
对极端规模比原因的分析。这种差异的根源在于基本的控制器件,或者更确切地说,与神经元相比,真空管的控制结构。在真空管中,关键的控制区域是阴极(电子的发源地)与控制电子流动的栅极之间的空间。该空间深度约为一毫米。而在神经元中对应的实体是神经细胞的细胞膜,其厚度约为一微米(1/1000 毫米),甚至略小。因此,在此处,线性尺寸的比值约为 1:1000。顺便提一下,这就是主要差别。控制空间中的电场在真空管和神经元中大致相同。这些器官可以可靠控制的电势差,在真空管中为几十伏特,而在神经元中为几十毫伏,其比值同样约为 1:1000,因此它们的电场梯度(场强)几乎相同。现在,线性尺寸比为 1:1000 对应的体积比约为 1: 109。因此,三维尺寸(体积)上十亿倍的差异因子,正如预期的那样,对应于线性尺寸上 1000 倍的差异,也就是对应于真空管电极间一毫米的间距与神经元一微米膜厚之间的差别。
值得注意的是,尽管这一点也不令人惊讶,但物体之间的这种差异是如何导致建立在它们之上的生物体之间令人印象深刻的宏观差异的,这两种物体都是微观的,都位于基本组成部分的内部。毫米物体和微米物体之间的差异导致ENIAC重达30吨,耗散150千瓦的能量,而人类中枢神经系统的功能大约是它的一百万倍,其重量约为一磅,并被容纳在人类的头骨内。在如上所述评估ENIAC的重量和尺寸时,我们还应该记住,这个庞大的设备需要处理20个10位小数的数,也就是说,总共有200个十进制数字,相当于大约700个二进制数字(仅仅是700个同时出现的“是-否”信息)。
这些原因的技术解释。这些考虑应该清楚地表明,我们目前的技术在处理高速和高度复杂的信息方面仍然非常不完善。由此产生的装置无论在物理上还是在能量需求上都是巨大的。
这种技术的弱点很可能至少部分在于所使用的材料。我们目前的技术涉及使用金属,并保持相当接近的间距,而在某些关键点上仅由真空隔开。这种介质组合具有一种奇特的机械不稳定性,这是生物自然完全没有的。我所指的是一个简单的事实:如果生物体受到机械损伤,它具有很强的自我修复倾向;而如果我们用大锤击打人工机械,则不会出现这种自我修复的趋势。如果两块金属非常接近,环境介质中始终存在的小振动和其他机械扰动,就可能带来风险,使它们接触在一起。如果它们处于不同的电位,短路之后可能发生的下一步情况是,它们会被电焊接在一起,接触变得永久性。此时,就会发生真正且永久的故障。而当我们损伤神经细胞的细胞膜时,并不会发生这种情况。相反,细胞膜通常会在短暂延迟后自行恢复。
正是这种材料的机械不稳定性阻碍了我们进一步缩小尺寸。这种不稳定性和其他类似性质的现象,使得即使在目前的尺寸下,我们的元件行为也不完全可靠。因此,正是我们所用材料相对于自然界所用材料的劣势,阻止了我们达到自然生物所拥有的高度复杂性和微小尺寸。
自动机的未来逻辑理论
对限制当前人工自动机规模的因素的进一步讨论。我们已经强调了人工自动机的复杂性是如何受到限制的,即可以在不造成极大困难的情况下处理的复杂性,以及自动机仍能被期望可靠运行的程度。导致这种意义上复杂性受限的两个原因已经被提出:一是器件尺寸大,二是器件可靠性有限。这两者的原因在于我们所使用的材料在较简单的应用中似乎相当合适,但在高度复杂的应用中却边缘化且不如自然材料。然而,还有第三个重要的限制因素,我们现在应当将注意力转向它。这个因素属于智力层面,而非物理层面。
由于缺乏自动机逻辑理论而导致的限制。我们距离拥有一套真正称得上理论的自动机学说还很远,也就是说,距离一套真正数学化、逻辑化的理论还很远。
如今已经存在一套非常完善的形式逻辑体系,特别是应用于数学的逻辑。这是一门有诸多优点的学科,但同时也存在一些严重的不足。此处不是展开讨论其优点的场合,我当然无意贬低它们。然而,对于其不足之处,可以这样说:凡是从事形式逻辑工作的人都会确认,它是数学中技术上最难以驾驭的部分之一。其原因在于,形式逻辑处理的是严格的、全或无的概念,与实数或复数的连续概念——也就是数学分析——几乎没有联系。然而,数学分析正是数学中技术上最成功、最完善的部分。因此,形式逻辑由于其方法的本质,被切断在数学中最精心培育的部分之外,而被迫进入数学最困难的领域——组合学。
到目前为止所讨论的数字的、“全或无”类型的自动机理论,确实是形式逻辑的一个分支。因此,它似乎不可避免地会具有形式逻辑的不太吸引人的特性——从数学的角度来看,它将不得不是组合性的,而非分析性的。
这种理论的可能特征。然而,在我看来,情况实际上并非如此。在研究自动机的功能时,显然有必要关注一个在形式逻辑中从未出现过的情形。
在整个现代逻辑中,唯一重要的问题是某个结果是否能够通过有限数量的基本步骤达到。至于需要多少步骤,则几乎从来不是形式逻辑所关心的。原则上,任何有限的正确步骤序列都与其他序列一样好;步骤数的大小无关紧要——无论它是很小、很大,甚至大到在人的一生,或在我们所知的恒星宇宙的推定寿命内都不可能完成。在处理自动机时,这一说法必须作出显著修改。对于自动机而言,重要的不仅是它是否能在有限步骤内达到某个结果,还包括需要多少步骤。原因有二:第一,自动机的构造目的在于在预先规定的时间内,或至少在预先规定的时间量级内,得到特定结果;第二,所使用的组件在每一次操作中都有一个微小但非零的失败概率。在足够长的操作链中,如果不加控制,这些失败概率的累积效应可能达到 1 的量级——而此时它实际上会导致完全不可靠。这里涉及的概率水平非常低,但仍未远离一般技术经验的范围。很容易估计,一台高速计算机在处理典型问题时,可能需要执行多达1012次单独操作。因此,一个单独操作所能容忍的错误概率必须远小于10-12。值得一提的是,一个机电继电器(如电话继电器)目前被认为可接受,如果其单次操作的失败概率约为10-8;若其失败概率约为10-9,则被视为极佳。因此,高速计算机所需的可靠性更高,但仍未高到无法企及的程度,与某些现有工业领域的成熟实践相比,只是稍高一些。然而,实际可实现的可靠性水平不太可能远高于上述最低要求。因此,显然需要进行全面的研究,并建立一套非平凡的理论。
逻辑操作(三段论、连接、析取、否定等,也就是自动机习惯使用的术语,各种形式的门控、巧合、反巧合、阻塞等动作)都必须通过允许低概率但非零概率的例外(故障)的程序来处理。所有这些都将导致一些理论,这些理论与过去和现在的形式逻辑相比,不那么严格地具有全有或全无的性质。它们的组合性要少得多,分析性要强得多。事实上,有许多迹象使我们相信,这种形式逻辑的新体系将更接近另一种在过去与逻辑几乎没有联系的学科。这就是热力学,主要是从玻尔兹曼那里得到的形式,是理论物理学中在某些方面最接近操纵和测量信息的部分。它的技术确实更多地是分析性的,而不是组合性的,这再次说明了我在上面一直试图提出的观点。然而,在这个场合对这个问题进行更深入的探讨,将使我走得太远。
因此,自动机逻辑将在两个重要方面区别于现有的形式逻辑体系:
1.必须考虑“推理链”的实际长度,也就是说,操作链本身的长度必须被纳入讨论。
2.逻辑运算(三段论、合取、析取、否定等;换用自动机领域的术语,即各种形式的门控、符合、反符合、阻断等动作)都必须以允许例外(即少量但非零概率的失效)的方式来处理。
所有这些将引向一种远不如传统形式逻辑那样严格“全或无”的理论体系。它将更少具有组合性质,而更多具有分析性质。事实上,有许多迹象使我们相信,这种新的形式逻辑体系将逐步接近另一门过去与逻辑联系很少的学科:热力学——尤其是从玻尔兹曼那里继承下来的那种形式;正是理论物理中最接近直接处理与度量“信息”的部分。其技术方法确实比组合性的更倾向于分析性,这再次说明了我上面所要强调的观点。
然而,就本次讨论而言,更深入探讨这一主题将使话题过于展开,因此我在此不再详述。
所有这些再次强调了先前已经指出的结论:我们需要一套详细的、高度数学化的,更具体地说是分析性的自动机与信息理论。而目前我们所拥有的,不过是这一理论的最初迹象。在评估人工自动机时——正如我先前讨论过的,这些自动机的规模还只是中等——人们尚能够以一种粗略、经验性的方式应对,而不必依赖这样的理论。然而,有充分理由相信,对于更复杂的自动机而言,这种做法将不再可能。
缺乏自动机逻辑理论对处理错误方法的影响。因此,这是最后一个,也是非常重要的限制因素。如果没有一套高度发达且精细的自动机与信息理论,我们几乎不可能构造出比现有自动机复杂得多的系统。更不用说构造出具有与人类中枢神经系统相当的巨大复杂性的自动机了——这是完全不可想象的。
这种在理论上的不足,确实使我们无法在现有基础上走得更远。
这种因素的一个简单表现,就是我们当前对错误检查的处理方式。在生物体中,组件发生故障是常见的。生物体显然具有某种机制,能够检测这些故障并使其无害化。很容易估计,一个普通生命体在其整个生命周期内发生的神经激发次数大约应为1020量级。显然,在如此漫长的事件链中,从未发生过生物体自身无法纠正、且需要重大外部干预的故障。因此,系统内部必定包含必要的机制,能够在错误发生时对其进行诊断,能够重新调整机体以尽量减小错误的影响,并最终能够永久性地纠正或屏蔽有缺陷的组件。与此相对,我们在人工自动机中处理故障的方式则完全不同。目前的实际做法——也是该领域所有专家的一致意见——大致如下:必须尽一切努力,在错误一旦发生时立即检测到它(通过数学或自动化的检查方法)。然后,应尽可能迅速地尝试隔离导致错误的组件。这可能部分通过自动方式完成,但在任何情况下,这一诊断工作中都有相当一部分必须依赖外部干预。一旦确定了故障组件,就应立即对其进行修复或替换。
请注意这两种态度之间的差异。自然界处理中组件故障的基本原则,是尽可能使故障的影响变得微不足道,并且即便需要采取纠正措施,也可以从容不迫地进行。相反,我们在处理人工自动机时,则要求立即诊断。因此,我们试图以一种方式布置自动机,使得错误变得尽可能显眼,并让干预与纠正立即发生。换句话说,自然生物体的构造方式是让错误尽可能不显眼且无害;而人工自动机的设计方式却是让错误尽可能显眼且灾难性。这种差异的原因并不难理解。自然生物体的构造足够精妙,即便在某些组件已发生故障的情况下仍能继续运作。它们能够带着故障继续运作,并且随后还具有消除这些故障的倾向。而人工自动机当然也可以被设计成在有限区域内、带着少量有限的故障继续正常运作。然而,任何故障都意味着机器内部可能已经开始出现某种普遍性的退化过程。因此,有必要立即干预,因为一台已经开始出现故障的机器很少有自我恢复的倾向,更有可能每况愈下。所有这些都指向同一个事实:在使用人工自动机时,我们操作得比自然界对其生物体的操作方式更加“摸黑”。我们对于某个孤立错误的出现,以及必然潜藏在其后的某个故障,显然更加“恐惧”——至少目前不得不如此。我们现在的行为显然是一种源于无知的过度谨慎。
单一错误原则。与此相关的一个次要现象是:我们几乎所有的错误诊断技术都基于这样一个假设——机器中只存在一个故障组件。在这种情况下,通过对机器进行反复的分区,可以确定哪个部分包含故障。然而,一旦机器中可能同时存在多个故障,这些相当强有力的二分式诊断方法就不再适用。此时,错误诊断便会变得越来越无望。对“必须将需要诊断的错误数量保持为 1,或至少尽可能少”的高度重视,再次说明了我们在这一领域的无知;而这也是为什么错误必须被设计得尽可能显眼,以便在其发生后尽快被识别和处理——也就是说,在更多错误产生之前完成处置。
数字化原理
连续量的数字化:数字展开法与计数法。想想自然有机体的数字部分;具体来说,以神经系统为例。我们似乎确有理由假定神经系统是一种数字机制,也就是说,它传递的消息是由具有全或无特性的信号构成的(参见前文)。
换句话说,每个基本信号、每个脉冲要么存在,要么不存在,没有中间状态。当面对本质上呈相反特性的任务时,这一点尤其显著——也就是说,当神经系统实际上被要求传递一个连续量时。例如,一个需要报告压力大小的神经,就是这一情况的典型实例。
假设我们要传递的是一个压力(显然是连续量)。众所周知,这一“技巧”是如何完成的:执行该任务的神经仍然只传递单个的全或无脉冲。那么,它如何用这些脉冲——也就是数字信号——来表示压力这一连续数值呢?换句话说,它如何将一个连续数值编码为数字形式?它当然不会通过将该数值按十进制(或二进制,或任何其他进制)展开成数字的传统方式来表达。看起来实际情况是:它以一种频率发出脉冲,这个频率是变化的,并且在一定范围内与所要传递的连续量成正比,或者更一般地,是其单调函数。因此,实现这种“编码”的机制本质上是一种频率调制系统。
这些细节是已知的。神经具有一个有限的恢复时间。换句话说,在它发出一次脉冲之后,需要经过一段时间才能再次接受刺激,而这段时间是有限的,并且取决于随后(尝试)刺激的强度。因此,如果神经处在一个持续刺激之下(例如本例中的压力——始终保持存在的恒定刺激),那么它将周期性地作出反应,两次连续刺激之间的周期长度正是前面提到的恢复时间,也就是该恒定刺激强度(在此即压力)的函数。因此,在较高压力下,神经可能能够每 8 毫秒响应一次,即每秒传递 125 个脉冲;而在较低压力下,它可能只能每 14 毫秒重复一次,即每秒传递 71 个脉冲。这显然是一个“全或无”元件的行为,一个数字元件的行为。然而,非常值得注意的是,它采用的是“计数法”,而不是“十进制展开”(或“二进制展开”等)的方法。
两种方法的比较——生物体偏好计数法的原因,以及两种方法优缺点的比较。计数法显然比展开法效率低得多。为了用计数方式表示一个约一百万的数(即一个具有一百万级分辨率的物理量),必须传递一百万个脉冲。而要用展开法表示同样大小的数,只需要 6 或 7 个十进制数字,也即大约20 个二进制数字。因此,在这种情况下,只需 20 个脉冲即可。显然,我们的展开法在表示效率上远比自然界采用的计数法经济得多。另一方面,计数法具有高度稳定性且不易出错。如果你以计数方式表示百万级的数字,漏记一个脉冲,对结果影响微不足道。但若用(十进制或二进制)展开表示,一个数字的一次错误便可能使整个结果失效。因此,我们数字展开系统中不太理想的特点,在计算机中也重新出现;事实上,后者显然与前者有深刻关联,并且在一定程度上由前者导致。而自然生物体高度稳定、几乎不出错的特性,则反映在它们在此类情形中似乎采用的计数法上。所有这些体现了一个普遍规则:你可以通过降低表示效率来提高抗错误能力,或者换句话说,通过允许冗余来提高可靠性。显然,实现冗余以提高可靠性的最简单方式,是使用本身并不安全的数字展开方式,但将每条消息重复多次。而在这里,自然显然采用了一个更加冗余、也更加安全的系统——计数法。
当然,神经系统采用计数法而非数字展开法,可能还有其他原因。计数法所需的编码—解码机制要比数字展开法简单得多。然而,确实自然界似乎愿意并且能够在复杂性方向上走得比我们更远,或者更准确地说,比我们所能承受得起的更远。因此,我们或许可以怀疑,如果数字展开系统唯一的缺点只是其逻辑结构较为复杂,那么自然界并不会仅仅因为这一点而拒绝采纳它。尽管如此,我们在自然生物体中却从未发现其被使用的迹象。这一观察究竟具有多大的“最终”意义,很难断言。但无论如何,这一点值得关注,并且应当在未来对神经系统功能的研究中进一步探讨。
形式化的神经网络
McCulloch–Pitts形式神经网络理论。关于这些问题,从逻辑和组织结构的角度还可以展开更多讨论,但我不准备在此详述。相反,我将继续讨论迄今为止通过公理化方法所获得的、可能最重要的成果。我指的是 McCulloch 和 Pitts 关于逻辑与神经网络之间关系的那些非凡定理。
在这次讨论中,正如我已经说过的,我将采取严格的公理观点。因此,我将把神经元视为一个“黑箱”,它具有若干接收刺激的输入端,以及一个发出刺激的输出端。为了具体起见,我假设每个神经元的输入连接可以分为两种类型:兴奋性(excitatory)和抑制性(inhibitory)。这些黑箱本身也分为两种类型:阈值 1 和阈值 2。这些概念由以下定义相互关联并受到限定:要使这样一个元件被激发,它必须在其兴奋性输入端同时接收到不少于其阈值数量的刺激,并且在其任何一个抑制性输入端不能接收到哪怕一个刺激。如果满足这些条件,那么它将在一个确定的时间延迟之后(该延迟被假定为恒定不变,并可据此定义时间单位)发出一个输出脉冲。该脉冲可以通过适当的连接传送到任意数量的其他神经元的输入端(也可以传送到它自身的任意输入端),并在每个接收点产生与上述相同类型的输入刺激。
当然,这里所给出的描述是对神经元实际功能的过度简化。我已在前文讨论过公理化方法的性质、局限性与优点(见第 2 页和第 10 页)。这些讨论在此同样适用,以下内容也应以此为前提来理解。
McCulloch 和 Pitts 利用这些单元构建了复杂的网络,可称为“形式神经网络”。这样的系统由任意数量的这些单元组成,并通过输入与输出以任意复杂的方式相互连接。此类网络的“功能”可以通过以下方式定义:从整个系统中选定一些输入端和一些输出端,然后描述:对前者施加哪些初始刺激,将导致后者产生哪些最终刺激。
McCulloch–Pitts 理论的主要结果。McCulloch 和 Pitts 的重要结论是:任何在逻辑上可以严格、明确地用有限字句定义的功能,都可以由这样一个形式神经网络实现。
在此停下来思考一下其含义是有益的。人们常常声称,人类神经系统的活动和功能极其复杂,以至于任何普通机制都不可能执行这些功能。人们还曾试图指出一些具有这种性质的特定功能,并试图证明这些功能在逻辑上,即便被完全描述,也本质上无法通过机械或神经方式实现。McCulloch–Pitts 的结果终结了这种论断。它证明:任何能够被完整而明确地描述、任何能够被完整而无歧义地用语言表达的事物,都能够由某个适当的有限神经网络实现。而反过来的命题显然成立。因此,我们可以说:能够被完整而无歧义地用语言描述的真实或想象的行为模式,与能够被有限形式神经网络实现的行为模式,两者完全等价。这两个概念是共延的。此,若在原则上存在将某种行为模式实现于此类网络的困难,那只有一种可能:我们无法对该行为进行完整的描述。
因此,剩下的问题有两个。第一,如果某种行为模式可以由一个有限神经网络实现,那么问题仍然存在:这个网络是否能够在实际可行的规模内实现,具体来说,它是否能够适应所讨论生物体的物理限制。第二,问题在于:是否每一种现存的行为模式都能被完整而无歧义地用语言表达出来。
第一个问题当然是神经生理学的最终问题,在此我不打算进一步探讨。第二个问题则具有不同的性质,而且具有有趣的逻辑含义。
对这一结果的解读。毫无疑问,任何可想象的行为形式的任何特定阶段,都可以用语言“完整而无歧义”地描述。这种描述可能很冗长,但始终是可能的。否认这一点无异于坚持一种逻辑神秘主义,而这种观点显然与我们大多数人的立场相去甚远。然而,这也是一个重要的限制:这一描述仅适用于每一个元素单独而言,而且如何将其应用于整个行为综合体仍不清楚。更具体地说,描述一个生物体如何能够识别视网膜上出现的任意两组三角形属于同一类别“三角形”,并不存在困难。同样地,在此基础上再加入其他对象,也不会有困难——这些对象除了规则绘制的直线三角形之外,也能被归类识别为三角形,例如边为曲线的三角形、边未完全绘制的三角形、仅通过内部较为均匀的阴影来指示的三角形等等。我们尝试越完整地描述可能归入这一类别的一切对象,描述就会越长。我们可能会隐约感到,这样的完整目录不仅会异常冗长,而且其边界不可避免地会存在模糊之处。然而,这仍然是一个可能的操作。
然而,所有这些只是更一般的“类似几何实体识别”概念的一小部分。而这一概念本身,又只是“类比”这一更广泛概念的微观片段。没有人会尝试在任何实际可行的篇幅内描述和定义支配我们视觉解释的类比这一总体概念。也无法判断这样的工作需要数千卷、数百万卷,还是根本不切实际的卷数。现在完全有可能,实际上传达“什么构成视觉类比”的最简单且唯一可行的方法,是对视觉大脑的连接关系进行描述。这里涉及的是我们几乎没有任何经验的逻辑部分。其复杂程度远超我们以往所知的任何事物。我们无权假设过去使用的逻辑符号和程序适用于该领域。在这一领域,真实的对象本身可能才是其最简单的描述——也就是说,任何尝试用通常的文字或形式逻辑方法描述它,都可能变得更加难以处理、更加复杂。实际上,现代逻辑的一些研究结果倾向于表明,当我们面对真正复杂的实体时,这类现象是可以预期的。因此,寻找“视觉类比”的精确定义,即精确的语言描述,很可能是徒劳的。视觉大脑自身的连接模式,有可能就是这一原理最简单的逻辑表达或定义。
显然,在这个层面上,麦卡洛克-皮茨(McCulloch-Pitts)结果并没有带来更多的益处。在此,它仅仅提供了对前面概述情况的另一个说明。逻辑原则与它们在神经网络中的实现之间存在一种等价性,而在较简单的情况下,逻辑原则可能提供了网络的简化表达;但在极其复杂的情况下,情况可能正好相反。
所有这些并不改变我的观点:要理解高度复杂的自动机,尤其是中枢神经系统,确实需要一种新的、实质上是逻辑性的理论。然而,在这一过程中,逻辑可能需要向神经学发生伪变形的程度远大于反过来。前述分析表明,目前我们在研究中枢神经系统理论时,可以做的一件相关的事情,就是指出真正问题不在于哪些方向。
复杂性的概念;自我复制
复杂性的概念。到目前为止的讨论已经表明,高度复杂性在任何与自动机相关的理论研究中都起着重要作用,而且这个概念尽管表面上具有量化特征,但实际上在原则上可能代表某种定性意义。在接下来的讨论中,我将考虑这一概念的一个更深远的含义,它使其本质的某一定性特征更加明确。
在自然界中存在一个非常明显的特征,属于“恶性循环”类型,其最简单的表现形式就是:高度复杂的生物能够自我复制。
我们都倾向于以一种模糊的方式怀疑“复杂性”概念的存在。这个概念及其假定的属性从未被清晰地表述过。然而,我们总是容易假设它们会以这种方式发挥作用。当一个自动机执行某些操作时,人们必须预期这些操作的复杂程度低于自动机本身。特别地,如果一个自动机有能力构造另一个自动机,那么从母体到被构造体的过程中,复杂性必然会有所下降。也就是说,如果 A 能产生 B,那么 A 在某种程度上必须包含 B 的完整描述。为了使其有效,A 中还必须有各种安排来确保该描述被正确解释,并且所要求的构造操作得以执行。从这个意义上看,一个自动机创造另一个自动机时,某种复杂性下降的趋势似乎是可以预期的。
尽管这一观点有某种不明确的合理性,但它显然与自然界中最明显的现象相矛盾。生物体会自我繁殖,也就是说,它们产生的新生物体的复杂性并不会降低。此外,还存在漫长的进化时期,在此期间复杂性甚至有所增加。生物体间接地来源于复杂性较低的其他生物体。
因此,这里存在一种表面上的合理性与证据之间的冲突,甚至可能还有更严重的问题。鉴于此,似乎值得尝试看看这里是否涉及某些可以严格表述的内容。
到目前为止,我的表述相当模糊和令人困惑,而这并非无意为之。在我看来,否则不可能公正地呈现这里所存在的情况。现在让我尝试具体说明。
图灵的计算自动机理论。大约12年前,英国逻辑学家图灵研究了以下问题。
他想给出一个“计算自动机”的一般定义。形式化定义如下:
一个自动机是一个“黑箱”,我们不打算详细描述它,但预期它具有以下属性。它拥有有限个状态,这些状态初步只需通过其数量(假设为 n)加以说明,并按顺序编号:1, 2, …, n。自动机的基本运行特性在于描述它如何改变状态,即如何从状态 i 转变到状态 j。此状态变化需要与外部世界进行某种交互,该交互将通过以下方式标准化。就机器而言,假设整个外部世界由一条长纸带组成。假设纸带宽 1 英寸,并被划分为长度为 1 英寸的格(方格)。在纸带的每个格上,可以放置或不放置一个标记,例如一个点,并且假定可以在该格上擦除或写入点。带有点的格称为“1”,未标记的格称为“0”。(我们可能允许更多的标记方式,但图灵表明,这无关紧要,并不会在一般性上带来本质性的增益。)在描述纸带相对于自动机的位置时,假定纸带上的某一特定格由自动机直接读取,自动机能够前后移动纸带,例如每次移动一个格。在具体说明时,假设自动机处于状态 i(i = 1, …, n),并在纸带上看到 a(a = 0 或 1)。此时,它将转入状态 j(j = 0, 1, …, n),将纸带移动 p 个格(p = 0, ±1;+1 表示向前移动,-1 表示向后移动),并在新的格上写入 f(f = 0 或 1;写入 0 表示擦除,写入 1 表示放置一个点)。若将 j、p、f 作为 i、a 的函数来指定,那么这就完全定义了该自动机的运行方式。
图灵对这种类型的自动机能够执行的数学过程进行了仔细分析。在这方面,他证明了若干关于逻辑经典“判定问题”的定理,但我在这里不打算讨论这些内容。不过,他确实引入并分析了“通用自动机”的概念,而这正是本讨论中相关的部分。
一个无限的数字序列 e(e = 0 或 1)是数学中的基本实体之一。作为二进制展开来看,它本质上等价于实数的概念。因此,图灵的研究是基于这些序列展开的。
他研究了哪些自动机能够生成哪些序列的问题。也就是说,给定一个确定的序列生成法则,他探讨了哪些自动机可以根据该法则来形成该序列。“形成”序列的过程可解释如下:如果能够指定一段有限长度的纸带,并在其上做适当标记,那么当这段纸带送入指定的自动机时,该自动机就能够在剩余的(无限)空白纸带上写出该序列。写出无限序列的过程当然是一个无限持续的过程,其含义是:自动机将不断运行,并在给定足够长的时间后,能够写出该(无限)序列中的任意所需部分(当然是有限的部分)。这段有限且预先标记的纸带构成了自动机解决该问题的“指令”。
如果一个自动机能够生成任何由其他自动机产生的序列,那么它就是“通用”的自动机。当然,为此通常需要不同的指令。
图灵理论的主要结果。我们可能会先验地认为这是不可能的。怎么可能存在一个自动机,其效率至少和任何可想象的自动机一样高——比如说,包括一个规模和复杂度是它两倍的自动机呢?
然而,图灵证明这是可能的。虽然他的构造相当复杂,但其基本原理却相当简单。图灵注意到,任何可想象的自动机都可以用有限的词语给出一个完全一般性的描述(按照上述定义的意义)。这个描述将包含某些空白部分——这些部分对应于前面提到的函数(即以 i,e表示的 j,p,f),用于指定自动机的实际功能。当这些空白部分被填充时,我们得到的是一个具体的自动机;而只要这些空白部分保持未填充,该模式就代表了一般自动化的一般定义。现在,就可以描述一个能够解释这种定义的自动机。换句话说,当这个自动机接收到用于定义具体自动机的函数时,它就会像所描述的对象一样运行。这种能力并不比阅读词典和语法书并遵循其关于词语组合使用和原则的指示更神秘。这个自动机被构造为读取描述并模仿所描述的对象,它就是图灵意义上的通用自动机。要让它复制任何其他自动机能够执行的操作,只需提供给它所述自动机的描述,以及该装置在执行相关操作时所需的指令。
处理产生自动机的自动机程序的扩展。对于我现在关心的问题,自动机的“自我复制”,图灵的方法只有一个方面太狭隘了。他的自动机是纯粹的计算机。它们的输出是一张写着0和1的纸带。我提到的构造所需要的是一个自动机,它的输出是其他自动机。然而,从原则上讲,处理这个更广泛的概念,并从中推导出与图灵的结果等效的结果,并没有什么困难。
基本定义。和前面的例子一样,为了研究的目的,首先必须严格界定什么构成一个自动机。首先,我们必须制定一份完整的基本部件清单。这份清单不仅要包含所有部件的完整枚举,还要对每个基本部件给出完整的操作性定义。制定这样的清单相对容易,也就是说,可以编写一份“机器部件”目录,该目录足够全面,可以构建这里所需的各种机制,并且具有进行此类研究所需的公理化严格性。这份清单不必很长,当然,它可以被任意延长或缩短。可以通过将一些可以由其他部件组合实现的功能也列为基本部件来延长清单;也可以缩短——实际上,可以通过赋予每个基本部件多重属性和功能,使清单仅由单一部件组成。因此,关于所需基本部件数量的陈述,将代表一种常识性的折中方案,即不期望任何一个基本部件承担过于复杂的功能,也不要求任何基本部件同时执行多个明显独立的功能。从这个意义上讲,大约十几个基本部件就足够了。自我复制问题可以这样表述:能否用这些基本元素构建一个整体,使其一旦被置入一个容器——容器中漂浮着大量这些元素——就会开始构建其他整体,而每个最终产生的整体都是与原始自动机完全相同的自动机?这是可行的,其原理与前面概述的图灵原理密切相关。
自我复制定理的推导概述。首先,可以对这里所讨论意义下的所有自动机给出一个完整的描述。该描述应被视为一般性的描述,也就是说,它将再次包含空白部分。这些空白部分必须用描述自动机实际结构的功能来填充。与之前一样,填充与未填充空白之间的区别,正是特定自动机描述与一般自动机描述之间的区别。原则上,描述以下自动机不存在困难。
(a)自动机 A:当它被提供以适当函数形式描述的任何其他自动机的描述时,它将构造该实体。在这种情况下,这个描述不应像图灵的例子中那样以标记纸带的形式给出,因为我们通常不会选择纸带作为结构元件。然而,要描述具有所有可标记纸带符号性质的结构元件组合是非常容易的。以这种意义给出的描述将被称为“指令”,并用字母 1 表示。
对“构造”的理解和以前是一样的。假定构造自动机被置于一个储槽中,储槽中漂浮着大量基本组件,它将在这种环境中完成构造。无需担心这种固定自动机如何产生比自身更大、更复杂的其他自动机。在这种情况下,被构造对象的更大尺寸和更高复杂性,将反映在必须提供的指令 1 的更大规模上。正如前面指出的,这些指令必须是由基本部件组成的集合。从这个意义上讲,显然,一个实体将进入该过程,其尺寸和复杂性由所构造对象的尺寸和复杂性决定。
在接下来的内容中,所有将使用设施 A 构造的自动机都将与 A 共享这一特性。它们都将有一个用于放置指令 1 的位置,即可以插入此类指令的位置。当描述这样的自动机(例如,通过适当的指令)时,上述意义下指令 1 插入位置的规定被视为描述的一部分。因此,我们可以说“将给定的指令 1 插入到给定的自动机中”,而无需进一步解释。
(b)自动机 B:能够复制提供给它的任何指令 1。指令 1 在 (a) 中的意义下是由基本部件组成的集合,用以代替纸带。当指令 1 提供另一个自动机的描述时,将使用该设施。换句话说,这个自动机不过是一个“复制器”——可以读取穿孔纸带并生成与第一张完全相同的第二张穿孔纸带的机器。注意,这个自动机同样可以生成比自身更大、更复杂的对象。再次注意,这并不令人惊讶。由于它只能进行复制,因此必须将输出对象的完全相同尺寸和复杂性作为输入提供给它。
在这些初步工作之后,我们可以进入决定性的一步。
(c)将自动机 A 和 B 结合在一起,并配合一个控制机制 C,其功能如下。让 A 被提供一个指令1(仍然按照 [a] 和 [b] 的意义)。然后 C 首先使 A 构建由该指令 1 描述的自动机。接着,C 使 B 复制上述指令 1,并将复制件插入刚刚由 A 构建的自动机中。最后,C 将这个构建体从系统 A + B + C 中分离出来,并“释放”为一个独立的实体。
(d)将整个集合 A + B + C 记作 D。
(e)如上所述,为了使集合 D = A + B + C 正常运行,必须为其提供一个指令 1,以及这个指令必须被插入A 中。现在构建一个指令 ID,用以描述该自动机 D,并将其插入 D 内的 A 中。将由此得到的集合记作E。
E 显然具有自我复制的特性。请注意,这里并不存在任何“恶性循环”。关键步骤发生在 E 中,当描述 D 的指令 ID 被构建并附加到 D 上时。进行 ID 的构建(复制)时,D 已经存在,并且在 ID 的构建过程中 D 并未以任何方式被修改。ID 只是被添加进去,从而形成了 E。因此,D 和 ID 的形成具有明确的时间顺序和逻辑顺序,按照逻辑规则,这个过程是合理的。
对这一结果及其直接延伸的解释。这一自动机 E 的描述还具有一些其他引人注目的方面,但我此时不会详细展开。例如,很明显,指令 ID在某种程度上影响了基因的功能。同样清楚的是,复制机制 B 执行了生殖的基本行为,即遗传物质的复制,这显然是活细胞繁殖中的基本操作。也很容易理解,对系统 E(尤其是 ID)的任意改变如何表现出与突变相关的典型特征,通常是致命的,但也可能在特征发生修改的情况下继续繁殖。当然,也很清楚这种类比在哪些方面不再成立。自然基因可能并不包含其存在所刺激构建对象的完整描述,它可能仅包含一般的指示或线索。在前述讨论的广泛意义上,这种简化并未被刻意采用。然而,很明显,这种简化以及其他类似的简化本身具有重大的质的意义。如果我们不尝试理解这些简化原则,就远未真正理解自然过程。
对前述方案进行小幅变动,也可以构造出既能自我复制又能构造其他自动机的系统。(这样的自动机更具体地执行的功能,很可能是——如果不是——典型的基因功能,即自我复制加上某些特定酶的产生或刺激产生。)实际上,只需将 ID 替换为指令 ID+F,它描述了自动机 D 及另一个给定自动机 F。设在 D 内将 ID+F 插入 A 后得到的系统记为EF。显然,这个 EF 具有前述性质:它可以自我复制,同时还能构造 F。
注意,EF 的“突变”如果发生在 EF 中 ID+F 的 F 部分,并非致命。如果它将 F 替换为 F',则 EF 变为 EF',即“突变体”仍能自我复制;但其副产品发生了变化——变为 F' 而非 F。这当然就是典型的非致命突变体。
所有这些都是迈向系统化自动机理论的非常粗略的步骤。此外,它们仅代表了一个特定方向。正如我之前所指出的,这个方向是朝着形成对“复杂性”这一概念的严格定义而去的。它们说明,在较低层次上,“复杂性”可能具有退化性,也就是说,每一个能够产生其他自动机的自动机,只能产生较不复杂的自动机。然而,存在某一最低水平,在此水平上,这种退化特性不再具有普遍性。在这个水平上,能够自我复制甚至构造更高级实体的自动机变得可能。这个事实——即在某一最低水平以下,复杂性以及组织性具有退化性,而超过该水平后可以自我维持甚至增强——显然将在未来该领域的任何理论中发挥重要作用。
讨论
Warren S. McCulloch:我必须承认,我最羡慕冯·诺依曼博士的一点,就是他所处理的那些机器,从一开始他就拥有关于机器应该做什么以及如何做的蓝图。不幸的是,对于我们这些从事生物科学——至少是精神病学的人——我们面对的却是一台陌生的、甚至可以说是敌方的机器。我们不知道这台机器究竟应该做什么,更没有它的蓝图。在研究这些问题时,我们在精神病学领域仅知道这台机器给出了错误的结果。我们之所以知道,是因为这台机器不仅破坏了自身,还在世界上肆意作乱。然而,要确定这台机器中存在何种困难,却绝非易事。
在我看来,我们首先最需要的并不是一个正确的理论,而是一个可以起步的理论,借助它我们至少可以提出一个问题,并希望得到一个答案,即便这个答案只是表明我们的想法完全错误。大多数时候,我们甚至连以一种能够得到答案的形式提出问题都做不到。
我想从历史的角度讲一下我是如何对这个特定问题产生兴趣的,如果你们不介意的话,因为这确实与这个问题有关。我最初主要对哲学和数学感兴趣,然后进入心理学,关注的是像数学这样的事物是如何产生的——它到底是怎样的一种东西。基于这个原因,我逐渐转向心理学,然后由于一次又一次未能找到重要的变量,我被迫进入神经生理学。在这样一个领域尝试构建一个可以进行任何验证的理论是非常艰难的。有趣的是,我一开始完全从错误的角度入手,大约在1919年,尝试为及物动词构建逻辑。这证明是一个像模态逻辑一样棘手的问题,直到我看到图灵的论文,我才开始沿着正确的方向前进,并在皮茨(Pitts)的帮助下,构建了所需的逻辑演算。我们认为我们正在做的事情(而我认为我们相当成功)是将大脑视为一个图灵机;也就是说,把它当作一个装置,它能够执行大脑必须执行的那类功能,如果大脑仅仅为了出错而产生精神病的话。对我们而言,重要的是,我们必须拿一个逻辑,并在其中标注信号发生的时间(如果你愿意,可以理解为“正在移动的命题”)。这是构建理论所必需的,以便能够说明神经系统如何能够执行任何操作。有趣的是,仅仅一组最简单的适当假设,就足以显示神经系统可以计算任何可计算的数。如果你愿意,它就是那种装置——一台图灵机。
问题马上就出现了:大脑是如何完成它所完成的某些操作的。任何理论都不会告诉你某个具体操作是如何执行的,就像它们不会告诉你这个操作在什么样的神经系统中完成一样,也不会告诉你它在计算机的哪一部分执行。要想知道这些,就必须有电路图或者齿轮关系的说明书。
这就意味着你不得不研究解剖学,并向解剖学家提出那些他们很少提供的、足够详细的信息。我在医学院的时候教授神经解剖学,但直到最近一两年,我才有条件向任何神经解剖学家询问某一结构的精确细节。过去我没有生理学上的理由去获取这种信息,但现在我们开始真正需要它了。
R. W. Gerard:我有幸在不同场合聆听冯·诺依曼博士的演讲,每次都觉得自己处在一种既愉快又困难的境地——就像在抓着风筝的尾巴一样。虽然我能够跟上他的思路,但在过程中几乎无法进行创造性思考。不过,我想问一个问题,而且我怀疑其他人心里也可能有同样的疑问。您在演讲中多次强调,任何可以用语言表达——即用词语提出问题——的事情都可以被解决。这其中有没有什么陷阱?仅凭这一限制或问题本身,其含义是什么?
John von Neumann:我会试着回答,但我的回答会相当不完整。
在处理任何问题——更具体地说,处理中枢神经系统的任何功能——时,首先要做的任务是对其进行明确无歧义的表述,用严格的方式将其“用语言表达出来”。如果涉及像中枢神经系统这样极其复杂的系统,还会产生一个额外任务:用有限数量、合理范围内的词语完成这种“表述”——例如,用在一生中能够阅读完的词语数量。真正的困难就在于此。
换句话说,我认为很可能在有限的、可行的时间内,对中枢神经系统外部可见的功能给出纯粹描述性的说明。这可能需要 10 年或 20 年——时间虽长,但并非无法承受。然后,基于 McCulloch 和 Pitts 的研究结果,可以在合理的时间限制内绘制出一个虚构的“神经网络”,它能够执行所有这些功能。然而,我怀疑这个网络最终可能会比我们实际拥有的要大得多,甚至可能大到无法容纳在物理宇宙中。那时怎么办?我们在这个过程中是否已经偏离了真正的问题?
因此,这个问题可能更应被理解为:不是用任意网络去模仿中枢神经系统的功能,而是要用一个能够适应人脑实际体积的网络去实现。更进一步,还应该是用一个可以依靠我们实际的新陈代谢“能量供应”维持运行,并能由我们现有的遗传控制系统建立和组织的网络。
总而言之,我认为我们问题的第一阶段——纯形式化阶段,即找到任何“等效网络”的问题——已经被 McCulloch 和 Pitts 克服。我也认为,关于尝试“解释”中枢神经系统所产生的很多困惑,都属于这个阶段,因此应该视为已经解决。然而,仍然存在大量困惑,它源自问题的下一阶段:寻找一个具有可能或合理尺寸及(新陈代谢和遗传)需求的“等效网络”。
因此,问题不是:中枢神经系统是如何实现某一特定功能的?而是:它如何在其全部复杂性下完成它所能完成的所有功能?其组织原则是什么?它如何在长达几十年的时间里避免真正严重——即致命的——故障?
R. W. Gerard:你的意思是说存在未形式化的问题吗?
John von Neumann:也许有些问题无法用我们目前的逻辑技术来表述。
Paul Alfred Weiss:我认为,我们讨论的仅仅是一个可以设想的、逻辑上自洽的神经系统机制,而不必然是真实存在的。然而,任何关于真实神经系统的理论,都必须解释调控的事实——即使神经通路网络经历了许多不可预测的改变,该机制仍能产生相同或本质上相似的结果。根据冯·诺依曼的观点,可以设计一台机器,使其包含防止错误的保护机制,并在错误发生时具备纠正错误的功能。在这种情况下,未来的各种可能性在机器设计时已经被考虑进去。而对于神经系统,进化就必须内建必要的纠正装置。由于自然变异以及实验性神经生理学家引入的实际干扰和偏差数量极多,我怀疑,是否真的可以设想出一种机制,能够预见所有这些无数的可能性,并内建相应的纠正措施。
John von Neumann:当然免费股票配资平台,我不会试图回答进化是如何达到任何特定阶段的问题。然而,我将对错误、预见错误、识别和纠正错误等更为有限的问题作一些评论。
一台人工机器完全可以配备能够自动识别和纠正错误的机构。事实上,几乎每一台设计良好的机器都包含一些专门执行此类功能的机构——当然仅限于某些特定范围内。此外,如果给定某台特定的机器,总是可以构建第二台机器来“监视”第一台机器,并感知甚至可能纠正其错误。然而问题在于,第二台机器的错误没有受到监控,也就是说,谁来监控这些监控者呢?构建第三台、第四台等,用于二级、三级等的检查,仅仅是将问题转移而已。此外,由于组件更多,主机器和次级机器一起产生的错误数量将比仅有第一台机器时更多。
尽管如此,在更小的规模上采取某种此类方法仍然可能是有意义的。通过对某台机器或某类机器的统计经验,人们可能知道哪些组件最容易发生故障,然后只对这些组件进行“监督”,以此类推。
另一种可能的方法,可以进行更一般的定量评估,如下:假设有一台机器,其在任意一次操作中发生故障的概率为10-10,也就是说,平均每进行 1010次操作会出错一次。假设这台机器需要解决一个需要 1012次操作的问题。那么,它在正常“无监督”状态下运行时,平均会在一个问题中产生 100 次错误,也就是说,它将完全无法使用。
现在,将三台这样的机器连接起来,使它们在每次操作后都比较各自的结果,然后按如下方式进行处理:(a)如果三台机器的结果都相同,则继续运行而不进行检查。(b) 如果有任意两台机器的结果一致,而与第三台不同,则三台机器都采用多数机器一致的结果继续运行。(c) 如果三台机器的结果两两都不一致,则三台机器都停止运行。
这个系统将产生正确的结果,除非在问题的某个步骤中,三台机器中的两台同时出错。两台特定机器在一次操作中同时出错的概率是 10-10×10-10=10-20。任意两台机器在一次操作中同时出错的概率是3×10-20(因为三台机器之间可以形成三对可能的组合)。在整个问题过程中,这种情况发生的概率为 1012×3×10-20=3×10-8,大约是一亿分之三。
因此,这三组机器不能正确解决问题的几率只有3300万分之一,尽管这三组机器中的每一台都几乎没有机会正确解决问题。
请注意,无论监督得多么复杂,这组三台机器,以及任何其他可以想象的自动装置,仍然存在发生错误的逻辑可能性——当然,这种可能性很低。但错误发生的概率已经显著降低,这正是我们所希望达到的目的。
Paul Alfred Weiss:为了明确这个问题,我想重申一点:如果你知道某台机器中会出现的常见错误类型,你就可以在构建机器时采取措施纠正这些错误。然而,神经系统的一个主要特征是它显然能够纠正那些根本无法预见的情况。(对神经系统的各种设备进行人工干扰,而不损害生物体的生物学上有用的反应,这种干扰的数量是无限的。)因此,神经自动机的概念不仅应该能够解释神经系统的正常运行,还应能够解释其在各种异常情况下的相对稳定性。
John von Neumann:我不同意这个结论。你使用的论证是有风险的,需要非常小心。
事实上,人们可以防范那些未被具体预见的错误。以下几个例子可以说明我的意思。
实际上,人们可以防范那些未被具体预见的错误。以下几个例子可以说明我的意思。
可以设计并制造一台电气自动机,只要其中每个电阻的偏差不超过其标准设计值的10%,它就能正常工作。现在,你可以尝试通过实验手段来干扰这台机器,从而改变其电阻值(例如,通过加热机器的某些区域)。只要没有电阻偏差超过10%,无论干扰实验多么复杂、多么精密、多么“不可预见”,机器都能正常运行。
或者——另一个例子——你可以设计一块装甲板,它能承受一定强度的冲击。如果你现在测试它,只要不超过其强度极限,它就能成功抵御测试中的冲击,无论所用的枪械、推进剂和弹丸设计多么新颖。
很明显,这些例子可以类比应用到神经和遗传学情境中。
总结来说:错误及其来源只需以一般性特征进行预见,也就是说,通过某些决定性特征,而不必具体到每一个细节。而这些一般性的覆盖可以涵盖广阔领域,充满不可预见和未曾料想到的——但最终无关紧要——细节。
Warren S. McCulloch:那设计计算机,使其在空袭等情况下受损时,能够更换零件或自我维护并继续工作,怎么样呢?
John von Neumann:这些都是定量问题,而不是定性问题。毫无疑问,人们可以设计出在适当条件下能够自我修复的机器。然而,实际讨论却因一个我认为相当偶然的情况而变得困难。那就是,我们似乎使用的材料远比自然界的不稳定。金属看起来可能比组织更稳定,但如果组织受伤,它有自我恢复的倾向,而我们的工业材料则没有这种倾向,或者这种倾向要弱得多。不过,我认为在这一点上并不存在任何原则性问题。这仅仅反映了我们当前技术的不完善状态——而这种状态随着时间的推移可能会得到改善。
K. S. Lashley:我不确定在这个讨论中我是否完全理解了“误差”的含义,但在我看来,有机机器的精度问题有点被夸大了。在计算机中,我们唯一要求的是精度。而在研究有机体时,我们却几乎从未发现准确或精确。在任何有机反应中,误差都呈现围绕平均值的正常或近似正常分布。反应机制具有统计特性,其精度仅体现在大量元素活动的概率分布上。在这方面,有机体更像模拟计算机而不是数字计算机。符号的发明和记忆数列的使用使有机体变成了数字计算机,但精度的提高是以牺牲速度为代价的。人们一眼就能估计出书架上的书的数量,但会有一些误差;要准确数清它们,则需要更多时间。作为一台数字计算机,有机体是低效的,这也正是人们制造计算机器的原因。
John von Neumann:我想详细讨论一下精度的问题。
在所有的数学问题中,答案都需要绝对严格、绝对可靠,这是完全正确的。这可能(但不一定)意味着它也需要绝对精确。在大多数问题中(主要是应用数学和数学物理的各个部分的问题),需要的精度是相当有限的。也就是说,问题的数据本身只给出有限精度,结果也只要求有限精度。如果结果对数据变化的敏感性以及在给定数据下结果的不确定性(即精度范围)能够被(严格地)掌握,这与绝对数学严谨性是完全兼容的。
在物理问题中,(输入)数据通常只知道大约几个百分点的精度(例如 5%)。结果可能只需更低精度就能令人满意(例如 10%)。因此,在这方面,(人工)计算机和(自然)有机体的外在精度要求的差异根本不需要是决定性的。它仅仅是定量的,而所涉及的定量因子并不需要很大。
对(人工)计算机内部运作的高精度要求是由完全不同的原因引起的——这些原因很可能也在(自然)有机体中起作用。我的意思并不是说下面的论点应当被过于字面地套用到有机体上。实际上,计算机中使用的“数字方法”可能与神经系统完全无关。神经通信中使用的离散脉冲,实际上更像是通过计数进行“编号”,而不是“数字化”。(当然,在许多情况下,它们也可能表达逻辑编码——这与计算机中的情况相当类似。)然而,我仍将讨论我们计算机中具体的“数字”过程,以说明“外部”与“内部”精度要求之间的微妙区别。
在计算机中,数字可能需要以10位或更多小数位的形式进行处理。因此,即使输入数据的精度仅为二十分之一(5%),而结果只要求十分之一(10%)的精度,内部运算的精度可能仍需要达到百亿分之一或更高。这种奇怪的差异原因在于,高速计算机通常只用于处理冗长且复杂的问题。涉及一亿次乘法的计算并不罕见。在一台4位小数的机器中,每次乘法都会引入万分之一的“舍入误差”;在6位小数的机器中,这一误差为百万分之一;在10位小数的机器中,则为百亿分之一。在上述规模的问题中,这类误差将发生一亿次。由于这些误差是随机分布的,因此根据数学统计规则,总误差可能不会达到每次舍入误差的一亿倍,而大约是其平方根的倍数,即约一万倍。因此,要在结果中实现10%的精度(十分之一),每一步的运算(乘法舍入)就需要约一万倍的精度,也就是十万分之一,即5位小数。实际上,由于计算早期的舍入误差在后续运算中常常被“放大”,所需的精度会更高。因此,对于这样的机器来说,8到10位小数可能是最低要求,而许多大型问题实际上可能需要更高的精度。
电气式模拟计算机通常精度为百分之一或千分之一,而最先进的机械式计算机(最先进的“微分分析仪”)精度也只有万分之一到五万分之一。数字方法的优点在于,即使其组成部件精度非常有限,也能在基本运算上实现几乎任意精度。如果需要百万分之一的精度,只需使用6位小数;如果需要百亿分之一的精度,只需将小数位数增加到10位,依此类推。而且,各个组成部件只需能够可靠地区分10种不同状态(0到9的10个十进制数字),通过一些简单的逻辑和组织技巧,甚至可以使用只能区分两种状态的部件!
我怀疑中枢神经系统由于其任务的高度复杂性,也面临“内部”精度或可靠性的问题。神经脉冲的全或无特性可能与某种应对这种困难的技术有关,而这种——尚未知的——技术很可能与我们在计算中使用的数字系统有关,尽管在技术细节上可能与数字系统大相径庭。我们似乎对这种技术毫无头绪。这再次表明了我们对这一领域的了解是多么有限。然而,我认为,计算机的数字系统是我们所知的唯一有希望与这种未知且仅被假定存在的技术有哪怕远缘关联的东西。
Warren S. McCulloch:我想对拉什利博士的问题作部分回答。我认为,在考虑有机体行为时,我一直遇到的主要难题,并不在于诸如击中靶心或判断距离之类的操作,而是在数学和逻辑方面。毕竟,维加(Vega)确实计算了精确到14位的小数的对数表。他犯了大约430个错误,但对我而言,该有机体完成工作的整体精度简直令人难以置信。
K. S. Lashley:你必须记住,这样的成就并非源自单一的复杂整合,而是由大量独立的过程组成,每个过程本身都是远高于阈值的简单辨别,并且并不要求神经活动具有极高的精确性。
Ward C. Halstead:当我听到冯·诺伊曼博士对数字和模拟计算机的精彩分析时,我对这种系统能够以如此简约的概念进行描述感到印象深刻。而在有机行为领域,我们尚未如此幸运。我们的大多数简约原则仍有待实现。目前几乎没有哪一类行为能够以可比的精确度进行描述。诸如思维、智力、学习、情感、语言、感知与反应等领域是否代表独特的过程,还是仅仅体现了有机体的不同态度集合,这一点尚不明确。或许正是出于这个原因,冯·诺依曼博士并未具体说明他的自动机所模拟的行为类别。
正如克雷克(Craik)数年前指出的,将具有高度特定目标的模型操作与在层级或目标上仅松散指定的有机行为进行比较,在逻辑上并不完全严密。克雷克的标准是,我们的模型必须与所模拟过程的各步骤保持适当的“关系结构”。当我们引入“小魔怪”(无论是好的还是坏的)作为干扰变量时,这一规则就被违反了。我不清楚冯·诺依曼所说的“噪声”是指好的还是坏的“小魔怪”。我推测,在希望最大化结果的“理性”时,它应被视作坏的“小魔怪”。理性可能仅表征人类行为的一个有限类别。稍后我将提供实验证据,证明同一位正常或脑损伤者也会产生一个更不受限制的行为类别,这种行为若非非理性,则至少是“非理性化”的。我怀疑冯·诺依曼通过对底层能量的精细调控,使他的自动机倾向于理性。然而,如果他在计算机中引入不稳定的电源并观察结果,也许他也会获得类似的结果。
在我看来,冯·诺依曼的计算机在某种程度上逼近了心理学家称之为“抽象”过程中有机操作的一些必要步骤。对脑损伤者在标准化排序过程中行为结果的分析显示,大约有三类结果:第一类是纯粹类别(或“普遍类别”);第二类是部分类别;第三类是现象性或非重复性组织。操作主义(Operationalism)将我们的关注限制在前两类,但这两类定义了第三类。值得注意的是,心理学家如斯皮尔曼(Spearman)和瑟斯顿(Thurstone)在用数学符号描述这些结果方面已取得了相当大的进展。
R. Lorente de No:我开始接受训练的方式与麦卡洛克(Dr. McCulloch)完全不同。我一开始是作为解剖学家入门的,而对生理学的兴趣则是在很久以后才产生的。因此,我仍然很像一个解剖学家,所有事物都以解剖学的角度来理解。根据您对麦卡洛克-皮茨自动机(McCulloch and Pitts automaton)的讨论,冯·诺依曼博士,任何可以用语言表达的东西,自动机都可以执行。对此,我想说的是,我可以记住您说的话,但麦卡洛克-皮茨自动机却无法记住您说的话。不,自动机的功能并不像我们的神经系统那样,因为在我所能想象的范围内,要实现这一点的唯一方法是维持某种连续变化。也许可以让自动机保持记忆,但能够做到这一点的自动机将不具备我们神经系统的特性。我相信我们在这一点上是一致的。我只是想澄清这个事实。
John von Neumann:当然,这种情况的一个特殊之处在于,你可以用开关器件来构成记忆单元,但强有力的迹象表明,自然界并不是这样做的。而且,顺便说一句,更深入的分析显示,这种方法并不高效。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报。顶益所配资提示:文章来自网络,不代表本站观点。