banner
conanxin

conanxin

人機共生(Man-Computer Symbiosis,J. C. R. Licklider)

摘要

人機共生是人類和電子計算機之間合作互動的一個預期發展。這將涉及人類和電子設備之間非常密切的耦合。主要目的是 1)讓計算機促進公式化思維,因為它們現在促進了公式化問題的解決;2)讓人類和計算機能夠合作做出決策和控制複雜的情況,而不依賴於預先確定的程序。在預期的共生夥伴關係中,人類將設定目標,制定假設,確定標準,並進行評估。計算機將會做一些常規的工作,為人類在技術和科學思考方面的見解和決策做好準備。初步分析表明,共生夥伴關係將比單獨的人能更有效地進行智力活動。實現有效合作關係的先決條件包括計算機分時、內存組件、內存組織、編程語言以及輸入和輸出設備的發展。

1 介紹

1.1 共生

只有無花果小黃蜂(Blastophaga grossorun)才能幫助無花果樹完成授粉。這種昆蟲的幼體生活在無花果樹的子房中,它們也能在無花果樹的子房中找到食物。如此一來,無花果樹和無花果小黃蜂便對彼此有著嚴重的依賴:沒有無花果小黃蜂,無花果樹就不能結出果實;沒有無花果樹,無花果小黃蜂也不能獲得食物。兩者的結合不僅能使彼此生存下去,更能創造一種高產且生機勃勃的合作關係。“兩個不同的生物體以親密合作的方式生活在一起,甚至結成緊密的聯盟”,這種合作模式就叫共生。

人機共生是人機系統的一個子類。有許多人機系統。然而,目前還沒有人機共生體。本文的目的是提出這一概念,並希望通過分析人機交互的一些問題,提請人們注意人機工程的適用原則,並指出一些需要研究回答的問題,從而促進人機共生的發展。我們希望,在不太長的時間內,人腦和計算機將緊密結合在一起,由此產生的夥伴關係將會認為,沒有任何人腦能夠以我們今天所知的信息處理機器所未有的方式思考和處理數據。

1.2 在 “機器增強的人類” 和 “人工智能” 之間

作為一個概念,人機共生在一個重要的方面與 North 所稱的 “機器增強的人類” 是不同的。在過去的人機系統中,操作者掌握主動權,提供方向,進行整合,制定標準。系統中機械的部分,首先是人類的胳膊,然後是眼睛的延伸。這些系統當然不是由 “生活在一起的不同生物” 組成的。只有一種有機體 —— 人,其餘的只是為了幫助這個人。

在某種意義上,任何人造系統都是為了幫助人類,幫助系統外的一個或多個人。然而,如果我們關注系統內的操作人員,我們會發現,在某些技術領域,過去幾年發生了巨大的變化。“機器增強” 已經取代了人類,轉向了自動化,留下來的人更多的是為了幫助,而不是得到幫助。在某些情況下,特別是在以計算機為中心的大型信息和控制系統中,人工操作員主要負責自動化不可行的功能。這種系統(North 可能稱之為 “人類增強的機器”)不是共生系統。它們是 “半自動” 系統,系統最初是全自動的,但沒有達到目標。

人機共生可能不是複雜技術系統的最終範例。在適當的時候,電子或化學 “機器” 似乎完全有可能在我們現在專門考慮的大部分功能上超過人腦。即使是現在,Gelernter 的 IBM - 704 平面幾何定理證明程序的進度也和布魯克林高中學生差不多,並且犯了類似的錯誤。事實上,有幾個理論證明、解決問題、下棋和模式識別程序,它們能夠在受限制的領域中與人類的智力表現相媲美;而 Newell、Simon 和 Shaw 的 “一般問題解決器” 可能會消除一些限制。簡而言之,避免與 (其他) 人工智能愛好者爭論似乎是值得的,因為他們認為在遙遠的未來只有機器的統治地位。然而,在此期間,主要的智力進步將會由密切合作的人和計算機來完成,這將會是一個相當長的過渡期。一個多學科的研究小組,研究了空軍未來的研究和發展問題,估計在 1980 年之前,人工智能的發展使機器能夠獨自思考或解決具有軍事意義問題。這將會導致,比如說,5 年的時間來發展人機共生,15 年的時間來使用它。15 年可能是 10 年或 500 年,但那些年應該是人類歷史上最具創造力和最激動人心的時期。

2 人機共生的目標

當今的計算機主要是為了解決預先設定的問題或者按照預定的程序處理數據。計算過程可能取決於計算過程中獲得的結果,但是所有的替代方案都必須提前預見。(如果出現不可預見的替代方案,整個過程就會停止,等待程序的必要擴展。)預先制定或預先確定的要求有時並沒有什麼大的缺點。預先制定或預先確定的要求有時並沒有什麼大的缺點。人們常說,計算機的編程迫使人們要清楚地思考,它會規範思維過程。如果用戶能夠提前思考他的问题,那麼與計算機的共生關係就沒有必要了。

然而,很多問題…… 很難提前想透徹,回想一下前文對新興系統的描述。如果能通過與計算機合作,由直覺引導進行試錯,暴露出推理過程中的錯誤,或是揭示解決方案中某些意想不到的轉折,就能更快、更好地解決問題。沒有計算機輔助,其他問題根本無法解決。龐加萊預見到了一批重要的潛在計算機用戶的沮喪,他說,“問題不是,答案是什麼?,問題是,問題是什麼”。人機共生的主要目的之一是將計算機有效地納入技術問題的公式化部分。

另一個主要目標是密切相關的。這是為了有效地將計算機帶入必須 “實時” 進行的思考過程,時間過快,不允許以傳統方式使用計算機。想象一下,例如,試圖在這樣的時間表上借助計算機指揮一場戰鬥。你今天提出了你的問題。明天你和程序員一起度過。你會得到一張 20 英尺長的紙,上面寫滿了數字,這些數字並沒有提供最終的解決方案,只是提出了一種應該通過模擬來探索的策略。顯然,這場戰鬥將在其計劃的第二步開始之前結束。與電腦互動的思維方式與你與一位同事互動的思維方式是相同的,他的能力補充了你自己的能力,這將要求人與機器之間的耦合比這個例子所建議的和現狀可能的要緊密得多。

3 計算機參與公式化和實時思維的需要

前面的段落默認了這樣的假設:如果可以有效地引入到思想過程中,數據處理機器所能執行的功能將會以一種重要的方式改進或促進思考和解決問題。這種假設可能需要正當理由。

3.1 技術思維的初步和非正式工效分析

儘管有大量關於思考和解決問題的文獻,包括對發明過程的大量歷史案例研究,但我找不到比對從事科技企業的人的腦力勞動進行工效研究分析更好的東西。因此,在 1957 年的春天和夏天,我試著記錄一個中等技術人員在他認為專注於工作的時間裡所做的事情。儘管我意識到取樣的不足,但我還是做了自己的研究對象。很明顯,我所做的主要事情是保持記錄,如果按照最初計劃中設想的細節保存記錄,這個項目將會變成一個無限倒退。不是。儘管如此,我還是獲得了一張讓我停下來的活動照片。也許我的範圍不典型 —— 我希望不是,但我擔心是。

我 85 % 的 “思考” 時間都花在了思考、決策、學習一些我需要知道的事情上。尋找或獲取信息的時間比消化信息的時間多得多。幾個小時用於繪製圖表,其他幾個小時用於指導助手如何繪製圖表。當圖表完成後,兩種關係立刻變得明顯,但必須進行繪圖以使其成為現實。在某一點上,有必要對語音清晰度和語音噪聲比相關函數的六個實驗測定值進行比較。沒有兩個實驗者使用相同的語音噪聲比定義或測量。需要幾個小時的計算才能把數據變成可比的形式。當它們處於可比較的形式時,我只花了幾秒鐘就確定了我需要知道的東西。

簡而言之,在整個研究期間,我的 “思考” 時間主要用於本質上是文書或機械的活動:搜索、計算、繪圖、轉換、確定一組假設或假設的邏輯或動態後果,為決策或洞察鋪平道路。此外,我對嘗試什麼和不嘗試什麼的選擇在很大程度上是出於對文書可行性的考慮,而不是智力能力的考慮,這令人尷尬。

剛剛描述的研究結果傳達的主要建議是,在大多數時間裡,被稱為技術思維的操作都是機器可以比人類更有效地執行的操作。這些操作必須在不同的變量上以不可預見的和不斷變化的順序進行,這一事實帶來了嚴重的問題。然而,如果這些問題能夠以在人和快速信息檢索和數據處理機器之間建立共生關係的方式得到解決,那麼合作互動顯然會大大改善思維過程。

在這一點上,也許應該承認,我們正在使用術語 “計算機” 來涵蓋各種計算、數據處理以及信息存儲和檢索機器。這類機器的能力幾乎每天都在增加。因此,對該類的功能進行一般性陳述是危險的。也許就人的能力發表一般性聲明也同樣危險。儘管如此,人類和計算機之間在能力上的某些基因型差異確實很突出,並且它們對可能的人機共生的性質和實現這種共生的潛在價值有著影響。

正如已經以各種方式所說的那樣,人類是嘈雜的窄帶設備,但是他們的神經系統有很多平行的同時活躍的通道。相對於人類來說,計算機速度非常快而且非常精確,但是它們一次只能執行一個或幾個基本操作。人類很靈活,能夠根據新收到的信息 “不斷地自我規劃”。計算機是一根筋的,受其 “預編程” 的約束。人類自然會說冗餘性的語言,這些語言圍繞著單一的物體和連貫的動作組織起來,使用 20 到 60 個基本符號。計算機 “自然” 會說非冗余語言,通常只有兩個基本符號,對單一物體或連貫動作都沒有固有的鑑賞能力。

要嚴格正確,這些特徵必須包括許多限定符。儘管如此,它們所呈現的不同(因此也是潛在的補充)本質上是正確的。計算機可以很容易、很好、很快地做許多對人類來說困難或不可能的事情,而人類可以很容易、很好地做許多對計算機來說困難或不可能的事情,儘管不是很快。這表明,共生合作,如果成功地融合了人和計算機的積極特徵,將具有巨大的價值。當然,速度和語言的差異帶來了必須克服的困難。

4 預期共生關係中人和計算機的可分離功能

似乎人類操作員和設備的貢獻在許多操作中會如此完全地融合在一起,以至於在分析中很難將它們整齊地分開。情況就是這樣;例如,在收集決策依據的數據時,人和計算機都從經驗中找到了相關的先例,如果計算機隨後提出了一個符合人直覺判斷的行動方案。(在定理證明程序中,計算機在經驗中找到了先例,在 SAGE 系統中,它們提出了行動方案。上述內容並不是一個牽強附會的例子。)然而,在其他行動中,人員和設備的貢獻在某種程度上是可分離的。

當然,至少在早期,人類會設定目標並提供動機。他們將提出假設。他們會問問題。他們會想到機制、程序和模型。他們會記得,這樣的人早在 1947 年,或者至少在二戰後不久,就對一個感興趣的主題做了一些可能相關的工作,他們會知道該主題可能在哪些期刊上發表。總的來說,他們會做出近似的、錯誤的,但領先的貢獻,他們會定義標準並充當評估者,判斷設備的貢獻並指導總體思路。

此外,當這種情況確實出現時,人類會處理極低概率的情況。(在當前的人機系統中,這是操作員最重要的功能之一。極低概率替代方案的概率之和往往太大,不容忽視。)當計算機沒有適用於特定環境的模式或程序時,人們會填補問題解決方案或計算機程序中的空白。

信息處理設備本身將把假設轉換成可測試的模型,然後根據數據對模型進行測試(操作員可以粗略地指定這些數據,並在計算機將它們提交給他審批時確定它們是相關的)。這些設備將回答問題。它將模擬機制和模型,執行程序,並向操作員顯示結果。它將轉換數據,繪製圖表(以人類操作員指定的任何方式 “切蛋糕”,或者如果人類操作員不確定他想要什麼,那就呈現幾種替代方式)。設備將會插入、推斷和轉換。它將靜態方程或邏輯語句轉換成動態模型,以便操作員可以檢查他們的行為。一般來說,它將執行可例行公事的文書工作,以填補決策之間的間隔。

此外,只要有足夠的基礎支持正式的統計分析,計算機將充當統計推斷、決策理論或博弈論機器,對建議的行動方案進行初步評估。最後,它將盡可能多地進行診斷、模式匹配和相關性識別,但在這些領域,它將接受一個明顯的次要地位。

5 實現人機共生的前提條件

在前一節中默認的數據處理設備是不可用的。計算機程序尚未編寫。事實上,在非共生的當下和預期的共生未來之間存在著一些障礙。讓我們研究一下其中的一些障礙,以便更清楚地了解需要什麼以及實現這一目標的可能性。

5.1 人与计算机之间的速度不匹配

現在的大型計算機對於與一個人進行實時合作思考來說,速度太快,成本太高。顯然,為了效率和經濟,計算機必須在許多用戶之間分配時間。分時系統目前正在積極開發中。甚至有一些安排來防止用戶 “破壞” 除了他們自己的個人程序之外的任何東西。

在 10 年或 15 年後的一段時間裡,設想一個 “思維中心” 似乎是合理的,它將結合當今圖書館的功能,以及信息存儲和檢索的預期進展和本文前面建議的共生功能。這種設想很容易放大成這樣的中心網絡,通過寬帶通信線相互連接,並通過租用線路服務連接到各個用戶。在這樣的系統中,計算機的速度將會平衡,巨大的存儲器和複雜程序的成本將會除以用戶的數量。

5.2 存儲器硬件要求

當我們開始考慮將任何已知的技術文獻存儲在計算機存儲器中時,我們會遇到數十億比特數據,除非事情發生顯著變化,否則將花費數十億美元。

首先要面對的是,我們不會將所有的技術和科學論文都存儲在計算機存儲器中。我們可能會儲存概括得最簡潔的部分 —— 數量部分和參考文獻 —— 但不是全部。書籍是現存最精美、最人性化的組件之一,在人機共生的背景下,它們將繼續發揮重要的功能。(希望計算機能加快書籍的查找、交付和歸還。)

第二點是,存儲器的一個非常重要的部分將是永久的:部分是不可擦除的內存和部分是發布的內存。計算機將能夠一次寫入不可擦除的內存,然後無限期地讀取,但是計算機將無法擦除不可擦除的內存。(它也可能會重寫,將所有的 0 變成 1,就像在之前寫的東西上做標記一樣。)發布的內存將是 “只讀” 內存。它將被引入到已經構建好的計算機中。計算機將能夠重複引用它,但不能改變它。隨著計算機越來越大,這些類型的內存將變得越來越重要。它們可以做的比核心、薄膜、甚至磁帶存儲器更緊湊,而且價格也要便宜得多。主要的工程問題將涉及選擇電路。

就內存需求的其他方面而言,我們可以指望普通的科學和商業計算機的持續發展。存儲元件有可能變得與處理(邏輯)元件一樣快。這一發展將對計算機的設計產生革命性的影響。

5.3 存儲組織要求

人機共生理念中隱含著這樣的要求,即信息可以按名稱和模式檢索,並且可以通過比串行搜索快得多的程序訪問。至少有一半的內存組織問題似乎存在於存儲過程中。其餘大部分似乎都包含在存儲機制或介質中的模式識別問題中。對這些問題的詳細討論超出了目前的範圍。然而,簡要概述一個有希望的想法,即 “trie 存儲”,可能有助於說明預期發展的一般性質。

Trie 存儲是由其創始人 Fredkin 所稱的,是因為它被設計成便於檢索信息,並且因為分支存儲結構在開發的時候類似於一棵樹。大多數常見的內存系統在參數指定的位置存儲參數的函數。(從某種意義上說,它們根本不存儲這些參數。在另一個更現實的意義上,它們將所有可能的參數存儲在內存的框架結構中。)另一方面,trie 存儲系統存儲函數和參數。從標準的初始寄存器開始,參數首先被引入內存,一次一個字符。每個參數寄存器都有一個單元格,每個字符都有一個單元格(例如,兩個用於二進制形式的信息),每個字符單元都有一個存儲空間,用於下個寄存器的地址。這個參數是通過寫一系列地址來存儲的,每一個地址都告訴我們在哪裡找到下個地址。在引數的最後,是一個特殊的 “結束參數” 標記。然後遵循函數的指示,該函數以多種方式中的一種或另一種方式存儲,進一步的 trie 結構或 “列表結構” 通常是最有效的。

Trie 存儲方案對於小內存來說是低效的,但是隨著內存大小的增加,它在使用可用存儲空間方面變得越來越高效。該方案吸引人的特點是:1)檢索過程極其簡單。給定參數後,輸入第一個字符的標準初始寄存器,並提取第二個字符的地址。然後轉到第二個寄存器,獲取第三個寄存器的地址,等等。2)如果兩個參數具有相同的初始字符,則它們對這些字符使用相同的存儲空間。3)參數的長度不必相同,也不必事先指定。4)在實際存儲之前,任何參數都不會保留或使用存儲空間。trie 結構是在項目被引入內存時創建的。5)一個函數可以用作另一個函數的參數,該函數可以用作下個函數的參數。因此,例如,通過用參數 “矩陣乘法” 輸入,人們可以檢索在計算機上執行矩陣乘法的整個程序。6)通過檢查給定級別的存儲,可以確定迄今為止存儲了哪些相似的項目。例如,如果沒有引用 Egan, J. P.,那麼只需要一兩步就能找到 Egan James 的蹤跡.......

剛剛描述的屬性並不包括所有想要的屬性,但是它們使計算機存儲與人類操作者產生共鳴,並且他們傾向於通過命名或指向來指定事物。

5.4 語言問題

人類語言和計算機語言之間的基本差異可能是真正共生的最嚴重障礙。然而,令人欣慰的是,通過解釋程序,特別是通過匯編或編譯程序,如 FORTRAN,已經取得了巨大進步,使計算機適應人類語言形式。Shaw,Newell,Simon 和 Ellis 的 “信息處理語言(Information Processing Language)” 代表了另一種和解方式。而且,在 ALGOL 和相關系統中,人們通過採用可以輕易翻譯成機器語言的表示和表達的標準公式來證明其靈活性。

然而,為了實現人与计算机之间的实时合作,有必要利用另外一种相当不同的通信和控制原理。可以通过比较通常针对智能人的指令和通常用于计算机的指令来突出这个想法。后者精确地指定了要采取的各个步骤以及采取这些步骤的顺序。前者提出或暗示了一些关于激励或动机的东西,它们提供了一个标准,在这个标准中,指令的执行者将知道完成任务的时间。简而言之:针对计算机的指令指定路线;针对人类的指令指定了目标。

人类似乎在目标方面比在路线方面更自然,更容易地思考。的确,他们通常知道一些关于旅行或工作路线的信息,但很少有人能从精确制定的行程开始。例如,谁会带着详细的路线说明从波士顿出发去洛杉矶?相反,用 Wiener 的话来说,前往洛杉矶的人试图不断减少他们还没有被烟雾笼罩的程度。

通过两种途径来实现计算机指令。第一个涉及解决问题、爬山算法、自组织项目。第二种是预编程段和闭合子程序的实时串联,操作员可以简单地通过名字来指定和调用这些子程序。

沿着第一条道路,已经有了有希望的探索性工作。很明显,在预定策略的宽松约束下工作,计算机将能够在适当的时候设计和简化自己的程序来实现既定的目标。迄今为止,这些成就并不重要;他们只是 “原则上的示范”。然而,其影响深远。

尽管第二条道路更简单,显然能够更早实现,但它相对被忽视了。Fredkin 的 trie 存储提供了一个有前途的范例。我们可能会在适当的时候看到一个认真努力来开发的计算机程序,这些程序可以像语言的单词和短语一样连接在一起,这样就可以进行任何计算或控制。显然,阻碍这种努力的考虑因素是,这种努力不会产生任何在现有计算机环境中具有重大价值的东西。在没有任何计算机能够对语言做出有意义的反应之前,开发语言是不可取的。

5.5 输入输出设备

就人机共生的要求而言,似乎最不先进的数据处理部门是处理输入和输出设备的部门,或者从操作员的角度来看,是处理显示和控制的部门。在说了这句话之后,有必要做出符合条件的评论,因为用于高速引入和提取信息的设备工程一直很出色,而且一些非常复杂的显示和控制技术已经在林肯实验室等研究实验室中得到发展。然而,总的来说,在一般可用的计算机中,几乎没有比电动打字机更有效、更即时的人机通信。

显示器似乎比控制的状态好一些。许多计算机在示波器屏幕上绘制图形,少数计算机利用了字符显示管卓越的图形和符号功能。然而,据我所知,在技术讨论中,没有任何东西能接近铅笔和涂鸦板的灵活性和方便性,或者是人们使用的粉笔和黑板。

1)桌面显示和控制:当然,为了有效的人机交互,在相同的显示面上,人和电脑需要绘制图形和图画,并在相同的显示面上写注释和方程。这个人应该能够通过绘制图表,以粗糙但快速的方式向计算机展示一个功能。计算机应该阅读这个人的文字,也许是在清楚的大写字母的条件下,并且应该立即在每个手绘符号的位置张贴相应的字符,并将其翻译成精确的字体。有了这种输入输出设备,操作员将很快学会以机器可读的方式书写或打印。他可以编写指令和子程序,将它们设置成适当的格式,并在最终将它们引入计算机的主存储器之前检查它们。他甚至可以像 Gilmore 和 Savell 在林肯实验室所做的那样定义新的符号,并将它们直接呈现给计算机。他可以粗略地勾画出一张表格的格式,然后让电脑精确地塑造它。他可以修正计算机的数据,通过流程图指导机器,并且就像通常与其他工程师一样进行交互,除了 “其他工程师” 将是精确的绘图员,快速的计算器,助记符向导,以及许多其他有价值的合作伙伴。

2)计算机发布的墙面显示:在一些技术系统中,几个人共同负责控制行为相互影响的车辆。一些信息必须同时呈现给所有人,最好是在一个公共网格上,以协调他们的行动。其他信息仅与一两个操作者相关。如果所有信息都在一个显示器上呈现给所有人,那将只会产生无法解释的混乱。这些信息必须由计算机发布,因为手工绘图太慢,无法保持最新。

刚才概述的问题现在甚至是一个关键问题,随着时间的推移,它似乎肯定会变得越来越关键。一些设计者相信,基于光阀原理,可以借助脉冲光源和分时观看屏幕来构建具有所需特性的显示器。

大多数思考过这个问题的人认为,大型显示器应该由单独的显示器控制单元来补充。后者将允许操作者修改墙面显示而不离开他们的位置。出于某些目的,希望操作者能够通过辅助显示器甚至墙面显示与计算机通信。至少有一种提供这种通信的方案似乎是可行的。

当然,大型墙面显示及其相关系统与计算机和一组人之间的共生合作相关。实验室实验一再表明,操作员非正式的平行安排,通过参考大型位置显示器来协调他们的活动,比更广泛使用的安排具有重要优势,它将操作员定位在各个控制台上,并试图通过计算机代理来关联他们的行动。这是需要仔细研究的几个操作团队问题之一。

3)自动语音生成和识别:人类操作员和计算机之间的语音通信有多理想和可行?每当讨论复杂的数据处理系统时,都会问这个复杂的问题。与计算机一起工作和生活的工程师对这种愿望持保守态度。在自动语音识别领域有经验的工程师对可行性持保守态度。然而,人们仍然对与计算机对话的想法感兴趣。在很大程度上,这种兴趣源于人们认识到,很难把一名军事指挥官或公司总裁离开他们的工作,教他们打字。如果计算机能够被高层决策者直接使用,那么通过最自然的方式提供通信可能是值得的,即使花费相当大的成本。

对公司总裁的问题和时间尺度的初步分析表明,他只对作为爱好的计算机的共生关系感兴趣。业务情况通常进展缓慢,以至于有时间进行简报和会议。因此,对于计算机专家而言,与商务办公室中的计算机直接交互似乎是合理的。

另一方面,军事指挥官在短时间内做出关键决策的可能性更大。人们很容易夸大 10 分钟战争的概念,但是指望有十分钟以上的时间来做出关键决定是危险的。因此,随着军事系统地面环境和控制中心的能力和复杂性的增长,计算机自动语音生成和识别的真正需求似乎有可能得到发展。当然,如果设备已经被开发、可靠的和可用的,它就会被使用。

就可行性而言,与自动识别语音相比,语音产生带来的技术性问题不那么严重。一台商用电子数字电压表现在一个数字一个数字地大声读出它的指示。八年或十年,贝尔电话实验室,皇家理工学院(斯德哥尔摩),Signals Research and Development Establishment(Christchurch),耶鲁大学汉斯金实验室和麻省理工学院,Dunn,Fant,Lawrence,Cooper,Stevens 和他们的同事,已经展示了一代又一代的可理解的自动发生器。汉斯金实验室的研究已经开发出了一种适合计算机使用的数字代码,这种代码使得自动语音完全可以理解相关的话语。

自动语音识别的可行性在很大程度上取决于要识别的单词的词汇量以及说话者和口音的多样性。几年前,在贝尔电话实验室和林肯实验室,人们已经证明了百分之九十八的正确识别自然的十进制数字。为了进一步扩大词汇量,我们可以说,现在几乎可以肯定地在现有知识的基础上开发出一种清晰发音的字母数字字符的自动识别器。由于未经训练的操作员读取的速度与训练有素的操作员键入的速度至少一样快,因此这种设备几乎可以在任何计算机安装中使用。

然而,为了在真正共生的水平上进行实时交互,可能需要大约 2000 个单词的词汇,例如 1000 个基本英语单词和 1000 个专业术语。这是一个具有挑战性的问题。在声学专家和语言学家的共识中,现在还不能完成建立 2000 个单词的识别器。然而,有几个组织乐意承诺在五年内为这样的词汇开发一个自动识别系统。他们会规定演讲要清晰,听写的风格,没有不寻常的口音。

尽管对自动语音识别技术的详细讨论超出了目前的范围,但值得注意的是,计算机在自动语音识别器的发展中起着主导作用。他们为当前的乐观情绪提供了动力,或者说是一些人目前的乐观情绪。两三年前,似乎在 10 年或 15 年内不会自动识别大量词汇;它将不得不等待语音交流中声学、语音、语言和心理过程的知识的逐渐积累。然而,现在,许多人看到了借助计算机处理语音信号来加速获取这种知识的前景,不少工作者认为,即使没有语音信号和过程的大量实质性知识的帮助,复杂的计算机程序也能像语音模式识别一样表现出色。将这两个考虑因素结合起来,可以将实现实际意义上的语音识别所需的时间估计降低到五年,即刚才提到的五年。

載入中......
此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。