1970 年の晴れた秋の日、数百人のシラキュース大学の学生と教員が、ニューヨーク州のキャンパスにある IBM 360 メインフレームに接続されたプリンタ端末(電動タイプライターに似たもの)の前に交代で座っていました。コンピュータを使ったことがある人はほとんどおらず、ましてやコンピュータベースの情報検索システムを使ったことがある人は皆無でした。彼らはキーボードに触れると手が震え、後に数人が入力中にシステム全体を壊してしまうのではないかと恐れていたと報告しました。
参加者たちは初めてのオンライン検索を行い、新しいデータベース内で関連する心理学の要約を見つけるために慎重に選ばれた単語を入力しました。彼らは 1 行に 1 つのキーワードや命令を入力し、例えば 1 行目は「動機」、2 行目は「尊重」、3 行目は「L1 と L2」といった具合に、これらの用語を含む論文を検索しました。クエリを実行すると、端末は各検索条件に一致する文書の数を示す出力結果を生成しました。ユーザーは検索範囲を狭めたり広げたりし、記事の引用リストを生成することができました。多くの参加者は、遠隔のコンピュータが結果を返すのを見て笑っていました。
事後の電話調査の一環として、参加者はこの体験を説明するために 2、3 の言葉を提供するよう求められました。提供された合計 78 語の中で、21 語が同じ形容詞「イライラする」でした。参加者はシステムにログインする際に困難に直面し、予測不可能な失敗や「無関係な出力」を経験し、最も重要なことに「検索に何の言葉を使うべきか分からなかった」と述べました。しかし、彼らはこのシステムが面白く、刺激的であることも発見しました(「楽しい」「コンピュータが好き」)。94% の人が、SUPARS(シラキュース大学心理文摘検索サービス)が再び利用可能になった場合、再度使用すると回答しました。数人は実験を続けることを提案し、彼らの部門にこのプロジェクトの資金提供を求めました。
この学術的な実験の被験者たちは、教育学、心理学、図書館学の分野の大学院生が大半で、シラキュース大学図書館学部が行った過激なオンライン検索実験の一環でした。SUPARS は、1960 年代末から 1970 年代中頃にかけてアメリカの大学キャンパスで行われた数多くの野心的な情報検索研究の一つです。この研究の急増には多くの要因がありました。コンピュータの処理速度とストレージ能力の向上により、学術データベースやカタログがデジタル化され、オンラインプラットフォームに移行できるようになりました。コンピュータ端末は新しいモジュール型デバイスで、キャンパスの各所に分散配置され、メインフレームへの分散アクセスを可能にしました。また、軍事および産業界からのコンピュータベースの研究への資金提供は、かつてないほど豊富でした。この機会を得た学術図書館員たちは、この高価な新技術を利用して探求を行いました。大学は、企業技術会社や軍事組織との協力のための非機密環境を提供しました。SUPARS は、アメリカ空軍実験室ローマ航空開発センターによって支援されました。
1970 年代の図書館員が検索の課題を革新しようとした理由は明白です。学術界の仕事の規模は急速に拡大しており、すべての作業を支えるための人間の図書館員が不足することが明らかでした。しかし、研究者が必要な情報を取得するためには、時間がかかり、労力を要し、図書館員の介入が必要なプロセスに直面しなければなりませんでした。学術研究者は自分の分野の新しいジャーナルを閲覧することができましたが、以前のすべての内容を検索するためには、依然として参考図書館員に相談し、正しい国立図書館の主題見出しを多巻のハンドブックで探す必要がありました。主題見出しのセットを持つことで、研究者は図書館のカタログで本を検索し、ジャーナル記事の引用索引を検索し、科学引用索引のような購読データベースや、彼らの大学の学科図書館員が手動で作成した書誌を含めることができました。最終的に、彼らは正しい本や製本されたジャーナルを見つけ出し、関連する資料があると思われるものを探し出しました — もしそれらの本が図書館の書棚にあればの話ですが。
SUPARS の参加者がこのシステムを魅力的だと感じたのは、限界があったにもかかわらずです。大学の図書館員が検索の課題に精通していることを考慮すると、彼らが設計したシステムが主題見出しや引用索引を回避するのは理にかなっています。さらに驚くべきことに、この時期に行われたすべてのオンライン検索実験の中で(ロッキードの Dialog のような商業検索システムを含む)、SUPARS は他のどの検索よりも現代のウェブ検索を模倣しており、50 年以上後に私たちが依存するウェブ検索プロトコルのいくつかの主要な特徴を予示していました。
SUPARS や他のほとんど忘れ去られたシステムは、今日私たちが持っている現代の検索エンジンの先駆者です。インターネットの普及の歴史はシリコンバレーのプログラマーを称賛しますが — 時にはアメリカの元副大統領アル・ゴアも — 検索の多くの初期の概念は、文書の時間と空間におけるアクセス可能性に関心を持つ図書館科学者から生まれました。軍事および産業界の研究開発資金の下で、彼らの進歩は現在のオンライン情報分野の至る所に見られます — 全文文書の取得とインデックス作成の一般的な方法から、自由テキスト検索や以前に保存された他者の検索を利用した複雑なアルゴリズム、現代のクエリ拡張や自動補完の基礎構築ブロックまで。実際、これらの方法やキャンパスの先駆者によって開発された多くの他の方法は、今でも数十億ドルのウェブ検索や商業図書館データベース(Google から WorldCat まで)で使用されています。
ポーリン・アセルトン・コクレーン(中央)と、シラキュース大学図書館で SUPARS を研究している同僚たち。
SUPARS は、ポーリン・アセルトンという名の図書館員によって設計されました(彼女の現在の名前はポーリン・アセルトン・コクレーンです)。1960 年、30 歳の彼女は図書館のキャリアを始めたばかりで、その年の『ワールドブック百科事典』(World Book Encyclopedia)の改訂版のクロスリファレンス編集者を務め、異なる項目間のクロスリンクが完全かつ正確であることを確認しました。1966 年までに、彼女はシラキュース大学の図書館および図書館学院で働き、1968 年にはオンライン十進分類ファイルを使用して検索を支援する初めてのデモを行いました。同年、彼女は図書館学校(LEEP)に初のコンピュータベースの教育実験室を設立し、オンライン検索を通常の授業に統合しました。(インターネットが登場する前の世界では、「オンライン」とは、大型コンピュータと他のいくつかの遠隔デバイス [端末など] の間にネットワーク化されたリアルタイム接続を確立することを意味していました。)
翌年、つまり 1969 年、アセルトンは彼女の共同研究者であるシラキュース大学の別の図書館学教授ジェフリー・カツァーと共に SUPARS を設計しました。SUPARS プロジェクトの主な目標は、大規模なオンライン検索を提供し、できるだけ多くのユーザーがオンライン検索をどのように行い、オンライン検索に対してどのように感じ、より良い検索を行うために何が必要かを理解することでした。そのために、チームはキャンパス全体で使用できる検索可能な学術コンテンツのコーパスを構築しました。アメリカ心理学会の『心理学文摘』(Psychological Abstracts)からの 35,000 以上の記事が含まれています。これは、SUPARS システム内でインデックス作成と検索に使用され、非分類環境でオンライン提供された最初の大規模データベースです。当時のユーザー層と検索可能なコンテンツは非常に大規模でしたが、今日のウェブ検索の規模や範囲には及びません。
アセルトンと彼女のチームが下した 2 つの決定が SUPARS を本当に新しいものにしました。まず、彼らは『心理学文摘』の項目からすべての主題見出しを取り除き、「and」のような接続詞や「a」や「the」のような冠詞を除いて、すべての単語を直接検索可能にしました。これにより、SUPARS はオンラインで大量の自由テキストを検索し出力できる最初のシステムとなりました。(彼らの最終報告書のタイトルは「自由テキスト検索評価」[Free Text Retrieval Evaluation] でした。)次に、彼らは各 SUPARS 検索を要約自体と一緒にクエリできる並行データベースに保存し、SUPARS をユーザーが以前の検索を利用して代替用語や方法を見つけることを許可する最初の実験にしました。
これらの機能はそれぞれ独自に新しいものでしたが、この組み合わせが当時どれほど先進的であったかを理解するためには、今日のウェブ検索サービスがどのように機能しているかを見る必要があります。Google や Bing などの検索エンジンは、ページをインデックスするために 2 つの主要なコンポーネントを使用します:クローラーが新しいページを検索し、定期的に既に見つけたページを再取得します;パーサーがページの内容を分析し、結果情報(すべての自由テキストを含む)を内部データベースに保存します。ユーザーが検索クエリを入力すると、Google はクエリ内の単語やフレーズをデータベース内のページと照合し、ユーザーに最も関連性の高い結果を提供しようとします。
検索者自身が入力した単語に加えて、現代のウェブ検索アルゴリズムは、検索クエリ内の単語と密接に関連する他の単語も考慮します。同義語(例えば「自転車」を検索すると、「バイク」や「サイクル」が返される)や他の直接関連する単語が含まれます。
ほとんどの検索エンジンは、他の人が実行した類似のクエリの一部の単語も含め、これらの単語は内部同義語辞書の一部となり、ユーザーのクエリに検索語を追加します。この関連単語を含むプロセスは、クエリ拡張(query expansion)と呼ばれ、返される記録の関連性を大幅に向上させることができます。同様に、Google や他の検索エンジンは、自動補完機能を通じてユーザーに追加の検索語を提案し、以前の検索に基づいて予測を作成し、ユーザーが迅速にクエリを完了できるようにします。
したがって、文書内で自由テキストを直接検索する能力をユーザーに与え、検索者が以前の検索戦略を借りることを許可することで、SUPARS はウェブ検索の到来を予示しました。同時に、SUPARS はそのトランザクションログを分析して、これらの個々の検索の有用性を特定しました。最初の試験プロジェクトの後、1970 年 10 月から 12 月(SUPARS I)および 1971 年 11 月から 12 月(SUPARS II)の間に 2 回の SUPARS テストが行われました。アセルトンの研究チームは、自由テキスト検索が検索結果の関連性(科学者の言葉で言えば「リコール」)を向上させる効果的な方法であり、人間の図書館員が主導する検索と同じくらい効果的である可能性があると結論付けました。さらに重要なことは、進化し続ける語彙システムが人間の入力や行動に適応し続けるのに対し、固定的で「一度きり」の制御された検索システムの語彙表に基づくシステムがアップグレードされたことです。SUPARS チームは、人工知能のネット検索アルゴリズムが数十年後にこの正確な作業を完了することになるとは予想していませんでしたが、彼らは明らかに、これは検索結果を継続的に更新する新しく効果的な方法になるだろうという感覚を持っていました。
1972 年に『アメリカ情報科学学会誌』(Journal of the American Society for Information Science)の編集者に宛てた手紙の中で、カツァーはすべての以前の検索クエリを提供するデータベースの背後にある理由を説明しました:
この検索データベースの目的は、ユーザーが文書データベース(心理学文摘)内でクエリを作成するのを助けることです。SUPARS が現在使用しているのは制限のない語彙表であるため、検索データベースの出力は、ユーザーが文書データベース内でそのテーマにアプローチする他の方法を発見するのを助けることができます:それは他の主題専門家が使用するキーワードや彼らの思考過程の表現を提供します…… 私たちは、これはユーザーの知恵を機械の知恵を強化するすべての努力を使用するという、まだ十分に探求されていない分野の始まりであると考えています。
アセルトンのチームをユートピア的な未来主義者として描くのは簡単ですが、SUPARS 実験のデザインは、オープンネットのような指導的なビジョンを持っていたわけではありません。それは、未来に研究者を直接支援する図書館員がますます少なくなる状況に備えて特別に設計されたものでした。他者の集合的知恵を拡張することは、理想主義的な解決策ではなく、実用的な解決策です。
アセルトンのグループは、シラキュース大学の新しいコンピュータ端末の位置が「参考図書館員やユーザーが興味を持つ分野の他の人間の専門家から遠く離れている」ため、彼らは「システムのすべての他のユーザーの人間の知恵」に見出すことができる追加の助けが必要であることに気づきました。彼らは、他の研究者の総合的な決定が図書館の専門家の代替品に過ぎないと書きました:
理想的には、ユーザーは自分の興味のある分野に精通した人と話し、さまざまな語彙や他のヒントを得ることができるでしょう。次に、ユーザーはシステムに対する検索クエリを開発または策定し、必要な情報を最大限に取得するための具体性や詳細を持たせることができます。
彼らがキャンパスでモジュール型端末を使用しているとき、SUPARS チームは、分散型のネットワークコンピューティングの世界が失うものを見越していました。ますます多くの研究者が図書館の外で独立して作業するようになり、彼らは図書館員が提供できない支援を必要とするでしょう。アセルトンのチームは、専門の図書館員が不要な世界を予測していたわけではありません。彼らは、研究がさまざまな場所で行われ、参考相談デスクから遠く離れた場所で行われる世界に備えていました。
SUPARS の実験者たちは、他者の検索語を利用することが主題ベースの検索の有望な代替手段である一方で、限界があることも結論付けました。SUPARS の最後の提案の一つは、制御語彙の開発を続けることであり、「インタラクティブな自由テキスト検索には、ユーザーの語彙表や同義語の制御の必要性が依然として存在する」と説明しました。彼らは、SUPARS の参加者が検索語彙の問題にしばしば直面しているのを見て、この結論に至りました。例えば、彼らの一つの例では、「人」ではなく「人類」を検索したが、結果が返ってこなかったというものでした。参加者自身も主題見出しの包括性を無視していました。実際、SUPARS 調査の一環として、彼らは自由テキストシステムとより制御された語彙のシステムのどちらを好むか尋ねられました:42% が自由テキストシステムを好み、36% が制御された語彙を好み、12% が両方を望んでいました。
このようにして、SUPARS の意義は、時代を先取りしたデザインであると同時に、インターネットとワールドワイドウェブの確立された技術ユートピアの歴史の反例でもあります。この歴史の中で、先見の明のある人々はほぼ常に、技術が人間のコミュニケーション、知性、効率を絶対的に改善する世界を想像していました。
例えば、この歴史の中で最も有名な人物の一人である J. C. R. リックライダーは、彼のユニバーサルネットのアイデアが ARPANET の発明に直接影響を与えたと主張されており、これは一般に「最初のインターネット」と呼ばれています。(リックライダーは、1960 年代と 70 年代のキャンパスオンライン検索実験にも深く関与しており、彼は MIT 図書館のいくつかの研究に資金を提供し、SUPARS と同時期に行われた研究に助言をしました。)
1968 年、SUPARS が設計される前年に、リックライダーの論文『通信装置としてのコンピュータ』(The Computer as a Communication Device)は、「数年後、人々は機械を通じて対面よりも効果的にコミュニケーションを取ることができるようになる」と宣言し、人間とコンピュータの相互作用を媒介とした有益で幸福な社会を描写しました。リックライダーは、「オンラインでの個人の生活はより幸福になるだろう」「コミュニケーションはより効果的で生産的になり、したがってより楽しいものになるだろう」と予言しました。リックライダーの文章は、情報技術の潜在能力に関する未来主義的な流派にとって典型的なものであり、予測と美しさを兼ね備えています。
文化界は、リックライダーのような人々の積極的なビジョンを称賛します。しかし同様に、アセルトンと SUPARS 研究チームも称賛されるべきです。彼らは未来に失われる可能性のあるものを見抜き、それに備えて設計しました。私たちのインターネットの夢想家の群れをアセルトンのような人々に広げることで、私たちは異なるタイプの研究者が未来の世界をどのように想像しているかのより複雑な像を見ることができます。リックライダーは、私たちが世界中の誰とでもオンラインで交流できることから得られるものを見ましたが、アセルトンのグループは、専門的な仲介者を失うことを見ました。彼らはそのコストのために設計されたのです。
2022 年と 2023 年、最初の生成的人工知能検索エンジン(Elicit や Consensus などの学術検索エンジンを含む)が一般ユーザーに紹介され、興奮と疑念を呼び起こしています。研究者がこれらのツールに依存することで失うものを分析することも同様に有用です。例えば、研究問題を簡単に入力して即座に文献レビューを作成できるようになると、これは単なる大きな前進ではありません。この新技術は、信じられないような新発見を達成しても、基礎や背景の欠如を引き起こすでしょう — この損失はアセルトンが見たものとは異なりますが、同様に無形で深遠な結果をもたらします。これらの結果を事前に予測し、ルダイト(Luddites)のようにそれを嘆くのではなく、研究者がそれを克服するのを助ける方法を積極的に考えることは、私たちが SUPARS チームから学べる教訓の一つです。
原文:The 1970s librarians who revolutionised the challenge of search