世界中の文化機関が前例のないデジタル危機に直面している。博物館、図書館、アーカイブは、コンテンツを非常に集中的にスクレイピングする攻撃的な AI トレーニングボットによってウェブサイトが圧迫され、サービス停止と持続不可能なサーバーコストを引き起こしていると報告している。
この急増は静かに始まったが、警戒すべきレベルに達している。調査対象機関の90%以上が現在、これらの攻撃的なボットに週に複数回遭遇しており、多くの機関がその結果として完全なウェブサイト停止を経験している。
オープンアクセスリポジトリへの影響:
- COAR により調査された66のリポジトリ
- 90%以上が悪質なボットに遭遇
- 攻撃は週に複数回発生
- 頻繁にシステムの速度低下やサービス停止を引き起こす
従来のウェブ防御が機能しなくなっている
標準的な robots.txt ファイル - ウェブクローラーに特定の境界を尊重するよう丁寧に要求するシンプルなテキストドキュメント - は、現代の AI データ収集に対してほぼ無用になっている。これらのボットはガイドラインを完全に無視するか、非常に攻撃的に動作するため、自主的なコンプライアンスは意味をなさない。
一部の機関は AWS や Cloudflare などの企業から商用ボット保護サービスに頼っているが、これらのソリューションは新たな問題を生み出している。ログイン要件を追加することは、文化コレクションへの無料パブリックアクセスを提供する目的を台無しにし、高度なファイアウォールは多くの機関が単純に負担できない技術的専門知識と継続的なコストを必要とする。
Robots.txt: ウェブサイトがウェブクローラーとコミュニケーションを取り、サイトのどの部分にアクセスすべきか、すべきでないかを伝えるために使用する標準テキストファイル
AI 進歩の隠れたコスト
この状況を特に困難にしているのは、問題のステルス性である。多くの機関は、ウェブサイトがクラッシュし始めるまで攻撃を受けていることに気づかなかった。ボットは膨大な量の帯域幅とサーバーリソースを消費し、通常厳しい予算で運営されている文化組織が持続できないコストを生み出している。
コミュニティは、コンテンツにアクセスする前に計算努力を要求するプルーフオブワークシステムや、リピート訪問者を追跡し制限するクッキーベースのレート制限など、創造的な技術的解決策を模索している。しかし、これらのアプローチは、ボット運営者が技術を適応させるため、一時的な救済しか提供しない可能性がある。
文化機関からの調査結果:
- GLAM-E Lab による43組織への調査
- 43組織中39組織が最近のトラフィック増加を経験
- 27組織がその増加を AI トレーニングボットに特定して帰属
- 追加で7組織がボットの関与を疑っている
ウェブトラフィックの根本的変化
この状況は、インターネットの動作方法における劇的な変化を表している。従来のウェブトラフィックパターンは、ほとんどの訪問者が時折コンテンツを閲覧する人間であることを前提としていた。現在、自動化システムがコレクション全体を体系的にダウンロードしており、無料オンラインアクセスを可能にした経済モデルを根本的に破綻させている。
「オンラインコレクションをホストする文化機関は、永続的により多くのサーバーを追加し、より高度なファイアウォールを展開し、より多くの運用エンジニアを雇用し続けるリソースを持っていない。」
問題は企業の AI 会社だけにとどまらない。 AI ハードウェアがより手頃になるにつれ、個人開発者や小規模プロジェクトが独自のモデルを構築することが増えており、ウェブ全体でスクレイピング活動の増加につながっている。
ボット活動のタイムライン:
- 一部の機関では2021年という早い時期から増加に気づいていた
- その他の機関では2024年になってから問題が発生し始めた
- 問題の深刻化は、ウェブサイトがクラッシュするまで気づかれないことが多かった
- トラフィック急増は ChatGPT 後の AI ブームに起因するとされている
今後の展望
この危機は、無料オンラインコンテンツの将来についてより広範な疑問を浮き彫りにしている。ウェブサイトが人間の訪問者と AI トレーニングボットの両方にサービスを提供する余裕がない場合、多くがペイウォールの後ろに強制されるか完全に閉鎖される可能性があり、文化遺産や教育リソースへの公共アクセスを制限する可能性がある。
解決策は、おそらく AI 会社が依存するウェブサイトに負担をかけない、より持続可能なデータ収集慣行を開発することを必要とするだろう。そのような協力なしには、文化コレクションへの無料でオープンなアクセスの現在のモデルは、経済的に維持することが不可能になる可能性がある。
参考: Bots are overwhelming websites with their hunger for AI data