最新のNLP技術が謎のヴォイニッチ写本に言語のような構造を明らかに

BigGo Editorial Team
最新のNLP技術が謎のヴォイニッチ写本に言語のような構造を明らかに

ヴォイニッチ写本は、解読不能なテキストと奇妙なイラストで満たされた15世紀の謎の文書で、その作成から何世紀経った今でも研究者たちを困惑させ続けています。最近の現代的な自然言語処理( NLP )技術を用いた計算分析により、この写本の構造に関する興味深い洞察が明らかになり、ランダムな無意味な文字列ではなく、実際の言語と一致するパターンが含まれていることが示唆されています。

構造分析により言語のようなパターンが明らかに

この分析では、多言語 SBERT ( Sentence-BERT )を使用した語幹のクラスタリング、機能語のようなクラスターと内容語のようなクラスターの識別、マルコフスタイルの遷移モデリングなど、いくつかのNLP技術が採用されました。繰り返し現れる接尾辞のような語尾(aiin、dy、chyなど)を取り除くことで、研究者はバリエーションを持って繰り返される語根のように見えるものを分離することができました。この前処理の決定により、クラスタリングの挙動が大幅に改善され、類似した語幹がより密接にグループ化され、遷移行列がより明確な構造パターンを示しました。

この調査結果により、特定のクラスターが自然言語に典型的な特性を示していることが明らかになりました。例えば、クラスター8は高頻度、低多様性を示し、行の先頭によく現れる傾向があり、これは既知の言語における機能語と一致する挙動です。一方、クラスター3は高い多様性と柔軟な配置を示し、これが内容語を表している可能性があることを示唆しています。おそらく最も注目すべきは、遷移行列がランダムとはかけ離れた強い内部構造を示しており、クラスターの使用パターンが写本のセクション間(生物学的セクションと植物学的セクションなど)で顕著に異なることです。

クラスター遷移確率のヒートマップ。 Voynich Manuscript で特定された言語パターンを示しています
クラスター遷移確率のヒートマップ。 Voynich Manuscript で特定された言語パターンを示しています

コミュニティが代替次元削減技術を提案

元の分析では次元削減に主成分分析( PCA )が使用されていましたが、コミュニティのメンバーはより深い構造を明らかにする可能性のある、より高度な代替手法を提案しました。何人かのコメンテーターは、 UMAP ( Uniform Manifold Approximation and Projection )、t-SNE、PaCMAP、または LocalMAP などの新しいアルゴリズムが、このタイプのデータにより効果的なツールになる可能性があると推奨しました。

「 PCA で良い分離が得られた場合、私個人的には UMAP を避ける傾向があります。すべての点の相対的な距離が解釈しやすいからです。t-SNE はできる限り避けます。これらのプロットでの距離はほとんど意味がないからです。」

この議論は埋め込み可視化における重要な方法論的考慮事項を浮き彫りにしています:より新しい技術はより複雑なパターンを明らかにする可能性がありますが、点間の相対的な距離の解釈可能性を犠牲にすることがあります。次元削減技術の選択は、研究者が観察するパターンとその解釈方法に大きな影響を与える可能性があります。

時代遅れの埋め込みモデルと前処理の懸念

コミュニティによって提起されたもう一つの重要な点は、分析で使用された埋め込みモデル( paraphrase-multilingual-MiniLM-L12-v2 )が約4年前のものであり、急速に進化するNLPの分野では時代遅れと考えられていることでした。コメンテーターたちは、多言語サポートを明示的に訓練していなくても、ヴォイニッチ写本のような未知の言語に対して、現代のテキスト埋め込みモデルの方がより良いパフォーマンスを発揮する可能性があると提案しました。

さらに、接尾辞の除去のような従来のNLP技術が、関連する文脈データを削除することで実際に埋め込み品質を損なう可能性があるかどうかを疑問視する声もありました。元の研究者はこの制限を認め、接尾辞の除去は実際の形態論的情報を削除したり、意味のある屈折変異を隠したりする可能性のある強力な前処理決定であったと指摘しました。

分析に使用された主要なNLP技術

  • 多言語 SBERT を使用した語幹のクラスタリング
  • 機能語と内容語のクラスター識別
  • クラスター配列のマルコフ式遷移モデリング
  • フォリオベースの構文構造マッピング
  • データ駆動型の語彙仮説の生成

コミュニティから提案された改善点

  • PCAを新しい次元削減アルゴリズム( UMAP 、 t-SNE 、 PaCMAP 、 LocalMAP )に置き換える
  • 4年前の paraphrase-multilingual-MiniLM-L12-v2 より最新のテキスト埋め込みモデルを使用する
  • 形態素情報を保持するために接尾辞をそのまま維持することを検討する
  • 人工的な偽言語を使用した対照群をテストする
  • 構造的類似性について既知の言語と比較する

偽造 vs 言語の議論は続く

コミュニティは、ヴォイニッチ写本が実際の言語を表しているのか、それとも精巧な偽造品なのかについて意見が分かれたままです。一部の人々は写本が解読不能な無意味な文字列だと信じていますが、統計分析は一貫してランダムなテキストからは生じそうにないパターンを見出しています。あるコメンテーターが指摘したように、そのようなパターンを作成するためには、誰かが完全な人工言語を構築するかなりの道のりを進まなければならなかったでしょう—それ自体が印象的な偉業です。

他の人々は、人間は真のランダム性を生成することが著しく苦手であり、15世紀に偽の言語を作ろうとした人が、意図せずに言語のような統計的特性を持つテキストを生成した可能性があると指摘しました。一部の研究者は、この写本が音節的なパディングと位置的な繰り返しを使用して、構造化された人工言語または記憶術的言語をエンコードしている可能性があると示唆しており、議論は続いています。

この何世紀も前の謎に現代の計算技術を適用することは、テクノロジーが歴史的なパズルに新たな光を当てることができることを示しています。ヴォイニッチ写本の暗号をまだ解読していないかもしれませんが、これらの分析は私たちがその構造を理解し、それが何を表している可能性があるかについての可能性を絞り込むのに役立っています。

参考文献: Voynich Manuscript Structural Analysis