ニュース

最新のNLP技術が謎のヴォイニッチ写本に言語のような構造を明らかに
ヴォイニッチ写本は、解読不能なテキストと奇妙なイラストで満たされた15世紀の謎の文書で、その作成から何世紀経った今でも研究者たちを困惑させ続けています。最近の現代的な自然言語処理( NLP )技術を用いた計算分析により、この写本の構造に関する興味深い洞察が明らかになり、ランダムな無意味な文字列ではなく、実際の言語と一致するパターンが含まれていることが示唆されています。構造分析により言語のようなパターンが明らかにこの分析では、多言語 SBERT ( Sentence-BERT )を使用した語幹のクラスタリング、機能語のようなクラスターと内容語のようなクラスターの識別、マルコフスタイルの遷移モデリングなど、いくつかのNLP技術が採用されました。繰り返し現れる接尾辞のような語尾(aiin、dy、chyなど)を取り除くことで、研究者はバリエーションを持って繰り返される語根のように見えるものを分離することができました。この前処理の決定により、クラスタリングの挙動が大幅に改善され、類似した語幹がより密接にグループ化され、遷移行列がより明確な構造パターンを示しました。この調査結果により、特定のクラスターが自然言語に典型的な特性を示していることが明らかになりました。例えば、クラスター8は高頻度、低多様性を示し、行の先頭によく現れる傾向があり、これは既知の言語における機能語と一致する挙動です。一方、クラスター3は高い多様性と柔軟な配置を示し、これが内容語を表している可能性があることを示唆しています。おそらく最も注目すべきは、遷移行列がランダムとはかけ離れた強い内部構造を示しており、クラスターの使用パターンが写本のセクション間(生物学的セクションと植物学的セクションなど)で顕著に異なることです。クラスター遷移確率のヒートマップ。 Voynich Manuscript で特定された言語パターンを示していますコミュニティが代替次元削減技術を提案元の分析では次元削減に主成分分析( PCA )が使用されていましたが、コミュニティのメンバーはより深い構造を明らかにする可能性のある、より高度な代替手法を提案しました。何人かのコメンテーターは、 UMAP ( Uniform Manifold Approximation and Projection )、t-SNE、PaCMAP、または LocalMAP などの新しいアルゴリズムが、このタイプのデータにより効果的なツールになる可能性があると推奨しました。「 PCA で良い分離が得られた場合、私個人的には UMAP を避ける傾向があります。すべての点の相対的な距離が解釈しやすいからです。t-SNE はできる限り避けます。これらのプロットでの距離はほとんど意味がないからです。」この議論は埋め込み可視化における重要な方法論的考慮事項を浮き彫りにしています:より新しい技術はより複雑なパターンを明らかにする可能性がありますが、点間の相対的な距離の解釈可能性を犠牲にすることがあります。次元削減技術の選択は、研究者が観察するパターンとその解釈方法に大きな影響を与える可能性があります。時代遅れの埋め込みモデルと前処理の懸念コミュニティによって提起されたもう一つの重要な点は、分析で使用された埋め込みモデル( paraphrase-multilingual-MiniLM-L12-v2 )が約4年前のものであり、急速に進化するNLPの分野では時代遅れと考えられていることでした。コメンテーターたちは、多言語サポートを明示的に訓練していなくても、ヴォイニッチ写本のような未知の言語に対して、現代のテキスト埋め込みモデルの方がより良いパフォーマンスを発揮する可能性があると提案しました。さらに、接尾辞の除去のような従来のNLP技術が、関連する文脈データを削除することで実際に埋め込み品質を損なう可能性があるかどうかを疑問視する声もありました。元の研究者はこの制限を認め、接尾辞の除去は実際の形態論的情報を削除したり、意味のある屈折変異を隠したりする可能性のある強力な前処理決定であったと指摘しました。分析に使用された主要なNLP技術多言語 SBERT を使用した語幹のクラスタリング機能語と内容語のクラスター識別クラスター配列のマルコフ式遷移モデリングフォリオベースの構文構造マッピングデータ駆動型の語彙仮説の生成コミュニティから提案された改善点PCAを新しい次元削減アルゴリズム( UMAP 、 t-SNE 、 PaCMAP 、 LocalMAP )に置き換える4年前の paraphrase-multilingual-MiniLM-L12-v2 より最新のテキスト埋め込みモデルを使用する形態素情報を保持するために接尾辞をそのまま維持することを検討する人工的な偽言語を使用した対照群をテストする構造的類似性について既知の言語と比較する偽造 vs 言語の議論は続くコミュニティは、ヴォイニッチ写本が実際の言語を表しているのか、それとも精巧な偽造品なのかについて意見が分かれたままです。一部の人々は写本が解読不能な無意味な文字列だと信じていますが、統計分析は一貫してランダムなテキストからは生じそうにないパターンを見出しています。あるコメンテーターが指摘したように、そのようなパターンを作成するためには、誰かが完全な人工言語を構築するかなりの道のりを進まなければならなかったでしょう—それ自体が印象的な偉業です。他の人々は、人間は真のランダム性を生成することが著しく苦手であり、15世紀に偽の言語を作ろうとした人が、意図せずに言語のような統計的特性を持つテキストを生成した可能性があると指摘しました。一部の研究者は、この写本が音節的なパディングと位置的な繰り返しを使用して、構造化された人工言語または記憶術的言語をエンコードしている可能性があると示唆しており、議論は続いています。この何世紀も前の謎に現代の計算技術を適用することは、テクノロジーが歴史的なパズルに新たな光を当てることができることを示しています。ヴォイニッチ写本の暗号をまだ解読していないかもしれませんが、これらの分析は私たちがその構造を理解し、それが何を表している可能性があるかについての可能性を絞り込むのに役立っています。参考文献: Voynich Manuscript Structural Analysis
Journal Article
1 時間前
学生や若者が人生の決断や学業に ChatGPT を利用することへの懸念が高まる
AI
6 時間前

BrowserBee:プライバシー重視のブラウザ自動化がセキュリティと効率性に関するユーザー議論を引き起こす
セキュリティ
7 時間前

hardtime.nvim プラグインが悪いVimの習慣を断ち切るのを助け、ナビゲーション哲学の議論を引き起こす
7 時間前

Samsung の超薄型 Galaxy S25 Edge がプレミアムデザインと印象的な予約特典で発売
スマホ
13 時間前

AIコーディングツールの評価は明暗:スタートアップでは革命的だが職場の生産性への影響は限定的
AI
14 時間前

Star Citizen 開発者、課金要素批判を受けて議論を呼んだフライトブレードの導入を延期
コンピュータゲーム
14 時間前

Google が Android エコシステム全体に Gemini AI アシスタントを拡大、大幅なUI更新を実施
AI
16 時間前

VirtualBox VMエスケープ脆弱性が仮想マシンにおける3Dグラフィックスセキュリティに関する疑問を提起
セキュリティ
18 時間前

クロスプラットフォームiOS開発: xtool がLinuxとWindowsでのiOSアプリ構築を可能に
アプリ
19 時間前

Rapidhash が小さなキー向けの最先端ハッシュ関数として登場し、XXH3 を上回る性能を発揮
セキュリティ
19 時間前

ユーザーは軽微なバグにもかかわらず、生産性向上のための Espanso テキストエクスパンダーを称賛
アプリ
19 時間前

Xiaomi が10年の開発期間を経て初の自社製スマートフォンチップ「XRING 01」を発表
スマホ
21 時間前

Acer が Predator X27U F5 を発表:パフォーマンスの限界を押し上げる500Hz QD-OLEDゲーミングモニター
モニター
23 時間前

AMD の中止された RX 7500 プロトタイプが6GB VRAMと1,536シェーダーを搭載して発見される
GPU
昨日

Grok のプロンプト公開は南アフリカ論争に続くPR活動と見なされる
AI
昨日

開発者たち、迅速なフィードバックの約束にもかかわらず GitHub Actions ローカルテストツールに苦戦
GitHub
昨日

新しい R パッケージマネージャー「rv」が宣言的アプローチで renv に挑戦
昨日

Apple Vision Pro ユーザー、3,499ドルのヘッドセットの快適性問題と限られた使用例に後悔の念
ウェアラブルデバイス
昨日

AIを活用した Merliot Hub がDIYスマートデバイス制御の新たな可能性を開く
AI
昨日
