AppleがYouTube字幕をAIトレーニングに使用していないと否定、データソースを明確化

BigGo Editorial Team

AppleがYouTube字幕をAIトレーニングに使用していないと否定、データソースを明確化

AppleがYouTube字幕をAIトレーニングに使用したという主張を否定

Appleは最近、YouTube動画の字幕を人工知能システム「Apple Intelligence」のトレーニングに使用したという疑惑に対して回答しました。同社はデータソースとトレーニング方法を明確にし、AI開発とデータ使用の複雑な世界に光を当てました。


テクノロジー大手の象徴であり、AI学習データの使用に対する姿勢を表すAppleの象徴的なロゴ。

最初の疑惑

Proof NewsとWiredの共同調査によると、AppleをはじめNvidia、Anthropic、Salesforceなどの技術企業が、YouTube Subtitlesと呼ばれるデータセットを使用してAIモデルをトレーニングしたと主張されていました。このデータセットには、48,000チャンネルにわたる173,000以上のYouTube動画から抽出された字幕が含まれており、教育コンテンツから人気クリエイターの動画まで幅広い内容が含まれていたとされています。

Appleの回答

Appleは迅速に反論し、YouTube字幕を直接Apple Intelligenceのトレーニングに使用していないと否定しました。同社はクリエイターと出版社の権利を尊重していると述べ、倫理的なAI開発実践への取り組みを強調しました。

Appleの説明の要点：

AppleはEleutherAIのデータセットではなく、OpenELM Dataを使用してAIをトレーニングした。
同社はウェブサイトにAIトレーニングにデータを使用しないようオプトアウトする機能を提供している。
Appleは高品質のデータを使用してAIモデルをトレーニングしており、これにはライセンス取得済みのコンテンツと一部の公開されているウェブデータが含まれる。
OpenELMデータセットは研究目的のみを意図しており、消費者向けのAppleデバイスでは使用されていない。

AIトレーニングデータの複雑性

この状況は、AIトレーニングデータソースの複雑な性質を浮き彫りにしています。AppleはEleutherAIのデータセットではなくOpenELMを使用したと主張していますが、OpenELMの研究者たちがPileデータでトレーニングしたことを認めており、そこにYouTube字幕が含まれている可能性があることは注目に値します。

YouTubeの立場

YouTubeは、動画の字幕を含むコンテンツをAIトレーニングに使用することはプラットフォームの利用規約に違反すると明確に示しています。これにより、先進的なAIシステムを開発しようとする技術企業は、コンテンツクリエイターの権利を尊重しながら難しい立場に置かれています。

AI業界への影響

この論争は、公開されているデータをAIトレーニングに使用することの倫理性と合法性について重要な問題を提起しています。AI技術が進歩し続けるにつれ、機械学習目的でのオンラインコンテンツの適切な使用に関する継続的な議論や潜在的な法的課題が予想されます。

AI分野が進化する中、Appleのようなテクノロジー企業は、イノベーションと知的財産権の尊重のバランスを慎重に取る必要があります。業界は、AIテクノロジーの継続的な成長を確保しながらコンテンツクリエイターを保護するために、トレーニングデータを倫理的に調達するための新しい基準と実践を開発する必要があるかもしれません。