調査の結果、ハイテク大手が自社と提携していない4万8000以上のチャンネルにわたる17万本以上のYouTube動画からデータを入手していたことが判明した。
物議を醸す人工知能の開発、使用、保守の実践は依然として注目を集めている問題であるが、最近の調査により、Apple、NVIDIA、Salesforce、その他のテクノロジー大手における AI モデルのトレーニングにおける YouTube ビデオの大量かつ未承認の使用が明らかになった可能性がある。調査では、大量のサードパーティの YouTube チャンネルとそのコンテンツがデータ収集者によって収集され、AI のトレーニングに承認なしに使用された可能性があることが示唆されています。
Proof Newsが報じたように、大規模な調査が実施された。有線。調査では、AI モデルのトレーニングに利用されたマテリアルとデータセットが調査されました。これには、48,000 以上の異なるチャンネルを表す推定 173,536 本の YouTube 動画からリッピングされた字幕とトランスクリプトが含まれていました。このデータは、Apple、NVIDIA、Salesforce、Anthropic を含む多くのテクノロジー大手によって活用されていると言われています。
— マーケス・ブラウンリー (@MKBHD)2024 年 7 月 16 日AppleはAI用のデータを複数の企業から調達している
そのうちの 1 つは、私のものを含む YouTube 動画から大量のデータ/トランスクリプトを収集しました
Apple はスクレイピングを行っているわけではないため、技術的にはここでの「障害」を回避しています
しかし、これは長期にわたって進化する問題になるだろうhttps://t.co/U93riaeSlY
この「YouTube 字幕」データセットで使用されているデータのソースの中には、MIT やハーバード大学などのさまざまな教育および情報チャンネル、BBC やウォール ストリート ジャーナルなどのニュース メディア グループ、さらには The Late Show With Stephen などのエンターテイメント ソースからの資料も含まれていました。コルベアと先週の今夜はジョン・オリバーと。 MrBeast、Jackseticeye、PewDiePie などの大規模な YouTube コンテンツ クリエイターも、データセットの中で目立って登場しました。クリエイターなどマーケス・ブラウンリーMKBHD ポッドキャストのメンバーは、そのような方法でビデオの使用を許可したことは一度もなかったが、コンテンツはとにかく使用されたと共有しました。
大手テクノロジー企業がAIのトレーニングに使用するために入手できるあらゆるデータを熱心に追いかけているため、この抗議が未承認の動画のデータ収集の調整や停止を促すかどうかはまだ分からない。この記事のさらなる最新情報を私たちのニュースでチェックしてください。人工知能のトピック。
TJ Denzer は、生涯を支配してきたゲームへの情熱を持つプレイヤー兼ライターです。彼は 2019 年後半に Shacknews の名簿に登録され、それ以来上級ニュース編集者に昇進してきました。ニュース報道の合間に、インディーズ ゲームに焦点を当てた Indie-licious、Shacknews Stimulus Games、Shacknews Dump などのライブストリーム プロジェクトにも特に協力しています。あなたは彼に連絡することができます[email protected]Twitterでも彼を見つけてください@johnnychgs。