banner

ブログ

Dec 01, 2023

AI が芸術を作れるようになったら

Dall-E 2 などの画像ジェネレーターを使用すると、希望するテーマの画像を数秒で作成できます。 一部のクリエイターは警戒しているが、他のクリエイターは誇大宣伝に懐疑的だ

コンセプト アーティストでイラストレーターの RJ パーマーが、AI 画像生成装置 Dall-E 2 によって生成された、微調整されたフォトリアリズムの構図を初めて目の当たりにしたとき、彼の感情は不安の 1 つでした。 AI調査会社OpenAIがリリースしたこのツールは、2021年のDall-Eよりも顕著な改善を示し、すぐにStable DiffusionやMidjourneyなどのライバルが追随した。 エドヴァルド・ムンク風のカエルのカーミットから、スイカのスライスを食べるロード・オブ・ザ・リングのゴラムまで、超現実的なプロンプトを入力すると、これらのツールはすぐに驚くほど正確な描写を返します。

インターネットはミーム作成の機会に大喜びし、「奇妙なダルイー世代」を記録したツイッターアカウントは100万人以上のフォロワーを獲得した。 コスモポリタンは世界初の AI が生成した雑誌の表紙を宣伝し、テクノロジー投資家はひっくり返って「生成 AI」の新時代に波紋を広げました。 画像生成機能は、Google の Imagen Video や Meta の Make-A-Video のリリースにより、すでにビデオにも広がっています。

しかし、AI の新しい芸術的才能は、一部のクリエイターにはそれほど熱狂的に受け入れられませんでした。 「私にとっての主な懸念は、これが私の業界だけでなく、クリエイティブな人間の業界全体の将来にどう影響するかということです」とパーマー氏は言う。

AI はパターンを分析し、予測モデルを構築するために大規模なデータセットを取り込むことで、一部のタスクでは人間よりも優れていることを長い間証明してきました。 2016 年に AI が囲碁の世界チャンピオンを破り、最も有利なゲーム戦略を迅速に計算し、人間によるものであれば嘲笑を招くであろう手を恐れることなく実行したのは、この数字を処理する能力のおかげです。 しかし、最近まで、オリジナルの成果物、特に創造的な作品を生み出すことは、明らかに人間の追求であると考えられていました。

AI の最近の進歩により、状況は大きく変わりました。 AI 画像ジェネレーターは、書かれたフレーズを新しい絵に置き換えるだけでなく、AI 音声生成も進歩しました。GPT-3 などの大規模な言語モデルは、最近解雇された Google 研究者の少なくとも 1 人を納得させる流暢さのレベルに達しました。機械の感覚。 バッハの作品をプラグインすると、AI は多かれ少なかれ同じスタイルで音楽を即興演奏できますが、人間のオーケストラが実際に演奏することは多くの場合不可能であることに注意してください。

このクラスのテクノロジーは生成 AI として知られており、拡散として知られるプロセスを通じて機能します。 基本的に、AI をトレーニングするために巨大なデータセットが収集され、技術的なプロセスを通じて、AI はトレーニング データに似ているが同一ではない新しいコンテンツを考案できます。 「犬」という単語がタグ付けされた何百万もの犬の写真を一度見ると、データセットによく似たまったく新しい子犬の形でピクセルを配置できるため、犬とラベル付けしても問題ありません。 それは完璧ではありません。AI 画像ツールは依然として人間のように見える手をレンダリングするのに苦労しており、体のプロポーションがずれている可能性があり、意味のない文章を作成する傾向があります。

インターネット ユーザーは、正しく洗練されたプロンプトを備え、初心者でも魅力的なデジタル キャンバスを作成できるようになり、このスーパーチャージされた創造的な可能性を受け入れていますが、一部のアーティストは、新しいテクノロジーの模倣能力に二の足を踏んでいます。 画像生成ツールである Stable Diffusion と Midjourney に入力されるプロンプトの多くは、結果として得られる画像のスタイルをより美しくするために、アーティストの名前をタグ付けします。 オレンジのボウルのようなありふれたものでも、たとえばピカソのスタイルでレンダリングすると、人目を引くものになることがあります。 AI は何十億もの画像を使ってトレーニングされており、その中には存命の芸術家による著作権で保護された作品も含まれているため、通常はかなり忠実な近似を作成できます。

自分たちの芸術的商標が盗まれたと考えて激怒する人もいる。 グレッグ・ルトコウスキーは、金色の光が注がれた壮大なファンタジーシーンでよく知られるコンセプトアーティスト兼イラストレーターであり、ミッドジャーニーと安定したディフュージョン全体で使用される何十万ものプロンプトですでに言及されています。 「まだ1か月しか経っていない。1年後はどうなるだろう?おそらく(インターネットには)AIアートが溢れかえるから、自分の作品を見つけることはできないだろう」とルトコウスキー氏はMITテクノロジーレビューに語った。 「それは気になるところです。」

Dall-E 2 はブラックボックスであり、OpenAI はコードの公開やツールのトレーニングに使用されたデータの共有を拒否しています。 しかし、Stable Diffusion はコードをオープンソース化し、モデルのトレーニングに使用される画像データベースの詳細を共有することを選択しました。

アーティスト集団である Spawning は、Have I Been Training? というツールを構築しました。 アーティストが安定拡散のトレーニングに使用される 58 億枚の画像の中に自分の作品が含まれているかどうかを確認し、今後のトレーニング セットに表示するかどうかを選択できるようにします。 Stable Diffusionを開発した企業であるStability AIは、このツールの利用に前向きであると述べた。 すでにこのツールの使用にサインアップしている1,800人のアーティストのうち、スポニングのメンバーで学者のマシュー・ドライハースト氏は、オプトアウトを支持する意見が60対40で分かれていると語る。

しかし、コンセプトアート協会(CAA)は、ツールがアーティストの同意なしにすでにアーティストの作品に合わせて訓練されているため、今回はすでに被害が出ていると強調している。 「それは、すでにあなたに強盗をした誰かが『私があなたを強盗するのをやめますか?』と言っているようなものです」とイラストレーターでCAA理事のカーラ・オルティスは言う。

Stability AI の Emad Mostaque 氏は、Stable Diffusion のトレーニングに使用されたデータにはオプトアウト オプションが用意されていなかったが、「インターネット上の画像のスナップショットでほとんど最適化されていない、ほとんどテスト モデルだった」と述べています。 通常、新しいモデルは新しいデータセットでトレーニングされるため、この時点で同社はアーティストのリクエストを考慮すると同氏は述べています。

それは芸術作品だけではありません。Stable Diffusion のトレーニング データベースを分析したところ、個人的な医療写真、一般人の写真 (場合によってはフルネームと一緒に)、ポルノも吸い込まれていたことが明らかになりました。

Ortiz は、Stability AI の運用の一部である DreamStudio を商業化することに特に反対しています。DreamStudio は、顧客にカスタム モデルと使いやすさの向上を提供します。 「これらの企業は、誰もオプトインすることなく、全員の著作権で保護された個人データを使用するという前例を作りました」と彼女は言います。 「すると彼らはこう言います。『私たちには何もできません。魔神が瓶から出てしまったのです!』」

これらのツールの背後にある企業の慈善に頼ること以外に、この問題について何ができるのかは依然として疑問です。

CAAは、AI企業が著作権で保護された創作物を吸い上げて商用展開できるツールを訓練する自由がさらに広がる可能性がある英国の憂慮すべき法律を挙げている。 米国では、この組織は著作権法について話すために政府関係者と会っており、現在ワシントンのロビイストと業界としてこれを阻止する方法について話し合っている。

模倣以外にも、パーマー氏が指摘したさらに大きな問題があります。それは、これらのツールがクリエイティブなクラス全体を危険にさらしているのかということです。 場合によっては、ストック画像の代わりに AI が使用される可能性があります。画像ライブラリ Shutterstock は最近、Dall-E を製品に統合するために OpenAI と契約を結びました。 しかしパーマー氏は、記事、書籍、アルバムカバーなどのイラストレーションなどのアートワークは近いうちにAIとの競争に直面し、商業芸術の盛んな分野を損なう可能性があると主張する。

AI 画像ジェネレーターの所有者は、逆に、これらのツールが芸術を民主化すると主張する傾向があります。 Stability AIの創始者であるエマド・モスタク氏は、1億100万ドルの資金調達ラウンドを祝う最近のイベントで、「世界の多くの人々がクリエイティブに便秘を抱えている。そして私たちは彼らが虹を出せるようにするつもりだ」と語った。 しかし、誰もが AI を活用して技術的に優れた画像を作成できるとしたら、創造性の本質について何が言えるでしょうか?

AI を使った作品で知られるアーティスト、アンナ・リドラー氏は、Dall-E 2 を初めて使用したときは「魔法のようだ」と感じたものの、これまでのところ、このツールを使った実験でインスピレーションの輝きを感じたことはないと述べています。 彼女は、敵対的生成ネットワーク (GAN) と呼ばれる別の種類の AI を使用することを好みます。 GAN は 2 つのネットワーク間の交換として機能し、1 つは新しい画像を作成し、もう 1 つは画像が指定された目標をどの程度満たしているかを決定します。 芸術的な GAN の目標は、人間が視覚芸術と考える範疇を離れることなく、トレーニング データとは可能な限り異なるものを作成することです。

これらの問題により、AI の創造性をどの程度評価できるかについての議論が激化しています。 オックスフォード大学の数学者であり、『The Creativity Code: How AI is Learning to Write, Paint and Think』の著者であるマーカス・デュ・ソートイ氏によると、Dall-E やその他の画像ジェネレーターは、おそらく一種の「組み合わせ」の創造性を再現するのに最も近いものであるとのことです。アルゴリズムは、トレーニング データ内の他の何百万もの画像と同じスタイルで新しい画像を作成するように教えられます。 Ridler 氏が取り組んでいる種類の GAN は、まったく新しいスタイルで何かを作成する、「変革的な」創造性に近いものだと彼は言います。

リドラーは、創造性を定義するためのそのような定型的なアプローチに反対しています。 「それはアートを、アイデアを表現したり真実を探求しようとするものではなく、興味深い壁紙として考えることに平坦化します」と彼女は言います。 コンセプチュアル アーティストとして、彼女は AI の欠点をよく知っています。 「AI は、時間、記憶、思考、感情の崩壊などの概念を処理できません。これらすべては、視覚的に美しいものではなく、芸術作品を生み出す真の人間のスキルです。」

AI 画像ツールは、これらの欠陥の一部を示しています。 「馬に乗った宇宙飛行士」は正確なレンダリングを返しますが、「宇宙飛行士に乗った馬」はほぼ同じように見える画像を返します。これは、AI が世界のさまざまなアクター間の因果関係を実際には把握していないことを示しています。

ドライハーストとリドラーは、「アーティストの交代」という考えは芸術のプロセスを過小評価していることに起因すると主張している。 ドライハースト氏は、コロラド州フェアの毎年恒例のアートコンペティションのデジタル部門で優勝するためにミッドジャーニーを利用したアーティストについての最近のニューヨーク・タイムズの記事を強調し、メディアが警戒主義的な言説をかき立てていると見ていることを嘆いている。 ドライハースト氏は、州見本市は必ずしも名誉あるフォーラムではないと指摘する。 「彼らは果物の缶詰に賞品を配っていました」と彼は言う。 「私が腹立たしいのは、アーティストを怖がらせたいというこの種の渇望があるように見えることです。」

「芸術は死んだ、おい」とステートフェアの優勝者は言った。

破壊的な力としてのこれらのツールに関する誇大広告が現実を上回っている可能性があります。 モスタク氏は、AI画像ジェネレーターは同氏が「インテリジェントメディア」と呼ぶものの一部であり、これは「1兆ドル」のチャンスを意味すると述べ、ディズニーのコンテンツ予算は100億ドル(87億ポンド)を超え、ゲーム業界全体の価値は2000億ドルを超えると言及した。 1,700億ドル。 「BBC からディズニーまで、あらゆるコンテンツがこれらのモデルによってインタラクティブになるでしょう」と彼は言います。

現在登場しているアプリケーションは、デザイン コンサルティング用のムードボード、映画用の絵コンテ、インテリア デザイン用のモックアップなど、より平凡なものであり、Omdia の AI 部門アナリストである Mark Beccue 氏は、1 兆ドルという数字については懐疑的です。 「ここでのキラーユースケースは何ですか?」 彼は言い​​ます。 「意味がわかりません。これでどんな問題が解決するんですか?」 コンサルティング会社アクセンチュアのアナリストは、これらのツールをいつか、自動運転車などの機械学習アルゴリズムを訓練するコンテンツの作成や、ゲーム作成のスピードアップに利用できる可能性があると述べている。 AI画像生成会社やその支援者らが提案するほど儲かるものかどうかはまだ分からない。

共有