banner

ブログ

Dec 03, 2023

3 つの質問: AI 画像ジェネレーターはロボットをどのように支援できるか

前の画像 次の画像

夢と現実が交差する幻想的な光景を作り出す AI 画像ジェネレーターがウェブの隅々に出現しています。 そのエンターテイメント性は、人間のデザイナーの頭脳への間接的なポータルとして機能する、気まぐれでランダムな画像の宝庫が拡大し続けることで証明されています。 単純なテキストプロンプトはほぼ瞬時に画像を生成し、瞬時の満足感を得るように配線されている私たちの原始的な脳を満足させます。

AI によって生成されたアートの分野は、一見初期のものに見えますが、技術的なイメージを作成するために象徴的なルールベースのアプローチを使用した初期の試みが行われた 1960 年代まで遡ることができます。 言葉を解きほぐし、解析するモデルの進歩がますます洗練される一方で、ジェネレーティブ アートの爆発的な増加により、著作権、偽情報、偏見をめぐる議論が引き起こされ、誇大広告と論争の泥沼にはまり込んでいます。 電気工学およびコンピュータ サイエンス学科の博士課程の学生であり、MIT のコンピュータ サイエンスおよび人工知能研究所 (CSAIL) の所属である Yilun Du 氏は、最近、DALL-E 2 のようなモデルをより創造的にし、シーンの理解を向上させる新しい方法を開発しました。 ここで Du は、これらのモデルがどのように機能するか、この技術インフラストラクチャが他の領域に適用できるかどうか、そして AI と人間の創造性の間にどのように境界線を引くかについて説明します。

質問: AI によって生成された画像は、「安定拡散」モデルと呼ばれるものを使用して、ほんの数秒で言葉を驚くべき画像に変換します。 しかし、使用されるすべての画像の背後には通常、人間が存在します。 では、AI と人間の創造性の境界線は何でしょうか? これらのモデルは実際にどのように機能するのでしょうか?

答え: Google 検索で取得できるすべての画像とそれに関連するパターンを想像してみてください。 これがモデルが食べている食事です。 彼らはこれらすべての画像とそのキャプションを使ってトレーニングされ、インターネット上で見られた何十億もの画像と同様の画像を生成します。

モデルが犬の写真をたくさん見たとします。 「犬」のような同様のテキスト入力プロンプトを受け取ったときに、すでに見られている多くの犬の写真に非常によく似た写真を生成できるように訓練されています。 さて、より方法論的に言えば、これがどのように機能するかは、70 年代または 80 年代に生まれた「エネルギーベースのモデル」と呼ばれる非常に古いクラスのモデルにまで遡ります。

エネルギーベースのモデルでは、画像上のエネルギーランドスケープが構築され、これを使用して物理散逸をシミュレートして画像を生成します。 たとえば、インクのドットを水に落としてそれが消えると、最後にこの均一なテクスチャが得られます。 しかし、この消散のプロセスを逆にしようとすると、徐々に元のインクのドットが水中に再び戻ってきます。 あるいは、非常に複雑なブロックタワーがあり、ボールを当てると崩れてブロックの山になったとします。 このブロックの山は非常に無秩序であり、実際にはあまり構造がありません。 タワーを復活させるには、この折りたたみプロセスを逆にして、元のブロックの山を生成してみてください。

これらの生成モデルが画像を生成する方法は、非常に似た方法で行われます。最初に、この非常に素晴らしい画像が得られ、このランダムなノイズから開始し、基本的に、このプロセスを逆転させる方法のプロセスをシミュレートする方法を学びます。ノイズから元の画像に戻し、この画像を繰り返し改良して、よりリアルなものにしていきます。

AI と人間の創造性の境界線について言えば、これらのモデルは実際に人間の創造性に基づいてトレーニングされていると言えます。 インターネットには、人々が過去に作成したあらゆる種類の絵画や画像が存在します。 これらのモデルは、インターネット上にある画像を再現して生成するようにトレーニングされています。 結果として、これらのモデルは、人々が何百年も創造性を費やしてきたものの結晶のようなものです。

同時に、これらのモデルは人間が設計したものに基づいてトレーニングされるため、人間が過去に行ったことと非常によく似た芸術作品を生成できます。 彼らは人々が作ったアートのパターンを見つけることはできますが、これらのモデルが実際に自分たちで創造的な写真を生成することははるかに困難です。

「抽象芸術」や「ユニークな芸術」などのプロンプトを入力しようとすると、人間の芸術の創造性の側面を実際には理解できません。 モデルは、根本的に新しく創造的な芸術を生み出すのではなく、いわば人々が過去に行ったことを再現するものです。

これらのモデルはインターネットからの膨大な画像に基づいてトレーニングされているため、これらの画像の多くは著作権で保護されている可能性があります。 モデルが新しい画像を生成するときに何を取得しているのか正確にはわからないため、モデルが著作権で保護された画像を使用しているかどうかをどのように判断できるかという大きな問題があります。 ある意味、モデルが著作権で保護された画像に依存している場合、それらの新しい画像は著作権で保護されるのでしょうか? それはまた別の質問です。

質問:拡散モデルによって生成された画像は、動的または幾何学的に、自然または物理的世界についての何らかの理解をエンコードしていると思いますか? 赤ちゃんが幼い頃に学ぶ宇宙の基本を画像ジェネレーターに「教える」ための取り組みはありますか?

答え:彼らは自然界と物理的世界をコードで理解しているでしょうか? 間違いなく思います。 安定したブロック構成を生成するようにモデルに要求すると、間違いなく安定したブロック構成が生成されます。 不安定なブロック構成を生成するように指示すると、非常に不安定に見えます。 あるいは、「湖の隣の木」と言えば、おおよそそれを生成できます。

ある意味、これらのモデルは常識の大きな部分を捉えているように思えます。 しかし、私たちが自然界と物理世界を真に理解することから依然として非常に遠い問題は、あなたや私が仕事をしているときに非常に簡単に想像できる、まれな単語の組み合わせを生成しようとすると、これらのモデルではそれができないことです。

たとえば、「皿の上にフォークを置く」と言った場合、それは常に起こります。 モデルにこれを生成するように依頼すると、簡単に生成できます。 もう一度「フォークの上に皿を置く」と言えば、それがどのようなものかを想像するのは非常に簡単です。 しかし、これをこれらの大型モデルに組み込んだ場合、フォークの上にプレートを置くことはできません。 モデルはトレーニングされたすべての画像を再現することを学習しているため、代わりに皿の上にフォークが置かれます。 見たことのない単語の組み合わせをうまく一般化することはできません。

かなりよく知られた例としては、馬に乗った宇宙飛行士が挙げられますが、このモデルはそれを簡単に行うことができます。 しかし、宇宙飛行士に乗った馬と言うと、やはり馬に乗った人が生成されます。 これらのモデルは、トレーニングの対象となるデータセット内の多くの相関関係を捉えているように見えますが、実際には世界の根底にある因果メカニズムを捉えているわけではありません。

よく使用されるもう 1 つの例は、あるオブジェクトが別のオブジェクトの右側にある、3 番目のオブジェクトが前にある、3 番目または 4 番目のオブジェクトが飛んでいるなど、非常に複雑なテキストの説明を取得した場合です。 実際に満足できるのは、おそらく 1 つまたは 2 つのオブジェクトだけです。 非常に複雑なキャプションを持つことは稀であるため、これは部分的にはトレーニング データが原因である可能性がありますが、これらのモデルがあまり構造化されていないことを示唆している可能性もあります。 非常に複雑な自然言語プロンプトを受け取った場合、モデルがすべてのコンポーネントの詳細を正確に表現する方法は存在しないことが想像できます。

質問:あなたは最近、複数のモデルを使用してジェネレーティブ アートをより深く理解し、より複雑な画像を作成する新しい方法を思いつきました。 画像やテキストのドメイン以外にもこのフレームワークを応用できる可能性はありますか?

答え:私たちはこれらのモデルの限界の 1 つから本当にインスピレーションを受けました。 これらのモデルに非常に複雑なシーンの説明を与えると、実際にはそれに一致する画像を正しく生成できなくなります。

考えられるのは、これは固定の計算グラフを備えた単一のモデルであるため、画像を生成するために固定量の計算しか使用できないことを意味し、非常に複雑なプロンプトが表示された場合、それを生成するためにこれ以上の計算能力を使用することはできないということです。画像。

たとえば、人間に 100 行の長さのシーンの説明を与えた場合と、1 行の長さのシーンの説明を与えた場合、人間のアーティストは前者にはるかに長い時間を費やすことができます。 これらのモデルには、これを行う感性がありません。 そこで、非常に複雑なプロンプトが与えられた場合、実際に多くの異なる独立したモデルを一緒に構成し、それぞれのモデルで記述したいシーンの一部を表現できるようにすることを提案します。

これにより、モデルがより複雑なシーン、またはシーンのさまざまな側面をまとめてより正確に生成するシーンを生成できることがわかりました。 さらに、このアプローチは一般に、さまざまな異なるドメインに適用できます。 画像生成はおそらく現在最も成功しているアプリケーションですが、実際には生成モデルはさまざまなドメインであらゆる種類のアプリケーションに使用されています。 これらを使用して、さまざまなロボットの動作を生成したり、3D 形状を合成したり、シーンをより深く理解したり、新しいマテリアルをデザインしたりできます。 複数の必要な要素を組み合わせて、特定のアプリケーションに必要な正確なマテリアルを生成できる可能性があります。

私たちが非常に興味を持っていることの 1 つはロボット工学です。 さまざまなイメージを生成できるのと同じように、さまざまなロボットの軌道 (パスとスケジュール) を生成することもでき、さまざまなモデルを組み合わせて、さまざまなスキルの組み合わせで軌道を生成できます。 ジャンプと障害物回避の自然言語仕様がある場合、これらのモデルを一緒に構成して、ジャンプと障害物の回避の両方ができるロボットの軌道を生成することもできます。

同様に、タンパク質を設計したい場合、画像の内容を指定するために言語を使用するのと同様の方法で、タンパク質の種類や機能などの言語に似た記述を使用して、さまざまな機能や側面を指定できます。タンパク質。 これらを組み合わせて、これらの所定の機能をすべて満たす可能性のある新しいタンパク質を生成することができます。

また、3D 形状の生成に拡散モデルを使用することも検討しました。このアプローチを使用して 3D アセットを生成および設計できます。 通常、3D アセットの設計は非常に複雑で手間のかかるプロセスです。 異なるモデルを一緒に構成することで、「このスタイルと高さで 4 本の脚を持つ 3D 形状が欲しい」などの形状の生成がはるかに簡単になり、3D アセット設計の一部を自動化できる可能性があります。

前の項目 次の項目

Q: A: Q: A: Q: A:
共有