Stable Diffusionで出力した「サイバーパンクな東京」の画像。画像はいずれも深津氏が生成
本記事では、インタビュアーを担当したTHE GUILD・深津貴之氏がStable Diffusionで生成した画像をいくつか紹介する。こちらは「サイバーパンクな東京」の画像(以下、AI生成した画像はすべて深津氏によるもの)
  • Stable Diffusionは「AIの民主化のためのツール」
  • コンテンツ制作会社を対象にビジネスを展開
  • アクセスの3分の1は日本から、今後は国別モデルの開発も

8月に突如登場し、瞬く間にネットユーザーの注目の的となった画像生成AIの「Stable Diffusion」。オープンソースで誰もが無料で利用できるだけでなく、個人のPCでも動作し、生成した画像の商用利用が可能ということもあり、大きな話題となった。

そんな話題沸騰中のStable Diffusionを開発する英国のスタートアップ・Stability AI。そのCEOであるエマード・モスターク氏がインタビューに応じた。

なお本取材は編集部に加えてAI画像生成に造詣が深く、先日DIAMOND SIGNALでもインタビューを実施したTHE GUILDの深津貴之氏がインタビュアーとして参加。Stable Diffusionが与えるインパクトや事業としての展開、そしてStability AIの掲げる「AIの民主化」などについて聞いた(取材は8月31日に実施)。

Stable Diffusionは「AIの民主化のためのツール」

──Stable Diffusionの発表から約1週間が経ちましたが、これまでの反響はいかがですか。

モスターク:人々が“主体性”を感じているため、反応は今のところ上々です。(利用には)なんの許可も必要なく、好きなように使え、無料で使えるサードパーティーのサービスも出てきている。私たちが望んでいた通りに、Stable Diffusionを拡張させたサービスが続々と生まれています。

もちろん、倫理や著作権に関する懸念もありますし、そのすべてに対する答えは持ち合わせていません。しかし、ネガティブな反応よりもポジティブな反応の方が圧倒的に多いのが現状です。

深津:Stable Diffusionの公開は、超巨大AIモデルの「民主化」と言えます。産業革命における活版印刷や蒸気機関の登場のようなパラダイムシフトにも思えます。AIを取り巻く環境にどのような変化があると予測していますか。

モスターク:前時代のインターネットはAIこそがすべてでした。世界の大企業の大半はAI企業で、私たちに広告を配信し、私たちの注目を集めることでお金を稼いでいました。

Stability AI CEOのエマード・モスターク氏
Stability AI CEOのエマード・モスターク氏 (拡大画像)

私はStable DiffusionをAIの民主化のためのツールだと捉えています。8月に発表したものはシリーズの第1弾で、9月には音声、その後は動画、3D、言語、コードにも対応していきます。Dream Studio(Stability AIが展開するStable Diffusionを使った画像生成を可能とするサービス)の完全版はアニメーションの作成にも対応します。

Stable Diffusionをトレーニングするために使った最初のデータセットは10万ギガバイトでした。現在のファイルサイズは2.1ギガバイトですが、ゆくゆくは100メガバイトまで縮小させていくつもりです。その100メガバイト、もしくは2ギガバイトのファイルをもとに、想像できるものを何でも作れる。これは素晴らしいことだと思いませんか。

私は「インテリジェント・インターネット」というビジョンを掲げています。個人でも、会社でも、国でも、誰もが自身のためのAIを持てるようになる。私たちは今、消費することを教えられ、消費し続けていますが、それは結果的に私たち自身をも消費しつつあります。一方で、自ら主体的に創造できることほど素晴らしいことはないでしょう。

Stable Diffusionは人々の主体性を取り戻すためのツールです。このような変化は前代未聞でしょう。確かに活版印刷なども人々を主体的にするために一役買いましたが、Stable Diffusionほどパーソナライズされていませんでした。

言語と画像のモデルを組み合わせることで、Stable Diffusionは躍進しました。では、それに加えて音声のモデルを組み合わせるとどうなるでしょうか。最終的には、何でもできる自分だけのモデルを、誰もが持つようになる。とてもクレイジーなことになる予感がしませんか。

Stable Diffusionで出力したフォービズム風の「3匹の子豚」の画像
Stable Diffusionで出力したフォービズム風の「3匹の子豚」の画像

コンテンツ制作会社を対象にビジネスを展開

深津:Stable Diffusionの登場をアートや創造の民主化だとも捉えました。

モスターク:私はすべての人々がクリエイティブだと考えています。しかし、どれだけの人々が「自分は創造できる」と感じているでしょうか。多くの人は「できない」と感じているのではないでしょうか。学ぶべきことがあまりにも多いからです。ですが、Stable Diffusionはより多くの人々がクリエイティブになることを可能としました。

Stable Diffusionにより、人類全体の創造性が向上していくのです。コストもどんどん下げていきます。来年には100枚の画像を1セント(約1.4円弱)で作れるようにする予定です。

深津:Stable Diffusionをオープンソースとして無料で公開していますが、ボランティアだとは思えません。どのようなビジネスモデルなのでしょうか。

モスターク:私は「無料のものなど何もない」と考えています。無料のものの多くは広告モデルで展開しています。ですがStable Diffusionは幅広くさまざまな用途に活用できるため、広告モデルでの展開には利点がないと考えました。

Stable Diffusionを無料で提供し、人々が拡張させていく。そこで重要となるのが「スケール」です。このモデルをスケールさせていくのは大変です。画像生成は自身のPCのGPUでも行えますが、例えば高速な反復を必要とする場合、我々のAPIを使うこととなります。

私たちはすべてをオープンソース化しますが、最新版はまずAPI経由で提供します。8月31日にAPI経由で(クローズドに)提供開始したバージョン1.5は前バージョンよりも優れています。それを数週間後に世界に向けてリリースするのです。今後もこのようにして改善を繰り返していきます。

Stable Diffusionのモデルは人間の脳のようなものです。いわばニューロン(生物の脳を構成する神経細胞)が、人々がよく使うものを把握し、そうでないものを取り除いていくような作業をしています。そうすることで、このモデルのサイズを2ギガバイトから100メガバイトにまで縮小することが可能なのです。

数ギガバイトというファイルサイズはすでに驚異的だと自負していますが、これを100メガバイトにまで縮小すれば、スマートフォンでも問題なく動作するようになります。

そしてStable Diffusionを効果的にスケールさせるには、我々の力が必要となります。そのため、コンテンツ制作企業を対象にビジネスを展開していく方針です。

Stable Diffusionで出力した「アニメ風キャラクター」の画像
Stable Diffusionで出力した「アニメ風キャラクター」の画像

例えば、インドのストリーミング大手「Eros Now」を運営するEros Media Worldには、「Eros Nowで配信するすべてのコンテンツをベースに専用のStable Diffusionを用意することで、新たな顧客体験を可能にするコンテンツを作成できます」と提案しました。このように、どのようなコンテンツライブラリに対しても、専用のStable Diffusionを作ることができ、収益の分配が可能です。

加えて、私たちはクリエイターがより簡単に報酬を得られるようにしたいとも考えています。そのため、数週間以内には、Stable Diffusionの独自モデルを構築するためのガイドラインを、クリエイター向けに公表します。

マーケットプレイスも構築していきます。そこでクリエイターは独自モデルで生成したコンテンツや、独自モデルの(クリエーターの)特性を他のクリエイターに販売する。もしあなたがピクセルアートに特化したモデルを作ったとしたら、ピクセルアートに関するアセットを求めるクリエイターは、汎用モデルではなく、あなたのモデルを利用することでしょう。

──Stability AIはスタートアップなのですか。資金調達などは実施しているのでしょうか。

モスターク:私たちはスタートアップとして数年前より活動してきましたが、本格的な活動を開始したのは9カ月ほど前です。

従業員数は75人で、世界で10番目に速いスーパーコンピューターを保有しています。そして2万人ほどの開発者のコミュニティを形成しています。Stability AIはとても奇妙なスタートアップなのです。

世界中のベンチャーキャピタル(VC)から出資に関する話を持ちかけられています。

Stability AIが1億ドル(約144億円)の資金調達に向けて投資家らと話を進めていることを米国時間9月7日にForbesが報じている。当初、ヘッジファンドのCoatue Managementとのあいだで、Stability AIの評価額を5億ドル(約719億円)とする交渉を進めていたが、後にVCのLightspeed Venture Partnersと評価額を最大で10億ドル(約1440億円)とする交渉を開始したという。

深津:あなたはStable Diffusionを「画像生成」のためのツールというよりも「画像検索」の代替物と考えているのですね。

モスターク:引用元を探すといった用途を除いては、何かを作りたい、レポート用に何かを取り込みたい、といった時に利用するのが画像検索です。

Stable Diffusionは言語を理解するため、「ピエロになったボリス・ジョンソン」、「レゴラスになったロビン・ウィリアムズ」、「火星に着地したテスラ車」といった具合に画像を作成すれば、画像検索の必要はありません。自身の思考を検索し、画像に変換するようなイメージです。

モスターク氏が口にした「火星に着地したテスラ車」もStable Diffusionで出力できる
モスターク氏が口にした「火星に着地したテスラ車」もStable Diffusionで出力できる

私にはアファンタジア(視覚的なイメージを頭の中で思い浮かべられないこと)という症状があります。例えば「砂浜」と聞いても、それを頭の中で思い浮かべられません。なのでStable Diffusionは私のような症状を持つ多くの人々にとっては素晴らしい発明だと言えます。頭の中で感じていたことを初めて見ることができるのですから。

アクセスの3分の1は日本から、今後は国別モデルの開発も

深津:Stable Diffusionの登場はとても衝撃的でした。その結果、法的な観点だけでなく、アーティストの感情やキャリア、アイデンティティの観点でも大きな波紋を呼んでいます。​テクノロジーとアーティスト、あるいは社会はどのように共存し、また時に混乱するのでしょうか。

モスターク:人々がStable Diffusionを恐れている理由はよく分かります。変化はいつでも恐ろしいことです。この議論をする際には、「アーティストとは何か」の定義が重要になってくると考えます。職業なのか使命なのか。個人の性質なのか。人々にメッセージを伝えることで金銭を得ようとしているのか。はたまた別の意味なのか。

もしアーティストを「アート作品を創造できる人」と捉えるのであれば、Stable Diffusionの登場により、10億人もの人々がアーティストになったことになりますよね。

(表計算ソフトの)「Excel」の登場により会計士の役割が変わったように、物事の本質が変わっていかなければならないのです。(画像編集ソフトの)「Photoshop」や「Procreate」が登場したように、技術は衝撃的なまでに急速に進歩しています。そしてアーティストたちは、Stable Diffusionなどの登場により自身のスタイルがマネされるのではないかと疑問視しています。

Stable Diffusionはインターネットのすべてをかき集めたようなものなので、アーティストたちのスタイルを理解しています。ではそのようなスタイルがアーティストの権利として保護されているかというと、そういうわけではありません。英国・欧州の法律では「(アーティストごとのスタイルを模倣するのは)公正な利用」としているからです。

ですが、自身のスタイルを利用されたくないアーティストもいます。そのため、ある有力企業の協力のもと、Stable Diffusionを使ったサービスが、希望するアーティストのスタイルを利用できなくするための仕組みを構築していきます。

アーティストにとって重要なのはファンとコミュニティ、そしてナラティブです。これらを代替できるものはありません。アーティストを職業として捉えるならば、その本質は変わっていく必要があるのではないでしょうか。

アーティストが感じている恐怖も、Stable Diffusionの登場に対する人々の興奮も、どちらも理解できます。ですが、誰も悪者になろうとはしていないのです。双方が協力し合うべきだと考えています。

Stable Diffusionで出力した「ドワーフの戦士」の画像
Stable Diffusionで出力した「ドワーフの戦士」の画像

深津:Stable Diffusionの日本での盛り上がりをどう見ていますか。また日本での今後の展開についても教えてください。

モスターク:私は日本を愛しており、アニメやゲームなどが大好きです。スクウェア・エニックスや任天堂などの製品を多く購入しています。2022年中には日本を訪れる予定です。日本のコミュニティが発展した姿を見るのが待ちきれません。サポートが必要であればなんでも言ってください。資金も提供しますし、コミュニティも拡大させていきます。

私たちはStable Diffusionの国別モデルを作る予定です。日本の大手IPホルダーとの対話も予定しています。日本人は創造することが大好きです。私たちのウェブサイトの訪問者の3分の1が日本人であるのは、そのためだと考えます。

創造を許容する非常にユニークな文化であり、それを受け入れて拡張する。そんな日本のみなさんが今後Stable Diffusionをどのように応用していくのか、とても楽しみにしています。

Stable Diffusionで出力した「サイバーパンクな東京」の画像
Stable Diffusionで出力したフォービズム風の「3匹の子豚」の画像
Stable Diffusionで出力した「アニメ風キャラクター」の画像
Stable Diffusionで出力した「火星に着地したテスラ車」の画像
Stable Diffusionで出力した「ドワーフの戦士」の画像