
- 「Stable Diffusionの登場は、パラダイムシフトの起点になりうる」
- 画像生成AIが引き起こす「AI画像の洪水」
- 画像生成AIの普及で変わる、ビジネスや働き方
AIによる画像生成が、にわかに盛り上がりを見せている。今年に入って立て続けに、「画像生成AI」が一般ユーザーも使用可能なかたちで公開されたことが大きな理由だ。4月にはイーロン・マスクも共同創設者に名を連ねる米国のAI開発企業、OpenAIが「DALL・E 2」を発表。また6月には同じく米国のAI開発企業、Midjourneyが「Midjourney」の提供を開始した。いずれもベータ版の公開・有料でサービスを提供している。そこに8月、英国のAI開発企業・Stability AIが画像生成AI「Stable Diffusion」を一般向けに公開した。
Stable Diffusionは、テキストの入力によりその指示内容の画像を生成することができるAI。ユーザーは無料で使用でき、生成した画像は商用利用も可能。オープンソースコミュニティの「Hugging Face」では、開発者向けにコードやドキュメント、デモ版も提供されている。
Stable Diffusionの登場にいち早く反応したのが、THE GUILDの深津貴之氏だ。同氏はFlashクリエイターとしてキャリアをスタートし、スマートフォンアプリのUI設計、またUXデザインに携わるなど、2000年代から現在まで活躍。メディアプラットフォーム「note」を運営するnoteでは、CXO(Chief Experience Officer、最高体験責任者)を務めている。専門領域からの深い洞察をSNSで発信し続けており、Twitterのフォロワー数は記事公開時点で14万人を超える。
DALL・E 2、Midjourney、Stable Diffusionと、AIで生成した画像をSNSへ投稿し続けている深津氏。8月22日には、Stable Diffusionが公開されることを受けて「世界変革の前夜は思ったより静か」と題したnoteを公開した。この記事をシェアする深津氏のツイートは2.2万件のリツイート、4.3万件のいいねが付くほどの話題を呼んでいる。彼はStable Diffusionの登場で、画像生成AIにどのような可能性を見いだしたのか。
「Stable Diffusionの登場は、パラダイムシフトの起点になりうる」
──深津さんが画像生成AIに注目したきっかけを教えてください。
もともと2000年代初めから、いわゆるジェネラティブアート──つまりプログラミングでグラフィックを作ることをしていました。なので「プログラミング×アート」の世界に携わってからは20年ほど経ちます。
2018年、米半導体大手のエヌビディアが高精度な人物画像を生成可能な「StyleGAN」を発表。そこから画像生成AIに注目し始めました。ただ、基本的にAI業界は資本とGPU(画像処理に必要な半導体チップ)の能力があってこそ取り組める世界だと思っていたので、自分自身ではノータッチでいました。
2022年の5月ごろから仕事で画像系AIに触れる機会があり、(GAFAMのような)巨大IT企業──いわゆる「ビッグテック」が自分たちの作ったAI技術を独占しようという動きがある一方で、オープンなかたちで大型のモデルを公開しようとする動きがあるのを感じました。そこから、自分でモデルやコードを触り始めました。
そういった状況でDALL・E 2、Midjourneyが公開されたので自分でも画像生成を試すうちに、8月になってStable Diffusionが発表されました。


──画像生成AI、特にStable Diffusionが発表されて、「これは世界を変える」とご自身のnoteの記事で言及されていました。
感じたのは、今回のStable Diffusionの発表が大きなパラダイムシフトの起点になるのではないかということです。まず、AIの技術として、学習量さえ多ければ精度の高い画像生成の仕組みが汎用的に作れるらしいとわかったこと。また、そのように大規模なAIはビッグテックが自社で抱え、サービスとして提供することでしか一般の手に届かないと思っていたのが、有志の開発によりオープンソースのかたちで、世界の誰もがアクセス可能になったということ。この2つ、特に後者が大きな出来事だと思っています。
歴史の上でも、占有することで権力が付帯されるような装置(システム)が解放されることで、社会構造の変化が起きてきました。例えば中世ヨーロッパでは、文字や本にアクセスできる人はとても限定的でした。それが活版印刷技術の普及により、人々が“知識”を得ることが可能となり、結果として宗教改革を加速させました。これはテクノロジーの解放によって起きた社会変革と言えるでしょう。今回のStable Diffusionの発表は、閉じられた技術の解放という意味で、そのような大きな変化につながる可能性があると思っています。
Stable Diffusionは無料で、しかもソースコードまで開示されるかたちで提供されました。これをつくったのは、Stability AIという企業と有志の開発者たちです。
米国のAI開発企業であるOpenAIはDALL・E 2、GoogleもImagenといった画像生成AIを生み出したものの、社会への影響力が大きすぎるということで、その(ユーザーへの)出し方を限定的にしました。しかしStability AIは、そこを取っ払って一気に提供した。テクノロジーというのは封じることができない、すべて民主化されるという流れは覆せないのだなと思いました。
それを踏まえると、例えば「大規模AIを開発すること」は少しずつビジネスとして成立しなくなるかもしれません。秀でたAIを開発して自社で抱えていればビジネスで優位に立てる、というのがビッグテックやベンチャー企業のこれまでの発想でした。しかし、ソーシャル上で開発者が集まって生み出されたAIが企業が大きな予算をかけて開発したAIと性能に差がないのであれば、ビジネスとしてAI開発に資金を投下する正当性が認められなくなる──そんなことが起きるかもしれません。

画像生成AIが引き起こす「AI画像の洪水」
──画像生成AIがオープンなかたちで提供されたことから考えられる、今後の懸念はありますか。
よくも悪くも、いちばん面白いと感じているのは、インターネット上に存在する画像の“バランス”を破壊しかねないところです。Stable DiffusionやMidjourneyが使われることで、現段階でもAIによって毎日100万枚以上の画像が生成されています。これが続くと、人類がこれまでに生み出してきた絵画や写真といった画像の総数を、AIが生成した画像の総数が超えるはずです。これが起きたときに、産業や文化がどう変わるかに興味があります。例えばAIが作った作品が10兆枚あって、人間が作った作品が100億枚しかないならば、果たして人間は人間が作った作品に遭遇できるのでしょうか。


学習するデータがAIによる生成画像で埋め尽くされた場合、ノイズが多すぎて、機械学習はどうなってしまうのか。そのような状況に向けた対策として、国家レベルで規制をかける動きが現れるかもしれません。例えば、AIが作った画像には「AIが作った」というタグを付けなければいけない、というような法律が生まれる可能性はありそうです。
またStable Diffusionはオープンソースなので、欧米を中心にこのモデルを組み込んだサービスが、インディーズのようなかたちで雨後のたけのこのように出てくるのではないでしょうか。その点で言うと、逆に日本は法律やコンプライアンスの壁でかなり出遅れる気がします。
さらに、西洋的価値観で開発されたデータセットやモデルが生む画像は、西洋的な価値観に強く引っ張られます。例えば「結婚式」という指示語で画像を作れば、現状は西洋式の結婚式の画像がメインで生成されるでしょう。AIによって大量の画像が生成されるようになると、ネット全体の情報量がより西洋的な価値観に引っ張られていくのではないでしょうか。
──ビジネスの観点では、AIによる画像生成という市場の規模をふまえて、今後の可能性をどう考えていますか。
Stability AIは「画像検索のリプレイスを狙っている」と言っています。その狙いは、私も正しいと見ています。これまでは何かほしい画像があれば画像検索をしていたところを、これからはAIに聞けば、AIがその内容を認識して画像を探してくれるというようなものです。例えば、PowerPointでスライド資料を作成する際、そのスライドの文章をAIに渡したら、それに適した図が生成される──Stability AIが最終的にたどり着くのはそういった世界だと思います。調べ物をする際の手段がGoogle検索からインスタグラムでの検索へシフトしたように、画像検索から画像生成にシフトするような未来はありえます。
現在は画像生成AIにどのようなプロンプト(AIへの指示文)を入力するとどのような画像が生成されるか、という話題が盛り上がりを見せている印象ですが、最終的にたどり着くであろう世界を考えると、まだ手前の手前といった段階なのだろうと思います。
では直近で、画像生成AIはどのように使われるか。私は「TPOに合わせた適切な素材を生み出す機能」に注目しています。例えば3DCGを制作するアーティストが、テクスチャをすべて画像生成AIで作るという使い方がありそうです。街の3DCGを作る際に、AIに街の看板を100個作らせたり、道路のテクスチャを作らせたり。あるいは、AIで生成した雲のテクスチャを利用して、Photoshopのブラシ機能で描くということもできそうです。短期的にはそのような「ツール」として、画像生成AIは使われるのではないでしょうか。


画像生成AIの普及で変わる、ビジネスや働き方
──AIによる画像生成が普及していくにあたり、ビジネスや働き方について何か考えておく必要があるでしょうか。
AIによる画像生成で1日あたりに生み出せる画像の枚数は数百、数千、数万倍になります。画像が大量に必要なビジネスにおいては、そのコストが劇的に下がるでしょう。例えば小説であれば、全ページに挿絵が入るというようなことも起きるかもしれません。画像を大規模に生み出すことが可能という点をふまえて、ユーザーへどのような価値を提供できるか。そこを考えられるかどうかが、サービスの提供者には重要になりそうです。
また、「AIが画像を生成できるのであればイラストレーターやそのアシスタントが不要になる」という未来を想像しがちですが、私はそうは思いません。むしろその逆で、イラストレーターやアシスタントといった役割の方々が全員、アートディレクターのような役割を求められるようになるのではないでしょうか。
現代アートに多大な影響を及ぼした20世紀を代表するアーティストのひとり、マルセル・デュシャンは、「アートの本質というのは作品のクオリティや作り込みではなく、あるものを表現するためにどういう意思決定をしたか」であるというのを、男性用小便器に『泉』と題した作品で示しました。AIによって作品を生み出すことは、デュシャン的な思想がより体現された世界が訪れるということだと思っています。
AIのクオリティについても、現段階で自分は気にしていません。今の時点でAIに何ができる・できないといった議論は、その性能が「べき乗のグラフ」のようなカーブを描くように進化していくであろうことを考えると、半年や1年という単位で必要なくなっていくと思います。
そもそも、StyleGANの登場が数年前の話なので、現状はまだこの分野の発展の入り口に過ぎないのでしょう。ビジネスの市場として十分なサイズがあるので、AIによる学習量・学習精度が加速度的に上がっていき、クオリティも向上していく以外に選択肢はないのかなと思います。