
- すべては「GAN(敵対的生成ネットワーク)」の登場から
- 言語モデル「GPT-3」を画像生成に応用
- 2022年は“画像生成AI元年”とも言うべき盛況に
2022年に入って立て続けに、Googleや新興のAI開発企業から「画像生成AI」が発表・公開されている。8月に英国のAI開発企業・Stability AIが一般向けに公開した「Stable Diffusion」は、無料で使用でき、オープンソースで提供されたことで大きな話題を集めた。他にも米国のAI開発企業、OpenAIが「DALL・E 2」のベータ版を公開。同じく米国のAI開発企業・Midjourneyが、「Midjourney」を提供している。一部の研究・開発者だけでなく一般ユーザーも使えるようになったことで、AIによる画像生成が広まりつつある。
では、この画像生成AIはいったい、どのような研究・開発を経ていま花開こうとしているのだろうか。今回は2014年に発表され画像分野のAI研究に大きな影響を与えた「GAN(敵対的生成ネットワーク)」から、Stable Diffusionの登場に至るまでの経緯を駆け足で振り返る。
すべては「GAN(敵対的生成ネットワーク)」の登場から
AIによる画像生成においてエポックメイキングだったのが、2014年に発表された「GAN(敵対的生成ネットワーク)」。当時、モントリオール大学の博士課程に在籍していたイアン・グッドフェローらが発案したアルゴリズムだ。
ディープラーニングは大量のラベリングされたデータによる学習を必要としていたが、GANはその学習データを自ら作り出す「教師なし学習」で使用されるアルゴリズムのひとつ。「Generator(生成するネットワーク)」と「Discriminator(真偽を判定するネットワーク)」が競い合うことで学習し、クオリティの高い画像の生成が可能になった。
そのGANの応用として画像生成の領域で衝撃を与えたのが、半導体大手の米エヌビディアの研究チームが2018年に発表した「StyleGAN」だ。StyleGANで生成された人物写真は実在の人物と区別が付かないほど高精度で、大きな話題を呼んだ。StyleGANはその後、StyleGAN2、StyleGAN2-ADA、StyleGAN3と性能を向上させたバージョンが発表されている。
言語モデル「GPT-3」を画像生成に応用
2021年1月、テキストを与えるとその内容にもとづいた画像を生成できる、あるAIが登場する。イーロン・マスクも創設メンバーに名を連ねた米国のAI研究・開発企業、OpenAIが発表した「DALL・E」だ。OpenAIは、その前年の2020年7月に大規模言語モデル「GPT-3」を発表。「Transformer」というディープラーニングのモデルを用いており、詩や記事など、まるで人間が考えたような自然な文章を生成できるのが特徴で、DALL・Eはそれを画像生成に応用している。
OpenAIのブログでは、「アボカドのかたちをした肘掛け椅子」といった指示文を与えて生成した画像を紹介している。この画像生成を実現させているのが、OpenAIがDALL・Eと同時に発表した「CLIP」という画像分類モデル。インターネット上に存在する画像と対になったテキストを学習に用いて、画像とテキストの類似度を推定する。

2022年3月、OpenAIは「DALL・E 2」を発表した。「写実的に描かれた、馬に乗る宇宙飛行士」のような画風やコンセプトの指示文を与えると、その内容に忠実な高品質の画像を生成することが可能になった。このDALL・E 2に使われているのが「Diffusion Model(拡散モデル)」というモデルだ。GANを超える画像生成が可能として近年、注目を集めている。現在、DALL・E 2はベータ版を提供しており、ウェイティングリストの登録者から順次使用可能になっている。

2022年は“画像生成AI元年”とも言うべき盛況に
2022年5月にはGoogleでAIを研究・開発するGoogle ResearchのBrain Teamが画像生成AI「Imagen」を発表。ImagenもDALL・E 2同様に拡散モデルを採用しており、発表によると、その生成クオリティはDALL・E 2を超えるという。6月にはさらに「Parti」という画像生成AIも発表。社会へ及ぼす影響が不明瞭ということで、あくまで研究成果の発表にとどめており、現段階で一般向けには公開していない。
同じく6月、米国のAI開発企業・Midjourneyが画像生成AI「Midjourney」を公開した。同社を率いるデビッド・ホルツは、ユーザーの手の動きを感知してコンピューターを操作するデバイス「Leap Motion」を開発するLeap Motion(現Ultraleap)の創業者で元CEO。MidjourneyはDALL・E 2と同様、テキストを与えることで画像の生成が可能だ。生成可能な枚数に上限があるものの、誰でも無料で使い始められる。
そして8月、英国に拠点をもつAIスタートアップ、Stability AIが一般向けに公開したのが「Stable Diffusion」だ。無料で使用でき、生成した画像は商用利用も可能。さらにコードやドキュメントは、オープンソースコミュニティ「Hugging Face」で公開されている。現在、そのモデルを組み込んだ新しいサービスが登場し始めており、Stable Diffusionも今後、アニメ版などの性能アップデートを予定している。
一気に市民権を得つつある画像生成AI。「生成された画像は著作権に関して問題が生じないか」など、法律やコンプライアンス、また社会的・文化的な観点から議論すべき課題は多くあり、発展の途上にあることは間違いない。だが、進化は不可逆だろう。その動向から、しばらく目が離せなさそうだ。