
入力したキーワードをもとに絵や写真などの画像を生成するAIが今、SNS上で注目を集めている。これまでも米AI企業・OpenAIの「DALL・E 2」や米Googleの「Imagen」といった画像生成AIは存在していた。だが、7月に元Leap Motion開発者らのスタートアップであるMidjourneyがDiscordを経由して利用できるAI画像生成サービス「Midjourney」を発表して話題となり、より多くのネットユーザーが目をつけるようになった。
それにも増して脚光を浴びているのは、英国時間8月22日に一般公開された画像生成AIの「Stable Diffusion」だ。開発元のStability AIはオープンソースコミュニティ「Hugging Face」にて、Stable Diffusionのコードやドキュメント、デモ版を提供。現在はNVIDIAのチップを搭載したPCでの使用を推奨しているが、今後はM1またはM2チップを搭載したMacBookなどに最適化したバージョンもリリース予定だ。
またStability AIでは、このAIを使ってより細かなチューニングを可能とするサービス「DreamStudio Lite」もウェブ上で展開する。
筆者もDreamStudio Liteを試してみた。「Potatoes on a Car Trip with Tomatoes to Las Vegas, Painted by Picasso(ピカソが描いた、ラスベガスへと車で旅行するポテトとトマト)」と入力したところ、ポテトとトマトを運ぶ車の絵が出力された(冒頭の画像)。絵が描けない筆者でさえ、Stable Diffusionを使えば即座にピカソが描いたような絵画風の画像を出力できる。
Stable Diffusionで生成した画像は商用利用も可能だとしている。とはいえ現段階ではAIの“クセ”を熟知しなければ、イメージ通りの画像を生成するのは難しい。だがユーザインターフェースが洗練されていくことで、ストック画像を置き換えられるような存在になり得るかもしれない。
今後、Stability AIでは音声・動画に対応した「DreamStudio Pro」や、詳細は明確でないが「Dream Studio Enterprise」の提供も予定。同社の創業者であるエマード・モスターク氏は「来月には音声、その後は3Dや動画にも対応していく」とツイートしている。
As we release faster and better and specific models expect the quality to continue to rise across the board.
— Emad (@EMostaque) August 23, 2022
Not just in image, audio next month, then we move onto 3D, video.
Language, code and more training right now…
Cutting edge AI that is open and inclusive 🙃 https://t.co/mlTfBeoJII
モスターク氏はまた、Stable Diffusionを開発した理由について、機械学習の研究者でYouTuberでもあるヤニック・キルチャー氏のインタビューで「10億人の人々をクリエイティブにしたかった」と説明している。
「Stable Diffusionの強みは、クオリティの高さ、スピードの速さとコストの低さです。DALL・E 2も素晴らしかった。ですが、Stable Diffusionの方が30倍ほど効率的で、一般的なPCのグラフィックボードでも使えます。(画像生成AIを)100万人ではなく、10億人もの人々が使えるテクノロジーにしたかったのです」(モスターク氏)
モスターク氏は「PowerPointを破壊したい。私たちが本気を出せば、数年後にはスライドを作る必要がなくなるかもしれません。パソコンに指示を出すだけで済むようになれば、世界に多くの幸せをもたらすでしょう」とも述べている。どれだけ本気かは定かではないが、同氏の頭にはStable Diffusionのさまざまな応用案がありそうだ。