
「Midjourney」や「Stable Diffusion」の登場により、より身近な存在となった画像生成AI。ついにはデザインツール「Canva」もAIによる画像生成機能を実装するなど、今後は実用化がますます加速していきそうだ。
Stable Diffusionを開発する英国のスタートアップStability AIは1億100万ドル(約150億円)の資金調達を実施し、画像生成AI「DALL・E 2」を開発するOpenAIも、マイクロソフトからの追加調達に向けて協議していると報じられている。
このような「生成AI」には、画像だけでなく、動画や音楽などを生成するものも登場している。ユーザーだけでなく、投資家からの熱視線も浴びている生成AI。Sequoia Capitalのパートナー、ソニヤ・ファン氏は生成AI領域の市場マップをつい先日公開している。

本記事では、編集部が注目する生成AIをいくつかピックアップし、紹介する。
画像生成AI
Midjourney
入力したテキストの説明文をもとに画像を生成するAI。2022年7月にオープンベータ版が公開され日本でも注目を集め、いわゆる“AIお絵描きブーム”の先駆者的存在となった。
Stable Diffusion
Midjourneyと同様に、入力したテキストをもとに画像を生成する。オープンソースとして公開されているため、多くの画像生成AIのベースがこのStable Diffusionとなっている。音声、動画、3D、コードなどへの対応も予定している。
Alpaca
Stable DiffusionをPhotoshop上で利用し、画像を生成した上で編集することも可能とするためのプラグイン。マイクロソフトリサーチの元機械学習エンジニア、ウィリアム・ブッチウォルター氏が開発しており、現在プライベートベータ版の利用者を募集している。
Combining @StabilityAI #StableDiffusion generative powers + Human guidance and graphic skills* with tools like @Photoshop in a coherent workflow.
— William Buchwalter (@wbuchw) August 26, 2022
* Of which I've got about 0 as can be seen below. pic.twitter.com/3L1vteAEKA
動画生成AI
Runway
AIを活用した動画編集ツール「Runway」では、自然言語をもとに動画を生成する新たなツールを開発しており、現在ウェイトリストを通じて利用者を募集している。
音楽生成AI
Mubert
入力したテキストをもとに、動画やポッドキャスト、アプリなどに利用するための音楽を作成できる。
スピーチ生成AI
Podcast.ai
AIが生成したポッドキャストを配信する。コメディアンのジョー・ローガン氏とスティーブ・ジョブズ氏による約20分の架空のトークショーを公開し、海外のネットユーザーのあいだで話題となった。公式ウェブサイト上ではネタ案を一般募集している。
Resemble.ai
アップロードした発話のデータをもとに、ユーザーの声の“クローン”を生成。入力したテキストをしゃべらせることなどが可能だ。
テキスト生成AI
COMPOSE AI
ユーザーが入力したテキストの続きをサジェストしたり、より適切な文章の候補を教えてくれるAI。Chromeのエクステンションとして無料で提供されている。米国の名門アクセラレータ・Y Combinatorなどから出資を受けている。

Character.ai
実在する人物や架空のペルソナとの、虚構のテキスト対話を実現する、チャットボット生成AI。サイト上ではTesla CEOのイーロン・マスク氏や米大統領のジョー・バイデン氏といった有名人や、リスや犬といった動物など、さまざまな人物やキャラクターを模したチャットボットが公開されている。

画像生成AIを中心に利用が進む生成AI。今はまだ、MidjourneyやStable Diffusionといった著名なものでさえ、AIのクセが強く、ユーザーの望み通りの、実用に耐え得るクオリティのコンテンツを生成するのは困難だ。
だが、Stability AI CEOのエマード・モスターク氏は以前の取材で「Stable Diffusionの国別モデルを作る予定だ」と話していた。今後、地域やニーズ、用途に合わせたモデルが数多く登場していくことで、生成AIの実用化は本格化していくだろう。