
- スーツ姿の自分の画像を使ってパジャマでZoom会議も
- ヤフー出身エンジニアが創業、ウリはAIを用いた映像生成技術
- ビデオの概念を変えるチャレンジへ
ウェブ会議からウェブ面接、オンライン診療、オンライン授業、オンラインイベントに至るまで。コロナ禍においては「ビデオ」が日々の生活において重要な役割を担うプラットフォームになりつつある。
ビデオを用いたコミュニケーションではパソコンに内蔵されたウェブカメラにしろ、高品質なビデオカメラにしろ、何らかのカメラを用いて行う。ここに最新のテクノロジーを取り入れることで、普段のビデオ会議やビデオコミュニケーションをよりリッチにできないか──。9月28日に公開された「xpression camera(エクスプレッションカメラ)」はそんな思想から生まれたバーチャルカメラアプリだ。
同サービスの特徴は動画や画像の中の人の顔を乗っ取り、自分の表情に合わせてリアルタイムで動かせること。素材は実在する人物の写真、偉人のイラスト、キャラクターの動画など何でもよく、もちろん自分の写真でも構わない。
たとえばスーツ姿の自分が写った写真をあらかじめ準備しておくけば、実際はパジャマ姿でウェブ会議に参加していても“ちゃんとした雰囲気”を醸し出すことも不可能ではない。
スーツ姿の自分の画像を使ってパジャマでZoom会議も
xpression cameraの使い方はシンプルだ。Mac用のカメラアプリを開いて、動かしたい顔の写真や動画を1つアップロードするだけ。自分で用意した素材に加えてアプリに標準で搭載されている素材なども使うことができる。
もしウェブ会議で試したければ、動かしたい素材を選択した状態でZoomやGoogle Meetなどのビデオチャットツールを開き、カメラの設定をxpression cameraに変更すれば準備完了だ。
あとはカメラに向かって普段通り会話をすれば、自分の表情などに合わせて素材の中の人がリアルタイムで動く。
「xpression cameraを使えば若い頃の自分の写真を動かしたり、服装を変える感覚で別の人にもなりきれる。自分の体の制約から解放されるので、ファッションの概念自体を変えていくこともできると考えています」(開発元のEmbodyMeで代表取締役を務める吉田一星氏)


xpression cameraはライブストリーミング配信やYoutubeの動画作成など幅広いシーンでも使えるが、もっともわかりやすいユースケースはやはりリモートワーク中のウェブ会議だろう。
特に新型コロナウイルスの影響で普段の業務においてビデオチャットツールを使う機会が増えた人も多いはずだ。その流れが広がるとともに「Zoom疲れ」のような新しい言葉も生まれた。
ずっと自分の顔を表示していることに抵抗がある、散らかった部屋や洗濯物を見られたくない、わざわざ化粧をしたくないといった理由からカメラをオフにする人もいるが、それでは自分は良くても相手が会話をしにくくなるといったデメリットもある。
そのようなシーンでxpression cameraを用いることで「自分の顔を隠しながらも(素材の顔を通して)表情をちゃんと伝えられるので、安心してコミュニケーションができます」と吉田氏は話す。

同社では本日よりxpression cameraのMac版の受付をスタートしていて、登録したユーザーに順次無料で配信する計画。Windows版についても近日中に公開予定とのことだ。
ちなみに僕自身も一足先にテスト版を試してみたのだけれど、流石に初対面の人とのウェブ会議やオンライン取材などでいきなりこのアプリを使うほどの勇気はなかった。一方で普段から一緒に仕事をしているメンバーとのカジュアルな会議やZoom飲みなどのシーンではすぐにでも使えそうだ。Zoom飲みなどの際にみんなで使ってみると、ちょっとした話のネタにもなるかもしれない。
ヤフー出身エンジニアが創業、ウリはAIを用いた映像生成技術
EmbodyMeはヤフー出身の吉田氏が2016年に立ち上げたスタートアップだ。吉田氏はヤフー在籍時からスマホのインカメラを使ってキャラクターや他の人物になりきれる「怪人百面相」や、自分の分身となるアバターを生成し動かせる「なりきろいど」など、表情認識に関連する新しい技術をいちはやくプロダクトに落とし込んできた。
EmbodyMeを創業した後もGAN(Generative Adversarial Network : 敵対的生成ネットワーク)などのディープラーニングを用いた映像生成技術に取り組み、2018年にはスマホから簡単にフェイク映像を作れるアプリ「Xpression」を公開している。

同サービスはxpression cameraと同じような仕組みで、有名人などの顔を乗っ取って動かせるビデオツールだ。主に以下のディープラーニングモデルを同時に動かすことで、リアルタイムで現実さながらの映像を生成する。
- カメラを通じてユーザーの顔の形状と表情を3Dで推定するモデル
- 素材動画や画像から3Dで顔の形状と表情を推定するモデル
- 口の中など映像として存在しないパーツを画像生成し補完するモデル
表情を推定する技術(3D Dense Face Tracking )に関しては、5万点以上の3Dのポイントを推定できる仕組みを作ることで表情を細かい部分まで認識。GANを用いて“存在しない箇所を画像生成する”モデルを構築し、静止画はもちろん動画についてもリアルタイムで動かせる環境を実現した。

今回のxpression cameraはこのXpressionで培ってきた基盤技術をカメラアプリという形で切り出したものだ。
ビデオの概念を変えるチャレンジへ
EmbodyMeの目標は「ディープラーニングなどを用いて、誰もが目に見えるあらゆるものを自由自在に作り出せる世界を作ること」。将来的には人がその場にいなくても、ビデオチャットや映画に使える映像を自在に生成できる技術の実現も見据える。
2019年9月にはDEEPCORE、インキュベイトファンドをはじめとしたベンチャーキャピタル数社と個人から2.3億円の資金調達を実施し、研究開発を加速。音声だけから表情を動かせる技術(技術的にはすでに実現できているそう)や頭部・体全体を動かせる技術などの研究も進めてきた。
蓄積してきた技術を用いたプロダクトとしていくつかの方向性を検討していたが、コロナの影響でビデオチャットが急激に普及し、新たな課題やニーズが生まれてきたことを受けてxpression cameraの開発に踏み切った。当面は基盤技術の研究開発フェーズと捉え、短期的なマネタイズは考えていないが、将来的には映像制作領域などでのビジネス化も視野に入れる。
「今はカメラの前に座って自分の表情を映すことが必要ですが、音声だけで(素材となる人の)顔を動かすことができるようになり、体の多彩な動きも表現できるようになればビデオならではの新しいコミュニケーションも実現できると考えています。まずはバーチャルカメラを基盤としたソフトウェアを用いて、ビデオの概念を変えていくようなチャレンジをしていきたいです」(吉田氏)