AIの力を映像制作で活用するには? InterBEE2023で広がった3つの自社プロダクトの可能性
本年も盛況のうちに幕を閉じたメディア総合イベントInterBEE。sync.devは3日間に渡ってブース出展を行い、「Alberti」「Kafka」「LightSmith」という3つの自社プロダクトのデモンストレーションを行いました。代表の岡田とテクニカルディレクターの根本がその模様を振り返りながら、これらのプロダクトの可能性についてご紹介いたします。
AIへの注目の高さが伺えたInterBEE2023
岡田:InterBEEのベースである放送・映像業界という領域でも、AIの活用に対する熱量が高まっていることを感じた3日間でした。特に顔認識に関するものが多く、ぼかしたり、マスクを切ったり、消し込みをしたりと、映像業界の中でもAIの活用が大きな焦点となってきているのは間違いないでしょう。
1,2日目は、老舗企業の方やビジネスサイドの方も多く足を運ばれていて、やはりAIというキーワードで足を止めていた印象があります。3日目はAdobe DAYということでAdobeさんによるプレゼンテーションもあったため、クリエイターの方の来場も多く見受けられましたが、そこでもやはり生成AIが大きなトピックとなっていました。
岡田:多くの方に自社プロダクトに触れていただきたいと考え、今回も3日間の出展を行いました。R&Dの成果を研究発表する場として考えていましたが、予想以上に具体的なビジネスにつながるお話をいただきました。
今年InterBEEで紹介した3つのプロダクトは、ソリューションではありつつも、さまざまなプロジェクトにあわせてチューニングして役立てていただける要素技術的なものです。ブースに立ち寄っていただいた方々からは、「それならこういう形で組み込めるかもしれない」など、さまざまな活用イメージやフィードバックをいただきました。
Alberti - 複数の写真から3Dシーンを再現
岡田:複数の写真から3Dシーンを再現することができる「3D Gaussian Splatting」の技術を用いたプロダクトが「Alberti」です。2023年8月に「SIGGRAPH(シーグラフ/CG分野に関わる技術者を中心に世界中の注目を集めるイベント)」で論文が発表されたこの技術は、現在大きな注目を集めています。レンダリング時のリアルタイム性が高く、圧倒的な出力品質の高さと計算時間の短さが大きな特長です。
3D Gaussian Splattingでは、点群を作成するまでのフローはフォトグラメトリと全く同じです。ただし、そこからフォトグラメトリではメッシュを張ってポリゴンをつくるのに対し、3D Gaussian Splattingでは各点にそのままガウスを割り当ててパラメータを機械学習で求めるという方式をとっており、レンダリングの工程自体が既存のCGとは異なっています。
私たちもこの技術に大きな可能性を感じており、知見を溜めているところです。実は取り組んでいる方は多いものの、話題性の高さに対してまだ実践者の数は限られており、且つ空間の計測や測量といった観点で向き合っている方が多いという状況があります。そのため、私たちsync.devの持つエンタテインメントやビジュアライズの視点を活かせば、Albertiで新しい方向性や可能性を示せるのではないかと考えています。
たとえば、実際にInterBEEのデモンストレーションでも行ったように「Blenderに取り込んで編集したい」「Blender上で扱うためのプラグインをつくりたい」などのニーズがまずぱっと思い浮かびます。他にも撮影リグをつくってみたり、デバイスをつくってみたり、さまざまな検証を行っています。大量のカメラを設置した施設型のようなことも、恐らくできるはずです。
岡田:Alberiは2024年1月に、映像 音響機器を扱う株式会社光和さんの内覧会にも出品させていただきます。そこでは、実際にAlbertiの使い方として有力視している「カメラトラッキング × バーチャルプロダクション × 背景をAlbertiで制作」という組み合わせを実践してみる予定です。
ちなみにInterBEEでも、さまざまな活用のアイディアをいただきました。もっとも印象的だったのは、警察の鑑識課で行う現場検証に役立つのではないかというアイディアです。現場では多くの写真を撮る一方、現場自体の保存は一定期間しかできないので、3Dシーンにして資料として残すことができれば、あとで見て気づきを得ることができるかもしれない、ということです。その他にも、美術館での利用や、文化財のデジタル保全などもおもしろい使い方になると考えています。
なお私としては、この技術はフォトグラメトリに置き換わるものだとは考えていません。フォトグラメトリにはメッシュが張られるという利点があり、3D Gaussian Splattingにはクオリティの高いレンダリング結果が得られるという利点があり、それぞれにメリットがあります。途中まで工程も同じなので、フォトグラメトリ用に撮った素材を流用することもできますし、両者での活用の可能性を合わせて「写真を撮っておく」という動機付けにつながればいいなと考えています。
Kafka - 写真1枚で高画質なディープフェイクを生成
岡田:昨今「ディープフェイク」という言葉が「偽動画」のような意味でネガディブに捉えられているケースも散見されますが、本来はAI技術を応用し、動画の中の人の顔などを一部入れ替える技術のことを指します。「Kafka」はこのディープフェイク技術を用いたプロダクトです。
岡田:ディープフェイク技術の最も大きな課題は、差し替える対象にも、差し替える側にも大量の画像データが必要だということです。過去にトム・クルーズのディープフェイクが出回ったことがありましたが、これは彼の出演映画などからあらゆる角度のハイクオリティな画像が大量に得られるため可能だった、というわけです。
しかし、ほとんどの方はそれほど大量の画像を用意することができません。動画がなかったり、白黒の写真しかなかったり、そもそもあるひとつの年代において360度捉えた写真が数百枚あるということは稀でしょう。
それに対して、正面の顔写真一枚でディープフェイクを行う技術が近年徐々に出てきました。SNOWやTikTokのフィルター、顔差し替えアプリなどもその一つと言えます。ただしこれらはスマホの小さな画面で観ることを前提としており、低解像度の画像しかつくることができません。また出来上がりをごまかしやすいように、mp4で入力してmp4で出力することも前提となっていました。
Kafkaはそういった前提から異なります。まず入力・出力ともにmp4に多い8ビットではなく16ビットカラーを前提としており、内部動作はすべて32ビットで組んでいます。また、顔復元AIを組み合わせることで1024ピクセル×1024ピクセル程度までの出力が可能となりました。実際の画面上での顔の表示サイズは大きくても画面内の1/3程度と考えると、フルHD、さらには4Kにも対応できるものになっています。
やはりKafkaに関しても私たちの強みを活かせるよう、映像制作ツールと捉えて磨きをかけているところです。解像度を上げるのはもちろん、自動で追従してマスクを出したり、マスクを修正する可能性を踏まえてトラッキングマーカーを付与できるようにしたり、オンライン編集の方には喜んでいただけるものになっているはずです。これらは一般的なAI企業にはない、私たちならではのポスプロ的な発想だと思います。
岡田:今後の課題として、まずはさまざまな機能を付与したことで落ちてしまった速度をあげて、高速化できるよう試みています。また、撮影現場でプレニューが可能なよう、Adobe社「Frame.io」のCamera to Cloud機能に対応した仕組みを構築しているところです。
これが成功すれば、カメラでの録画が終了し、Frame.ioにアップロードされたことを感知したら自動的にKafkaが作動し、実尺の3-4倍程度の時間で顔が差し変わったものができあがるような仕組みをつくることができます。このスピード感で出力できれば、撮影現場でも使えるものになるのではないでしょうか。
ちなみにKafkaの開発で顔認識に関する知見がかなり蓄積できたので、インターフォンなんかはもうつくれる気がします(笑)。顔のトラッキングはもちろん、たとえば鼻だけのマスクをつくるなど顔のセグメンテーションもできますし、人の顔の扱いに強くなりましたね。
LightSmith - DMXと連動した照明ソリューション
根本:「LightSmith」は、Unreal Engine5 を用いたDMX連動ソリューションです。grand MAに代表される照明操作卓から制御信号を受けて、バーチャルセット内の照明灯体や自発光オブジェクトを現実世界の照明灯体と同期することができます。カラー、ゴボ、ディマー等が同期することによってステージセットに溶け込み、リアルな没入感、臨場感を得ることができるのが特長です。
根本:開発にあたっては、Unreal Engine5内のムービングライト、パーライトの改良や、任意のスタティックメッシュを制御可能な自発光オブジェクトに改良するなどを行いました。灯体数も、Lumen(Unreal Engine 5 の、動的なグローバル イルミネーションおよび反射の新機能)により高負荷に耐えうる設計になったことで、演出の幅が広がりました。ただし、CGのクオリティ担保とマシンの描画負荷は天秤にかける必要があり、CG側の調整やライトの負荷を考えて設計しています。
照明のシミュレーションソフトとしてはL8(旧Light Converse)などがありますが、Unreal Engineであれば照明シュミレーションから現場でのDMX送出、映像の描画まで対応できます。LightSmithは高精細のプレビズ制作から実際のオペレーションまで、ワンストップで開発できて、メディアサーバーの役割を担えるプロダクトと言えるでしょう。
なお照明卓からの制御ではなく、Unreal Engine上で任意に照明をデザインすることも可能です。この辺りはまさに今開発中となりますが、小規模案件など照明チームが不在の現場でも、LightSmith上で照明をデザインできるようにすることで、照明という分野に対する裾野を広げていけたらいいなと考えています。
映像業界での活用だけでなく、業界を越えた活用も見据えて
岡田:Kafkaのディープフェイク技術など、今はネガティブなものとして捉えられている技術にも、真っ当な利用方法があると考えています。たとえばボディダブルのスタントマンがいれば、役者にはできない危険なシーンの撮影を任せることができます。こうしたニーズは以前より存在し、VFXによって実現されてきました。そういった前向きな使い方を模索することが、大切なのではないでしょうか。
Albertiは警察での利用などのアイディアもありましたが、「思い出を形に残す」という文脈でも価値を発揮できるものだと考えています。昔住んでいた家など写真だけでは少し寂しいところ、自分で視点を動かして自由に周ることができたら、あらたな発見があるはずです。解体されてしまうホテルや閉演してしまうテーマパークなどを3Dで残す「バーチャル保全」のような取り組みは、今後さまざまな場面で求められるのではないかと考えています。
さらに3D Gaussian Splattingは理論上Webブラウザに出すこともできるので、一般の店舗でプロモーションなどに使うこともできます。瓶などの透明で反射があるものはフォトグラメトリが苦手とする部分なので、Albertiの強みを活かすことができますし、自分で視点を動かしながら店内を周ることができるので送客効果も高いはずです。そういったBtoBtoC的な形で私たちのプロダクトを活用いただければ、エンドユーザーの方にあたらしい価値を提供できるのではないかと考えています。
実は、昨年の出展時のプロダクト群は映像領域だけに留まっていたのですが、今年は映像以外の領域への展開も見据えたプロダクトの開発ができたのではないかと感じています。是非興味をお持ちいただけた方は、コンタクトフォームからお問い合わせいただければと思います。
Text &Edit by Shiho Nagashima