近年、さまざまな画像生成・動画生成サービスが登場していますが『ConoHa AI Canvas』は画像や動画そのものを生成するサービスではなく、お客様が自由に画像や動画を生成できる環境を提供するホスティングサービスである点が大きな特徴です。 高い自由度が強みである一方で、生成に至るまでにプロンプト入力以外の操作が必要であったり、UIが複雑であったりといった課題も存在します。 今回、インフラ面の実装を改善し、画像や動画をより手軽に生成できるようになりました。そこで本記事では、『ConoHa AI Canvas』上で、テキストから動画を生成できるモデル「wan2.1」を活用し、誰でも簡単に動画を作成できる方法をご紹介します。
動画生成までの流れ
起動から生成まで、わずか3ステップ(約5分)で動画を作成できます。
WebUI起動テンプレート選択動画生成
1. WebUI起動
ConoHaにログインし AIタブを選択、「WebUI起動」をクリックします。
起動するWebUIは「ComfyUI(上級者向け)」を選択します。WebUI起動用のユーザー名とパスワードを入力して「起動」をクリックします。
タブが切り替わり、WebUIが起動します。(起動には2分程かかります。)
WebUIが起動したら、先ほど設定したパスワードを入力してログインします。
2. テンプレート選択
WebUI起動直後は、デフォルトのワークフロー*が表示されています。
ワークフローとは、画像生成の各ステップ(テキスト入力・モデル選択・画像出力など)をブロックのような部品として並べ、線でつないで処理の流れを視覚的に組み立てる仕組みのことです。
「ワークフロー」→「テンプレートを参照」からテンプレート選択画面を開きます。
「ビデオ」→「wan2.1 テキストからビデオへ」を選択します。
3. 動画生成
ワークフローの実行に必要なモデルは全てインストール済みです。まずは、テンプレートの「きつねの動画」を生成してみます。
「実行する」をクリックします。
生成には約140秒かかります。生成が完了すると、動画は自動的に再生されます。
日本語で動画生成しよう!
wan2.1で使用されているテキストエンコーダー「umt5_xxl_fp8_e4m3fn_scaled.safetensors」は多言語に対応しており、日本語のテキスト入力にも対応しています。
以下のように日本語で(Positive Prompt)と(Negative Prompt)を入力します。
検証に利用したプロンプトの例をいくつか紹介します。
Positive Promptの例
単語ではなく、文章として入力することがポイントです。
満開の桜の下をゆっくりと歩く着物姿の女性。春の柔らかな日差しが降り注ぐ。
近未来の東京。ホログラム広告が空中に浮かび、自動運転車が街を走る。
猫がネズミを追いかけるアニメ調の動画。猫は決意に満ちた表情で素早く動き、ネズミは遊び心と必死さで逃げようとする様子が映し出されます。追いかけるシーンを際立たせるため、動きのある室内環境とダイナミックなカメラアングル
エイリアンが地球を侵略する映画的な映像。巨大なエイリアンの宇宙船が都市上空に浮かび、エネルギービームを発射し、破壊を引き起こしている様子を描写する。空は暗く煙に覆われ、人々はパニックに陥って逃げ惑う。エイリアンは未来的で威嚇的なデザインで、軍隊が反撃を試みる。
Negative Promptの例
negative promptは、生成したくない要素を指定するために使用します。
ぼやけた映像, 低画質, 解像度が低い, 不自然な動き, ピントが合っていない, 映像のノイズ
wan2.1は多様なスタイルに対応できる一方で、アニメ調はやや苦手な印象です。3分弱で動画を生成できる点は魅力的で、アイデア出し用途には適していると感じました。
動画のダウンロード
ComfyUIからダウンロード
動画生成が完了したら、左メニューの「キュー」をクリックします。左メニューの「キュー」からダウンロードしたい動画を選択し、表示された画像の上で右クリックして「名前を付けて画像を保存」を選択すると、ダウンロードできます。動画は、webp形式で保存されます。
ファイルマネージャーからダウンロード
生成された動画は全てお客様個別のオブジェクトストレージに保存されています。コンパネからファイルマネージャーを起動しダウンロードすることも可能です。
「詳細情報」を開きます。
「ファイルマネージャー」を開きます。
【 / home / output / comfyui 】へ移動します。
インフラの話題
ConoHa AI Canvasではコンテナ技術を活用し、お客様ごとに専用の実行環境を提供しています。これにより、クリエイターの皆様はAIを活用したクリエイティブ作業を、プライベートな環境で安心して行うことができます。
このプライベートな環境をいかに速く起動させるかは、インフラエンジニアにとって大きな課題です。PyTorchのようなAIフレームワークはライブラリだけで数GBあり、コンテナ全体では約10GBになります。さらに、画像・動画生成用のモデルを複数用意すると、合計サイズは100GBを超えることもあります。こうした大容量アプリケーションをGPUサーバーにスケジューリングし、短時間で起動させる必要がありますが、従来の方法では10分以上かかるのが実情です。
そこで、起動の高速化を実現するためには、システム構成を以下の3つのデータカテゴリに分けて考えることが有効です。
アプリケーション:お客様ごとの差分がない部分です。WebUI停止時に毎回削除されるデータです。お客様ごとのデータ:設定ファイル、拡張機能、LoRAモデルなど、お客様固有の情報です。これらはWebUI停止時にも保持される永続的なデータです。ベースモデル:画像や動画の生成に使用される、大容量のAIモデルです。共有可能な静的リソースとして扱うことで、効率的な配置と再利用が可能になります。
これらの3つのデータカテゴリに分離したうえで、Ansibleなどの自動化ツールを用いてプロビジョニングを行うことで、コンテナの起動時間を大幅に短縮することが可能になります。
おわりに
画像や動画のプロフェッショナル領域におけるAI活用には、依然として技術のさらなる進化が求められていると感じています。高精度・高品質な画像や動画の生成には、大量のデータと高性能なGPUの処理能力が不可欠であり、こうした環境を個人で整備・維持するのは、今後さらに困難になると予想されます。そのため、AIを実務レベルで導入・活用していくには、クラウドサービスの活用がますます重要になると考えています。より簡単に、そして自由度高く利用いただけるサービスを目指し、継続的な改善を進めていきます。
AI画像生成ならConoHa - ConoHa AI Canvas