「アニメなんて作ったことない。でも締切は迫ってる。どうする?」そんな窮地で頼ったのは、まだ発展途上の 動画生成AI でした。避けることができないAI化の波が押し寄せている中、どこまでAIが活用できるのかを映像クリエイターとしていろいろ試してみた話です。
どの業界でも生成AI、生成AI、生成AI....もれなく映像業界もその波が来ているところですが、テキストや画像・音楽の生成AIは現実業務利用できるレベル感まで来ているような気がするものの、動画生成AIはまだもう一歩という印象です。いろいろな方とお話ししていますが、いろいろな意味でVコンテくらいならまだしも、本番映像ではなかなかまだ使いづらいのが本音だろうという肌感です。
そんな2025年の前半、まったくと言ってもいいほど経験のないアニメ系動画を作らなければいけなくなり、正直、どうしたものかと困っていたのです。しかも、比較的短い制作時間であることと、メインで進行中の案件と並行して進める必要がありました。
そんな時にこんな声が聞こえてきました(?)
こんな時こそ、生成AIじゃん?脳内の声
弊グループでは「とにかく生成AI使おう」という風潮があり、どうAIを使うかということを日々考えることが多いので自然な流れです。
https://twitter.com/m_kumagai/status/1951240301873639860
弊グループ代表のXポスト
加えて、幸い、今回制作する動画はGMOインターネットグループが支援する、渋谷区の教育支援プロジェクト「Kids VALLEY」の授業教材として児童の皆さんにお見せするものでしたので、比較的縛りのキツくない映像制作ということで、まさに今回は絶好のチャンスです。
ということで、今回はAIだけで動画生成を試してみたのでそのフローと結果をご紹介いたします。
背景
改めて背景です。GMOインターネットグループ横断で取り組むKidsVALLEYプロジェクトの中で、「さまざまな伝える手段がある」ことを示すために、ポスターや紙芝居と並ぶ教材サンプルとして動画を制作する必要がありました。
授業のカリキュラム詳細はこちらの記事をご参照ください!
https://developers.gmo.jp/cultures/71503/
というコンテンツで、動画でも伝えることができるよ!と言いつつもサンプルがなければ説得力がありませんよね。
しかし、通常業務も多忙で、ゼロから動画を作る余裕はありません。そこで今回は思い切って「生成AIをフル活用して動画を完成させる」ことに挑戦しました。
2025年時点の情報で記載しております。生成AIの利活用については、各サービス等の規約を各自判断いただいた上での利用を推奨いたします。
完成した動画
まずは完成した動画をご覧ください。
https://youtu.be/i4tMqnWDM20
整合性が取れてない部分はあったりしますが、エンタメとしてちょっと見る分には許容範囲かなと思っているところです(個人の感想)
制作フロー(全体像)
今回は以下のようなフローで制作しました。
原稿からプロンプトを作成動画を生成(Veo対応「Flow」)ナレーションを生成(Gemini 2.5 Pro Preview TTS)音楽を生成(Suno.ai / Instrumental)編集ソフトで調整(Premiere Pro)
1ステップごとにみていきましょう。
ステップごとの制作フロー
1. 原稿からプロンプトを作成
今回の授業支援の教材中に、すでに4コマ紙芝居がサンプルとしてありましたので、今回はそちらをベースに映像を制作しました。
紙芝居用に用意したイラストとナレーションを「Gemini」に入力し、動画生成のためのプロンプトを生成します。最近は細かいプロンプトを生成AIと壁打ちしながら作ることが増えてきました。生成AIのためのプロンプトを生成AIと、、、、結構賢いので自分で頑張るより早く、求めた感じになることが多い印象です。
一発ではうまい感じのプロンプトにならなかったので、登場人物の固定化を図るために、共通の文言(場面やキャラ設定など)を全てのカットのプロンプトに入れさせたり、情報量を増やさせたりしてなるべく一貫性を保てるようにしようとトライしました。
2. 動画を生成(Veo対応「Flow」)
続いて、生成したプロンプトをGoogleのVeo2やVeo3を利用できる「Flow」に入れ、テキストから動画を生成しました。
複数回生成をしながら、良いカットが生成できたプロンプトを、1に戻ってAIと壁打ちしてブラッシュアップする、というような使い方をしました。実際、Googleからの付与クレジット(36,000円プラン1か月分)をすぐに使い切るほど消費。Text to Videoはまだまだ難しいのだと実感しました。Image to Videoでやればよかったんじゃ?と思い始めていたのはここだけの話です。ちなみに、制作当時はVeo3のfastモデルがなかったため1生成ごとに100クレジット消費という状態でした。今はfastモデルができて最上位プランなら0クレジット/生成で済むようになったのはありがたいですねぇ、、、
3. ナレーションを生成(Gemini 2.5 Pro Preview TTS)
今回は「動きのある動画でメッセージが伝われば良し」という目標でしたので、ある程度のところで映像は一旦完成として、「Google AI Studio」のGenerate Speechを使い、原稿をTTSで音声化しました。
ポイント
Style instructions をできるだけ詳細に書く
これに尽きると思います。色々な声のモデルがありますが、このスタイルの指定が大きく影響してくるので、ざっと声の雰囲気を選んだ後はここに注力するが良さそうです。今回使用したプロンプトはこちら。
あなたはベテランアナウンサーになりきり、幼児向け絵本を読み聞かせるように、以下のガイドラインでテキストを朗読してください。声質は明るく透明感のある中高域で、子どもが安心できる柔らかさを保つこと。音量はリビングでの読み聞かせ程度を基準にし、物語の山場のみ軽く持ち上げます。話速は1分あたり230〜260文字(約1.0〜1.2倍速)とし、句読点で0.3〜0.5秒、場面転換や擬音語の前後では0.7〜1.0秒のポーズを取って余韻を残してください。語尾は緩やかな揺らぎで単調さを避け、擬音語・感嘆語は語頭をやや強調し後半を優しく落とします。喜びは少し高めで笑みを含み、驚きは軽く息を吸ってから高めに始め、怖さは低めで息混じり、優しさはソフトでスローに表現してください。子音は明瞭、母音は丸く発音し、自然な位置でブレスを挿入しつつ過度なノイズは抑えてください。
ちなみにこれはChatGPTに書いてもらってます。あとは、紙芝居と同じナレーション文章を入れて生成させれば完成です。
もしうまく読み上げてくれない(漢字の読みやイントネーション等)場合があれば、ひらがなに開いてみたり、英語はカタカナに変えてみたり表記の変更で解決することもあります。この辺りもガチャ運試されます。不確実性が多いのはプロが使うツールとしてはなかなか難ありな気がしています。ですよね。
ただ、Voicepeakなどの従来の生成AI音声と比べて圧倒的に自然で、息継ぎをするなどめちゃめちゃ自然に聞こえるようになっています。簡単な案件ならナレーター不要なレベルという印象になります。
4. 音楽を生成(Suno)
BGMは「Suno」でインストゥルメンタルを生成しました。
プロンプト
Upbeat, lighthearted background music for a preschool cartoon set in a sunny park. Peaceful everyday atmosphere with playful, comedic touches. Tempo around 110–120 BPM in a major key. Feature bright ukulele or acoustic guitar strumming, cheerful glockenspiel/bells for melody, gentle pizzicato strings, soft hand-clap or shaker percussion, and occasional cartoonish sound accents (e.g., slide whistle, muted brass pops). Keep the texture simple and bouncy so young children feel safe, happy, and engaged while characters play outdoors.
こちらも雰囲気や目的、大体のイメージをChatGPTと議論の上でプロンプトを作成させています。音楽を作るのには圧倒的に知識が少ないので大変重宝しました。
5. 編集ソフトで調整(Premiere Pro)
最後にPremiere Proで全素材を統合し、完パケを作成しました。
尺調整:生成拡張や時間伸縮を使って映像を自然に延長音量調整:ナレーションとBGMの音量バランスの調整仕上げ:最後は人力で微調整
課題と気づき
色々生成AIを活用しての動画制作でしたが、課題や気づきがあったのでまとめてみました。
整合性の担保が難しい:Text-to-Videoはシーンの繋がりを維持するのが大変。まずは画像生成から試すのが現実的。コスト面の課題:クレジット消費が想定以上に大きい。案件ごとに適切な生成AIをチョイスし、効率的に活用→採用テイクだけ本番出力といった運用が必須 。TTSの進化:今までに比べたら感情を込めた読み上げができるようになってきている。場合によっては簡単な案件ならこれでOKが出ることもありそう。商用利用の可能性:Veo3等、動画生成AIの進化は目覚ましい。キャラクターの一貫性や整合性のなさを置いておけば、すでに商用品質も視野に入る段階かなと。一貫性については工夫次第では実現できそう。
まとめ
今回の取り組みを通じて「生成AIを使えば動画制作のハードルを大幅に下げられる」ことを実感しました。できないことが少しできるようになった、というようなところでしょうか。まだガチャ性やコストの課題はあるものの、適材適所で使えば十分に実務の武器になりそうですね!