Vidu動画プロンプト実践 — 複数キャラ一貫性を引き出すリファレンス活用術
中国Shengshu発の動画AI Viduは、最大7枚のリファレンス画像でキャラ・物体・背景の一貫性を保つReference-to-Videoが最大の強み。プロンプト構造、リファレンス選定、Veo/Klingとの使い分けを実例で解説します。
動画AIで多くのクリエイターが直面する問題が「シーンごとに同じキャラの顔が変わる」現象です。SORAやVeoでもこの一貫性確保は難題で、長尺ストーリーには向きません。この空白地帯を埋めるのがViduです。本記事では、Viduのプロンプト書き方とリファレンス活用の実践ノウハウを整理します。
Viduとは何者か
Viduは清華大学発のShengshu Technology(生数科技)が開発した動画生成AIで、2024年から商用化されています。最大の特徴は**Reference-to-Video(R2V)**機能で、最大7枚のリファレンス画像を渡してキャラ・小物・背景の一貫性を保てる点。
技術的には、内部のDiffusion Transformerがリファレンス画像からアイデンティティ特徴を抽出し、動画生成時に強い拘束として使う仕組みになっています。これにより、同じキャラを別アングル・別ポーズで何度も出しても破綻が起きにくい。
プロンプトの基本構造
Viduはプロンプト解釈精度が他社(Veo・Kling)にやや劣るので、リファレンス画像で固定 → テキストは最小限の戦略が安定します。基本構造はこの3層。
第一に参照指定。(Reference: Character A) のように、どの参照画像を主役として使うかを明示します。複数参照を組み合わせるなら (Reference: Character A, Background B) のように並べます。
第二に動作。何が起きるかを1〜2文で簡潔に。例:Character A is walking through a forest。長すぎる修飾は無視されがちなので、装飾は最後に。
第三にカメラと雰囲気。tracking camera, golden hour, cinematic のような短い修飾語を末尾に置きます。
実例プロンプト:
(Reference: Character A)
Character A is running across a wheat field at sunset,
tracking shot from behind, warm golden light, cinematic
リファレンス画像の選び方
Viduで最も成果を左右するのはリファレンス画像の質です。実際に何十本か検証して見えてきた選定基準を3つ。
1. 顔は正面ややハイライト寄り 横顔や逆光のリファレンスは特徴抽出が弱く、生成中にキャラが変質しやすい。正面〜45度の角度で、顔に光が当たっている画像が最も安定します。
2. 解像度は最低1024px、できれば2048px 低解像度のリファレンスはディテール抽出が甘く、ぼやけた顔が出やすい。スマホ写真より、AI生成画像(Midjourney・Flux等)の高解像度版を使う方が安定することも多いです。
3. 服装・髪型は1枚で固定 複数の参照を渡すと「どっちの服装?」と混乱します。服装と髪型は1枚のリファレンスで定義し、別ポーズ用の参照は使わない方が結果的に揃います。
Veo・Klingとの使い分け
Viduをどう使い分けるかは、案件タイプで決まります。
Vidu優位
- オリジナルキャラを使う絵本・同人・ストーリー動画
- 複数シーンに同じキャラを登場させる広告
- スタイルを統一したいモンタージュ動画
Veo優位
- 実写品質の広告・PV
- 音声付きでワンセット完結させたい動画
- 物理挙動が重要なシーン(水・布・髪)
Kling優位
- アニメ調の動きが命のシーン
- カメラワークを大胆に振りたいダイナミック動画
- 1ショット完結の短尺コンテンツ
つまりViduは「物語性・連続性」のレイヤーで他モデルを補完する位置づけで、単発の派手なシーンは他モデルの方が強い、と棲み分けるのが現実的です。
よくある失敗パターン
検証中に踏んだ罠を3つ共有します。
罠1:参照7枚を全部使い切る 枚数を増やすほど良くなるわけではなく、3〜4枚に絞った方が安定することが多い。情報過多は逆に解釈ブレを起こします。
罠2:英中混在プロンプト Viduは中文プロンプトに最適化されている前提があるため、英語または中文に統一する方が安定。日本語直書きは精度が落ちます。
罠3:動作を複数指定 「歩いて、振り向いて、笑う」のように動作を連結すると、どれも中途半端に表現されることが多い。1動画=1動作に絞り、連結はカット繋ぎで作る方が品質が上がります。
まとめ
Viduは「複数キャラ・連続シーンの一貫性」という、他の動画AIが苦手としている領域に強みを持つ独特なモデルです。プロンプトで頑張るよりリファレンス画像で固定する設計思想を理解できれば、長尺ストーリー動画の制作に大きな武器になります。
PromptForge JP では、Vidu / Kling / Veo など主要動画AI向けに、シーン要素を選択式UIで組み立てるツールを提供しています。Viduで使う基礎プロンプトを素早く組み、そこにリファレンス指定を足すワークフローが効率的です。