・
画像生成AIを使って漫画やイラストを作成する際、「生成するたびにキャラクターの顔や服装が変わってしまう……」と悩んだ経験はありませんか?
AIイラストにおいて、同じキャラクターを異なるポーズや表情で一貫して描き出す「キャラ固定」は、作品のクオリティを保ち、読者を物語に没入させるうえで欠かせないテクニックです。
そこで本記事では、画像生成AIでキャラクターを固定するのが難しい理由から、それを成功させるための具体的なプロンプトのコツまでを詳しく解説します。
さらに、ChatGPTやGeminiを使った実際の検証結果や、キャラ固定におすすめの専用ツールもあわせてご紹介します。
キャラクターの一貫性に悩んでいるクリエイターの方は、ぜひ参考にしてみてください。
ストーリー性のあるコンテンツを制作する際、読者がキャラクターを同一人物として認識できなければ、物語への没入感が削がれてしまいます。
コマごとに主人公の顔つきや服装の細かなディテールが変わってしまうと、違和感が先行してしまい、作品としてのクオリティを保つことが難しくなるからです。
しかし、キャラクターの姿を固定できるようになれば、読者はキャラクターの感情や物語の展開に集中できるようになり、魅力的なビジュアル作品を違和感なく作成できるようになります。
キャラ固定の技術が確立されると、クリエイターの制作効率は向上します。
これまでは、似た顔が出力されるまで何度も「ガチャ」のように生成を繰り返すか、生成された画像を手作業で加筆修正して顔をあわせるという手間がかかっていました。
しかし、特定の顔やスタイルを「指名(参照固定)」する技術を活用すれば、思い通りのキャラクターを出力できるようになり、リテイクの回数を減らすことができます。
結果として、ストーリー構想やレイアウト検討といった、よりクリエイティブな作業に時間を割くことが可能になります。
画像生成AIは、テキストの指示から画像を生成する際、内部で複雑な計算を行っています。
そのため、同じプロンプトを入力しても全く同じ画像が出力されないという特性があります。
画像生成AIは、ランダムなノイズからスタートし、確率的な計算を経て徐々にピクセルを再構築して画像を生成する仕組み(拡散モデルなど)を持っています。
そのため、毎回異なるアプローチで画像が作られ、完全に一致する画像を連続して作り出すことが技術的に難しいという背景があります。
この「ガチャ(ランダム生成)」のような性質により、生成のたびに顔の輪郭や目の形などが微妙に変化してしまうのです。
AIに対する指示(プロンプト)の曖昧さも、キャラ固定を難しくする要因です。
単に「黒髪の少女、制服」といったテキストを入力するだけでは、AIが解釈する余白が大きすぎてしまい、前髪の分け目、制服のデザインやシワの入り方などが毎回変わってしまいます。
人間の脳は「同じキャラクターだ」と脳内で補完できますが、AIには前後の文脈を理解する機能が乏しいため、テキストだけで同一人物のディテールを完全に再現することは困難となります。
画像生成AIを使ってみると、「これ、そのまま仕事に使えるのでは?」と思う場面が出てくるはずです。
ただし実際には、AIが出力した画像を別のツールにアップロードして……という作業が発生しがちで、思ったほど楽にならないケースも少なくありません。
そんなとき「AIと業務ツール間の手作業」を自動化できるのが、ノーコードツールYoomです!
[Yoomとは]
例えば、「Google Driveに画像が保存されたら、AIワーカーが内容を自動検証してSlackに結果を通知する」といった作業を自動化できます。
ChatGPT(ChatGPT Images)は、対話を通じてキャラクターの解釈を深められるのが強みです。その精度を高める3ステップを検証しながら解説します。
まずは、キャラクターの設計図となる最初の1枚を生成します。曖昧さを排除するため、以下の要素を具体的に盛り込んだプロンプトを作成しました。
【プロンプト】
今から物語のキャラクターを作成します。彼女の名前はルナ(Luna)です。今後、私がルナと呼ぶ際は、常に以下の視覚的特徴を完全に維持して画像を作ってください。
#ルナの身体的特徴
・髪型: 顎のラインで切り揃えられた、透き通るようなシルバーグレーのショートボブ。左側に大きくて真っ赤なサテン生地のリボンをつけている。
・輝くサファイアブルーの大きな瞳。
・顔立ち: 少し意志の強そうな眉、小さめの鼻。
#服装・スタイル
・服装: 糊のきいた真っ白なボタンダウンシャツ。一番上のボタンまで留めている。
・画風: 鮮やかでクリーンな日本のアニメスタイル。背景はシンプルな白一色。
#指示
まずは、ルナが正面を向いて少し微笑んでいるマスター画像(全身)を1枚生成してください。
【出力結果】
指示通りの特徴を捉えた「ルナ」が生成されました。背景を白一色に限定したことで、AIがキャラクターのデザインのみを純粋に認識できる状態になっています。
この画像が、以降のアクションや衣装変更を行う際の設計図となります。
ChatGPTで生成された画像には、個別のgen_idが付与されます。
※gen_idは画像詳細から確認することも可能です。
【プロンプト】
#最優先事項
今後のすべての生成において、キャラクター「ルナ(Luna)」の外見(image_0.pngに描かれているシルバーグレーのボブヘア、赤いサテンリボン、瞳の色、白いシャツ、画風、アスペクト比)を完全に維持してください。
参照元のgen_id:個別のgen_idをここに
#指示
上記のgen_idのルナの外見と服装、画風を最優先でリファレンスとして使用し、ポーズだけを「片手を上げて挨拶している全身像」に変更した画像を1枚生成してください。顔立ちやリボンの位置は絶対に維持すること。
【出力結果】
取得したgen_idを指示に含めることで、キャラクターの造形を維持したままポーズのみを変更することに成功しました。
ポーズを変えても顔の印象が変わらず、同一人物としての整合性が高い結果です。
最後に、固定したキャラクターに動きをつけます。
【プロンプト】
#最優先事項
今後のすべての生成において、キャラクター「ルナ(Luna)」の外見(image_0.pngに描かれているシルバーグレーのボブヘア、赤いサテンリボン、瞳の色、白いシャツ、画風、アスペクト比)を完全に維持してください。
参照元のgen_id: 個別のgen_idをここに
#指示
上記のgen_idのルナの外見と服装を最優先でリファレンスとして使用し、ポーズを「新緑が美しい広々とした公園を軽快に走っている」全身像に変更した画像を1枚生成してください。
#詳細設定
・走る動きにあわせて、シャツにシワが寄り、シルバーグレーの髪が少しなびいていること。
・赤いサテンリボンは左側に維持。
・背景(公園、木々、小道)は詳細に描くが、ルナに焦点をあわせる
・日本のアニメスタイル、自然な太陽光。顔立ちやリボンの位置は絶対に維持すること。
【出力結果】
gen_idと詳細プロンプトを組み合わせることで、キャラクターの造形を崩すことなく、新しいシーンへの展開に成功しました。
マスター画像の特徴を継承しつつ、髪のなびきやシャツのシワなど、ディテールを保ちながら別人になる現象を抑えられ、同一人物としての整合性が高い結果となりました。
ChatGPTを活用したキャラ固定は、適切な手順を踏むことで高い再現性を発揮することが分かりました。
成功のポイントは、詳細なマスタープロンプトによる外見の定義と、生成された「gen_id」を参照元として活用することにあります。gen_idによるキャラクター固定はユーザー間で広まった実践的なテクニックですが、検証の結果一貫性の向上に有効であることが確認できました。
これにより、ポーズの変更や複雑な背景への展開を行っても、固有の特徴を維持したまま、物語のシーンを描き分けることが可能になりました。
完全な一致には数回の微調整が必要なケースもありますが、対話を通じて即座に修正指示を出せる点は、ChatGPTならではの強みです。
GoogleのGemini(Nano Banana)は、高度な言語理解力と画像の細部を読み取るマルチモーダル能力が特徴です。キャラ固定を実現するための、論理的かつ視覚的な2ステップ検証を解説します。
Geminiでキャラクターを一貫させる鍵は、指示を論理的に構造化することにあります。設定を「基本設定」「外見の詳細」「シーン」の3つの階層に分けて記述する3層プロンプト方式を用いることで、AIが変えてはいけない核(キャラクターのアイデンティティ)を理解できるようになります。
【プロンプト】
#Layer 1:基本設定
・名前:ルナ(Luna)。10代後半のアニメスタイルの少女。
・特徴:シルバーグレーのショートボブ。左側に大きな赤いサテンリボン。サファイアブルーの瞳。
#Layer 2:服装とスタイル
・服装:白いボタンダウンシャツ(全留め)、黒いスラックス。
・画風:クリーンな線画、鮮やかな色使いの日本のアニメ調。
#Layer 3:アクションと背景
・状況:白い背景の前で、正面を向いて静止している全身ポーズ。
上記の3層の設定を厳守し、マスター画像となるルナを1枚生成してください。
【出力結果】
各階層の指示が統合された「ルナ」が生成されました。
情報を構造化したことで、シルバーグレーの髪、赤いリボン、瞳の色、服装のディテールが混同されることなく描写されています。
次に、1枚の画像だけでなく、複数の角度や表情を同時に学習させ、それをリファレンス(参照)として機能させるステップです。
【プロンプト】
#最優先
添付画像に描かれているキャラクター「ルナ(Luna)」の外見設定を完全に継承してください。
#身体的特徴
・シルバーグレーのショートボブ。
・向かって左側に大きな赤いサテンリボンを装着(リボンの結び方や素材感も維持)。
・サファイアブルーの瞳。意志の強そうな眉。
#服装と画風
・白いボタンダウンシャツ(全留め)、黒いスラックス。
・清潔感のある日本のアニメスタイル。
#指示
・表情シート(キャラクターシート)の生成
・添付画像のルナをベースに、以下の表情と角度を1枚の画像にまとめた表情シートを生成してください。
#収録する表情(計6パターン)
・正面(添付画像と同じ微笑)
・正面(怒り:眉をひそめる)
・正面(泣き:涙を浮かべる)
・正面(驚き:目を丸くする)
・横顔(向かって右向き:真剣な表情。赤いリボンが見えること)
・後ろ姿(背中合わせ:シルバーボブの形と赤いリボンの裏側が見える)
#詳細設定
・6パターンを整然としたグリッド状に配置。背景は純白。
・すべて同じ画風、同じアスペクト比で出力すること。
【出力結果】
計7つの表情シートが生成されました。
一部、「怒り」と「驚き」の解釈が重複する挙動が見られたものの、ルナの核となる特徴は維持されています。
描画が難しい後ろ姿や横顔においても一貫性が保たれており、キャラ固定の資料として実用的な結果となりました。
Geminiでの検証は、論理的なプロンプト構成と高い画像参照能力が際立つ結果となりました。
3層プロンプト方式情報の構造化によって、変えてはいけない核をAIが正確に認識し、初回の生成から理想のキャラクターを出力できることが実証されました。
続く表情シートの検証では、バリエーションが増える挙動がありましたが、一度生成した画像をリファレンスとして再入力する手法こそが、Geminiで安定したキャラクター制作を実現する最短ルートといえます。
本格的なキャラ固定を目指す場合、より細かな制御が可能な専用ツールの利用をおすすめします。
Midjourneyは、高品質なイラストや写真を生成できるDiscordベースのツールです。
キャラクター固定においては、「Character Reference(--cref)」という強力なパラメータが搭載されています。
この機能を使用し、参照となる画像のURLを指定することで、キャラクターの顔や髪型を維持したまま新たな画像を生成できます。
さらに、「--cw」という数値を調整することで、顔から服装まで固定するか、顔だけを固定して別の衣装を着せるかといった細かなコントロールが可能です。
にじジャーニーは、Midjourneyの技術をベースに、アニメ調や二次元イラストに特化して開発されたツールです。
そのため、Midjourneyと同様に「Character Reference(--cref)」機能を活用することができます。
アニメや漫画のキャラクターデザインは、線の細さやデフォルメのバランスが重要になりますが、にじジャーニーを使えば、日本のクリエイターが好む画風を保ったまま、同一キャラクターのさまざまなポーズや表情を描き出すことができます。
Stable Diffusionは、オープンソースで提供されている画像生成AIで、ローカル環境でも構築できる自由度の高さが魅力です。
キャラクター固定においては、「ControlNet」や「IP-Adapter」といった拡張機能を使うことで、顔の特徴だけでなく、キャラクターの骨格やポーズまで固定することができます。
環境構築の手間や操作の習熟は必要になりますが、自由度が高く、妥協のない一貫性を求めるプロの現場でも広く重宝されているツールとなっています。
どの画像生成AIを使用する場合でも、キャラ固定を成功させるための共通のノウハウが存在します。
まずは基準となる「マスターキャラクター」の画像を生成し、保存しておくことが第一歩です。
正面、横顔、喜怒哀楽の表情などをまとめた「表情シート」や「三面図」を作成しておくとさらに効果的です。
ランダムに生成するのではなく、このマスター画像を参照元(リファレンス)としてAIに強く認識させることで、ブレのない一貫したキャラクター描写が可能になります。
画像参照機能を使う場合でも、テキストプロンプトによる補足は欠かせません。
キャラクターの特徴を具体的に言語化することが重要です。
目の形や色、髪の長さや前髪の分け目、服装の材質、身につけているアクセサリーに至るまで、テキストで明確に定義し、それを毎回のプロンプトに必ず含めるようにします。
言語による「縛り」を入れることで、AIの解釈のブレを最小限に抑えられます。
意外と見落としがちなのが、生成する画像のアスペクト比(縦横比)です。
生成のたびに正方形にしたり、縦長にしたりと比率を変えてしまうと、AIが構図全体を再計算してしまうため、キャラクターの顔のバランスや体型が変わってしまう原因になります。
シリーズもののイラストや漫画を制作する場合は、最初に決めた縦横比のパラメータを最後まで固定して出力し続けることが、安定性を高める有効な手段となります。
画像生成AIを用いたキャラクターの固定は、漫画やWebtoon、連作イラストなどを制作するうえで、作品のクオリティと作業効率を左右する極めて重要な要素です。
かつてはAI特有のランダム性により「ガチャ」と呼ばれていた画像生成も、現在ではMidjourneyの参照機能(--cref)やStable Diffusionの拡張機能、そしてGeminiやChatGPTにおけるプロンプトの工夫によって、キャラクターを自在にコントロールできる時代になりました。
マスターキャラクターの作成や詳細な言語化、アスペクト比の統一といったプロンプトの基本を押さえつつ、自身の制作スタイルにあったAIツールを選択することが成功への近道です。
AI技術を上手く活用し、あなたの頭の中にある魅力的なストーリーとキャラクターを、ブレのない美しいビジュアルで形にしていきましょう。
Yoomを活用すれば、画像生成AIに関連する一連のタスクを自動化し、コンテンツ制作の生産性をさらに高めることができます。
例えば、「Google Driveに履歴書PDFが格納されたら、AIワーカーで画像変換してマルチモーダルに解析し採用判定を自動化する」ことが可能です。
ほかにも、「Google Driveに画像が保存されたら、AIワーカーで被写体分析と背景除去を実施する」といったワークフローを、ノーコードで簡単に構築できます。
これにより、手動での共有といった煩雑な作業が減り、ほかの業務に集中できる環境が整います。