00 / 08クオリティ徹底解説

顔スワップが偽物に見える理由と修正方法

InsightFaceのinswapper_128モデルを基盤としたすべてのツール — FaceFusion、Rope、Reactor、VisoMaster — は同じ128×128ピクセルのボトルネックを共有しています。このガイドでは、結果がプラスチックに見える正確な理由を解説し、フォトリアルな出力を実現する設定・モデル・ワークフローを紹介します。

Before — face swap with plastic skin look
Before — raw inswapper output, no enhancer
After — photorealistic face swap with optimized settings
After — with face enhancer + optimized blend
128pxモデル解像度
63.3現在のリアリズムスコア
90.2達成可能スコア

ステップ1 — 問題を特定する

クイック診断:顔スワップの何が問題か?

顔スワップの品質問題は正反対の2種類に分かれます。自分の出力に当てはまる症状を選んで、修正方法に直接ジャンプしてください。

Aロウ細工 / シール状
128 × 128
  • No pores / micro-texture
  • Waxy, sticker-like skin
  • Flat lighting on face
  • Visible upscale blur
Cause

Raw 128px output upscaled without face enhancer

vs
BCGI / 過剰に滑らか
100% blend
  • Hyper-sharp, synthetic pores
  • CGI / "Instagram filter" skin
  • Unnaturally crisp eyes
  • Uncanny valley effect
Cause

Face enhancer at 100% blend — AI hallucinated all texture

Select your symptom below

あなたの顔スワップはどのように見えますか?

科学的根拠

128×128ボトルネック — すべての顔スワップツールが同じ問題を抱える理由

根本原因を理解することで、パイプラインについて適切な判断ができるようになります。モデル内部で実際に何が起きているのかを見ていきましょう。

人気のあるオープンソースの顔スワップツール — FaceFusion、Rope、Reactor、VisoMaster — はすべて同じエンジンを使っています。それはInsightFaceのinswapper_128.onnxモデルです。名前の「128」は単なるバージョン番号ではありません。モデルが学習した解像度です。

Face Swap Pipeline — Resolution at Each Stage

Detect
1920×1080
Crop
512×512
SwapBottleneck
128×128
Upscale
512×512
Paste
1920×1080

1920 × 1080 → 128 × 128 → 1920 × 1080 — Your face loses 99.6% of its pixel data at the swap stage, then gets stretched back. This is why every inswapper result needs a face enhancer.

パイプラインの仕組み

1

顔検出

顔検出器(RetinaFace、YOLO、またはScrFD)がターゲット画像・動画の中の顔を検出してクロップします。

2

128×128へのダウンスケール

クロップされた顔は、ソース画像の解像度に関わらず、正確に128×128ピクセルにリサイズされます。4Kの写真でも128ピクセル幅になります。

3

アイデンティティ転送

ArcFaceエンコーダーがソース顔の512次元の埋め込みベクトルを作成します。ONNXデコーダーがターゲットのポーズ・表情に合致しながら、ソースのアイデンティティを持つ顔を再構築します。これがすべて128×128で行われます。

4

アップスケールと貼り付け

128pxの小さな顔が元のクロップサイズに合わせてアップスケールされ、フレームに合成されます。ここで品質が崩壊します。約16,000ピクセルを数十万ピクセルに引き伸ばすことになるからです。

InsightFace公式ベンチマークデータ

InsightFaceはオープンソースの128pxモデルとPicsi.ai内に閉じ込められた商用512pxバリアントを比較した社内ベンチマークを公開しています。数字が物語っています:

モデル解像度リアリズム ↑IDスコア ↑アクセス
inswapper_128128×12863.352.8オープンソース(無料)
inswapper_512_live512×51273.7 – 90.278.4商用のみ(Picsi.ai)

リアリズムはFID(フレシェ・インセプション距離)で評価 — 距離が小さいほどリアル。スコアは0〜100のスケールに正規化(100は本物と区別不可能)。出典:InsightFace社内評価。

Realism Score Comparison (0–100)

inswapper_128128×128 · Open Source
63.3
inswapper_512512×512 · Commercial
90.2
0255075100
+42%

The commercial 512px model scores 42% higher in realism — but it's locked behind Picsi.ai. The open-source community is bridging this gap with 256px models.

次世代モデルが登場

オープンソースコミュニティは止まっていません。ReSwapper(256px、MITライセンス)とFaceFusion独自のHyperSwapモデル(256px、3.xのデフォルト)がそのギャップを縮めています。商用512pxモデルには及ばないものの、元の128pxベースラインから大きく飛躍しています。

核心的な洞察

プラスチック肌への2つの道

多くのチュートリアルが見落としている洞察があります。プラスチック肌は一つの問題ではなく、見かけ上よく似た正反対の二つの問題です。ほとんどのユーザーはどちらか一方の極端に陥っています。

No face enhancer — waxy, plastic skin
0% Enhancer — No enhancement
80% face enhancer blend — natural, optimal result
80% Enhancer — Sweet spot
100% face enhancer blend — over-processed CGI look
100% Enhancer — Over-enhanced

理想のゾーン

フェイスエンハンサーを65〜80%ブレンドに設定。リストアラーがリアルなテクスチャを追加しつつ、元の顔データが透過して自然なバリエーションを維持します。肌がリアルに見えるのは、実際に部分的にリアルだからです。

重要なポイント

フェイスエンハンサーは最大にすれば良いというクオリティスライダーではありません。AI再構築された顔と元の顔データのブレンドです。65〜80%のところで魔法が起きます。リストアラーのテクスチャを得つつ、顔をリアルに見せる自然な不完全さを失わずに済むからです。

修正方法

フォトリアルな出力のための最適FaceFusion設定

これらの設定は、何百ものコミュニティテスト・InsightFaceベンチマーク・独自のA/B比較から蒸留したものです。FaceFusionの設定に直接コピーしてください。

!

最大の間違い

フェイスエンハンサーを100%ブレンドで実行しないでください。これが「偽物に見える」結果の最も一般的な原因です。100%では、エンハンサーがすべての元の顔データをAIが幻覚したテクスチャで上書きします。65〜80%に下げると即座に改善されます。

Default FaceFusion settings — before optimization
Default Settings — before optimization
Optimized FaceFusion settings — photorealistic output
Optimized Settings — after optimization

画像顔スワップの推奨設定

顔スワップモデル

inswapper_128_fp16(または3.xではHyperSwap_256)

fp16は品質損失がほぼなくVRAMを半分使用します。HyperSwapは利用可能であれば推奨です。

フェイスエンハンサー

CodeFormer(推奨)またはGFPGAN 1.4

CodeFormerはより高いアイデンティティの忠実度を保ちます。GFPGANはよりシャープですが少し「補正感」が強い結果を出します。

エンハンサーブレンド比率

70–80%

75%から始めてください。結果が合成的すぎる場合は65%に下げ、柔らかすぎる場合は80%に上げてください。85%を超えないようにしてください。

顔検出器

RetinaFace

YOLOより正確な顔のアライメントができます。遅いですが、スワップのためのより良いランドマークマッピングを生成します。

Pixel Boost

512または768

768を超えると処理コストが二次的に増加し、品質向上の効果が薄れます。大半のユースケースでは512がスイートスポットです。

顔検出スコア

0.5(デフォルト)

難しい角度で顔が検出されない場合は下げてください。0.3以下にすると誤検出が増えます。

設定の影響:デフォルト vs 最適化

設定デフォルト最適化視覚的影響
フェイスエンハンサーなしGFPGAN 1.4 / CodeFormer絶大 — ロウ細工・シール状の見た目を完全に解消
ブレンド比率100%70–80%重要 — CGI・合成的な外観を除去
Pixel Boostオフ(128→ターゲット)512または768顕著 — 貼り付け前に顔のディテールを追加
顔検出器YOLORetinaFace適度 — ランドマークのアライメントが向上
フェイスマスクブラー00.3微細 — 貼り付け境界のアーティファクトを隠す

モデル詳細解説

顔スワップ&エンハンサーモデルマトリックス

すべてのモデルが同等ではありません。このマトリックスはFaceFusionのエコシステムで使えるすべてのスワップモデルとフェイスエンハンサーを、実際の品質とパフォーマンスデータとともに網羅しています。

顔スワップモデル

モデル解像度品質速度VRAM備考
inswapper_128128px★★☆☆☆速い~2 GBオリジナルモデル。基本品質。最も広い互換性。
inswapper_128_fp16128px★★☆☆☆速い~1 GB半精度バリアント。同品質でVRAMが半分。ベースより推奨。
ReSwapper 256256px★★★☆☆普通~3 GB2×解像度のオープンソース再現。MITライセンス。品質が測定可能に向上。
HyperSwap 256Recommended256px★★★★☆普通~3 GBFaceFusion 3.xのデフォルト。現在利用可能な最高のオープンソース品質。
inswapper_512_live512px★★★★★遅いN/A商用モデル。Picsi.aiでのみ利用可能。品質のゴールドスタンダード。

フェイスエンハンサーモデル

モデル最大解像度品質速度最適用途
GFPGAN 1.4512px★★★★☆速い動画ワークフロー。時間的安定性が最高。コミュニティの定番。
CodeFormerRecommended512px★★★★★普通画像ワークフロー。アイデンティティ保持が最高。オクルージョンへの対応も優秀。
GPEN 256256px★★★☆☆速い低VRAMシステム向け。軽量だがディテールに限界あり。
GPEN 512512px★★★★☆普通バランスの良い選択肢。重いVRAMコストなしで良好なディテール。
GPEN 10241024px★★★★☆遅い高解像度写真。優れた微細ディテール再構築。
GPEN 20482048px★★★★★非常に遅い印刷・制作用途。最大ディテールだが8GB以上のVRAMが必要。
RestoreFormer++512px★★★★☆普通損傷した・低品質のソース向け。最も強力なリストア能力。

ほとんどのユーザーへ:画像にはHyperSwap 256 + CodeFormerを75%ブレンドで、動画にはGFPGAN 1.4を70%ブレンドで使用。

顔スワップを超えて

高品質な顔転送の代替アプローチ

従来の顔スワップ(検出 → スワップ → 補正)だけが選択肢ではありません。これらの代替手法は特定のユースケースで優れた結果を出せますが、複雑さが増します。

中級★★★★★

Flux 2 Klein + BFS LoRA

Fluxの強力な画像生成バックボーンと顔スワップLoRAを組み合わせてアイデンティティ転送を行います。オープンソースで現在実現できる最もフォトリアルな単一画像の結果を生み出します。

中級★★★★☆

Wan2.1 VACE

Wan2.1のVACE(Video Aesthetic Control Engine)を使った動画ネイティブの顔転送。アイデンティティ転送が生成プロセスに組み込まれた形で動画クリップ全体を生成します。

初級★★★★☆

ACE++(スタイルリファレンス)

スタイルリファレンスコンディショニングを使ってターゲットのアイデンティティに合致する画像を生成します。顔スワップより精度は低いですが、アイデンティティが貼り付けではなく生成に組み込まれているため、より自然に見えます。

上級★★★★★

カスタムLoRAトレーニング

ターゲットのアイデンティティの15〜30枚の写真で顔専用のLoRAをトレーニングします。モデルが顔を深いレベルで学習し、任意のポーズ・照明・表情で最も一貫した高品質な結果を生み出します。

上級★★★★★

DeepFaceLab (DFL)

オリジナルのディープフェイクツール。ソース/ターゲットのペアごとに数時間かけてカスタムモデルをトレーニングします。十分なトレーニング時間とデータがあれば、最高品質の動画顔スワップを生み出します。

ツール対決

FaceFusion vs 競合ツール

これらのツールはすべて同じ基盤となるinswapperモデルを使用していますが、UI・機能・デフォルト設定によって非常に異なる体験を生み出します。実際の比較はこちらです。

ツール使いやすさ最高品質速度開発活動モデル対応リアルタイムプラットフォーム
FaceFusion★★★★☆★★★★☆★★★★☆★★★★★★★★★★対応(ウェブカメラ)Windows / Linux / macOS
Rope★★★★★★★★☆☆★★★★★★★☆☆☆★★☆☆☆対応Windows
VisoMaster★★★☆☆★★★★☆★★★☆☆★★★★☆★★★★☆非対応Windows / Linux
DeepFaceLab★☆☆☆☆★★★★★★☆☆☆☆★☆☆☆☆★★★☆☆非対応Windows
Reactor(SD拡張機能)★★★☆☆★★★☆☆★★★☆☆★★★☆☆★★☆☆☆非対応クロスプラットフォーム(A1111/Forge)

パワーユーザー向け

高度な品質パイプライン

最高品質を追求するユーザーのための、プロフェッショナルが使用するフルマルチステージパイプラインです。FaceFusionのCLIまたはComfyUIのノードワークフローとして実行できます。

ComfyUI Node Pipeline — Recommended Workflow

Face Detect

RetinaFace · 1080p

1/5
Face Swap

inswapper_128 · ONNX

2/5
Enhance

CodeFormer · 512px

3/5
Blend

face_enhancer_blend 70

4/5
Output

1920×1080 · Final

5/5
Face Detect
Face Swap
Enhance
Blend
Output
Data Flow

5ステージパイプライン

1

顔検出とアライメント

RetinaFaceを検出スコア0.5で使用します。これにより最も正確な顔のランドマークマッピングが得られ、スワップされた顔がターゲットのポーズや表情にどれだけ正確にアライメントされるかに直接影響します。アライメント不良は、ブレンド比率に次ぐ不自然な結果の原因第2位です。

--face-detector-model retinaface --face-detector-score 0.5
2

ネイティブ解像度での顔スワップ

Pixel Boostを512に設定して顔スワップを実行します。これはFaceFusionに128pxのモデル出力を貼り付け前に512pxにアップスケールするよう指示し、次のステージでフェイスエンハンサーがより多くのディテールを活用できるようにします。

--face-swapper-pixel-boost 512
3

制御されたブレンドによる顔補正

CodeFormer(画像用)またはGFPGAN 1.4(動画用)を70〜75%ブレンドで適用します。ここが魔法の起きる場所です:エンハンサーがリアルな肌のテクスチャ・毛穴パターン・微細なディテールを再構築し、25〜30%の元の顔データが結果の合成的な見た目を防ぎます。

--face-enhancer-model codeformer --face-enhancer-blend 75
4

色補正とマスク調整

フェイスマスクブラーを0.3〜0.5に設定して貼り付け境界をぼかします。スワップされた顔と周囲の肌の間に色のミスマッチがある場合は、FaceFusionの色補正オプションを使用するか、手動でカラーグレーディングパスを実行してください。

--face-mask-blur 0.3
5

最終出力と品質チェック

ターゲット解像度でエクスポートします。動画の場合、最高品質のためにtemp-frame-format PNGオプションを使用してください(ファイルは大きくなりますが圧縮アーティファクトがありません)。出力は必ず100%ズームで確認してください — 全体表示では見えないアーティファクトがクローズアップを台無しにすることがあります。

--temp-frame-format png --output-video-quality 95

フルCLIコマンド

ComfyUIノードワークフロー

ComfyUIユーザーの場合、同じパイプラインをノードグラフとして構築できます:Load Image → FaceFusion Face Swap Node → CodeFormer Enhancement Node → Color Match Node → Save Image。ComfyUIの利点は、数百枚の画像をバッチ処理し、各ステージを個別に微調整できることです。人気のノードパック:ComfyUI-ReActor、ComfyUI-FaceRestore、ComfyUI-Impact-Pack。

よくある質問

FAQ

  • 「プラスチック肌」の原因は2つ考えられます:(1) フェイスエンハンサーなしで生の顔スワップ出力を使用している — 128×128のモデルでは高解像度でリアルな肌のテクスチャを生成できません。修正方法:GFPGAN 1.4またはCodeFormerをフェイスエンハンサーとして追加してください。(2) フェイスエンハンサーを100%ブレンドで実行している — これはすべての自然な顔のバリエーションをAIが生成したテクスチャで上書きします。修正方法:ブレンドを65〜80%に下げてください。

  • inswapper_128はInsightFace(ArcFaceの開発チーム)が作成した顔スワップモデルです。モデル開発時の実用的な解像度の限界が128×128だったため、その解像度の画像でトレーニングされました。より高解像度のモデルには指数関数的に多くのトレーニングデータと計算資源が必要です。InsightFaceは512pxの商用モデル(inswapper_512_live)を持っていますが、Picsi.aiアプリ内に限定されています。

  • ゴム顔エフェクトは通常、過剰な補正が原因です。フェイスエンハンサーのブレンド比率を100%から70〜75%に下げてください。複数のエンハンサーを重ねている場合は、1つだけを残して残りを外してください。また、顔スワップ後にシャープニングフィルターを適用していないか確認してください。これらは合成的な見た目を増幅します。

  • 画像の場合:CodeFormer。元のアイデンティティをより多く保持し、部分的にオクルージョンされた顔への対応も優れています。動画の場合:GFPGAN 1.4。より時間的に安定した結果を出し、フレーム間のフリッカーが少なくなります。どちらも65〜80%ブレンドで使用し、決して100%にはしないでください。

  • 75%から始めて調整してください。結果が合成的・CGI的に見える場合は65%に下げてください。柔らかすぎる・ロウ細工のように見える場合は80%に上げてください。最適値はソース画像の品質と使用するエンハンサーモデルによって変わります。85%を超えないようにしてください — それを超えると、顔をリアルに見せる自然なテクスチャの透過が失われます。

  • はい、大幅に向上します。Pixel Boostは128pxのモデル出力をターゲットフレームに貼り付ける前にアップスケールします。512では顔のディテールが4倍になります。768では6倍です。ただし、処理コストは二次的に増加します:768は512の約2.3倍の時間がかかり、1024は4倍かかります。大半のユースケースでは、512が品質と速度のスイートスポットです。

  • 動画の顔スワップには追加の課題があります:時間的一貫性です。顔スワップはフレームごとに独立して適用されるため、顔検出・補正・ブレンドのわずかなばらつきが目に見えるフリッカーを生みます。修正方法:GFPGAN(CodeFormerより時間的に安定)を使用し、画像設定より5%低いブレンド比率にし、フレーム間で一貫性の高い顔検出のためにRetinaFaceを使用してください。

  • InsightFaceのinswapper_512_liveは存在しますが、Picsi.aiアプリ内で商用利用に限定されています。ダウンロードしてFaceFusionで使用することはできません。より高解像度のオープンソースの代替品としては、ReSwapper(256px、MITライセンス)とFaceFusionのHyperSwap(256px、3.xのデフォルト)があります。512pxの品質には届きませんが、128pxのベースラインからは大幅に向上しています。

  • ReSwapperは256×256解像度(オリジナルの2倍)でトレーニングされたinswapperアーキテクチャのオープンソース再現です。GitHubの研究者somanchiu氏が作成し、MITライセンスで公開されています。inswapper_128よりも測定可能に優れた出力を生成しますが、より多くのVRAMが必要です(約3 GB vs 約2 GB)。お使いのハードウェアが対応しているなら、ぜひ使ってください。無料の品質アップグレードです。

  • 3つの戦略があります:(1) fp16モデルバリアント(inswapper_128_fp16)を使用 — 同じ品質でVRAMが半分。(2) Pixel Boostを768から512に下げる — 品質低下は最小限で、VRAM節約が大きい。(3) 実行スレッドを1に減らす — 遅くなりますが最小のVRAM使用量。また、他のGPU負荷の高いアプリケーションを同時に実行していないことを確認してください。

  • inswapperモデルは極端なポーズ(横顔、上下を向いた顔)が苦手です。主に正面に近い顔でトレーニングされたためです。アイデンティティ埋め込みは斜めの角度では特徴を完全に再構築できません。修正方法:高品質な正面のソース写真を使用し、すべての角度で顔検出を有効にし、ツールが対応している場合は異なる角度の複数のソース写真の使用を検討してください。

  • FaceFusion自体はオープンソースですが、inswapper_128モデルにはInsightFaceの非商用研究ライセンスが付いています。商用利用の場合は、InsightFaceからモデルのライセンスを取得するか、FaceFusion 3.xの商用ライセンスのHyperSwapモデルを使用するか、inswapperに依存しないカスタムLoRAトレーニングなどの代替アプローチを使用する必要があります。

  • 3つとも同じinswapper_128モデルを使用しています。FaceFusionは最も多機能で、最も広いモデル対応と最も活発な開発が行われています(Gradio Web UI)。Ropeは最もシンプルで高速 — リアルタイムプレビュー付きのクリック&ゴーですが、Windows限定でオプションが少ないです。VisoMasterは最も高度な顔編集コントロール(ランドマーク調整、手動マスキング)を提供しコミュニティでの支持を得ていますが、学習曲線が急です。

  • 色のミスマッチは、ソースの顔がターゲットと異なる肌の色調・照明・ホワイトバランスを持つ場合に発生します。FaceFusionには色補正オプションが組み込まれています — 顔スワップの設定で有効にしてください。手動での修正方法:フェイスマスクブラー(0.3〜0.5)を調整してエッジのブレンドを改善し、ポストプロダクションで軽くカラーグレーディングを行い顔をシーンに馴染ませることを検討してください。

  • 最低限:基本的な顔スワップにはVRAM 4 GBのNVIDIA GPU(GTX 1650相当)。推奨:顔スワップ + エンハンサー + Pixel BoostにはVRAM 8 GB(RTX 3060/3070)。理想:動画処理での最大設定にはVRAM 12 GB以上(RTX 3080/4070 Ti以上)。AMD GPUはDirectML経由で動作しますが低速です。Apple Silicon MacはCoreML経由で動作し、M1 Pro以上で良好なパフォーマンスが得られます。

さあ始めましょう

フォトリアルな顔スワップを作成しよう

このガイドで学んだすべてを実践しましょう。FaceFusionのWebインターフェースでは、フェイスエンハンサー・ブレンド比率・Pixel Boost・モデル選択など、紹介したすべての設定をコマンドラインに触れることなく構成できます。

無料プランあり · クレジットカード不要 · すべての設定にアクセス可能