Warum sieht mein Face Swap wie Plastik aus?

Der 'Plastik-Haut'-Effekt hat zwei mögliche Ursachen: (1) Sie verwenden die rohe Face-Swap-Ausgabe ohne Face Enhancer — das 128×128-Modell kann bei höheren Auflösungen keine realistische Hauttextur erzeugen. Lösung: Fügen Sie GFPGAN 1.4 oder CodeFormer als Face Enhancer hinzu. (2) Sie führen den Face Enhancer bei 100% Blend aus — dadurch wird jede natürliche Gesichtsvariation durch KI-halluzinierte Textur überschrieben. Lösung: Reduzieren Sie den Blend auf 65–80%.

Was ist inswapper_128 und warum nur 128×128?

inswapper_128 ist das Face-Swap-Modell von InsightFace (dem Team hinter ArcFace). Es wurde auf 128×128-Bildern trainiert, da dies die praktische Auflösungsgrenze bei der Modellentwicklung war — höher aufgelöste Modelle benötigen exponentiell mehr Trainingsdaten und Rechenleistung. InsightFace hat ein kommerzielles 512px-Modell (inswapper_512_live), das aber nur über die Picsi.ai-App zugänglich ist.

Wie behebe ich den 'Gummi-Gesicht'-Effekt?

Der Gummi-Gesicht-Effekt wird meist durch Über-Enhancement verursacht. Reduzieren Sie das Blend-Verhältnis Ihres Face Enhancers von 100% auf 70–75%. Falls Sie mehrere Enhancer stapeln, entfernen Sie alle bis auf einen. Prüfen Sie außerdem, ob Sie nach dem Face Swap Schärfefilter anwenden — diese verstärken den synthetischen Look.

Soll ich GFPGAN oder CodeFormer verwenden?

Für Bilder: CodeFormer. Er bewahrt mehr von der ursprünglichen Identität und kommt besser mit teilweise verdeckten Gesichtern zurecht. Für Video: GFPGAN 1.4. Er erzeugt zeitlich stabilere Ergebnisse mit weniger Frame-zu-Frame-Flimmern. Beide sollten bei 65–80% Blend verwendet werden, niemals bei 100%.

Welches Blend-Verhältnis soll ich für den Face Enhancer verwenden?

Beginnen Sie bei 75% und passen Sie von dort an. Wenn das Ergebnis zu synthetisch/CGI wirkt, reduzieren Sie auf 65%. Wenn es zu weich/wächsern aussieht, erhöhen Sie auf 80%. Der optimale Wert hängt von der Qualität Ihres Quellbilds und dem jeweiligen Enhancer-Modell ab. Überschreiten Sie niemals 85% — darüber hinaus verlieren Sie das natürliche Texturdurchscheinen, das Gesichter real wirken lässt.

Verbessert Pixel Boost tatsächlich die Qualität?

Ja, erheblich. Pixel Boost skaliert die 128px-Modellausgabe hoch, bevor sie auf den Ziel-Frame eingefügt wird. Bei 512 erhalten Sie 4× so viele Gesichtsdetails. Bei 768 sogar 6×. Allerdings steigen die Kosten quadratisch: 768 dauert etwa 2,3× länger als 512, und 1024 dauert 4× so lang. Für die meisten Anwendungsfälle ist 512 der optimale Kompromiss zwischen Qualität und Geschwindigkeit.

Warum sieht mein Face Swap bei Video schlechter aus als bei Bildern?

Video-Face-Swap hat eine zusätzliche Herausforderung: zeitliche Konsistenz. Der Face Swap wird auf jeden Frame einzeln angewendet, sodass leichte Variationen bei Gesichtserkennung, Enhancement und Blending sichtbares Flimmern erzeugen. Lösungen: Verwenden Sie GFPGAN (zeitlich stabiler als CodeFormer), reduzieren Sie das Blend-Verhältnis um 5% gegenüber Ihrer Bild-Einstellung, und nutzen Sie RetinaFace für konsistentere Gesichtserkennung über alle Frames.

Gibt es eine 512×512-Version von inswapper?

InsightFaces inswapper_512_live existiert, ist aber kommerziell an die Picsi.ai-App gebunden. Sie können es weder herunterladen noch in FaceFusion verwenden. Open-Source-Alternativen mit höherer Auflösung sind ReSwapper (256px, MIT-Lizenz) und FaceFusions HyperSwap (256px, Standard in 3.x). Diese erreichen nicht die 512px-Qualität, sind aber eine deutliche Verbesserung gegenüber dem 128px-Ausgangswert.

Was ist ReSwapper und sollte ich es verwenden?

ReSwapper ist eine Open-Source-Nachbildung der inswapper-Architektur, trainiert bei 256×256 Auflösung (2× das Original). Es wurde vom Forscher somanchiu auf GitHub entwickelt und steht unter MIT-Lizenz. Es liefert messbar bessere Ergebnisse als inswapper_128, benötigt aber mehr VRAM (~3 GB vs. ~2 GB). Wenn Ihre Hardware es unterstützt: ja — es ist ein kostenloses Qualitäts-Upgrade.

Wie reduziere ich den VRAM-Verbrauch ohne Qualitätsverlust?

Drei Strategien: (1) Verwenden Sie die fp16-Modellvariante (inswapper_128_fp16) — gleiche Qualität, halber VRAM-Verbrauch. (2) Reduzieren Sie Pixel Boost von 768 auf 512 — minimaler Qualitätsverlust, erhebliche VRAM-Einsparung. (3) Reduzieren Sie die Ausführungs-Threads auf 1 — langsamer, aber minimaler VRAM-Verbrauch. Stellen Sie außerdem sicher, dass keine anderen GPU-intensiven Anwendungen gleichzeitig laufen.

Warum sieht das Gesicht aus verschiedenen Winkeln unterschiedlich aus?

Das inswapper-Modell hat Schwierigkeiten mit extremen Posen (Profilansichten, Blick nach oben/unten), da es hauptsächlich auf nahezu frontalen Gesichtern trainiert wurde. Das Identitäts-Embedding rekonstruiert Merkmale bei schrägen Winkeln nicht perfekt. Lösungen: Verwenden Sie ein hochwertiges frontales Quellfoto, aktivieren Sie die Gesichtserkennung für alle Winkel, und erwägen Sie die Verwendung mehrerer Quellfotos aus verschiedenen Winkeln, falls Ihr Tool dies unterstützt.

Kann ich FaceFusion für professionelle oder kommerzielle Arbeit nutzen?

FaceFusion selbst ist Open-Source, aber das inswapper_128-Modell hat eine nicht-kommerzielle Forschungslizenz von InsightFace. Für kommerzielle Arbeit müssten Sie entweder das Modell bei InsightFace lizenzieren, die kommerziell lizenzierten HyperSwap-Modelle in FaceFusion 3.x verwenden, oder alternative Ansätze wie benutzerdefiniertes LoRA-Training nutzen, die nicht auf inswapper angewiesen sind.

Was ist der Unterschied zwischen FaceFusion, Rope und VisoMaster?

Alle drei verwenden dasselbe inswapper_128-Modell. FaceFusion bietet die meisten Funktionen, breiteste Modellunterstützung und aktivste Entwicklung (Gradio-Weboberfläche). Rope ist das einfachste und schnellste Tool — Klick-und-los mit Echtzeit-Vorschau, aber auf Windows beschränkt und mit weniger Optionen. VisoMaster bietet die fortschrittlichsten Gesichtsbearbeitungssteuerungen (Landmark-Anpassung, manuelle Maskierung) und gewinnt in der Community an Beliebtheit, hat aber eine steilere Lernkurve.

Wie behebe ich Farbabweichungen nach dem Face Swap?

Farbabweichungen entstehen, wenn das Quellgesicht einen anderen Hautton, andere Beleuchtung oder einen anderen Weißabgleich hat als das Ziel. FaceFusion hat eine integrierte Farbkorrektur-Option — aktivieren Sie diese in den Face-Swap-Einstellungen. Für manuelle Korrekturen: Passen Sie die Gesichtsmasken-Unschärfe (0.3–0.5) an, um die Ränder besser zu verblenden, und ziehen Sie eine leichte Farbkorrektur in der Nachbearbeitung in Betracht, um das Gesicht an die Szene anzupassen.

Welche Hardware brauche ich für hochwertige Face Swaps?

Minimum: NVIDIA-GPU mit 4 GB VRAM (GTX 1650 oder vergleichbar) für einfache Face Swaps. Empfohlen: 8 GB VRAM (RTX 3060/3070) für Face Swap + Enhancer + Pixel Boost. Ideal: 12+ GB VRAM (RTX 3080/4070 Ti oder besser) für maximale Einstellungen mit Videoverarbeitung. AMD-GPUs funktionieren über DirectML, sind aber langsamer. Apple-Silicon-Macs funktionieren über CoreML mit guter Leistung ab M1 Pro.

00 / 08Qualitäts-Tiefenanalyse

Warum Ihr Face Swap gefälscht aussieht — Und wie Sie es beheben

Jedes Tool, das auf InsightFaces inswapper_128-Modell aufbaut — FaceFusion, Rope, Reactor, VisoMaster — teilt denselben 128×128-Pixel-Flaschenhals. Dieser Leitfaden erklärt genau, warum Ihre Ergebnisse plastisch wirken, und führt Sie durch die Einstellungen, Modelle und Workflows, die fotorealistische Ausgaben erzeugen.

Mein Problem diagnostizieren Zu den Einstellungen springen ↓

Before — face swap with plastic skin look — Before — raw inswapper output, no enhancer

After — photorealistic face swap with optimized settings — After — with face enhancer + optimized blend

128pxModell-Auflösung

63.3Aktueller Realismus-Score

90.2Erreichbarer Score

Schritt 1 — Problem identifizieren

Schnelldiagnose: Was stimmt mit Ihrem Face Swap nicht?

Qualitätsprobleme bei Face Swaps fallen in zwei gegensätzliche Kategorien. Wählen Sie das Symptom, das zu Ihrem Ergebnis passt, um direkt zur Lösung zu gelangen.

AWächsern / Aufkleber-Optik

No pores / micro-texture
Waxy, sticker-like skin
Flat lighting on face
Visible upscale blur

Cause

Raw 128px output upscaled without face enhancer

BCGI / Überglättet

Hyper-sharp, synthetic pores
CGI / "Instagram filter" skin
Unnaturally crisp eyes
Uncanny valley effect

Cause

Face enhancer at 100% blend — AI hallucinated all texture

Select your symptom below

Wie sieht Ihr Face Swap aus?

Die Wissenschaft

Der 128×128-Flaschenhals — Warum jedes Face-Swap-Tool dasselbe Problem hat

Das Verständnis der Grundursache hilft Ihnen, fundierte Entscheidungen über Ihre Pipeline zu treffen. Das passiert tatsächlich im Inneren des Modells.

Jedes beliebte Open-Source-Face-Swap-Tool — FaceFusion, Rope, Reactor, VisoMaster — verwendet unter der Haube denselben Motor: InsightFaces inswapper_128.onnx-Modell. Die '128' im Namen ist keine bloße Versionsnummer. Es ist die Auflösung, auf der das Modell trainiert wurde.

Face Swap Pipeline — Resolution at Each Stage

Detect1920×1080

Crop512×512

Swap128×128Bottleneck

Upscale512×512

Paste1920×1080

Detect

1920×1080

Crop

512×512

SwapBottleneck

128×128

Upscale

512×512

Paste

1920×1080

1920 × 1080 → 128 × 128 → 1920 × 1080 — Your face loses 99.6% of its pixel data at the swap stage, then gets stretched back. This is why every inswapper result needs a face enhancer.

Wie die Pipeline funktioniert

Gesichtserkennung

Ein Gesichtsdetektor (RetinaFace, YOLO oder ScrFD) findet Gesichter in Ihrem Zielbild/Video und schneidet sie aus.

Herunterskalieren auf 128×128

Das ausgeschnittene Gesicht wird auf exakt 128×128 Pixel verkleinert — unabhängig von der Auflösung Ihres Quellbilds. Ein 4K-Foto wird 128 Pixel breit.

Identitätsübertragung

Der ArcFace-Encoder erstellt ein 512-dimensionales Embedding Ihres Quellgesichts. Der ONNX-Decoder rekonstruiert ein Gesicht, das zur Pose/zum Ausdruck des Ziels passt, aber die Identität der Quelle trägt — alles bei 128×128.

Hochskalieren & Einfügen

Das winzige 128px-Gesicht wird wieder hochskaliert, um der ursprünglichen Ausschnittgröße zu entsprechen, und auf den Frame geblendet. Hier bricht die Qualität zusammen — Sie strecken etwa 16.000 Pixel, um Hunderttausende zu füllen.

InsightFaces eigene Benchmark-Daten

InsightFace veröffentlichte interne Benchmarks, die ihr Open-Source-128px-Modell mit der kommerziellen 512px-Variante innerhalb von Picsi.ai vergleichen. Die Zahlen sprechen für sich:

Modell	Auflösung	Realismus ↑	ID-Score ↑	Zugang
inswapper_128	128×128	63.3	52.8	Open-Source (kostenlos)
inswapper_512_live	512×512	73.7 – 90.2	78.4	Nur kommerziell (Picsi.ai)

Realismus bewertet durch FID (Fréchet Inception Distance) — geringere Distanz = realistischer. Scores normalisiert auf eine 0–100-Skala, wobei 100 von real nicht zu unterscheiden ist. Quelle: InsightFace interne Auswertung.

Realism Score Comparison (0–100)

inswapper_128128×128 · Open Source

63.3

inswapper_512512×512 · Commercial

90.2

0255075100

+42%

The commercial 512px model scores 42% higher in realism — but it's locked behind Picsi.ai. The open-source community is bridging this gap with 256px models.

Die nächste Generation ist da

Die Open-Source-Community hat nicht stillgestanden. ReSwapper (256px, MIT-Lizenz) und FaceFusions eigene HyperSwap-Modelle (256px, Standard in 3.x) schließen die Lücke. Während sie nicht mit dem kommerziellen 512px-Modell mithalten können, stellen sie einen bedeutenden Sprung gegenüber dem ursprünglichen 128px-Ausgangswert dar.

Die zentrale Erkenntnis

Zwei Wege zur Plastik-Haut

Hier ist die Erkenntnis, die die meisten Tutorials übersehen: Plastik-Haut ist kein einzelnes Problem — es sind zwei gegensätzliche Probleme, die täuschend ähnlich aussehen. Die meisten Nutzer stecken an einem der beiden Extreme fest.

No face enhancer — waxy, plastic skin — 0% Enhancer — No enhancement

80% face enhancer blend — natural, optimal result — 80% Enhancer — Sweet spot

100% face enhancer blend — over-processed CGI look — 100% Enhancer — Over-enhanced

Die Zielzone

Face Enhancer bei 65–80% Blend. Der Restorer fügt realistische Textur hinzu, während die ursprünglichen Gesichtsdaten durchscheinen und natürliche Variation erhalten. Die Haut sieht echt aus, weil sie ES teilweise IST.

Wichtigste Erkenntnis

Der Face Enhancer ist kein Qualitätsschieberegler, den man auf Maximum dreht. Er ist eine Mischung zwischen dem KI-rekonstruierten Gesicht und den ursprünglichen Gesichtsdaten. Die Magie passiert bei 65–80%, wo Sie die Textur des Restorers erhalten, ohne die natürlichen Unvollkommenheiten zu verlieren, die Gesichter real wirken lassen.

Die Lösung

Optimale FaceFusion-Einstellungen für fotorealistische Ausgaben

Diese Einstellungen wurden aus Hunderten von Community-Tests, InsightFace-Benchmarks und unseren eigenen A/B-Vergleichen destilliert. Kopieren Sie sie direkt in Ihre FaceFusion-Konfiguration.

Fehler Nr. 1

Führen Sie den Face Enhancer niemals bei 100% Blend aus. Dies ist die mit Abstand häufigste Ursache für 'gefälscht wirkende' Ergebnisse. Bei 100% überschreibt der Enhancer alle ursprünglichen Gesichtsdaten mit KI-halluzinierter Textur. Reduzieren Sie auf 65–80% und Sie werden sofort eine Verbesserung sehen.

Default FaceFusion settings — before optimization — Default Settings — before optimization

Optimized FaceFusion settings — photorealistic output — Optimized Settings — after optimization

Empfohlene Einstellungen für Bild-Face-Swap

Face-Swap-Modell

inswapper_128_fp16 (oder HyperSwap_256 bei 3.x)

fp16 verbraucht die Hälfte des VRAM bei vernachlässigbarem Qualitätsverlust. HyperSwap ist vorzuziehen, wenn verfügbar.

Face Enhancer

CodeFormer (bevorzugt) oder GFPGAN 1.4

CodeFormer bewahrt mehr Identitätstreue. GFPGAN erzeugt schärfere, aber etwas stärker 'enhanced' wirkende Ergebnisse.

Enhancer-Blend-Verhältnis

70–80%

Beginnen Sie bei 75%. Wenn das Ergebnis zu synthetisch wirkt, reduzieren Sie auf 65%. Wenn es zu weich wirkt, erhöhen Sie auf 80%. Überschreiten Sie niemals 85%.

Gesichtsdetektor

RetinaFace

Genauere Gesichtsausrichtung als YOLO. Langsamer, aber erzeugt besseres Landmark-Mapping für den Swap.

Pixel Boost

512 oder 768

Über 768 hinaus sind die Verarbeitungskosten quadratisch, bei abnehmendem Qualitätszuwachs. 512 ist der optimale Punkt für die meisten Anwendungsfälle.

Gesichtsdetektor-Score

0.5 (Standard)

Reduzieren, wenn Gesichter in schwierigen Winkeln nicht erkannt werden. Gehen Sie nicht unter 0.3, sonst erhalten Sie falsch positive Ergebnisse.

Einstellungsauswirkung: Standard vs. Optimiert

Einstellung	Standard	Optimiert	Visueller Effekt
Face Enhancer	Keiner	GFPGAN 1.4 / CodeFormer	Gewaltig — eliminiert den wächsernen/Aufkleber-Look vollständig
Blend-Verhältnis	100%	70–80%	Entscheidend — beseitigt CGI/synthetisches Aussehen
Pixel Boost	Aus (128→Ziel)	512 oder 768	Erheblich — fügt Gesichtsdetails vor dem Einfügen hinzu
Gesichtsdetektor	YOLO	RetinaFace	Moderat — bessere Landmark-Ausrichtung
Gesichtsmasken-Unschärfe	0	0.3	Subtil — verbirgt Artefakte an der Einfügungsgrenze

Modell-Tiefenanalyse

Face-Swap- & Enhancer-Modell-Matrix

Nicht alle Modelle sind gleich. Diese Matrix deckt jedes Swap-Modell und jeden Face Enhancer im FaceFusion-Ökosystem ab, mit realen Qualitäts- und Leistungsdaten.

Face-Swap-Modelle

Modell	Aufl.	Qualität	Geschwindigkeit	VRAM	Hinweise
inswapper_128	128px	★★☆☆☆	Schnell	~2 GB	Originalmodell. Basisqualität. Breiteste Kompatibilität.
inswapper_128_fp16	128px	★★☆☆☆	Schnell	~1 GB	Halbe-Präzision-Variante. Gleiche Qualität, halber VRAM. Dem Basismodell vorzuziehen.
ReSwapper 256	256px	★★★☆☆	Mittel	~3 GB	Open-Source-Nachbildung bei 2× Auflösung. MIT-Lizenz. Messbare Qualitätsverbesserung.
HyperSwap 256Recommended	256px	★★★★☆	Mittel	~3 GB	FaceFusion 3.x Standard. Beste derzeit verfügbare Open-Source-Qualität.
inswapper_512_live	512px	★★★★★	Langsam	N/A	Kommerzielles Modell. Nur über Picsi.ai verfügbar. Goldstandard für Qualität.

Face-Enhancer-Modelle

Modell	Max. Aufl.	Qualität	Geschwindigkeit	Optimal für
GFPGAN 1.4	512px	★★★★☆	Schnell	Video-Workflows. Zeitlich am stabilsten. Community-Favorit.
CodeFormerRecommended	512px	★★★★★	Mittel	Bild-Workflows. Beste Identitätserhaltung. Bewältigt Verdeckung gut.
GPEN 256	256px	★★★☆☆	Schnell	Systeme mit wenig VRAM. Leichtgewichtig, aber begrenzte Details.
GPEN 512	512px	★★★★☆	Mittel	Ausgewogene Option. Gute Details ohne hohe VRAM-Kosten.
GPEN 1024	1024px	★★★★☆	Langsam	Hochauflösende Fotos. Ausgezeichnete Mikro-Detail-Rekonstruktion.
GPEN 2048	2048px	★★★★★	Sehr Langsam	Druck/Produktion. Maximale Details, erfordert aber 8+ GB VRAM.
RestoreFormer++	512px	★★★★☆	Mittel	Beschädigte/minderwertige Quellen. Stärkste Restaurierungsfähigkeit.

Für die meisten Nutzer: HyperSwap 256 + CodeFormer bei 75% Blend für Bilder, GFPGAN 1.4 bei 70% Blend für Video.

Jenseits von Face Swap

Alternative Ansätze für hochwertige Gesichtsübertragung

Klassischer Face Swap (erkennen → tauschen → verbessern) ist nicht die einzige Möglichkeit. Diese alternativen Methoden können für bestimmte Anwendungsfälle überlegene Ergebnisse liefern — auf Kosten größerer Komplexität.

Fortgeschritten★★★★★

Flux 2 Klein + BFS LoRA

Verwendet Flux' leistungsstarkes Bildgenerierungs-Backbone mit einem Face-Swap LoRA für die Identitätsübertragung. Erzeugt die fotorealistischsten Einzelbild-Ergebnisse, die derzeit im Open-Source-Bereich möglich sind.

Fortgeschritten★★★★☆

Wan2.1 VACE

Video-native Gesichtsübertragung mit Wan2.1's VACE (Video Aesthetic Control Engine). Generiert komplette Video-Clips mit in den Generierungsprozess integrierter Identitätsübertragung.

Einsteiger★★★★☆

ACE++ (Stil-Referenz)

Verwendet Stil-Referenz-Konditionierung, um Bilder zu generieren, die einer Zielidentität entsprechen. Weniger präzise als Face Swap, aber natürlicher wirkend, da die Identität in die Generierung eingebaut statt aufgeklebt wird.

Experte★★★★★

Benutzerdefiniertes LoRA-Training

Trainieren Sie ein gesichtsspezifisches LoRA auf 15–30 Fotos der Zielidentität. Das Modell erlernt das Gesicht auf tiefer Ebene und erzeugt die konsistentesten und hochwertigsten Ergebnisse über jede Pose, Beleuchtung oder Ausdruck hinweg.

Experte★★★★★

DeepFaceLab (DFL)

Das ursprüngliche Deepfake-Tool. Trainiert stundenlang ein benutzerdefiniertes Modell für jedes Quell-/Zielpaar. Erzeugt die hochwertigsten Video-Face-Swaps, wenn genug Trainingszeit und Daten vorhanden sind.

Tool-Vergleich

FaceFusion vs. die Konkurrenz

Alle diese Tools verwenden dasselbe zugrundeliegende inswapper-Modell, aber ihre Benutzeroberfläche, Funktionen und Standardkonfigurationen erzeugen sehr unterschiedliche Erfahrungen. So schneiden sie wirklich ab.

Tool	Benutzerfreundlichkeit	Max. Qualität	Geschwindigkeit	Aktive Entwicklung	Modelle	Echtzeit	Plattform
FaceFusion	★★★★☆	★★★★☆	★★★★☆	★★★★★	★★★★★	Ja (Webcam)	Windows / Linux / macOS
Rope	★★★★★	★★★☆☆	★★★★★	★★☆☆☆	★★☆☆☆	Ja	Windows
VisoMaster	★★★☆☆	★★★★☆	★★★☆☆	★★★★☆	★★★★☆	Nein	Windows / Linux
DeepFaceLab	★☆☆☆☆	★★★★★	★☆☆☆☆	★☆☆☆☆	★★★☆☆	Nein	Windows
Reactor (SD-Erweiterung)	★★★☆☆	★★★☆☆	★★★☆☆	★★★☆☆	★★☆☆☆	Nein	Plattformübergreifend (A1111/Forge)

Power-User

Die erweiterte Qualitätspipeline

Für Nutzer, die absolute Höchstqualität wollen, hier ist die vollständige mehrstufige Pipeline, die von Profis verwendet wird. Diese kann in FaceFusions CLI oder als ComfyUI-Node-Workflow ausgeführt werden.

ComfyUI Node Pipeline — Recommended Workflow

Face Detect

RetinaFace · 1080p

Face Swap

inswapper_128 · ONNX

Enhance

CodeFormer · 512px

Blend

face_enhancer_blend 70

Output

1920×1080 · Final

Face Detect

RetinaFace · 1080p

1/5

Face Swap

inswapper_128 · ONNX

2/5

Enhance

CodeFormer · 512px

3/5

Blend

face_enhancer_blend 70

4/5

Output

1920×1080 · Final

5/5

Face Detect

Face Swap

Enhance

Blend

Output

Data Flow

Die 5-stufige Pipeline

Gesichtserkennung & Ausrichtung

Verwenden Sie RetinaFace mit einem Erkennungs-Score von 0.5. Dies liefert das genaueste Gesichts-Landmark-Mapping, was sich direkt darauf auswirkt, wie gut das getauschte Gesicht zur Pose und zum Ausdruck des Ziels ausgerichtet ist. Schlechte Ausrichtung ist nach dem Blend-Verhältnis die Ursache Nr. 2 für unheimliche Ergebnisse.

--face-detector-model retinaface --face-detector-score 0.5

Face Swap in nativer Auflösung

Führen Sie den Face Swap mit Pixel Boost auf 512 gesetzt aus. Dies weist FaceFusion an, die 128px-Modellausgabe vor dem Einfügen auf 512px hochzuskalieren, was dem Face Enhancer im nächsten Schritt mehr Details zum Arbeiten gibt.

--face-swapper-pixel-boost 512

Face Enhancement mit kontrolliertem Blend

Wenden Sie CodeFormer (für Bilder) oder GFPGAN 1.4 (für Video) bei 70–75% Blend an. Hier passiert die Magie: Der Enhancer rekonstruiert realistische Hauttextur, Porenmuster und Mikrodetails, während die 25–30% originalen Gesichtsdaten verhindern, dass das Ergebnis synthetisch wirkt.

--face-enhancer-model codeformer --face-enhancer-blend 75

Farbkorrektur & Maskenverfeinerung

Wenden Sie Gesichtsmasken-Unschärfe bei 0.3–0.5 an, um die Einfügungsgrenze zu weichen. Wenn es eine Farbabweichung zwischen dem getauschten Gesicht und der umgebenden Haut gibt, verwenden Sie FaceFusions Farbkorrektur-Option oder führen Sie einen manuellen Farbgradierungs-Durchgang durch.

--face-mask-blur 0.3

Endausgabe & Qualitätsprüfung

Exportieren Sie in Ihrer Zielauflösung. Für Video verwenden Sie die temp-frame-format PNG-Option für maximale Qualität (größere Dateien, aber keine Kompressionsartefakte). Überprüfen Sie die Ausgabe immer bei 100% Zoom — Artefakte, die in der Übersicht unsichtbar sind, können Nahaufnahmen ruinieren.

--temp-frame-format png --output-video-quality 95

Vollständiger CLI-Befehl

ComfyUI Node-Workflow

Für ComfyUI-Nutzer kann dieselbe Pipeline als Node-Graph aufgebaut werden: Bild laden → FaceFusion Face Swap Node → CodeFormer Enhancement Node → Farbabgleich Node → Bild speichern. Der Vorteil von ComfyUI ist, dass Sie Hunderte von Bildern stapelweise verarbeiten und jede Stufe unabhängig optimieren können. Beliebte Node-Pakete: ComfyUI-ReActor, ComfyUI-FaceRestore, ComfyUI-Impact-Pack.

FAQ

Häufig gestellte Fragen

Der 'Plastik-Haut'-Effekt hat zwei mögliche Ursachen: (1) Sie verwenden die rohe Face-Swap-Ausgabe ohne Face Enhancer — das 128×128-Modell kann bei höheren Auflösungen keine realistische Hauttextur erzeugen. Lösung: Fügen Sie GFPGAN 1.4 oder CodeFormer als Face Enhancer hinzu. (2) Sie führen den Face Enhancer bei 100% Blend aus — dadurch wird jede natürliche Gesichtsvariation durch KI-halluzinierte Textur überschrieben. Lösung: Reduzieren Sie den Blend auf 65–80%.
inswapper_128 ist das Face-Swap-Modell von InsightFace (dem Team hinter ArcFace). Es wurde auf 128×128-Bildern trainiert, da dies die praktische Auflösungsgrenze bei der Modellentwicklung war — höher aufgelöste Modelle benötigen exponentiell mehr Trainingsdaten und Rechenleistung. InsightFace hat ein kommerzielles 512px-Modell (inswapper_512_live), das aber nur über die Picsi.ai-App zugänglich ist.
Der Gummi-Gesicht-Effekt wird meist durch Über-Enhancement verursacht. Reduzieren Sie das Blend-Verhältnis Ihres Face Enhancers von 100% auf 70–75%. Falls Sie mehrere Enhancer stapeln, entfernen Sie alle bis auf einen. Prüfen Sie außerdem, ob Sie nach dem Face Swap Schärfefilter anwenden — diese verstärken den synthetischen Look.
Für Bilder: CodeFormer. Er bewahrt mehr von der ursprünglichen Identität und kommt besser mit teilweise verdeckten Gesichtern zurecht. Für Video: GFPGAN 1.4. Er erzeugt zeitlich stabilere Ergebnisse mit weniger Frame-zu-Frame-Flimmern. Beide sollten bei 65–80% Blend verwendet werden, niemals bei 100%.
Beginnen Sie bei 75% und passen Sie von dort an. Wenn das Ergebnis zu synthetisch/CGI wirkt, reduzieren Sie auf 65%. Wenn es zu weich/wächsern aussieht, erhöhen Sie auf 80%. Der optimale Wert hängt von der Qualität Ihres Quellbilds und dem jeweiligen Enhancer-Modell ab. Überschreiten Sie niemals 85% — darüber hinaus verlieren Sie das natürliche Texturdurchscheinen, das Gesichter real wirken lässt.
Ja, erheblich. Pixel Boost skaliert die 128px-Modellausgabe hoch, bevor sie auf den Ziel-Frame eingefügt wird. Bei 512 erhalten Sie 4× so viele Gesichtsdetails. Bei 768 sogar 6×. Allerdings steigen die Kosten quadratisch: 768 dauert etwa 2,3× länger als 512, und 1024 dauert 4× so lang. Für die meisten Anwendungsfälle ist 512 der optimale Kompromiss zwischen Qualität und Geschwindigkeit.
Video-Face-Swap hat eine zusätzliche Herausforderung: zeitliche Konsistenz. Der Face Swap wird auf jeden Frame einzeln angewendet, sodass leichte Variationen bei Gesichtserkennung, Enhancement und Blending sichtbares Flimmern erzeugen. Lösungen: Verwenden Sie GFPGAN (zeitlich stabiler als CodeFormer), reduzieren Sie das Blend-Verhältnis um 5% gegenüber Ihrer Bild-Einstellung, und nutzen Sie RetinaFace für konsistentere Gesichtserkennung über alle Frames.
InsightFaces inswapper_512_live existiert, ist aber kommerziell an die Picsi.ai-App gebunden. Sie können es weder herunterladen noch in FaceFusion verwenden. Open-Source-Alternativen mit höherer Auflösung sind ReSwapper (256px, MIT-Lizenz) und FaceFusions HyperSwap (256px, Standard in 3.x). Diese erreichen nicht die 512px-Qualität, sind aber eine deutliche Verbesserung gegenüber dem 128px-Ausgangswert.
ReSwapper ist eine Open-Source-Nachbildung der inswapper-Architektur, trainiert bei 256×256 Auflösung (2× das Original). Es wurde vom Forscher somanchiu auf GitHub entwickelt und steht unter MIT-Lizenz. Es liefert messbar bessere Ergebnisse als inswapper_128, benötigt aber mehr VRAM (~3 GB vs. ~2 GB). Wenn Ihre Hardware es unterstützt: ja — es ist ein kostenloses Qualitäts-Upgrade.
Drei Strategien: (1) Verwenden Sie die fp16-Modellvariante (inswapper_128_fp16) — gleiche Qualität, halber VRAM-Verbrauch. (2) Reduzieren Sie Pixel Boost von 768 auf 512 — minimaler Qualitätsverlust, erhebliche VRAM-Einsparung. (3) Reduzieren Sie die Ausführungs-Threads auf 1 — langsamer, aber minimaler VRAM-Verbrauch. Stellen Sie außerdem sicher, dass keine anderen GPU-intensiven Anwendungen gleichzeitig laufen.
Das inswapper-Modell hat Schwierigkeiten mit extremen Posen (Profilansichten, Blick nach oben/unten), da es hauptsächlich auf nahezu frontalen Gesichtern trainiert wurde. Das Identitäts-Embedding rekonstruiert Merkmale bei schrägen Winkeln nicht perfekt. Lösungen: Verwenden Sie ein hochwertiges frontales Quellfoto, aktivieren Sie die Gesichtserkennung für alle Winkel, und erwägen Sie die Verwendung mehrerer Quellfotos aus verschiedenen Winkeln, falls Ihr Tool dies unterstützt.
FaceFusion selbst ist Open-Source, aber das inswapper_128-Modell hat eine nicht-kommerzielle Forschungslizenz von InsightFace. Für kommerzielle Arbeit müssten Sie entweder das Modell bei InsightFace lizenzieren, die kommerziell lizenzierten HyperSwap-Modelle in FaceFusion 3.x verwenden, oder alternative Ansätze wie benutzerdefiniertes LoRA-Training nutzen, die nicht auf inswapper angewiesen sind.
Alle drei verwenden dasselbe inswapper_128-Modell. FaceFusion bietet die meisten Funktionen, breiteste Modellunterstützung und aktivste Entwicklung (Gradio-Weboberfläche). Rope ist das einfachste und schnellste Tool — Klick-und-los mit Echtzeit-Vorschau, aber auf Windows beschränkt und mit weniger Optionen. VisoMaster bietet die fortschrittlichsten Gesichtsbearbeitungssteuerungen (Landmark-Anpassung, manuelle Maskierung) und gewinnt in der Community an Beliebtheit, hat aber eine steilere Lernkurve.
Farbabweichungen entstehen, wenn das Quellgesicht einen anderen Hautton, andere Beleuchtung oder einen anderen Weißabgleich hat als das Ziel. FaceFusion hat eine integrierte Farbkorrektur-Option — aktivieren Sie diese in den Face-Swap-Einstellungen. Für manuelle Korrekturen: Passen Sie die Gesichtsmasken-Unschärfe (0.3–0.5) an, um die Ränder besser zu verblenden, und ziehen Sie eine leichte Farbkorrektur in der Nachbearbeitung in Betracht, um das Gesicht an die Szene anzupassen.
Minimum: NVIDIA-GPU mit 4 GB VRAM (GTX 1650 oder vergleichbar) für einfache Face Swaps. Empfohlen: 8 GB VRAM (RTX 3060/3070) für Face Swap + Enhancer + Pixel Boost. Ideal: 12+ GB VRAM (RTX 3080/4070 Ti oder besser) für maximale Einstellungen mit Videoverarbeitung. AMD-GPUs funktionieren über DirectML, sind aber langsamer. Apple-Silicon-Macs funktionieren über CoreML mit guter Leistung ab M1 Pro.

Bereit loszulegen

Erstellen Sie fotorealistische Face Swaps

Wenden Sie alles an, was Sie in diesem Leitfaden gelernt haben. Die Weboberfläche von FaceFusion ermöglicht es Ihnen, alle besprochenen Einstellungen zu konfigurieren — Face Enhancer, Blend-Verhältnisse, Pixel Boost und Modellauswahl — ganz ohne Kommandozeile.

FaceFusion kostenlos testen Installationsanleitung

Kostenloses Kontingent verfügbar · Keine Kreditkarte erforderlich · Alle Einstellungen zugänglich