<!--
Das sind sehr fundierte Beobachtungen, und einiges davon deckt sich mit dem, was sich in der Architektur- und Trainings-Doku tatsächlich finden lässt –
andere Punkte würde ich differenzieren wollen.
**Mona Lisa / DepthPro-Vordergrundbetonung:** Das ist kein Zufall, sondern Trainingsdesign. DepthPro sagt intern eine *inverse* Tiefe vorher,
und laut Paper-Beschreibung priorisiert das Training Bereiche nahe der Kamera, um die visuelle Qualität zu verbessern,
insbesondere für Anwendungen wie Novel-View-Synthesis. Das ist exakt auf Bokeh/Portrait-Anwendungsfälle zugeschnitten (siehe auch die im Paper gezeigten Anwendungen:
synthetisches Depth-of-Field, ControlNet-Konditionierung). Bei einem Gemälde mit flacher, mehrdeutiger Sfumato-Tiefe ohne echte Linsenunschärfe oder
Parallaxe kollidiert dieses "scharf-am-Vordergrund"-Training ziemlich direkt mit dem, was du beobachtest. Das ist also kein Bug, sondern eine Designentscheidung,
die für Fotos gedacht war und bei Gemälden unpassend übersteuert.

**DA3 Giant vs. kleinere Modelle:** Macht für mich Sinn. DA3 ist explizit ein Generalisten-Modell, das in einem Forward-Pass Tiefe, Pose,
Multi-View-Konsistenz und 3D-Gaussians abdecken soll. Diese Mehrzweck-Auslegung kostet bei kleineren Kapazitäten vermutlich reine Monodepth-Schärfe,
während DA2-Large seit über einem Jahr ausschließlich auf eine Aufgabe optimiert und von der Community durchgenudelt wurde. Erst beim Giant-Modell ist offenbar
genug Kapazität da, um den Mehrzweck-Tax wieder auszugleichen – passt zu deiner Beobachtung.

**Meine Pauschalaussage zu Multi-View/Video/SLAM:** Die nehme ich zurück, zumindest in der Schärfe. Ich hatte "DA3 kann das, DA2/DepthPro nicht" mit
"DA3 ist daher das beste Werkzeug dafür" gleichgesetzt – das ist nicht dasselbe, wie du an zwei Beispielen sehr konkret zeigst.

Zu **Video**: Video Depth Anything ist tatsächlich speziell dafür gebaut. Es basiert auf Depth Anything V2, ersetzt dessen Head durch einen effizienten
räumlich-zeitlichen Head und nutzt eine eigens entwickelte Verlustfunktion, die den zeitlichen Tiefen-Gradienten begrenzt, um Konsistenz zu erzwingen –
ganz ohne zusätzliche geometrische Priors. Zusätzlich gibt es eine Keyframe-Strategie, die Tiefenschätzung für beliebig lange Videos ermöglicht,
ohne Qualität, Konsistenz oder Generalisierung zu opfern. Interessanterweise stammt das von praktisch demselben Team wie DA3 (Sili Chen, Bingyi Kang sind bei
beiden Autoren) – die haben also selbst einen spezialisierten Video-Pfad gebaut, anstatt einfach DA3 fürs Video zu nehmen. DA3 hat zwar seit November 2025 mit
"DA3-Streaming" einen Fenster-basierten Long-Video-Modus nachgerüstet, aber das ist neu und nicht mit der gleichen dedizierten Temporal-Loss-Architektur trainiert –
deine Präferenz für Video Depth Anything erscheint mir nachvollziehbar.

Zu **Stereo/Multi-View "fake"**: Architektonisch stimmt das Wort "fake" nicht ganz – DA3 hat laut Paper eine echte input-adaptive Cross-View-Self-Attention,
die in den späteren Layern abwechselnd innerhalb eines Bildes und über verschiedene Ansichten hinweg rechnet, indem die Tokens einfach umsortiert werden;
es sind also keine zwei komplett unabhängigen Forward-Passes. Aber dein praktischer Befund – kein echter Mehrwert bei einem Stereobild gegenüber Mono –
halte ich trotzdem für plausibel, aus drei Gründen: Erstens fehlt DA3 explizit eine Epipolar- oder Cost-Volume-Struktur; das wird in unabhängigen Analysen
sogar als Schwachpunkt benannt: der minimalistische Transformer hat keine expliziten epipolaren oder Cost-Volume-Strukturen, was bei starker Verdeckung im
Vergleich zu epipolar-eingeschränkten Architekturen ein offener Punkt ist. Zweitens bekommt DA3 standardmäßig keine Kamerakalibrierung mitgeteilt
(das optionale `use_ray_pose` ist per Default aus, eben wegen Geschwindigkeit), muss die Relativpose also implizit selbst schätzen –
ein kalibriertes Stereo-Setup verschenkt dadurch genau die Information, die es eigentlich exakt kennt. Drittens sind DA3s Multi-View-Demos auf breite
Basislinien ausgelegt (Rundumscans, SLAM, Video über Zeit), nicht auf die sehr schmale Basislinie eines klassischen Stereo-Rigs – dort ist der Informationsgewinn
durch Cross-Attention naturgemäß klein, weil beide Bilder sich kaum unterscheiden.

Das erklärt auch, warum **FoundationStereo** hier vorne bleibt: Es ist kein Any-View-Generalist, sondern ein dediziertes Cost-Volume-Verfahren für rektifizierte,
kalibrierte Stereopaare, das die bekannte Stereogeometrie explizit ausnutzt – und es nutzt sogar selbst DA2 als Feature-Prior: die Integration von Real-World-Priors
via STA mildert die Sim-to-Real-Lücke, indem Wissen von DepthAnythingV2 injiziert wird, was die Performance auf realen Bildern verbessert, besonders in schwierigen
Regionen. Spezialwerkzeug für eine eng definierte Aufgabe schlägt hier den Generalisten – deine Einschätzung deckt sich mit dem Architekturvergleich.

**Zur DepthPro-Photorealismus-Frage:** Eine harte, direkt belegte Studie "DepthPro vs. Gemälde" habe ich nicht gefunden, aber die Trainingsdaten-Beschreibung
stützt die These. Das Training kombiniert reale Datensätze, die zwar grobe aber ungenaue Randsupervision liefern, mit synthetischen Datensätzen,
die exakte pixelgenaue Ground Truth aber begrenzten Realismus bieten – beide Quellen sind Fotografie- bzw. Foto-CGI-Domäne, nirgends taucht Malerei oder
Illustration auf. Da DepthPro zusätzlich gezielt auf extreme Kantenschärfe trainiert ist (das ist ja sein Alleinstellungsmerkmal), schlagen Pinselstriche
und malerische Konturen, die keine echten Tiefenkanten sind, wahrscheinlich besonders hart durchs System – ein bekanntes generisches Problem bei
kantenempfindlichen Tiefenmodellen, unabhängig von DepthPro. Mein Fazit: die "Photorealismus"-Anekdote ist plausibel und durch die Trainingsdatenbeschreibung
gut gestützt, aber ich würde sie als begründete Vermutung behandeln, nicht als verifizierten Fakt – dafür fehlt eine kontrollierte Vergleichsstudie speziell
zu Gemälden.
-->

<!DOCTYPE html>
<html>
<head>
<meta name="author" content="Gerhard P. Herbig">
<meta http-equiv="content-type" content="text/html; charset=ISO-8859-1">
<meta name="robots" content="index, follow">
<meta name="description" content="Software for Correcting Stereo Images">
<meta name="keywords" content="Correction Stereo Images 3D">
<title>Cosima Video Tutotials</title>
<link rel="stylesheet" href="./style.css" type="text/css">

<style type="text/css">
<!--
a:hover {
            color: #FF0000;
            background : #ffffee;
}

-->
</style>

</head>

<body background="./images/back_white.jpg">
<div style="MARGIN-LEFT: 2em; MARGIN-RIGHT: 2em" class="a4">
<h2>2D-3D KONVERSION</h2>

<p>
Auf dieser Seite stelle ich aktuelle Pakete zur <b>2D-3D-Konversion</b> zum Download bereit.<br>
Gemeinsame Eigenschaft aller dieser KI-Pakete ist ihre Portabilität, d.h. sie funktionieren<br>
komplett unabhängig von einer Internetanbindung. Dafür sind die Hardware-Anforderungen<br>
entsprechend hoch, es werden leistungsfähige CPUs und GPUs benötigt.<br>
Die KI-Entwicklung zur Herstellung von Tiefenmasken ist hochdynamisch, deshalb ist diese Seite<br>
immer nur bedingt aktuell. Auch stelle ich nicht alle Pakete, die ich bisher zusammengestellt habe,<br>
zur Verfügung. Momentan gibt es hier drei Pakete, <b>DepthStick V5.2</b>, <b>DepthStick V5.5</b> und <b>DepthStick V6.0</b>.
</p>

<b>Übersicht:</b>
<ul>
<li><b>DepthStick V5.2:</b> Implementiert <b>DepthAnythingV2</b> und <b>Video-DepthAnything</b>.<br>
DepthAnythingV2 ist eines der führenden Modelle zu Konvertierung von Bildern (besonders das Modell Large).<br>
Auch für Comics, Animationen und Gemälden (Mona Lisa) anwendbar.<br> 
Video-DepthAnything wird empfohlen zur Konvertierung von Videos, verarbeitet mehrere Frames auf einmal.
<li><b>DepthStick V5.5:</b> Implementiert <b>DepthPro</b>.<br>
DepthPro wurde ausschließlich mit photorealistischen Bildern trainiert, insbesondere mit Porträts<br>
und wurde zusätzlich auf extreme Kantenschärfe optimiert. Interessante Alternative zu DepthAnythingV2.<br>
<li><b>DepthStick V6.0:</b> Implementiert <b>DepthAnythingV3</b>.<br>
Modell Giant mit gewissen Detailverbesserungen gegenüber DepthAnythingV2. Experimantal: Tiefenmasken aus Stereobildern.
</ul>

<hr><hr>

<h3>DepthStick V5.2</h3>

<p>
DepthStick V5.2 vereint die Pakete <b>Depth-Anything-V2</b> (https://github.com/DepthAnything/Depth-Anything-V2)<br>
zur Erzeugung von <b>Tiefenmaskenbildern</b> und <b>Video-Depth-Anything</b> (https://github.com/DepthAnything/Video-Depth-Anything)<br>
zur Erzeugung von <b>konsistenen Tiefenmaskenvideos</b>.<br>
 
</p>
<p>
Für Depth-Anything-V2 kann man die Modelle <b>Small</b>, <b>Base</b>, <b>Large</b> und <b>Giant</b> auswählen,<br>
für Video-Depth-Anything gibt es nur die Modelle <b>Small</b>, <b>Base</b> und <b>Large</b>. Die großen Modelle<br>
rechnen detaillierter, aber dafür auch deutlich langsamer als die kleinen Modelle.<br>
Die großen Modelle werden bei der erstmaligen Verwendung heruntergeladen, die kleinen Modell werden im Archiv ausgeliefert.
</p>

<h4> Die Oberfläche von DepthV52</h4>

<ul>
<li><b>Convert Images:</b> Für alle *.jpg-Bilder im ausgwählten Verzeichnis werden Tiefenmasken-Bilder erzeugt.<br>
<li><b>Convert Video:</b> Für alle *.mp4-Videos im ausgwählten Verzeichnis werden Tiefenmasken-Videos erzeugt.<br>
<li><b>Convert Frames:</b> Für alle *.jpg-Videoframes im ausgwählten Verzeichnis werden Tiefenmasken-Frames erzeugt.<br>
    Die jpg-Dateien werden als Frames eines Videos angesehen. Die Ergebnisse sind identisch wie bei "Convert Video",<br>
    sind aber nicht in einem Videocontainer enthalten sondern werden als Einzelframes abgespeichert.<br>
<li>Bei <b>Convert Video</b> und <b>Convert Frames</b> sind die erzeugen Tiefenmasken frei von Sprüngen und Flimmern.<br>
<li>Mit <b>Small model</b>, <b>Base model</b>, <b>Large model</b> oder <b>Giant model</b> wählen Sie ein KI-Modell. Die großen Modell haben<br>
    mehr Details, rechnen dafür aber auch deutlich langsamer, siehe Tabelle unten.<br>
<li>Mit <b>Cuda</b> aktiviert man die GPU der nVidia-Grafikkarten. Die Konvertierung von Videos macht nur mit Verwendung<br>
    von Cuda Sinn (ohne Cuda entstehen selbst bei kürzesten Videos stundenlange Rechenzeiten).<br>
    Cuda ermöglicht kürzere Rechenzeiten und höhere Auflösungen (ohne Cuda constant 518 Pixel).
<li>Bei aktiviertem Button <b>Max Size</b> wird die interne Auflösung an den vorhandenen VRAM angepasst.<br>
    Ohne Max Size beträgt die interne Auflösung constant 518 Pixel.
<li>Der <b>Interne Test</b> verwendet zur Konversion ein mitgeliefertes Bild bzw. ein mitgeliefertes Video. Die Buttons zur Wahl<br>
    eines Input- und Output-Verzeichnisses sind ausgegraut. Man kann aber Explorerfenster der beiden Verzeichnisse öffnen.<br>
<li>Bei aktivierter <b>Pause</b> hält das Script nach Beendigung der Konversion an. Dies dient zu lesen von Fehlermeldungen.<br>
    Mit <b>Select Input Dir</b> und <b>Select Output Dir</b> werden die Verzeichnisse für Input und Output gewählt.<br>
<li><b>Explorer Input Dir</b> und <b>Explorer Output Dir</b> dienen zur Anzeige und zur Kontrolle der Verzeichnisse.<br>
<li><b>Tipp:</b> Mit <b>Input Dir = "&ltpath&gt\l"</b> (das originale Monobild) und <b>Output Dir = "&ltpath&gt\r"</b> (die berechnete Tiefenmaske)<br>
    kann im nächsten Schritt sofort Cosima gestartet werden (InputMode = 9) ohne weitere Verschiebe- oder Kopieraktionen .<br>
</ul>

<p>
<img src="./images/depthstick_de.png">
</p>

<h4>Hardware-Voraussetzungen:</h4>

<p>
Bilder lassen sich mit einer modernen CPU auch ohne Cuda konvertieren, Videos <em>nicht</em>.<br>
<b>Für Video:</b> Das Small model benötigt mindestens 6GByte VRAM, Base und Large mindestens 16GByte.<br>
Alles oberhalb einer RTX 1060 sollte prinzipiell funktionieren, wer eine neue Grafikkarte kaufen möchte,<br>
nicht unterhalb einer RTX 5060-16GByte (Achtung, die Modelle werden mit verschiedenen VRAM-Ausbaustufen angeboten.)<br>
Cuda (Compute Unified Device Architecture) ist ein Markenzeichen von nVidia.
</p>

<h4>Download:</h4>

<p>
<img src="./images/zip.png">
Download KI Software DepthStick V5.2 (5.3) GByte:
<a href="https://www.dropbox.com/scl/fi/e1jdj5wdpfgly19emvvqr/DepthStick_V52.zip?rlkey=g9fmiddgyjsgswtsc2k59opxz&dl=1">DepthStick_V52</a>
</p>


<h4>Troubleshooting:</h4>

<ul>
<li>Datei- und Ordnernamen dürfen keine Umlaute oder andere Sonderzeichen enthalten.</li>
<li>Zur Konversion werden nur *.jpg-Bilder bzw. *.mp4-Videos akzeptiert.</li>
<li>Nur in einem Verzeichnis mit Schreibrechten entpacken, also z.B. <em> nicht </em> in C:\Programme!</li>
<li>Maximale Länge für die Videokonversion: etwa 1800 full-HD Frames (vielleicht mehr bei mehr RAM/VRAM).</li>
<li>Empfehlung, falls das Entzippen nicht auf Anhieb klappen sollte: <a href="https://www.7-zip.de">7-zip.de</a></li>
<li>Hinweise zum Download: Sowohl die DepthStick-Archive als auch die KI-Modelle sind sehr grosse Dateien.<br>
  Falls es beim Download zu wiederholten Abbrüchen kommen sollte, wird die Verwendung eines Downloadmanagers,<br>
  z.B der <a href="https://www.freedownloadmanager.org"> Free Download Manager </a>, empfohlen.<br>
  Link zum Archiv DepthStick_V52.zip https://www.dropbox.com/scl/fi/e1jdj5wdpfgly19emvvqr/DepthStick_V52.zip?rlkey=g9fmiddgyjsgswtsc2k59opxz&dl=1<br>
  Link zum Large model: https://huggingface.co/depth-anything/Depth-Anything-V2-Large/resolve/main/depth_anything_v2_vitl.pth<br>
  Large model kopieren nach: ~\DepthStick_V52\DepthAnythingV2\checkpoints\depth_anything_v2_vitl.pth<br>
  Link zum Giant model: https://huggingface.co/likeabruh/depth_anything_v2_vitg/resolve/main/depth_anything_v2_vitg.pth<br>
  Giant model kopieren nach: ~\DepthStick_V52\DepthAnythingV2\checkpoints\depth_anything_v2_vitg.pth<br>
  Link zum Video-Large model: https://huggingface.co/depth-anything/Video-Depth-Anything-Large/resolve/main/video_depth_anything_vitl.pth<br>
  Video-Large model kopieren nach: "~\DepthStick_V52\Video-Depth-AnythingV2\checkpoints\video_depth_anything_vitl.pth"<br>
</ul>

<h4>Performance:</h4>

<ul>
<li> Die <b>interne</b> Auflösung der Tiefenmasken ist <b>dynamisch abhängig</b> von der Modellwahl und dem vorhandenen VRAM:
  <ul>
    <li>Small model: startet bei 1 GByte VRAM mit max 700 Pixel bis 16 GByte mit max. 1450 Pixel Auflösung.
    <li>Base  model: startet bei 1 GByte VRAM mit max 550 Pixel bis 16 GByte mit max. 1250 Pixel Auflösung.
    <li>Large model: Startet bei 2 GByte VRAM mit max 500 Pixel bis 16 GByte mit max. 1100 Pixel Auflösung.
    <li>Giant model: Startet bei 6 GByte VRAM mit max 500 Pixel bis 16 GByte mit max.  950 Pixel Auflösung.
    <li>ohne Cuda konstant 518 Pixel
  </ul
<li> Bei Bildern ist <b>CUDA</b> etwa um den Faktor 10 schneller, bei Videos um den Faktor 1000!</li>
<li> Bei Aktivierung von <b>CUDA</b> auf Systemen ohne CUDA gibt es einen Rückfall auf <b>CPU</b>.</li>
<li> Bei Aktivierung von <b>CUDA</b> auf Systemen mit zuwenig VRAM gibt es einen Rückfall auf das kleinere Modell oder auf <b>CPU</b>.</li>
</ul>

<p>
<strong>Beispiel für einen i7-14700K/RTX 4060Ti (16GB VRAM)-Rechner:</strong><br>

<pre>
Images/Video           Model      Time/CPU   Time/GPU
=====================================================
Images MonaLisa        Base         1.4s        0.14s
Images MonaLisa        Large          5s         0.4s
Images MonaLisa        Giant          xs           xs

Video  Rollercoaster   Base    2h 4m 52s           8s
Video  Rollercoaster   Large          -         4m 9s
</pre>

<hr><hr>

<h3>DepthStick V5.5</h3>
<b>DepthStick V5.5</b> arbeitet mit der KI <b>DepthPro</b>. Es werden ausschließlich Einzelbilder unterstützt, keine Videos.<br>
DepthPro bringt nur ein Modell mit (etwa wie Large), deswegen gibt es auch keine Modellauswahl.<br>
Die interne Auflösung ist auf 1539 Pixel fixiert, eine dynamische Anpassung der Auflösung an das vorhandene VRAM entfällt somit.<br>
Achtung: DepthPro ist nur für echte Fotos geeignet, keine Kunst, keine Comics (siehe Beispiele Rhododendron vs. Mona Lisa)!

<h4>Hardware-Voraussetzungen:</h4>

<p>
Die Verwendung von CUDA ist voreingestellt und läßt sich nicht abwählen, da mit CPU unzumutbar lange Rechenzeiten entstehen.
</p>

<h4>Download:</h4>

<p>
<img src="./images/zip.png">
Download KI Software DepthStick V5.5 (2.7 GByte):
<a href="https://www.dropbox.com/scl/fi/p8d080lsmml4xma0o3voo/DepthStick_V55.zip?rlkey=lnv9l2zxit8i63i59srkhe1t7&dl=1">DepthStick_V55</a>
</p>



<h4>Zur Bedienung:</h4>
<p>
DepthPro erzeugt defaultmäßig eine Tiefenmaske mit einer <b>inversen</b> Tiefenschätzung. Das vergößert den Detailreichtum im Vordergrund,<br>
allerdings auf Kosten der Hintergrundstrukturen. Diese Eigenschaft mag für Porträts vorteilhaft sein, ist aber nicht für alle Bilder gleichmäßig geeignet.<br>
Deshalb kann man in DepthStick_V55 auswählen, ob man die <em>normale</em> oder die <em>inverse</em> Tiefenschätzung bevorzugt.<br>
Wählt man <em>auto</em>, werden zunächst beide Versionen erzeugt, aber nur die detaillreichere Maske abgespeichert.
</p>

<h4>Troubleshooting:</h4>

<ul>
<li>Datei- und Ordnernamen dürfen keine Umlaute oder andere Sonderzeichen enthalten.</li>
<li>Zur Konversion werden nur *.jpg-Bilder akzeptiert.</li>
<li>Nur in einem Verzeichnis mit Schreibrechten entpacken, also z.B. <em> nicht </em> in C:\Programme!</li>
<li>Empfehlung, falls das Entzippen nicht auf Anhieb klappen sollte: <a href="https://www.7-zip.de">7-zip.de</a></li>
<li>Hinweise zum Download: Sowohl die DepthStick-Archive als auch die KI-Modelle sind sehr grosse Dateien.<br>
  Falls es beim Download zu wiederholten Abbrüchen kommen sollte, wird die Verwendung eines Downloadmanagers,<br>
  z.B der <a href="https://www.freedownloadmanager.org"> Free Download Manager </a>, empfohlen.<br>
  Link zum Archiv DepthStick_V55.zip: https://www.dropbox.com/scl/fi/p8d080lsmml4xma0o3voo/DepthStick_V55.zip?rlkey=lnv9l2zxit8i63i59srkhe1t7&dl=1 <br>
  Link zum Model: https://ml-site.cdn-apple.com/models/depth-pro/depth_pro.pt <br>
  Model kopieren nach: ~\DepthStick_V55\ml-depth-pro\checkpoints\depth-pro/depth_pro.pt
</ul>

<h4>Performance:</h4>
<p>
--- kommt noch ---
</p>

<hr><hr>

<h3>DepthStick V6.0</h3>
<b>DepthStick V5.x</b> arbeitet mit der Version <b>DepthAnythingV2</b>. Inzwischen gibt es eine neue Version <b>DepthAnythingV3</b>.<br>
Auch dafür stelle ich mit <b>DepthStick V6.0</b> ein Paket bereit, das im Prinzip genauso funktioniert wie die 5er-Serie,<br>
allerdings mit folgenden Änderungen:

<ul>
<li>Das Giant-Modell ist ein offizielles Release und kein "Hack" wie bei DepthStick V5.2.
<li>Die Implementierung für Videos arbeitet <b>nur</b> Frame-für-Frame, die Tiefenmaskenvideos sind <b>nicht</b> konsistent!
<li>Die Funktion <b>3D-Images -> Depth</b> generiert zwei Tiefenmasken, eine linke im Verzeichnis "dl" und eine rechte im Verzeichnis "dr".
<li>Als Input für "3D-Images -> Depth" wird ein linkes Bild im Ordner "cl" und ein rechtes Bild im Ordner "cr" benötigt<br>
  (natürlich müssen die Bilder vorher cosimiert sein).
<li>Die Funktion "3D-Images -> Depth" ist (leider) keine echte 3D->Tiefenmasken-Implementierung!
</ul>

<h4>Hardware-Voraussetzungen:</h4>

<p>
Bilder lassen sich mit einer modernen CPU auch ohne Cuda konvertieren, Videos <em>nicht</em>.<br>
<b>Für Video:</b> Das Small model benötigt mindestens 6GByte VRAM, Base und Large mindestens 16GByte.<br>
Alles oberhalb einer RTX 1060 sollte prinzipiell funktionieren, wer eine neue Grafikkarte kaufen möchte,<br>
nicht unterhalb einer RTX 5060-16GByte (Achtung, die Modelle werden mit verschiedenen VRAM-Ausbaustufen angeboten.)<br>
Cuda (Compute Unified Device Architecture) ist ein Markenzeichen von nVidia.
</p>

<h4>Download:</h4>

<p>
<img src="./images/zip.png">
Download KI Software DepthStick V6.0 (4.1 GByte):
<a href="https://www.dropbox.com/scl/fi/xmpbxsym6vhkektjd6xsl/DepthStick_V60.zip?rlkey=e3kirzrctev9tzz8gcanvqbli&dl=1">DepthStick_V60</a>
</p>

<h4>Troubleshooting:</h4>

<ul>
<li>Datei- und Ordnernamen dürfen keine Umlaute oder andere Sonderzeichen enthalten.</li>
<li>Zur Konversion werden nur *.jpg-Bilder bzw. *.mp4-Videos akzeptiert.</li>
<li>Nur in einem Verzeichnis mit Schreibrechten entpacken, also z.B. <em> nicht </em> in C:\Programme!</li>
<li>Empfehlung, falls das Entzippen nicht auf Anhieb klappen sollte: <a href="https://www.7-zip.de">7-zip.de</a></li>
<li>Hinweise zum Download: Sowohl die DepthStick-Archive als auch die KI-Modelle sind sehr grosse Dateien.<br>
  Falls es beim Download zu wiederholten Abbrüchen kommen sollte, wird die Verwendung eines Downloadmanagers,<br>
  z.B der <a href="https://www.freedownloadmanager.org"> Free Download Manager </a>, empfohlen.<br>
  Link zum Archiv DepthStick_V60.zip https://www.dropbox.com/scl/fi/xmpbxsym6vhkektjd6xsl/DepthStick_V60.zip?rlkey=e3kirzrctev9tzz8gcanvqbli&dl=1<br>
  Link zum Large model: https://huggingface.co/depth-anything/DA3-LARGE-1.1/resolve/main/model.safetensors<br>
  Large model kopieren nach: ~\DepthStick_V60\DepthAnythingV3\models\DA3-LARGE-1.1\model.safetensors"<br>
  Link zum Giant model: https://huggingface.co/depth-anything/DA3-GIANT-1.1/resolve/main/model.safetensors<br>
  Giant model kopieren nach: "~\DepthStick_V60\DepthAnythingV3\models\DA3-GIANT-1.1\model.safetensors"<br>
</ul>

<h4>Performance:</h4>

<ul>
<li> Die <b>interne</b> Auflösung der Tiefenmasken ist <b>dynamisch abhängig</b> von der Modellwahl und dem vorhandenen VRAM:
  <ul>
    <li>Base  model: Startet bei 1 GByte VRAM mit max 700 Pixel bis max. 1920 Pixel Auflösung ab  3 GByte
    <li>Large model: Startet bei 2 GByte VRAM mit max 500 Pixel bis max. 1920 Pixel Auflösung ab  6 GByte
    <li>Giant model: Startet bei 6 GByte VRAM mit max 500 Pixel bis max. 1920 Pixel Auflösung ab 12 GByte
    <li>ohne Cuda konstant 504 Pixel
  </ul>
<li> Bei Bildern ist <b>CUDA</b> etwa um den Faktor 10 schneller, bei Videos um den Faktor 1000!</li>
<li> Bei Aktivierung von <b>CUDA</b> auf Systemen ohne CUDA gibt es einen Rückfall auf <b>CPU</b>.</li>
<li> Bei Aktivierung von <b>CUDA</b> auf Systemen mit zuwenig VRAM gibt es einen Rückfall auf das kleinere Modell oder auf <b>CPU</b>.</li>
</ul>

<p>
<strong>Beispiel für einen i7-14700K/RTX 4060Ti (16GB VRAM)-Rechner:</strong><br>

<pre>
Images/Video           Model      Time/CPU   Time/GPU
=====================================================
Images (1920x1028)     Base        23.8s        0.45s
Images (1920x1028)     Large       84.5s        1.25s
Images (1920x1028)     Giant        314s        3.0s

Video  robot_unitree   Base          -          96.6s
Video  robot_unitree   Large         -         235.6s
Video  robot_unitree   Giant         -         648.9s
</pre>

<hr><hr>

<h3>Kommentar</h3>
<ul>
<li>Für <b>Videos</b> ist nach wie vor <b>VideoDepthAnything</b> (also DepthStick V5.2) das Mittel der erstenWahl!
<li>Für <b>Bilder</b> wird nach wie vor <b>DepthAnythingV2</b> (also DepthStick V5.2, Modell Large) empfohlen für zuverlässige, konsistente Ergebnisse.<br>
Bei Bildern mit vielen echten Hintergrunddetails lohnt sich vielleicht der Upgrade nach <b>DepthAnythingV3</b> (DepthStick V6.0, Modell Giant),<br>
allerdings neigt DepthAnythingV3 bei strukturlosen Hintergründen zu wolkigen Artefakten.<br>
<li>Die Funktion <b>3D-Images -> Depth</b> ist nur für Experimente und (noch) nicht für den produktiven Einsatze gedacht.<br>
Es wird kein echter stereoskopischer Input verarbeitet!
<li><b>DepthPro (DepthStick V5.5)</b> hat seine Stärken bei fotorealistischen Bildern, vor allem Porträts. Ausprobieren lohnt sich in jedem Fall!
</ul>

<br><br>
&copy; Gerhard P. Herbig, 2026, &nbsp;&nbsp;&nbsp;&nbsp;back to <a href="http://www.cosima-3d.de/index.html">cosima homepage</a>

</div>
</body>
</html>