cs.CV Arbeiten | Gist.Science

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

Die Arbeit stellt Kiwi-Edit vor, ein neues State-of-the-Art-System für die videobasierte Bearbeitung, das durch eine skalierbare Datengenerierungspipeline, den daraus resultierenden großen Datensatz RefVIE und eine einheitliche Architektur mit lernbaren Abfragen die präzise Steuerung von Video-Edits mittels natürlicher Sprache und Referenzbildern erheblich verbessert.

Yiqi Lin, Guoqiang Liang, Ziyun Zeng + 3 more2026-03-06💻 cs

Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels

Der Artikel stellt Track4World vor, ein effizientes, feedforward-Modell, das auf einer globalen 3D-Szenendarstellung basiert und eine dichte, weltzentrierte 3D-Verfolgung jedes Pixels in monokularen Videos ermöglicht, wodurch es bestehende Methoden in Bezug auf Genauigkeit und Skalierbarkeit übertrifft.

Jiahao Lu, Jiayi Xu, Wenbo Hu + 5 more2026-03-06💻 cs

Gated Differential Linear Attention: A Linear-Time Decoder for High-Fidelity Medical Segmentation

Die Arbeit stellt PVT-GDLA vor, einen effizienten Decoder-basierten Transformer mit einem neuartigen gated differential linear attention-Mechanismus, der durch lineare Komplexität und verbesserte Randschärfung eine hochpräzise medizinische Bildsegmentierung auf verschiedenen Modalitäten ermöglicht.

Hongbo Zheng, Afshin Bozorgpour, Dorit Merhof + 1 more2026-03-06💻 cs

MultiShadow: Multi-Object Shadow Generation for Image Compositing via Diffusion Model

Der Artikel stellt MultiShadow vor, eine Methode, die einen vortrainierten Text-zu-Bild-Diffusionsmodell nutzt, um durch die Kombination von Bildmerkmalen und textbasierten Positionstokens realistische, geometrisch konsistente Schatten für mehrere gleichzeitig eingefügte Objekte in Bildkompositen zu generieren.

Waqas Ahmed, Dean Diepeveen, Ferdous Sohel2026-03-06💻 cs

IoUCert: Robustness Verification for Anchor-based Object Detectors

Das Paper stellt IoUCert vor, ein neuartiges formales Verifikationsframework, das erstmals die Robustheitsprüfung realer, ankerbasierter Objektdetektoren wie SSD und YOLO durch die Entwicklung einer präzisen Koordinatentransformation und einer optimierten Intervallgrenzenausbreitung für IoU-Berechnungen ermöglicht.

Benedikt Brückner, Alejandro J. Mercado, Yanghao Zhang, Panagiotis Kouvaros, Alessio Lomuscio2026-03-06🔒 cs.CR

DMD-augmented Unpaired Neural Schrödinger Bridge for Ultra-Low Field MRI Enhancement

Die Autoren stellen einen unpaarigen Übersetzungsrahmen auf Basis des Neuralen Schrödinger-Brücken-Modells vor, der durch Diffusions-gestützte Verteilungsausrichtung und anatomische Regularisierung die Bildqualität von Ultra-Niederfeld-MRT-Aufnahmen (64 mT) verbessert, ohne dabei die anatomische Struktur zu verfälschen.

Youngmin Kim, Jaeyun Shin, Jeongchan Kim + 5 more2026-03-06💻 cs

TumorFlow: Physics-Guided Longitudinal MRI Synthesis of Glioblastoma Growth

Die Arbeit stellt „TumorFlow" vor, ein physikgestütztes generatives Framework, das mithilfe biophysikalischer Wachstumsmodelle realistische, longitudinale 3D-MRT-Sequenzen von Glioblastomen synthetisiert, um das unsichtbare Tumorinfiltrationsmuster sichtbar zu machen und personalisierte Behandlungspläne zu unterstützen.

Valentin Biller, Niklas Bubeck, Lucas Zimmer + 6 more2026-03-06💻 cs

NOVA3R: Non-pixel-aligned Visual Transformer for Amodal 3D Reconstruction

NOVA3R ist ein neuartiger, feed-forward-Ansatz zur amodalen 3D-Rekonstruktion aus unpositionierten Bildern, der durch eine globale, pixelunabhängige Szenedarstellung und einen diffusionsbasierten Decoder vollständigere und physikalisch plausiblere Geometrien ohne überlappende Strukturen erzeugt als herkömmliche pixelalignierte Methoden.

Weirong Chen, Chuanxia Zheng, Ganlin Zhang + 2 more2026-03-06💻 cs

A Unified Framework for Joint Detection of Lacunes and Enlarged Perivascular Spaces

Die Autoren stellen ein morphologieentkoppeltes Framework vor, das durch den Einsatz von Zero-Initialized Gated Cross-Task Attention und einer gemischten Überwachungsstrategie die gemeinsame Detektion von Lakunen und erweiterten perivaskulären Räumen bei zerebralen Kleingefäßerkrankungen verbessert und dabei auf dem VALDO-2021-Datensatz sowie einer externen Kohorte state-of-the-art-Ergebnisse erzielt.

Lucas He, Krinos Li, Hanyuan Zhang + 7 more2026-03-06💻 cs

Gaussian Wardrobe: Compositional 3D Gaussian Avatars for Free-Form Virtual Try-On

Das Paper stellt „Gaussian Wardrobe" vor, ein neuartiges Framework, das mittels einer compositionalen 3D-Gaussian-Repräsentation aus Multi-View-Videos photorealistische Avatare mit entkoppelten, formunabhängigen Kleidungsstücken erzeugt, um so eine flexible virtuelle Anprobe und Wiederverwendung von Kleidung auf verschiedenen Personen zu ermöglichen.

Zhiyi Chen, Hsuan-I Ho, Tianjian Jiang + 3 more2026-03-06💻 cs

Lost in Translation: How Language Re-Aligns Vision for Cross-Species Pathology

Diese Studie zeigt, dass die Einführung von „Semantic Anchoring" die durch artspezifische Ausrichtung verursachte semantische Kollaps in CPath-CLIP-Modellen überwindet und durch sprachgesteuerte Neuausrichtung der visuellen Merkmale die Leistung bei der kreuzspeziesigen und kreuztumorartigen Pathologieerkennung signifikant verbessert.

Ekansh Arora2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

Die vorgestellte Arbeit führt das „Dual Tuning"-Framework ein, um durch den systematischen Vergleich von Chain-of-Thought- und Direkt-Antwort-Training eine „Denkgrenze" zu definieren, die bestimmt, für welche multimodalen Aufgaben reasoning-basierte Ansätze tatsächlich vorteilhaft sind und somit eine ressourcenschonende, adaptive Trainingsstrategie ermöglicht.

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

Die Arbeit stellt SkillNet vor, eine offene Infrastruktur, die durch die Erstellung, Evaluierung und Vernetzung von über 200.000 KI-Fähigkeiten in einer einheitlichen Ontologie die Leistung von Agenten signifikant steigert und so den Übergang von transienter Erfahrung zu dauerhafter Meisterschaft ermöglicht.

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed ⓘ💻 cs

Recognition of Daily Activities through Multi-Modal Deep Learning: A Video, Pose, and Object-Aware Approach for Ambient Assisted Living

Diese Arbeit stellt ein multimodales Deep-Learning-System vor, das Video-, Pose- und Objektdaten mittels 3D-CNNs, Graph-CNNs und Cross-Attention fusioniert, um Alltagsaktivitäten älterer Menschen in Ambient-Assisted-Living-Umgebungen robust zu erkennen und so deren Sicherheit und Selbstständigkeit zu fördern.

Kooshan Hashemifard, Pau Climent-Pérez, Francisco Florez-Revuelta2026-03-06💻 cs

InverseNet: Benchmarking Operator Mismatch and Calibration Across Compressive Imaging Modalities

Die Arbeit stellt InverseNet vor, das erste übergreifende Benchmark für Operator-Mismatch in der kompressiven Bildgebung, das zeigt, wie stark bestehende Deep-Learning-Methoden unter realen Abweichungen leiden und wie eine blind durchgeführte Kalibrierung die Leistung wiederherstellen kann.

Chengshuai Yang, Xin Yuan2026-03-06💻 cs

Fusion and Grouping Strategies in Deep Learning for Local Climate Zone Classification of Multimodal Remote Sensing Data

Diese Studie analysiert verschiedene Fusions- und Gruppierungsstrategien in Deep-Learning-Modellen zur Klassifizierung lokaler Klimazonen mittels multimodaler Fernerkundungsdaten und zeigt, dass eine hybride Fusionsmethode in Kombination mit Bandgruppierung und Label-Merging die höchste Genauigkeit von 76,6 % erzielt und insbesondere die Vorhersage für unterrepräsentierte Klassen verbessert.

Ancymol Thomas, Jaya Sreevalsan-Nair2026-03-06💻 cs

Structure-Guided Histopathology Synthesis via Dual-LoRA Diffusion

Die Arbeit stellt „Dual-LoRA Controllable Diffusion" vor, ein einheitliches Diffusionsframework, das mithilfe von Multi-Class-Nukleus-Schwerpunkten als räumlichen Priors und zwei aufgaben spezifischen LoRA-Adaptern sowohl die lokale Strukturergänzung als auch die globale Gewebesynthese in der Histopathologie innerhalb eines einzigen Modells verbessert und dabei die strukturelle Treue sowie den Realismus gegenüber bestehenden Methoden signifikant steigert.

Xuan Xu, Prateek Prasanna2026-03-06💻 cs

Mask-aware inference with State-Space Models

Die Arbeit stellt Partial Vision Mamba (PVM) vor, eine neue Architekturkomponente, die das Prinzip der partiellen Operationen auf State-Space-Modelle wie Mamba überträgt, um deren Fähigkeit zur Verarbeitung von Eingabedaten mit willkürlich geformten ungültigen Bereichen bei Aufgaben wie Tiefenvervollständigung und Bildinpainting zu ermöglichen.

Ignasi Mas, Ramon Morros, Javier-Ruiz Hidalgo + 1 more2026-03-06💻 cs

PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing

Das Paper stellt PinPoint vor, ein umfassendes Benchmark für Composed Image Retrieval mit expliziten Negativen, Mehrfachantworten und Paraphrasierungstests, das signifikante Schwächen bestehender Methoden aufdeckt und einen trainingfreien Reranking-Ansatz zur Verbesserung vorschlägt.

Rohan Mahadev, Joyce Yuan, Patrick Poirson + 3 more2026-03-06💻 cs

SGR3 Model: Scene Graph Retrieval-Reasoning Model in 3D

Die Arbeit stellt das SGR3-Modell vor, ein trainingsfreies Framework, das multimodale Large Language Models mit retrieval-augmentierter Generierung kombiniert, um semantische 3D-Szenengraphen ohne explizite 3D-Rekonstruktion zu erzeugen und dabei durch eine gewichtete Patch-Ähnlichkeitsauswahl die Robustheit der relationalen Schlussfolgerung verbessert.

Zirui Wang, Ruiping Liu, Yufan Chen + 7 more2026-03-06💻 cs

← Zurück Weiter →