cs.CV Arbeiten | Gist.Science

Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design

Die Arbeit stellt Dr. Seg vor, ein plug-and-play-Framework für visuelle Großsprachenmodelle, das durch einen Look-to-Confirm-Mechanismus und ein rangbasiertes Belohnungssystem die Annahme widerlegt, dass reine Sprachtrainingsparadigmen nahtlos auf visuelle Wahrnehmungsaufgaben übertragbar sind, und so die Leistung in komplexen Szenarien signifikant verbessert.

Haoxiang Sun, Tao Wang, Chenwei Tang + 2 more2026-03-06💻 cs

AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution

Die Arbeit stellt AlignVAR vor, ein neuartiges visuelles autoregressives Framework für die Bildsuperauflösung, das durch die Einführung von Spatial Consistency Autoregression und Hierarchical Consistency Constraint globale Konsistenz sicherstellt und dabei sowohl die strukturelle Kohärenz als auch die Inferenzgeschwindigkeit im Vergleich zu bestehenden Diffusionsmodellen erheblich verbessert.

Cencen Liu, Dongyang Zhang, Wen Yin + 6 more2026-03-06💻 cs

Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards

Die Arbeit stellt SOLACE vor, ein unüberwachtes Nachtrainierungsframework für Text-zu-Bild-Modelle, das durch die Nutzung eines intrinsischen Selbstvertrauenssignals als Belohnungssignal die Bildqualität verbessert, ohne externe Annotatoren oder Belohnungsmodelle zu benötigen.

Seungwook Kim, Minsu Cho2026-03-06💻 cs

Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving

Die Arbeit stellt Dr. Occ vor, ein Framework für die 3D-Besetzungsvorhersage aus Umgebungskameras, das durch eine tiefen- und regionsgeführte Architektur geometrische Ausrichtungsfehler und räumliche Klassenungleichgewichte überwindet und damit auf dem Occ3D-nuScenes-Benchmark signifikante Verbesserungen gegenüber bestehenden Methoden erzielt.

Xubo Zhu, Haoyang Zhang, Fei He + 4 more2026-03-06💻 cs

FreeAct: Freeing Activations for LLM Quantization

Der Artikel stellt FreeAct vor, ein neuartiges Quantisierungsframework für Large Language Models, das durch die Einführung token-spezifischer Transformationen für Aktivierungen die starren Einschränkungen bestehender Methoden überwindet und so insbesondere bei Diffusions- und Multimodal-LLMs die Leistung signifikant verbessert.

Xiaohao Liu, Xiaobo Xia, Manyi Zhang + 6 more2026-03-06💻 cs

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

Die Arbeit stellt Kiwi-Edit vor, ein neues State-of-the-Art-System für die videobasierte Bearbeitung, das durch eine skalierbare Datengenerierungspipeline, den daraus resultierenden großen Datensatz RefVIE und eine einheitliche Architektur mit lernbaren Abfragen die präzise Steuerung von Video-Edits mittels natürlicher Sprache und Referenzbildern erheblich verbessert.

Yiqi Lin, Guoqiang Liang, Ziyun Zeng + 3 more2026-03-06💻 cs

Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels

Der Artikel stellt Track4World vor, ein effizientes, feedforward-Modell, das auf einer globalen 3D-Szenendarstellung basiert und eine dichte, weltzentrierte 3D-Verfolgung jedes Pixels in monokularen Videos ermöglicht, wodurch es bestehende Methoden in Bezug auf Genauigkeit und Skalierbarkeit übertrifft.

Jiahao Lu, Jiayi Xu, Wenbo Hu + 5 more2026-03-06💻 cs

Gated Differential Linear Attention: A Linear-Time Decoder for High-Fidelity Medical Segmentation

Die Arbeit stellt PVT-GDLA vor, einen effizienten Decoder-basierten Transformer mit einem neuartigen gated differential linear attention-Mechanismus, der durch lineare Komplexität und verbesserte Randschärfung eine hochpräzise medizinische Bildsegmentierung auf verschiedenen Modalitäten ermöglicht.

Hongbo Zheng, Afshin Bozorgpour, Dorit Merhof + 1 more2026-03-06💻 cs

MultiShadow: Multi-Object Shadow Generation for Image Compositing via Diffusion Model

Der Artikel stellt MultiShadow vor, eine Methode, die einen vortrainierten Text-zu-Bild-Diffusionsmodell nutzt, um durch die Kombination von Bildmerkmalen und textbasierten Positionstokens realistische, geometrisch konsistente Schatten für mehrere gleichzeitig eingefügte Objekte in Bildkompositen zu generieren.

Waqas Ahmed, Dean Diepeveen, Ferdous Sohel2026-03-06💻 cs

IoUCert: Robustness Verification for Anchor-based Object Detectors

Das Paper stellt IoUCert vor, ein neuartiges formales Verifikationsframework, das erstmals die Robustheitsprüfung realer, ankerbasierter Objektdetektoren wie SSD und YOLO durch die Entwicklung einer präzisen Koordinatentransformation und einer optimierten Intervallgrenzenausbreitung für IoU-Berechnungen ermöglicht.

Benedikt Brückner, Alejandro J. Mercado, Yanghao Zhang, Panagiotis Kouvaros, Alessio Lomuscio2026-03-06🔒 cs.CR

DMD-augmented Unpaired Neural Schrödinger Bridge for Ultra-Low Field MRI Enhancement

Die Autoren stellen einen unpaarigen Übersetzungsrahmen auf Basis des Neuralen Schrödinger-Brücken-Modells vor, der durch Diffusions-gestützte Verteilungsausrichtung und anatomische Regularisierung die Bildqualität von Ultra-Niederfeld-MRT-Aufnahmen (64 mT) verbessert, ohne dabei die anatomische Struktur zu verfälschen.

Youngmin Kim, Jaeyun Shin, Jeongchan Kim + 5 more2026-03-06💻 cs

TumorFlow: Physics-Guided Longitudinal MRI Synthesis of Glioblastoma Growth

Die Arbeit stellt „TumorFlow" vor, ein physikgestütztes generatives Framework, das mithilfe biophysikalischer Wachstumsmodelle realistische, longitudinale 3D-MRT-Sequenzen von Glioblastomen synthetisiert, um das unsichtbare Tumorinfiltrationsmuster sichtbar zu machen und personalisierte Behandlungspläne zu unterstützen.

Valentin Biller, Niklas Bubeck, Lucas Zimmer + 6 more2026-03-06💻 cs

NOVA3R: Non-pixel-aligned Visual Transformer for Amodal 3D Reconstruction

NOVA3R ist ein neuartiger, feed-forward-Ansatz zur amodalen 3D-Rekonstruktion aus unpositionierten Bildern, der durch eine globale, pixelunabhängige Szenedarstellung und einen diffusionsbasierten Decoder vollständigere und physikalisch plausiblere Geometrien ohne überlappende Strukturen erzeugt als herkömmliche pixelalignierte Methoden.

Weirong Chen, Chuanxia Zheng, Ganlin Zhang + 2 more2026-03-06💻 cs

A Unified Framework for Joint Detection of Lacunes and Enlarged Perivascular Spaces

Die Autoren stellen ein morphologieentkoppeltes Framework vor, das durch den Einsatz von Zero-Initialized Gated Cross-Task Attention und einer gemischten Überwachungsstrategie die gemeinsame Detektion von Lakunen und erweiterten perivaskulären Räumen bei zerebralen Kleingefäßerkrankungen verbessert und dabei auf dem VALDO-2021-Datensatz sowie einer externen Kohorte state-of-the-art-Ergebnisse erzielt.

Lucas He, Krinos Li, Hanyuan Zhang + 7 more2026-03-06💻 cs

Gaussian Wardrobe: Compositional 3D Gaussian Avatars for Free-Form Virtual Try-On

Das Paper stellt „Gaussian Wardrobe" vor, ein neuartiges Framework, das mittels einer compositionalen 3D-Gaussian-Repräsentation aus Multi-View-Videos photorealistische Avatare mit entkoppelten, formunabhängigen Kleidungsstücken erzeugt, um so eine flexible virtuelle Anprobe und Wiederverwendung von Kleidung auf verschiedenen Personen zu ermöglichen.

Zhiyi Chen, Hsuan-I Ho, Tianjian Jiang + 3 more2026-03-06💻 cs

Lost in Translation: How Language Re-Aligns Vision for Cross-Species Pathology

Diese Studie zeigt, dass die Einführung von „Semantic Anchoring" die durch artspezifische Ausrichtung verursachte semantische Kollaps in CPath-CLIP-Modellen überwindet und durch sprachgesteuerte Neuausrichtung der visuellen Merkmale die Leistung bei der kreuzspeziesigen und kreuztumorartigen Pathologieerkennung signifikant verbessert.

Ekansh Arora2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

Die vorgestellte Arbeit führt das „Dual Tuning"-Framework ein, um durch den systematischen Vergleich von Chain-of-Thought- und Direkt-Antwort-Training eine „Denkgrenze" zu definieren, die bestimmt, für welche multimodalen Aufgaben reasoning-basierte Ansätze tatsächlich vorteilhaft sind und somit eine ressourcenschonende, adaptive Trainingsstrategie ermöglicht.

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

Die Arbeit stellt SkillNet vor, eine offene Infrastruktur, die durch die Erstellung, Evaluierung und Vernetzung von über 200.000 KI-Fähigkeiten in einer einheitlichen Ontologie die Leistung von Agenten signifikant steigert und so den Übergang von transienter Erfahrung zu dauerhafter Meisterschaft ermöglicht.

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed ⓘ💻 cs

Recognition of Daily Activities through Multi-Modal Deep Learning: A Video, Pose, and Object-Aware Approach for Ambient Assisted Living

Diese Arbeit stellt ein multimodales Deep-Learning-System vor, das Video-, Pose- und Objektdaten mittels 3D-CNNs, Graph-CNNs und Cross-Attention fusioniert, um Alltagsaktivitäten älterer Menschen in Ambient-Assisted-Living-Umgebungen robust zu erkennen und so deren Sicherheit und Selbstständigkeit zu fördern.

Kooshan Hashemifard, Pau Climent-Pérez, Francisco Florez-Revuelta2026-03-06💻 cs

InverseNet: Benchmarking Operator Mismatch and Calibration Across Compressive Imaging Modalities

Die Arbeit stellt InverseNet vor, das erste übergreifende Benchmark für Operator-Mismatch in der kompressiven Bildgebung, das zeigt, wie stark bestehende Deep-Learning-Methoden unter realen Abweichungen leiden und wie eine blind durchgeführte Kalibrierung die Leistung wiederherstellen kann.

Chengshuai Yang, Xin Yuan2026-03-06💻 cs

← Zurück Weiter →