cs.CV Arbeiten | Gist.Science

Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding

Die Arbeit stellt SemVID vor, ein trainingsfreies Framework zur semantischen Token-Zuteilung, das durch die Prinzipien der Beweisretention und Verbindungsstärke die Effizienz bei der Video-Temporal-Grounding signifikant steigert, ohne die Genauigkeit zu beeinträchtigen.

Jiaqi Li, Shuntian Zheng, Yixian Shen, Jia-Hong Huang, Xiaoman Lu, Minzhe Ni, Yu Guan2026-03-09💻 cs

Gabor Primitives for Accelerated Cardiac Cine MRI Reconstruction

Die vorgestellte Arbeit schlägt Gabor-Primitiven vor, die durch Modulation von Gaußschen Hüllkurven mit komplexen Exponentialfunktionen eine effiziente und physikalisch interpretierbare Rekonstruktion von beschleunigter kardialer Cine-MRT aus stark unterabgetasteten Daten ermöglichen und dabei sowohl glatte Strukturen als auch scharfe Kanten besser darstellen als bestehende Methoden.

Wenqi Huang, Veronika Spieker, Nil Stolt-Ansó, Natascha Niessen, Maik Dannecker, Sevgi Gokce Kafali, Sila Kurugol, Julia A. Schnabel, Daniel Rueckert2026-03-09💻 cs

OWL: A Novel Approach to Machine Perception During Motion

Die Arbeit stellt OWL vor, eine neuartige, analytische Methode zur Echtzeit-3D-Wahrnehmung in Bewegung, die ausschließlich auf visuellen Bewegungshinweisen basiert und damit präzise Szenenrekonstruktion sowie autonome Navigation ohne vorherige Umgebungskenntnisse ermöglicht.

Daniel Raviv, Juan D. Yepes2026-03-09💻 cs

Longitudinal Lesion Inpainting in Brain MRI via 3D Region Aware Diffusion

Die Studie stellt ein neuartiges, auf Denoising Diffusion Probabilistic Models basierendes Framework vor, das durch die Erweiterung von Region-Aware Diffusion und die Nutzung longitudinaler Kontextinformationen effizient und präzise Läsionen in 3D-MRT-Aufnahmen des Gehirns rekonstruiert, wodurch die Bildqualität verbessert und die Verarbeitungszeit im Vergleich zu bestehenden Methoden um das Zehnfache reduziert wird.

Zahra Karimaghaloo, Dumitru Fetco, Haz-Edine Assemlal, Hassan Rivaz, Douglas L. Arnold2026-03-09🤖 cs.AI

MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents

Das Paper stellt MultiHaystack vor, einen neuen Benchmark mit über 46.000 multimodalen Kandidaten und 747 Fragen, der zeigt, dass die Leistung von Multimodal Large Language Models bei der Kombination aus Retrieval und Reasoning in großen, heterogenen Korpora erheblich unter den Ergebnissen liegt, die bei Bereitstellung der korrekten Beweise erzielt werden.

Dannong Xu, Zhongyu Yang, Jun Chen, Yingfang Yuan, Ming Hu, Lei Sun, Luc Van Gool, Danda Pani Paudel, Chun-Mei Feng2026-03-09💻 cs

Interpretable Perception and Reasoning for Audiovisual Geolocation

Diese Arbeit stellt einen neuartigen Rahmen für die audiovisuelle Geolokalisierung vor, der durch die Zerlegung von Audio in semantische "akustische Atome" und deren multimodale Reasoning-Integration mit visuellen Merkmalen die globale Positionsbestimmung präzisiert und dabei einen neuen Benchmark sowie einen dreistufigen Ansatz mit interpretierbarer Wahrnehmung und Riemannscher Flow-Matching-Vorhersage einführt.

Yiyang Su, Xiaoming Liu2026-03-09💻 cs

Any to Full: Prompting Depth Anything for Depth Completion in One Stage

Das Paper stellt Any2Full vor, ein einstufiges, domainspezifisches Framework, das vortrainierte monokulare Tiefenschätzmodelle durch einen skalabewussten Prompt-Encoder anpasst, um aus unvollständigen Tiefendaten präzise und dichte Tiefenkarten zu generieren und dabei sowohl Recheneffizienz als auch Robustheit gegenüber verschiedenen Sparsity-Mustern zu verbessern.

Zhiyuan Zhou, Ruofeng Liu, Taichi Liu, Weijian Zuo, Shanshan Wang, Zhiqing Hong, Desheng Zhang2026-03-09💻 cs

Interpretable Motion Artificat Detection in structural Brain MRI

Diese Arbeit stellt einen leichten und interpretierbaren Rahmen vor, der durch die Erweiterung des diskriminativen Histogramms von Gradientenmagnituden (DHoGM) auf drei Dimensionen und die Kombination von 2D- und 3D-Features eine robuste und generalisierbare Erkennung von Bewegungsartefakten in strukturellen T1-gewichteten Gehirn-MRTs ermöglicht.

Naveetha Nithianandam, Prabhjot Kaur, Anil Kumar Sao2026-03-09💻 cs

Unlocking ImageNet's Multi-Object Nature: Automated Large-Scale Multilabel Annotation

Diese Arbeit stellt eine automatisierte Pipeline vor, die den ImageNet-Trainingsdatensatz ohne menschliche Annotationen in ein Multilabel-Datenset umwandelt und dadurch durch genauere Objekterkennung die Leistung und Übertragbarkeit von Bilderkennungsmodellen signifikant verbessert.

Junyu Chen, Md Yousuf Harun, Christopher Kanan2026-03-09💻 cs

From Phase Grounding to Intelligent Surgical Narratives

Die vorgestellte Studie entwickelt einen CLIP-basierten multimodalen Ansatz, der chirurgische Videos automatisch in strukturierte Zeitpläne und narrative Beschreibungen umwandelt, um den manuellen Aufwand für die Nachbereitung von Operationen zu reduzieren.

Ethan Peterson, Huixin Zhan2026-03-09💻 cs

Uni-LVC: A Unified Method for Intra- and Inter-Mode Learned Video Compression

Die Arbeit stellt Uni-LVC vor, eine einheitliche Methode für gelerntes Videocompression, die Intra- und Inter-Coding in einem einzigen Modell vereint und durch einen Zuverlässigkeits-basierten Mechanismus sowie Cross-Attention-Adaption eine überlegene Rate-Distortion-Leistung bei unzuverlässigen Referenzrahmen gewährleistet.

Yichi Zhang, Ruoyu Yang, Fengqing Zhu2026-03-09💻 cs

Full Dynamic Range Sky-Modelling For Image Based Lighting

Die Arbeit stellt Icarus vor, ein voll dynamisches Bereich-Sky-Modell, das mittels Deep Learning fotorealistische, wetterunabhängige Umgebungskarten mit präziser Sonnenausleuchtung und Wolkensteuerung für das Image-Based Lighting generiert und dabei die Limitationen bestehender neuronaler Modelle überwindet.

Ian J. Maquignaz2026-03-09🤖 cs.LG

Bridging Domains through Subspace-Aware Model Merging

Die Arbeit stellt SCORE vor, eine Methode zur Subraum-Konfliktlösung, die durch die Projektion von Task-Matrizen auf eine gemeinsame orthogonale Basis die Generalisierungsfähigkeit von fusionierten Modellen auf unbekannte Domänen verbessert.

Levy Chaves, Chao Zhou, Rebekka Burkholz, Eduardo Valle, Sandra Avila2026-03-09🤖 cs.AI

Layer-wise Instance Binding for Regional and Occlusion Control in Text-to-Image Diffusion Transformers

Das Paper stellt LayerBind vor, eine trainingsfreie und plug-and-play-Methode für Diffusion Transformer, die durch eine zweiphasige, schichtbasierte Instanzbindung präzise regionale Steuerung und die Kontrolle von Okklusionsreihenfolgen in der Text-zu-Bild-Generierung ermöglicht.

Ruidong Chen, Yancheng Bai, Xuanpu Zhang, Jianhao Zeng, Lanjun Wang, Dan Song, Lei Sun, Xiangxiang Chu, Anan Liu2026-03-09💻 cs

Visual Words Meet BM25: Sparse Auto-Encoder Visual Word Scoring for Image Retrieval

Die Arbeit stellt BM25-V vor, ein effizientes zweistufiges Bildsuchsystem, das Okapi-BM25-Bewertungen auf spärliche visuelle Wortaktivierungen eines Sparse Auto-Encoders anwendet, um eine hohe Trefferquote zu erreichen und gleichzeitig die Interpretierbarkeit der Suchergebnisse zu verbessern.

Donghoon Han, Eunhwan Park, Seunghyeon Seo2026-03-09🤖 cs.AI

Spectral Probing of Feature Upsamplers in 2D-to-3D Scene Reconstruction

Die Studie zeigt, dass für die 2D-zu-3D-Rekonstruktion die Erhaltung der spektralen Struktur durch Upsampler entscheidender ist als die bloße Verbesserung räumlicher Details, wobei ein neu entwickelter diagnostischer Rahmen mit sechs Metriken aufzeigt, dass strukturelle spektrale Konsistenz die Qualität der Neuen View Synthese am besten vorhersagt.

Ling Xiao, Yuliang Xiu, Yue Chen, Guoming Wang, Toshihiko Yamasaki2026-03-09💻 cs

EventGeM: Global-to-Local Feature Matching for Event-Based Visual Place Recognition

Die Arbeit stellt EventGeM vor, einen Echtzeit-Algorithmus für die ereignisbasierte visuelle Ortsbestimmung, der durch die Fusion globaler und lokaler Merkmale sowie die Nutzung von Tiefenschätzungen einen neuen State-of-the-Art auf verschiedenen Benchmark-Datensätzen und in realen Robotereinsätzen erreicht.

Adam D. Hines, Gokul B. Nair, Nicolás Marticorena, Michael Milford, Tobias Fischer2026-03-09💻 cs

Training-free Latent Inter-Frame Pruning with Attention Recovery

Die Arbeit stellt LIPAR vor, ein trainingsfreies Framework zur Beschleunigung der Videogenerierung durch das Überspringen redundanter Latent-Patches und eine neuartige Aufmerksamkeitswiederherstellung, das die Durchsatzrate um das 1,45-fache steigert, ohne die Bildqualität zu beeinträchtigen.

Dennis Menn, Yuedong Yang, Bokun Wang, Xiwen Wei, Mustafa Munir, Feng Liang, Radu Marculescu, Chenfeng Xu, Diana Marculescu2026-03-09💻 cs

Margin and Consistency Supervision for Calibrated and Robust Vision Models

Die Arbeit stellt MaCS vor, ein architekturunabhängiges Regularisierungsframework, das durch die Kombination von Margin- und Konsistenzstrafen die Kalibrierung und Robustheit von Vision-Modellen verbessert, ohne zusätzliche Daten oder Architekturänderungen zu erfordern.

Salim Khazem2026-03-09🤖 cs.AI

Architectural Unification for Polarimetric Imaging Across Multiple Degradations

Die Arbeit stellt ein einheitliches Architektur-Framework für die polarimetrische Bildgebung vor, das durch eine einzelne Verarbeitungsstufe und die gleichzeitige Bild- und Stokes-Domänen-Bearbeitung physikalische Konsistenz gewährleistet und damit bei verschiedenen Degradationen wie Rauschen, Bewegungsunschärfe und Mosaikartefakten state-of-the-art Ergebnisse erzielt.

Chu Zhou, Yufei Han, Junda Liao, Linrui Dai, Wangze Xu, Art Subpa-Asa, Heng Guo, Boxin Shi, Imari Sato2026-03-09💻 cs

← Zurück Weiter →