cs.CV Arbeiten | Gist.Science

FoSS: Modeling Long Range Dependencies and Multimodal Uncertainty in Trajectory Prediction via Fourier State Space Integration

Die Arbeit stellt FoSS vor, ein neuartiges Dual-Branch-Framework, das Frequenzbereichsanalyse mit linearen State-Space-Modellen kombiniert, um bei autonomen Fahrzeugen sowohl langfristige Abhängigkeiten als auch multimodale Unsicherheiten in der Trajektorienvorhersage mit höherer Genauigkeit und deutlich reduzierter Rechenkomplexität zu modellieren.

Yizhou Huang, Gengze Jiang, Yihua Cheng + 1 more2026-03-03💻 cs

Multi-Level Bidirectional Decoder Interaction for Uncertainty-Aware Breast Ultrasound Analysis

Die vorgestellte Arbeit schlägt einen unsicherheitsbewussten Multi-Task-Lernrahmen für die Brustultraschallanalyse vor, der durch bidirektionale Interaktion auf mehreren Decoderebenen und adaptive Gewichtung die Aufgabeninterferenz reduziert und gleichzeitig die Segmentierung sowie Klassifizierung verbessert.

Abdullah Al Shafi, Md Kawsar Mahmud Khan Zunayed, Safin Ahmmed + 2 more2026-03-03🤖 cs.AI

When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains

Diese Studie zeigt, dass Reinforcement Learning medizinische Vision-Language-Modelle vor allem dann effektiv verbessert, wenn sie durch Supervised Fine-Tuning bereits über ein solides Grundverständnis verfügen, und stellt darauf aufbauend eine optimierte Trainingsstrategie vor, die zu starken Leistungen auf mehreren medizinischen VQA-Benchmarks führt.

Ahmadreza Jeddi, Kimia Shaban, Negin Baghbanzadeh + 4 more2026-03-03💻 cs

AG-VAS: Anchor-Guided Zero-Shot Visual Anomaly Segmentation with Large Multimodal Models

Das Paper stellt AG-VAS vor, ein neuartiges Framework, das Large Multimodal Models durch die Einführung lernbarer semantischer Anker-Token und spezialisierter Module für die semantische Ausrichtung nutzt, um im Zero-Shot-Setting präzise visuelle Anomaliesegmentierung zu ermöglichen und dabei den aktuellen Stand der Technik auf mehreren Benchmarks zu übertreffen.

Zhen Qu, Xian Tao, Xiaoyi Bao + 4 more2026-03-03🤖 cs.AI

Open-Vocabulary vs Supervised Learning Methods for Post-Disaster Visual Scene Understanding

Diese Studie vergleicht überwachte Lernverfahren mit Open-Vocabulary-Modellen für das visuelle Verständnis von Katastrophenszenen und stellt fest, dass überwachte Ansätze bei verfügbaren Annotationen, insbesondere für kleine Objekte und präzise Abgrenzungen, nach wie vor die zuverlässigste Methode bleiben.

Anna Michailidou, Georgios Angelidis, Vasileios Argyriou + 2 more2026-03-03💻 cs

You Only Need One Stage: Novel-View Synthesis From A Single Blind Face Image

Die Arbeit stellt NVB-Face vor, eine neuartige einstufige Methode, die direkt aus einem einzelnen unverbesserten Gesichts-Bild konsistente und hochwertige Ansichten aus neuen Perspektiven generiert und dabei die Nachteile herkömmlicher zweistufiger Restaurierungs- und Syntheseprozesse umgeht.

Taoyue Wang, Xiang Zhang, Xiaotian Li + 2 more2026-03-03🤖 cs.AI

Perspective-Equivariant Fine-tuning for Multispectral Demosaicing without Ground Truth

Die vorgestellte Methode PEFD ermöglicht das ground-truth-freie Fine-tuning von Multispektral-Demosaicing durch Ausnutzung der perspektivischen Äquivarianz und adaptiver Basismodelle, wodurch sie in Bezug auf Detailtreue und spektrale Genauigkeit überlegene Ergebnisse liefert.

Andrew Wang, Mike Davies2026-03-03💻 cs

MixerCSeg: An Efficient Mixer Architecture for Crack Segmentation via Decoupled Mamba Attention

Die Arbeit stellt MixerCSeg vor, eine hocheffiziente Mamba-basierte Architektur für die Risssegmentierung, die durch die Kombination von CNN-, Transformer- und Mamba-Elementen sowie speziellen Modulen für Kantenerkennung und Detailverfeinerung einen neuen State-of-the-Art bei minimalem Rechenaufwand erreicht.

Zilong Zhao, Zhengming Ding, Pei Niu + 2 more2026-03-03🤖 cs.AI

TIMI: Training-Free Image-to-3D Multi-Instance Generation with Spatial Fidelity

Das Paper stellt TIMI vor, ein trainingsfreies Framework für die Bild-zu-3D-Generierung mehrerer Instanzen, das durch die Module ISG und SGU eine hohe räumliche Treue und Instanzentrennung ohne zusätzlichen Trainingsaufwand erreicht.

Xiao Cai, Lianli Gao, Pengpeng Zeng + 3 more2026-03-03💻 cs

Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

Die Arbeit stellt AOT vor, eine training-freie Methode zur effizienten Reduktion redundanter visueller Token in Video-LLMs durch die Optimierung lokaler und globaler Kontexte mittels optimalen Transports, wodurch die Recheneffizienz gesteigert und gleichzeitig die zeitliche sowie visuelle Genauigkeit erhalten bleibt.

Jinlong Li, Liyuan Jiang, Haonan Zhang + 1 more2026-03-03💻 cs

UniTalking: A Unified Audio-Video Framework for Talking Portrait Generation

Das Paper stellt UniTalking vor, ein einheitliches, end-to-end Diffusions-Framework, das mithilfe von Multi-Modal-Transformer-Blöcken und vortrainierten Video-Priors hochrealistische, lippen-synchrone sprechende Porträts mit personalisierter Sprachklonierung erzeugt und dabei bestehende Open-Source-Ansätze in Qualität und Genauigkeit übertrifft.

Hebeizi Li, Zihao Liang, Benyuan Sun + 4 more2026-03-03💻 cs

SeaVIS: Sound-Enhanced Association for Online Audio-Visual Instance Segmentation

Das Paper stellt SeaVIS vor, ein bahnbrechendes Online-Framework für die Audio-Visuelle Instanzsegmentierung, das durch den Causal Cross Attention Fusion-Modul und die Audio-Guided Contrastive Learning-Strategie die Herausforderungen der Echtzeitverarbeitung und der Unterscheidung zwischen klingenden und stummen Objekten überwindet und dabei neue State-of-the-Art-Ergebnisse auf dem AVISeg-Datensatz erzielt.

Yingjian Zhu, Ying Wang, Yuyang Hong + 5 more2026-03-03💻 cs

Unifying Language-Action Understanding and Generation for Autonomous Driving

Die Arbeit stellt LinkVLA vor, ein neuartiges Modell für das autonome Fahren, das durch die Vereinheitlichung von Sprach- und Aktionstokens in einem gemeinsamen Codebuch, ein zusätzliches Verständnisziel für bidirektionale Semantik und eine effiziente C2F-Generierung die Ausrichtung zwischen Sprache und Aktionen verbessert sowie die Inferenzzeit um 86 % reduziert.

Xinyang Wang, Qian Liu, Wenjie Ding + 7 more2026-03-03💻 cs

Revisiting Global Token Mixing in Task-Dependent MRI Restoration: Insights from Minimal Gated CNN Baselines

Die Studie zeigt, dass der Nutzen globaler Token-Mixing-Modelle für die MRI-Wiederherstellung stark von der spezifischen Aufgabe abhängt und sich je nach Degradationsstruktur und physikalischen Randbedingungen entweder durch einfache lokale CNNs ersetzen lässt oder für heteroskedastisches Rauschen unverzichtbar ist.

Xiangjian Hou, Chao Qin, Chang Ni + 3 more2026-03-03⚡ eess

Deepfake Forensics Adapter: A Dual-Stream Network for Generalizable Deepfake Detection

Die vorgestellte Arbeit stellt Deepfake Forensics Adapter (DFA) vor, ein dual-stream Framework, das durch die Kombination eines vortrainierten CLIP-Modells mit globalen und lokalen Forensik-Anpassern sowie einer interaktiven Fusion eine überlegene Generalisierungsfähigkeit und State-of-the-Art-Leistung bei der Erkennung von Deepfakes erreicht.

Jianfeng Liao, Yichen Wei, Raymond Chan Ching Bon + 3 more2026-03-03💻 cs

VidDoS: Universal Denial-of-Service Attack on Video-based Large Language Models

Die Arbeit stellt VidDoS vor, einen universellen Denial-of-Service-Angriff auf Video-basierte Large Language Models, der durch maskiertes Teacher Forcing und die Unterdrückung von Terminierungsmechanismen die Inferenz-Latenz um das 15-fache und die Token-Erweiterung um das 205-fache erhöht und somit kritische Sicherheitsrisiken in Echtzeitanwendungen wie dem autonomen Fahren verursacht.

Duoxun Tang, Dasen Dai, Jiyao Wang + 3 more2026-03-03🤖 cs.AI

From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents

Die Arbeit stellt MM-Mem vor, eine pyramidenförmige multimodale Speicherarchitektur, die auf der Fuzzy-Trace-Theorie basiert und durch eine semantische Informationsflaschenhals-Optimierung sowie eine entropiegesteuerte Abrufstrategie effiziente Langzeit-Videoverständnisfähigkeiten ermöglicht, indem sie detaillierte Wahrnehmungen schrittweise in abstrakte semantische Schemata verdichtet.

Niu Lian, Yuting Wang, Hanshu Yao + 5 more2026-03-03💬 cs.CL

UltraStar: Semantic-Aware Star Graph Modeling for Echocardiography Navigation

Das Paper stellt UltraStar vor, ein semantikbewusstes Stern-Graph-Modell, das die Echokardiographie-Navigation durch eine verlässliche, ankerbasierte globale Lokalisierung und die Reduzierung von Rauschen in historischen Trajektorien verbessert.

Teng Wang, Haojun Jiang, Chenxi Li + 6 more2026-03-03💻 cs

WildCross: A Cross-Modal Large Scale Benchmark for Place Recognition and Metric Depth Estimation in Natural Environments

Das Paper stellt WildCross vor, ein umfassendes, multimodales Benchmark-Dataset mit über 476.000 Bildern und Lidar-Daten aus natürlichen Umgebungen, das speziell entwickelt wurde, um die Herausforderungen der Ortserkennung und metrischen Tiefenschätzung in unstrukturierten Szenarien zu adressieren.

Joshua Knights, Joseph Reid, Kaushik Roy + 3 more2026-03-03💻 cs

SCATR: Mitigating New Instance Suppression in LiDAR-based Tracking-by-Attention via Second Chance Assignment and Track Query Dropout

Die Arbeit stellt SCATR vor, ein neuartiges LiDAR-basiertes Tracking-by-Attention-Modell, das durch die Einführung der architekturunabhängigen Trainingsstrategien „Second Chance Assignment" und „Track Query Dropout" die Unterdrückung neuer Instanzen effektiv bekämpft und damit die Leistungslücke zu herkömmlichen Tracking-by-Detection-Methoden schließt.

Brian Cheong, Letian Wang, Sandro Papais + 1 more2026-03-03💻 cs

← Zurück Weiter →