cs.CV Arbeiten | Gist.Science

Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach

Die Arbeit stellt FlashCache vor, einen frequenzdomänengesteuerten Ansatz zur Komprimierung des Multimodal-KV-Caches, der durch die Identifizierung und Erhaltung von Ausreißer-KV-Paaren sowie eine dynamische Budgetzuweisung die Inferenzgeschwindigkeit und Speichereffizienz von Multimodal Large Language Models signifikant verbessert, ohne die Leistung zu beeinträchtigen.

Yaoxin Yang, Peng Ye, Xudong Tan + 4 more2026-03-06💻 cs

MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection

Das Paper stellt MambaTAD vor, ein neuartiges, end-to-end trainierbares Modell für die Erkennung zeitlicher Aktionen in ungeschnittenen Videos, das durch die Einführung eines diagonal-maskierten bidirektionalen Zustandsraummoduls und eines globalen Merkmalsfusionskopfs die Herausforderungen langer Aktionsdauer und globaler Kontextmodellierung effizient löst.

Hui Lu, Yi Yu, Shijian Lu + 4 more2026-03-06💻 cs

Observer-Actor: Active Vision Imitation Learning with Sparse-View Gaussian Splatting

Das Paper stellt ObAct vor, ein Framework für aktives visuelles Imitationslernen, bei dem ein Roboterarm als Beobachter eine 3D-Gaussian-Splatting-Repräsentation erstellt und eine optimale Kameraposition einnimmt, um die Sichtbarkeit für den ausführenden Arm zu maximieren und so die Robustheit der Politik gegenüber Verdeckungen signifikant zu verbessern.

Yilong Wang, Cheng Qian, Ruomeng Fan + 1 more2026-03-06💻 cs

STAvatar: Soft Binding and Temporal Density Control for Monocular 3D Head Avatars Reconstruction

Die Arbeit stellt STAvatar vor, ein Verfahren zur monokularen Rekonstruktion animierbarer 3D-Kopf-Avatare, das durch ein UV-adaptives Soft-Binding-Framework und eine zeitliche Dichte-Kontrollstrategie starre Bewegungen überwindet und hochwertige Details sowie verdeckte Bereiche präzise erfasst.

Jiankuo Zhao, Xiangyu Zhu, Zidu Wang + 1 more2026-03-06💻 cs

RadarVLM: A Vision-Language Model Approach for Radar Scene Understanding

Das Paper stellt RadarVLM vor, ein Vision-Language-Modell, das durch strukturierte sprachliche Supervision und ein neuartiges räumlich verankertes CLIP-Verfahren (SG-CLIP) auf Basis von über 800.000 simulierten Radardaten-Szenen eine einheitliche Darstellung für die räumlich präzise Radarszenenanalyse ermöglicht.

Pushkal Mishra, Kshitiz Bansal, Dinesh Bharadia2026-03-06💻 cs

PowerCLIP: Powerset Alignment for Contrastive Pre-Training

Die Arbeit stellt PowerCLIP vor, ein neuartiges kontrastives Vor-Trainingsframework, das durch effiziente nicht-lineare Aggregatoren (NLAs) eine exponentiell komplexe Powerset-Ausrichtung von Bildregionen und Textphrasen auf lineare Komplexität reduziert, um die Zusammensetzung von Semantik zu verbessern und damit den State-of-the-Art bei Zero-Shot-Aufgaben zu übertreffen.

Masaki Kawamura, Nakamasa Inoue, Rintaro Yanagi + 2 more2026-03-06💻 cs

DPAC: Distribution-Preserving Adversarial Control for Diffusion Sampling

Die Arbeit stellt DPAC vor, eine Methode zur adversarialen Steuerung von Diffusionsmodellen, die durch Projektion der Gradienten auf den Tangentialraum der generativen Score-Geometrie die Verteilungserhaltung optimiert und so bei gleicher Angriffserfolgsrate eine signifikant höhere Bildqualität und geringere Verteilungsdrift erreicht.

Han-Jin Lee, Han-Ju Lee, Jin-Seong Kim + 1 more2026-03-06💻 cs

Fairness-Aware Fine-Tuning of Vision-Language Models for Medical Glaucoma Diagnosis

Die vorgestellte Arbeit führt einen Fairness-bewussten Fine-Tuning-Ansatz für medizinische Vision-Language-Modelle zur Glaukomdiagnose ein, der durch eine differentiable MaxAccGap-Verlustfunktion und effiziente Low-Rank Adaptation (LoRA) die diagnostischen Genauigkeitsunterschiede zwischen demografischen Gruppen um 69 % reduziert, ohne dabei die Gesamtgenauigkeit signifikant zu beeinträchtigen.

Zijian Gu, Yuxi Liu, Zhenhao Zhang + 1 more2026-03-06💻 cs

UniComp: Rethinking Video Compression Through Informational Uniqueness

Dieses Paper stellt UniComp vor, einen informationsunabhängigkeitsgetriebenen Video-Kompressionsrahmen, der durch Minimierung der bedingten Entropie und die Einführung von Modulen für semantische Frame-Gruppierung, adaptive Ressourcenallokation und räumliche dynamische Kompression eine überlegene Bildqualität unter begrenzten Rechenbudgets gewährleistet.

Chao Yuan, Shimin Chen, Minliang Lin + 3 more2026-03-06💻 cs

NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation

Die Arbeit stellt NeuralRemaster vor, eine modellunabhängige Methode namens Phase-Preserving Diffusion (φ-PD), die bei der Generierung von Bildern und Videos die Phasenkomponente des Eingabesignals bewahrt, um strukturerhaltende und geometrisch konsistente Ergebnisse für Aufgaben wie Re-Rendering und Sim-to-Real-Transfer zu ermöglichen.

Yu Zeng, Charles Ochoa, Mingyuan Zhou + 3 more2026-03-06💻 cs

Revolutionizing Mixed Precision Quantization: Towards Training-free Automatic Proxy Discovery via Large Language Models

Dieses Paper stellt TAP vor, einen neuartigen, trainingsfreien Rahmen, der Large Language Models und evolutionäre Suchstrategien nutzt, um automatisch überlegene Proxy-Modelle für die gemischte Präzisionsquantisierung zu entdecken und dabei menschliches Expertenwissen sowie aufwendige Optimierungen überflüssig macht.

Haidong Kang, Jun Du, Lihong Lin2026-03-06💻 cs

EgoCampus: Egocentric Pedestrian Eye Gaze Model and Dataset

Die Autoren stellen den EgoCampus-Datensatz und das zugehörige Modell EgoCampusNet vor, die erstmals die Vorhersage von Blickrichtungen von Fußgängern in realen, outdoor-Umgebungen auf einem Universitätscampus ermöglichen.

Ronan John, Aditya Kesari, Vincenzo DiMatteo + 1 more2026-03-06💻 cs

DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance

Die Arbeit stellt DriverGaze360 vor, einen umfassenden Datensatz mit rund einer Million gaze-labeled Frames aus 360°-Sicht sowie das zugehörige Deep-Learning-Modell DriverGaze360-Net, das durch objektleitende Aufmerksamkeit und semantische Segmentierung die Vorhersage von Fahreraufmerksamkeit in panoramischen Fahrtszenarien auf den aktuellen Stand der Technik hebt.

Shreedhar Govil, Didier Stricker, Jason Rambach2026-03-06💻 cs

ViRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking

Das Paper stellt ViRC vor, ein Framework, das durch einen Reason-Chunking-Mechanismus und den CRUX-Datensatz multimodale mathematische Schlussfolgerungen in kritische logische Einheiten zerlegt, um menschliche Problemlösungsmuster nachzuahmen und die Leistung von Multimodal-Modellen signifikant zu steigern.

Lihong Wang, Liangqi Li, Weiwei Feng + 6 more2026-03-06💻 cs

FluenceFormer: Transformer-Driven Multi-Beam Fluence Map Regression for Radiotherapy Planning

Die Arbeit stellt FluenceFormer vor, ein transformer-basiertes Framework mit einem zweistufigen, physik-informierten Ansatz zur direkten Regression von Strahlungsflusskarten für die Radiotherapie, das durch die Integration anatomischer und geometrischer Informationen sowie einer speziellen Verlustfunktion signifikant präzisere und physikalisch konsistentere Behandlungspläne als herkömmliche CNN-Methoden erzeugt.

Ujunwa Mgboh, Rafi Ibn Sultan, Joshua Kim + 2 more2026-03-06💻 cs

Parallel Diffusion Solver via Residual Dirichlet Policy Optimization

Die Arbeit stellt den EPD-Solver vor, einen parallelen ODE-Löser, der durch die Integration mehrerer Gradientenbewertungen und eine effiziente RL-basierte Feinabstimmung in einem niedrigdimensionalen Lösungsraum die Latenz bei der Diffusionsgenerierung senkt, ohne dabei die Bildqualität zu beeinträchtigen.

Ruoyu Wang, Ziyu Li, Beier Zhu + 5 more2026-03-06💻 cs

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

Die Arbeit stellt PhyGDPO vor, ein physikbewusstes Framework für die Text-zu-Video-Generierung, das durch eine neuartige Datenpipeline (PhyAugPipe), ein physikgeleitetes Belohnungsschema und eine effiziente Referenzstrategie (LoRA-SR) realistische physikalische Gesetze in synthetischen Videos sicherstellt.

Yuanhao Cai, Kunpeng Li, Menglin Jia + 11 more2026-03-06💻 cs

MorphAny3D: Unleashing the Power of Structured Latent in 3D Morphing

Das Paper stellt MorphAny3D vor, ein trainingsfreies Framework, das durch die intelligente Verschmelzung strukturierter latenter Merkmale (SLAT) mittels neuartiger Aufmerksamkeitsmechanismen hochwertige und konsistente 3D-Morphing-Sequenzen, einschließlich über Objektkategorien hinweg, erzeugt.

Xiaokun Sun, Zeyu Cai, Hao Tang + 3 more2026-03-06💻 cs

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

Das Paper stellt EmboTeam vor, ein Framework für die kollaborative Aufgabenerfüllung heterogener Roboterteams, das die semantische Stärke von Large Language Models mit der Zuverlässigkeit klassischer PDDL-Planer und reaktiver Behavior Trees verbindet, um die Erfolgsrate bei komplexen Haushaltsaufgaben signifikant zu steigern.

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

Die Studie zeigt, dass aktuelle multimodale Basis-Modelle bei der Identifizierung kontextuell wichtiger Momente in Fußballvideos kaum besser als Zufall sind, da sie oft auf eine einzelne dominante Modalität angewiesen sind und keine effektive Synthese aus mehreren Quellen leisten, was den Bedarf an modularen Architekturen und ergänzenden Trainingsverfahren unterstreicht.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

← Zurück Weiter →