cs.CV Arbeiten | Gist.Science

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

Das Paper stellt PruneSID vor, einen trainingsfreien Ansatz zur effizienten Kompression von Vision-Token in Vision-Language-Modellen, der durch eine synergistische Kombination aus semantischer Clustering und intra-gruppalem Non-Maximum-Suppression sowie einer dynamischen Kompressionsrate einen neuen State-of-the-Art bei gleichzeitiger drastischer Beschleunigung und minimalem Genauigkeitsverlust erreicht.

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie Pei2026-03-11💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Die vorgestellte Arbeit stellt einen neuartigen, komponentenbewussten Zwei-Stufen-Rahmen zur Umwandlung von Skizzen in fotorealistische Bilder vor, der durch die Kombination eines selbstaufmerksamkeitsbasierten Autoencoders, einer koordinatenbewahrenden Gated-Fusion und einer räumlich adaptiven Verfeinerung die Bildqualität und semantische Genauigkeit gegenüber bestehenden GAN- und Diffusionsmodellen signifikant verbessert.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz Qureshi2026-03-11💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

Die vorgestellte Arbeit stellt „Diagonal Distillation" vor, eine effiziente Methode zur Echtzeit-Streaming-Videogenerierung, die durch eine asymmetrische Schrittstrategie und die explizite Berücksichtigung temporaler Abhängigkeiten die Latenz drastisch reduziert und gleichzeitig die Bewegungskohärenz sowie die Fehlerakkumulation in langen Sequenzen verbessert.

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang Liu2026-03-11💻 cs

Evolving Prompt Adaptation for Vision-Language Models

Das Paper stellt EvoPrompt vor, ein neuartiges Framework für Vision-Language-Modelle, das durch einen modality-geteilten Prompt-Projektor, eine evolutionäre Trainingsstrategie zur Entkopplung von Richtungs- und Magnituden-Updates sowie eine geometrische Feature-Regularisierung eine stabile Anpassung an Downstream-Aufgaben mit wenigen gelabelten Daten ermöglicht, ohne dabei das vorgelernte Wissen zu vergessen.

Enming Zhang, Jiayang Li, Yanru Wu, Zhenyu Liu, Yang Li2026-03-11🤖 cs.AI

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

Die Arbeit stellt SurgFed vor, ein sprachgesteuertes Multi-Task-Federated-Learning-Framework, das durch sprachgesteuerte Kanal-Auswahl und Hyper-Aggregation die Herausforderungen der Gewebe- und Aufgabenvielfalt bei der chirurgischen Videoanalyse über verschiedene Standorte hinweg löst und damit die Segmentierung und Tiefenschätzung in roboterassistierten minimal-invasiven Eingriffen verbessert.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming Jin2026-03-11💻 cs

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

Die Arbeit stellt Context-Nav vor, ein trainingsfreies System für die textbasierte Instanznavigation, das durch die Nutzung kontextueller Beschreibungen als globaler Erkundungsprior und eine viewpoint-bewusste 3D-Raumverifikation den State-of-the-Art auf Benchmarks wie InstanceNav und CoIN-Bench erreicht.

Won Shik Jang, Ue-Hwan Kim2026-03-11💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

Diese Arbeit untersucht die Zuverlässigkeit von Vision-Language-Modellen im autonomen Fahren, identifiziert deren Mängel in Konsistenz und temporaler Begründung, stellt einen neuen Benchmark namens FutureVQA vor und schlägt eine selbstüberwachte Feinabstimmung mit Chain-of-Thought-Reasoning vor, um diese Defizite ohne temporale Labels zu beheben.

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain Pagani2026-03-11💻 cs

RESBev: Making BEV Perception More Robust

Die Arbeit stellt RESBev vor, eine robuste und plug-and-play-fähige Methode für die Vogelperspektive (BEV) in autonomen Fahrzeugen, die durch ein latentes Weltmodell korrupte Beobachtungen rekonstruiert und so die Widerstandsfähigkeit bestehender Systeme gegen sensorische Störungen und adversariale Angriffe signifikant verbessert.

Lifeng Zhuo, Kefan Jin, Zhe Liu, Hesheng Wang2026-03-11💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

Die Arbeit stellt DCAU-Net vor, ein effizientes Framework für die medizinische Bildsegmentierung, das durch eine neue Differential Cross Attention (DCA) zur Reduktion der Rechenkomplexität bei gleichzeitiger Hervorhebung diskriminierender Strukturen sowie eine Channel-Spatial Feature Fusion (CSFF) für die adaptive Integration semantischer und räumlicher Merkmale die Segmentierungsgenauigkeit und Robustheit verbessert.

Yanxin Li, Hui Wan, Libin Lan2026-03-11💻 cs

Association of Radiologic PPFE Change with Mortality in Lung Cancer Screening Cohorts

Die Studie zeigt, dass das Fortschreiten der radiologisch nachgewiesenen Pleuroparenchymalen Fibroelastose (PPFE) in zwei großen Lungenkrebs-Screening-Kohorten unabhängig mit einer erhöhten Sterblichkeit und negativen klinischen Ergebnissen assoziiert ist.

Shahab Aslani, Mehran Azimbagirad, Daryl Cheng, Daisuke Yamada, Ryoko Egashira, Adam Szmul, Justine Chan-Fook, Robert Chapman, Alfred Chung Pui So, Shanshan Wang, John McCabe, Tianqi Yang, Jose M Brenes, Eyjolfur Gudmundsson, The SUMMIT Consortium, Susan M. Astley, Daniel C. Alexander, Sam M. Janes, Joseph Jacob2026-03-11🧬 q-bio

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Diese Arbeit stellt eine Reinforcement-Learning-Strategie vor, die Unified Vision-Language-Modelle durch eine hybride Warm-up-Phase und eine erweiterte Group Relative Policy Optimization (GRPO) mit hybriden sowie prozessbasierten Belohnungen befähigt, hochwertige multimodale interleaved Ausgaben ohne große spezialisierte Datensätze zu generieren.

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li Zhang2026-03-11💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Die Autoren stellen den DynHiL-EQA-Datensatz und das trainingfreie Framework DIVRR vor, um die Herausforderungen dynamischer, von Menschen bevölkerter Umgebungen beim Embodied Question Answering durch eine relevante Sichtverfeinerung und selektive Speicherauswahl zu bewältigen und dabei sowohl die Robustheit als auch die Inferenzeffizienz zu steigern.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong Wang2026-03-11💻 cs

A comprehensive study of time-of-flight non-line-of-sight imaging

Diese Studie bietet eine umfassende Analyse verschiedener Zeit-of-Flight-Nicht-Sichtlinien-Imaging-Methoden, indem sie diese unter einem gemeinsamen mathematischen und hardwaretechnischen Rahmen vergleicht, um ihre Ähnlichkeiten, Unterschiede sowie gemeinsame Leistungsgrenzen bezüglich räumlicher Auflösung und Rauschempfindlichkeit objektiv zu bewerten.

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas Velten2026-03-11💻 cs

GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision

Das Paper stellt GeoSolver vor, ein Framework, das durch den Einsatz eines token-level Prozess-Reward-Modells (GeoPRM) und des Algorithmus Process-Aware Tree-GRRO die testzeitliche Skalierbarkeit und visuelle Zuverlässigkeit von Vision-Language-Modellen in der Fernerkundung durch feingranulare Prozessüberwachung signifikant verbessert.

Lang Sun, Ronghao Fu, Zhuoran Duan, Haoran Liu, Xueyan Liu, Bo Yang2026-03-11💻 cs

GeoAlignCLIP: Enhancing Fine-Grained Vision-Language Alignment in Remote Sensing via Multi-Granular Consistency Learning

Das Paper stellt GeoAlignCLIP vor, ein Framework, das durch Multi-Granularitäts-Konsistenzlernen und den neu erstellten RSFG-100k-Datensatz die feinkörnige Bild-Sprach-Ausrichtung in der Fernerkundung verbessert und damit bestehende Methoden in verschiedenen Aufgaben übertrifft.

Xiao Yang, Ronghao Fu, Zhuoran Duan, Zhiwen Lin, Xueyan Liu, Bo Yang2026-03-11💻 cs

More than the Sum: Panorama-Language Models for Adverse Omni-Scenes

Diese Arbeit stellt das Panorama-Sprachmodell (PLM) und den zugehörigen Datensatz PanoVQA vor, die durch eine integrierte 360°-Verarbeitung und einen neuen Sparse-Attention-Mechanismus ein ganzheitliches Verständnis von Adversen Omni-Szenen ermöglichen, das über die bloße Kombination einzelner Nahaufnahmen hinausgeht.

Weijia Fan, Ruiping Liu, Jiale Wei, Yufan Chen, Junwei Zheng, Zichao Zeng, Jiaming Zhang, Qiufu Li, Linlin Shen, Rainer Stiefelhagen2026-03-11💻 cs

BinaryAttention: One-Bit QK-Attention for Vision and Diffusion Transformers

Die Arbeit stellt BinaryAttention vor, eine Methode zur 1-Bit-Quantisierung von QK-Attention in Vision- und Diffusion-Transformern, die durch binäre Operationen und einen lernbaren Bias eine über 2-fache Beschleunigung gegenüber FlashAttention2 bei gleichzeitiger Beibehaltung oder sogar Steigerung der Genauigkeit ermöglicht.

Chaodong Xiao, Zhengqiang Zhang, Lei Zhang2026-03-11💻 cs

ParTY: Part-Guidance for Expressive Text-to-Motion Synthesis

Das Paper stellt ParTY vor, ein neuartiges Framework, das durch eine part-geführte Netzarchitektur, eine part-bewusste Textverankerung und eine adaptive Fusion von Ganzkörper- und Teilbewegungen kohärente und ausdrucksstarke Text-zu-Bewegungs-Synthesen ermöglicht, die spezifische Körperteile präzise abbilden.

KunHo Heo, SuYeon Kim, Yonghyun Gwon, Youngbin Kim, MyeongAh Cho2026-03-11💻 cs

A saccade-inspired approach to image classification using visiontransformer attention maps

Die Studie zeigt, dass eine durch DINO-Aufmerksamkeitskarten inspirierte, sakkadenbasierte Bildklassifizierung, die sich auf relevante Bildregionen konzentriert, die Leistung herkömmlicher Modelle erhält oder sogar übertreffen und so einen vielversprechenden Ansatz für effiziente, biologisch inspirierte visuelle Verarbeitung bietet.

Matthis Dallain, Laurent Rodriguez, Laurent Udo Perrinet, Benoît Miramond2026-03-11💻 cs

Physics-Driven 3D Gaussian Rendering for Zero-Shot MRI Super-Resolution

Die Arbeit stellt einen Zero-Shot-Ansatz für die 3D-MRI-Super-Resolution vor, der physikbasierte 3D-Gaussian-Repräsentationen und eine volumenbasierte Rendering-Strategie nutzt, um eine effiziente und datenunabhängige Bildrekonstruktion mit hoher Qualität zu ermöglichen.

Shuting Liu, Lei Zhang, Wei Huang, Zhao Zhang, Zizhou Wang2026-03-11💻 cs

← Zurück Weiter →