cs.CV Arbeiten | Gist.Science

RiO-DETR: DETR for Real-time Oriented Object Detection

Die Arbeit stellt RiO-DETR vor, den ersten Echtzeit-Transformer für die Detektion orientierter Objekte, der durch innovative Ansätze wie content-gesteuerte Winkelabschätzung, entkoppelte periodische Verfeinerung und dichte O2O-Überwachung die Herausforderungen der Winkelperiodizität und des erweiterten Suchraums überwindet, um einen neuen Kompromiss zwischen Geschwindigkeit und Genauigkeit zu erreichen.

Zhangchi Hu, Yifan Zhao, Yansong Peng, Wenzhang Sun, Xiangchen Yin, Jie Chen, Peixi Wu, Hebei Li, Xinghao Wang, Dongsheng Jiang, Xiaoyan Sun2026-03-11💻 cs

PromptDLA: A Domain-aware Prompt Document Layout Analysis Framework with Descriptive Knowledge as a Cue

Die Arbeit stellt PromptDLA vor, ein domainspezifisches Prompting-Framework für die Dokumentenlayoutanalyse, das deskriptives Wissen nutzt, um Domänenwissen effektiv zu integrieren und so durch maßgeschneiderte Prompts die Generalisierungsfähigkeit über verschiedene Datensätze hinweg zu verbessern und state-of-the-art-Ergebnisse zu erzielen.

Zirui Zhang, Yaping Zhang, Lu Xiang, Yang Zhao, Feifei Zhai, Yu Zhou, Chengqing Zong2026-03-11🤖 cs.AI

CIGPose: Causal Intervention Graph Neural Network for Whole-Body Pose Estimation

Die Arbeit stellt CIGPose vor, ein Framework, das mittels kausaler Intervention und Graph-Neural-Networks störende visuelle Kontexteinflüsse eliminiert, um robuste und anatomisch plausible Ganzkörper-Pose-Schätzungen zu erreichen und dabei neue State-of-the-Art-Ergebnisse auf dem COCO-WholeBody-Datensatz zu erzielen.

Bohao Li, Zhicheng Cao, Huixian Li, Yangming Guo2026-03-11💻 cs

MetaDAT: Generalizable Trajectory Prediction via Meta Pre-training and Data-Adaptive Test-Time Updating

Die Arbeit stellt MetaDAT vor, ein Verfahren zur Vorhersage von Trajektorien, das durch Meta-Learning während des Trainings und einen datenadaptiven Mechanismus zur Anpassung von Lernraten und Aktualisierungsfrequenzen während des Testens eine robuste Generalisierung unter Verteilungsverschiebungen ermöglicht.

Yuning Wang, Pu Zhang, Yuan He, Ke Wang, Jianru Xue2026-03-11💻 cs

Open-World Motion Forecasting

Diese Arbeit stellt Open-World Motion Forecasting vor, ein neuartiges Szenario für autonomes Fahren, das durch ein end-to-end Framework mit Pseudo-Labeling und einem neuen Replay-Sampling-Verfahren die Herausforderung des katastrophalen Vergessens beim sequenziellen Erlernen neuer Objektklassen direkt aus Kamerabildern bewältigt.

Nicolas Schischka, Nikhil Gosala, B Ravi Kiran, Senthil Yogamani, Abhinav Valada2026-03-11🤖 cs.AI

GIIM: Graph-based Learning of Inter- and Intra-view Dependencies for Multi-view Medical Image Diagnosis

Das Paper stellt GIIM vor, einen neuartigen graphbasierten Ansatz für die computergestützte medizinische Diagnose, der durch die gleichzeitige Modellierung von Abhängigkeiten innerhalb und zwischen verschiedenen Bildansichten sowie durch die robuste Handhabung unvollständiger Daten die Diagnosegenauigkeit und -zuverlässigkeit im Vergleich zu bestehenden Methoden signifikant verbessert.

Tran Bao Sam, Hung Vu, Dao Trung Kien, Tran Dat Dang, Van Ha Tang, Steven Truong2026-03-11💻 cs

A Guideline-Aware AI Agent for Zero-Shot Target Volume Auto-Delineation

Die Studie stellt OncoAgent vor, ein neuartiges, guideline-bewusstes KI-Framework, das klinische Leitlinien ohne Neutrainieren direkt in dreidimensionale Zielvolumen für die Strahlentherapie umwandelt und dabei in einer blinden klinischen Bewertung von Ärzten eine höhere Leitlinienkonformität sowie Akzeptanz als ein überwachtes nnU-Net-Modell erreicht.

Yoon Jo Kim, Wonyoung Cho, Jongmin Lee, Han Joo Chae, Hyunki Park, Sang Hoon Seo, Noh Jae Myung, Kyungmi Yang, Dongryul Oh, Jin Sung Kim2026-03-11🤖 cs.AI

EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

Das Paper stellt EvoDriveVLA vor, ein neuartiges Framework zur kollaborativen Destillation von Wahrnehmung und Planung, das durch selbstverankerte visuelle Einschränkungen und oracle-gesteuerte Trajektorienoptimierung die Stabilität und Leistung von autonomen Fahrzeugen in Vision-Language-Action-Modellen verbessert.

Jiajun Cao, Xiaoan Zhang, Xiaobao Wei, Liyuqiu Huang, Wang Zijian, Hanzhen Zhang, Zhengyu Jia, Wei Mao, Hao Wang, Xianming Liu, Shuchang Zhou Liu, Yang Wang, Shanghang Zhang2026-03-11🤖 cs.AI

TopoOR: A Unified Topological Scene Representation for the Operating Room

Das Papier stellt TopoOR vor, ein neuartiges Paradigma, das chirurgische Umgebungen durch eine höherordentliche topologische Repräsentation modelliert, um komplexe multimodale Beziehungen und geometrische Strukturen besser zu erhalten als bestehende Szenengraphen und so die Genauigkeit bei sicherheitskritischen Aufgaben wie der Sterilitätsverletzungserkennung und der Robotikphasenvorhersage zu verbessern.

Tony Danjun Wang, Ka Young Kim, Tolga Birdal, Nassir Navab, Lennart Bastian2026-03-11💻 cs

The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions

Die Studie stellt das Patrologia Graeca Corpus vor, eine groß angelegte, offene Ressource mit OCR- und linguistischen Annotationen für die verbleibenden und nicht digitalisierten Bände der Patrologia Graeca, die durch eine spezialisierte Pipeline mit einem außergewöhnlich niedrigen Fehlerwert von 1,05 % für polytonisches Griechisch erschlossen wurde.

Chahan Vidal-Gorène (CJM, LIPN), Bastien Kindt2026-03-11💻 cs

OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

Die Arbeit stellt OmniEarth vor, ein umfassendes Benchmark mit 9.275 Bildern und 44.210 Anweisungen, das zur systematischen Evaluierung von Vision-Language-Modellen in geospatialen Aufgaben unter realistischen Erdbeobachtungsszenarien dient und dabei deutliche Leistungslücken bestehender Modelle aufzeigt.

Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo Yang2026-03-11💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

Das Paper stellt PruneSID vor, einen trainingsfreien Ansatz zur effizienten Kompression von Vision-Token in Vision-Language-Modellen, der durch eine synergistische Kombination aus semantischer Clustering und intra-gruppalem Non-Maximum-Suppression sowie einer dynamischen Kompressionsrate einen neuen State-of-the-Art bei gleichzeitiger drastischer Beschleunigung und minimalem Genauigkeitsverlust erreicht.

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie Pei2026-03-11💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Die vorgestellte Arbeit stellt einen neuartigen, komponentenbewussten Zwei-Stufen-Rahmen zur Umwandlung von Skizzen in fotorealistische Bilder vor, der durch die Kombination eines selbstaufmerksamkeitsbasierten Autoencoders, einer koordinatenbewahrenden Gated-Fusion und einer räumlich adaptiven Verfeinerung die Bildqualität und semantische Genauigkeit gegenüber bestehenden GAN- und Diffusionsmodellen signifikant verbessert.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz Qureshi2026-03-11💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

Die vorgestellte Arbeit stellt „Diagonal Distillation" vor, eine effiziente Methode zur Echtzeit-Streaming-Videogenerierung, die durch eine asymmetrische Schrittstrategie und die explizite Berücksichtigung temporaler Abhängigkeiten die Latenz drastisch reduziert und gleichzeitig die Bewegungskohärenz sowie die Fehlerakkumulation in langen Sequenzen verbessert.

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang Liu2026-03-11💻 cs

Evolving Prompt Adaptation for Vision-Language Models

Das Paper stellt EvoPrompt vor, ein neuartiges Framework für Vision-Language-Modelle, das durch einen modality-geteilten Prompt-Projektor, eine evolutionäre Trainingsstrategie zur Entkopplung von Richtungs- und Magnituden-Updates sowie eine geometrische Feature-Regularisierung eine stabile Anpassung an Downstream-Aufgaben mit wenigen gelabelten Daten ermöglicht, ohne dabei das vorgelernte Wissen zu vergessen.

Enming Zhang, Jiayang Li, Yanru Wu, Zhenyu Liu, Yang Li2026-03-11🤖 cs.AI

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

Die Arbeit stellt SurgFed vor, ein sprachgesteuertes Multi-Task-Federated-Learning-Framework, das durch sprachgesteuerte Kanal-Auswahl und Hyper-Aggregation die Herausforderungen der Gewebe- und Aufgabenvielfalt bei der chirurgischen Videoanalyse über verschiedene Standorte hinweg löst und damit die Segmentierung und Tiefenschätzung in roboterassistierten minimal-invasiven Eingriffen verbessert.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming Jin2026-03-11💻 cs

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

Die Arbeit stellt Context-Nav vor, ein trainingsfreies System für die textbasierte Instanznavigation, das durch die Nutzung kontextueller Beschreibungen als globaler Erkundungsprior und eine viewpoint-bewusste 3D-Raumverifikation den State-of-the-Art auf Benchmarks wie InstanceNav und CoIN-Bench erreicht.

Won Shik Jang, Ue-Hwan Kim2026-03-11💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

Diese Arbeit untersucht die Zuverlässigkeit von Vision-Language-Modellen im autonomen Fahren, identifiziert deren Mängel in Konsistenz und temporaler Begründung, stellt einen neuen Benchmark namens FutureVQA vor und schlägt eine selbstüberwachte Feinabstimmung mit Chain-of-Thought-Reasoning vor, um diese Defizite ohne temporale Labels zu beheben.

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain Pagani2026-03-11💻 cs

RESBev: Making BEV Perception More Robust

Die Arbeit stellt RESBev vor, eine robuste und plug-and-play-fähige Methode für die Vogelperspektive (BEV) in autonomen Fahrzeugen, die durch ein latentes Weltmodell korrupte Beobachtungen rekonstruiert und so die Widerstandsfähigkeit bestehender Systeme gegen sensorische Störungen und adversariale Angriffe signifikant verbessert.

Lifeng Zhuo, Kefan Jin, Zhe Liu, Hesheng Wang2026-03-11💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

Die Arbeit stellt DCAU-Net vor, ein effizientes Framework für die medizinische Bildsegmentierung, das durch eine neue Differential Cross Attention (DCA) zur Reduktion der Rechenkomplexität bei gleichzeitiger Hervorhebung diskriminierender Strukturen sowie eine Channel-Spatial Feature Fusion (CSFF) für die adaptive Integration semantischer und räumlicher Merkmale die Segmentierungsgenauigkeit und Robustheit verbessert.

Yanxin Li, Hui Wan, Libin Lan2026-03-11💻 cs

← Zurück Weiter →