cs.CV Arbeiten | Gist.Science

General vs Domain-Specific CNNs: Understanding Pretraining Effects on Brain MRI Tumor Classification

Die Studie zeigt, dass bei der Klassifizierung von Hirntumoren in MRT-Bildern moderne, allgemein vortrainierte CNNs wie ConvNeXt-Tiny (93 % Genauigkeit) vortrainierten medizinischen Modellen wie RadImageNet DenseNet121 (68 % Genauigkeit) überlegen sind, was darauf hindeutet, dass eine domain-spezifische Vortrainierung in datenarmen Szenarien nicht zwangsläufig zu besseren Ergebnissen führt.

Helia Abedini, Saba Rahimi, Reza Vaziri2026-03-02🤖 cs.AI

Q-Save: Towards Scoring and Attribution for Generated Video Evaluation

Das Paper stellt Q-Save vor, ein umfassendes Benchmark-Dataset und ein einheitliches Evaluierungsmodell, das mithilfe einer dreistufigen Trainingsstrategie mit Chain-of-Thought-Formatierung sowohl die Qualität von KI-generierten Videos bewertet als auch detaillierte, interpretierbare Erklärungen für visuelle, dynamische und textbasierte Aspekte liefert.

Xiele Wu, Zicheng Zhang, Mingtao Chen + 7 more2026-03-02💻 cs

SocialNav: Training Human-Inspired Foundation Model for Socially-Aware Embodied Navigation

Das Paper stellt SocialNav vor, ein fundiertes Modell für sozialbewusste Navigation, das durch einen hierarchischen "Gehirn-Aktion"-Ansatz, einen neuartigen Datensatz mit 7 Millionen Proben und ein mehrstufiges Training mit dem neuartigen SAFE-GRPO-Verfahren signifikante Verbesserungen bei Erfolgsrate und sozialer Konformität im Vergleich zum aktuellen Stand der Technik erzielt.

Ziyi Chen, Yingnan Guo, Zedong Chu + 14 more2026-03-02🤖 cs.AI

Thinking with Drafts: Speculative Temporal Reasoning for Efficient Long Video Understanding

Die Arbeit stellt SpecTemp vor, ein effizientes, auf Reinforcement Learning basierendes Framework für das Verständnis langer Videos, das durch eine kooperative Dual-Modell-Architektur redundante Kontextinformationen reduziert und die Inferenzgeschwindigkeit im Vergleich zu bestehenden Methoden signifikant steigert, ohne dabei die Genauigkeit zu beeinträchtigen.

Pengfei Hu, Meng Cao, Yingyao Wang + 6 more2026-03-02💻 cs

TARDis: Time Attenuated Representation Disentanglement for Incomplete Multi-Modal Tumor Segmentation and Classification

Die Arbeit stellt TARDis vor, ein physikbewusstes Framework, das durch die Entzerrung zeitinvarianter anatomischer und zeitabhängiger Perfusionsmerkmale die Segmentierung und Klassifizierung von Tumoren in unvollständigen kontrastmittelgestützten CT-Daten verbessert, indem es fehlende Phasen als Lücken in einer kontinuierlichen Zeit-Attenuations-Kurve behandelt.

Zishuo Wan, Qinqin Kang, Na Li + 6 more2026-03-02💻 cs

Self-Supervised AI-Generated Image Detection: A Camera Metadata Perspective

Diese Arbeit stellt einen selbstüberwachten Ansatz zur Erkennung KI-generierter Bilder vor, der durch das Lernen von Kamera-Metadaten (EXIF) robuste und generalisierbare Merkmale für die forensische Analyse extrahiert.

Nan Zhong, Mian Zou, Yiran Xu + 4 more2026-03-02💻 cs

FRIEDA: Benchmarking Multi-Step Cartographic Reasoning in Vision-Language Models

Die Arbeit stellt FRIEDA vor, einen Benchmark zur Evaluierung komplexer, mehrstufiger kartografischer Schlussfolgerungen in Vision-Language-Modellen, der zeigt, dass selbst fortschrittlichste Modelle erhebliche Defizite im Vergleich zur menschlichen Leistung aufweisen.

Jiyoon Pyo, Yuankun Jiao, Dongwon Jung + 11 more2026-03-02🤖 cs.AI

Sharp Monocular View Synthesis in Less Than a Second

Das Paper stellt SHARP vor, eine Methode zur fotorealistischen Synthese neuer Ansichten aus einem einzigen Bild in unter einer Sekunde durch Regression von 3D-Gauß-Parametern, die einen neuen State-of-the-Art in Bezug auf Bildqualität und Geschwindigkeit erreicht.

Lars Mescheder, Wei Dong, Shiwei Li + 10 more2026-03-02🤖 cs.LG

Geometric-Photometric Event-based 3D Gaussian Ray Tracing

Diese Arbeit stellt einen neuartigen Rahmen für das ereignisbasierte 3D-Gaussian-Splatting vor, der durch eine Entkopplung der geometrischen und radiometrischen Darstellung mittels Ray-Tracing und gewarpten Ereignisbildern eine überlegene Genauigkeit und hohe zeitliche Auflösung ohne externe Initialisierung erreicht.

Kai Kohyama, Yoshimitsu Aoki, Guillermo Gallego + 1 more2026-03-02🤖 cs.AI

ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving

Das Paper stellt ColaVLA vor, ein einheitliches Vision-Language-Action-Framework, das durch die Übertragung von kognitiver Latent-Reasoning in einen kompakten Embedding-Raum und einen hierarchischen parallelen Trajektorienplaner die Herausforderungen von Latenz und Diskontinuität bei VLM-basierten autonomen Fahrsystemen löst und gleichzeitig State-of-the-Art-Ergebnisse auf dem nuScenes-Benchmark erzielt.

Qihang Peng, Xuesong Chen, Chenye Yang + 2 more2026-03-02💻 cs

Inference-time Physics Alignment of Video Generative Models with Latent World Models

Die Autoren stellen WMReward vor, eine Methode zur Inference-time-Alignment von Videogenerierungsmodellen, die einen latenten Weltmodell-Reward nutzt, um die physikalische Plausibilität durch das Steuern von Denoising-Trajektorien zu verbessern und dabei den ersten Platz im ICCV 2025 Perception Test PhysicsIQ Challenge zu erreichen.

Jianhao Yuan, Xiaofeng Zhang, Felix Friedrich + 7 more2026-03-02💻 cs

CPiRi: Channel Permutation-Invariant Relational Interaction for Multivariate Time Series Forecasting

Die Arbeit stellt CPiRi vor, ein neuartiges Framework für die multivariate Zeitreihenvorhersage, das durch eine kanalpermutationsinvariante Architektur und ein regularisiertes Training sowohl die Abhängigkeiten zwischen Kanälen effektiv nutzt als auch eine robuste Generalisierung auf neue oder neu angeordnete Kanäle ohne Nachtraining ermöglicht.

Jiyuan Xu, Wenyu Zhang, Xin Jing + 3 more2026-03-02💻 cs

Scale Equivariance Regularization and Feature Lifting in High Dynamic Range Modulo Imaging

Diese Arbeit stellt einen lernbasierten HDR-Rekonstruktionsrahmen für Modulo-Bilder vor, der durch skalenäquivariante Regularisierung und ein Feature-Lifting-Design mit Rohdaten, differenzierten Wrap-Artefakten und einer geschlossenen Initialisierung die Unterscheidung zwischen echten Bildstrukturen und Wrap-Diskontinuitäten verbessert und damit state-of-the-art Ergebnisse erzielt.

Brayan Monroy, Jorge Bacca2026-03-02⚡ eess

Imagine a City: CityGenAgent for Procedural 3D City Generation

Die Arbeit stellt CityGenAgent vor, ein naturalsprachgesteuertes Framework, das durch eine zweistufige Lernstrategie aus überwachtem Feinabstimmen und Bestärkendem Lernen eine hierarchische, prozedurale Generierung und Bearbeitung hochwertiger 3D-Städte mit hoher semantischer Ausrichtung und visueller Qualität ermöglicht.

Zishan Liu, Zecong Tang, RuoCheng Wu + 6 more2026-03-02💻 cs

Erase at the Core: Representation Unlearning for Machine Unlearning

Die Arbeit stellt „Erase at the Core" (EC) vor, ein plattformunabhängiges Framework, das durch tiefüberwachtes Lernen und kontrastives Unlearning auf mehreren Netzwerkebenen sicherstellt, dass nicht nur die Ausgabe, sondern auch die internen Merkmalsrepräsentationen eines Modells effektiv aus dem Gedächtnis gelöscht werden, um so das Phänomen des oberflächlichen Vergessens zu überwinden.

Jaewon Lee, Yongwoo Kim, Donghyun Kim2026-03-02🤖 cs.LG

PixelRush: Ultra-Fast, Training-Free High-Resolution Image Generation via One-step Diffusion

Die Arbeit stellt PixelRush vor, ein trainingsfreies Framework, das durch effizientes Patch-basiertes Denoising und spezielle Glättungsstrategien hochauflösende 4K-Bilder in nur etwa 20 Sekunden generiert und damit den Zustand der Technik um den Faktor 10 bis 35 beschleunigt.

Hong-Phuc Lai, Phong Nguyen, Anh Tran2026-03-02💻 cs

Beyond Ground: Map-Free LiDAR Relocalization for UAVs

In diesem Paper wird MAILS vorgestellt, ein neuartiges, kartenfreies LiDAR-Relokalisierungsframework für UAVs, das durch spezielle Module zur Merkmalsextraktion und Positionsverschlüsselung eine hohe Robustheit gegenüber Flugbewegungen bietet und durch die Einführung eines neuen, realistischen Datensatzes den aktuellen Forschungsstand übertrifft.

Hengyu Mu, Jianshi Wu, Yuxin Guo + 5 more2026-03-02⚡ eess

COOPERTRIM: Adaptive Data Selection for Uncertainty-Aware Cooperative Perception

Die Arbeit stellt COOPERTRIM vor, einen adaptiven Rahmen für die kooperative Wahrnehmung, der durch die Nutzung von zeitlicher Kontinuität und einer neuartigen Unsicherheitsmetrik redundante Daten filtert, wodurch die Bandbreitennutzung drastisch reduziert wird, ohne die Genauigkeit bei Aufgaben wie der semantischen Segmentierung und 3D-Objekterkennung zu beeinträchtigen.

Shilpa Mukhopadhyay, Amit Roy-Chowdhury, Hang Qiu2026-03-02💻 cs

Diff-Aid: Inference-time Adaptive Interaction Denoising for Rectified Text-to-Image Generation

Die Arbeit stellt Diff-Aid vor, eine leichte Inference-time-Methode, die die Interaktion zwischen Text und Bild in rektifizierten Text-zu-Bild-Generierungsmodellen durch adaptive Anpassung über Transformer-Blöcke und Denoising-Zeitschritte hinweg verbessert, was zu einer höheren Prompt-Treue, besserer Bildqualität und interpretierbaren Mustern führt.

Binglei Li, Mengping Yang, Zhiyu Tan + 2 more2026-03-02💻 cs

SceneTok: A Compressed, Diffusable Token Space for 3D Scenes

Die Arbeit stellt SceneTok vor, einen neuartigen Tokenizer, der 3D-Szenen in einen stark komprimierten, permutationsinvarianten und diffusionsfähigen Token-Raum kodiert, der sowohl eine überlegene Rekonstruktionsqualität bei deutlich höherer Kompression als auch eine effiziente Szenengeneration und flexible Neuansicht-Rendering ermöglicht.

Mohammad Asim, Christopher Wewer, Jan Eric Lenssen2026-03-02🤖 cs.AI

← Zurück Weiter →