GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations

Die Arbeit stellt GroundCount vor, ein Framework, das die Zählgenauigkeit von Vision-Language-Modellen durch die Integration expliziter räumlicher Verankerung aus Objekterkennungsmodellen verbessert und so Halluzinationen reduziert, wobei die Wirksamkeit stark von der Architekturkompatibilität und der Art der Eingabe (z. B. Positionscodierung) abhängt.

Boyuan Chen, Minghao Shao, Siddharth Garg, Ramesh Karri, Muhammad Shafique2026-03-12🤖 cs.AI

Does AI See like Art Historians? Interpreting How Vision Language Models Recognize Artistic Style

In einer interdisziplinären Zusammenarbeit zwischen Informatikern und Kunsthistorikern untersucht diese Studie, wie Vision-Language-Modelle künstlerische Stile erkennen, und zeigt durch quantitative Analysen und Expertenbewertungen, dass die meisten für die Stilvorhersage genutzten Konzepte von Kunsthistorikern als semantisch kohärent und relevant eingestuft werden.

Marvin Limpijankit, Milad Alshomary, Yassin Oulad Daoud, Amith Ananthram, Tim Trombley, Elias Stengel-Eskin, Mohit Bansal, Noam M. Elcott, Kathleen McKeown2026-03-12🤖 cs.AI

DynVLA: Learning World Dynamics for Action Reasoning in Autonomous Driving

Die Arbeit stellt DynVLA vor, ein autonomes Fahrmodell, das durch die neuartige „Dynamics CoT"-Methode und einen speziellen „Dynamics Tokenizer" kompakte Weltvorhersagen generiert, um physikalisch fundierte und effiziente Entscheidungen zu treffen, die in umfangreichen Experimenten Text- und Bildbasierte Ansätze übertreffen.

Shuyao Shang, Bing Zhan, Yunfei Yan, Yuqi Wang, Yingyan Li, Yasong An, Xiaoman Wang, Jierui Liu, Lu Hou, Lue Fan, Zhaoxiang Zhang, Tieniu Tan2026-03-12💻 cs

Neural Field Thermal Tomography: A Differentiable Physics Framework for Non-Destructive Evaluation

Die Arbeit stellt NeFTY vor, ein differenzierbares physikalisches Framework, das mithilfe eines neuronalen Feldes und eines rigorosen numerischen Löschers die quantitative 3D-Rekonstruktion von Materialeigenschaften und die Lokalisierung von Untergrundfehlern aus transienten Oberflächentemperaturmessungen ermöglicht.

Tao Zhong, Yixun Hu, Dongzhe Zheng, Aditya Sood, Christine Allen-Blanchette2026-03-12🔬 cond-mat.mtrl-sci

Image Captioning via Compact Bidirectional Architecture

Die vorgestellte Arbeit stellt ein kompaktes bidirektionales Transformer-Modell für die Bildbeschriftung vor, das durch die parallele Kopplung von links-rechts- und rechts-links-Flüssen sowohl implizit als auch explizit bidirektionale Kontexte nutzt und durch Satz- und Wortebene-Ensemble-Methoden neue State-of-the-Art-Ergebnisse auf dem MSCOCO-Datensatz erzielt.

Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng Wang2026-03-11💬 cs.CL

PnLCalib: Sports Field Registration via Points and Lines Optimization

Der Artikel stellt PnLCalib vor, eine optimierungsbasierte Methode zur Kalibrierung von Sportkameras in Übertragungsvideos, die durch die Kombination eines 3D-Fußballfeldmodils mit einer nichtlinearen Verfeinerung mittels erkannten Feldlinien eine robustere und präzisere Registrierung unter schwierigen Bedingungen wie variierenden Kamerawinkeln und Verdeckungen ermöglicht.

Marc Gutiérrez-Pérez, Antonio Agudo2026-03-11🤖 cs.AI

TIMotion: Temporal and Interactive Framework for Efficient Human-Human Motion Generation

Die Arbeit stellt TIMotion vor, ein effizientes Framework für die Generierung von menschlich-menschlichen Bewegungen, das durch kausale interaktive Injektion, rollenbasierte Scanning-Verfahren und lokale Musterverstärkung die zeitliche Modellierung und Interaktionsmischung verbessert, um suboptimale Ergebnisse und redundante Parameter bestehender Methoden zu überwinden.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Ke Fan, Jiafu Wu, Zhucun Xue, Yong Liu2026-03-11💻 cs

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Die Arbeit stellt ein einheitliches Framework vor, das Quantisierung und Sparsifizierung als additives Rauschen modelliert und durch eine prinzipiengeleitete Denoisings-Transformation eine stabile Gradientenbahn schafft, wodurch das Training von neuronalen Netzen mit beliebiger Präzision und Sparsity, einschließlich sub-1-Bit-Architekturen, ermöglicht wird.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew Howard2026-03-11🤖 cs.AI

Unsupervised Representation Learning from Sparse Transformation Analysis

Diese Arbeit stellt ein unüberwachtes Lernverfahren vor, das Sequenzdaten durch die Faktorisierung latenter Transformationen in spärlich aktive rotations- und potentialbasierte Vektorfelder analysiert, um damit neuartige entkoppelte Repräsentationen zu erzeugen, die sowohl unabhängige Faktoren als auch Transformationprimitive erfassen und gleichzeitig state-of-the-art-Ergebnisse in Bezug auf Datenwahrscheinlichkeit und äquivariante Fehler erzielen.

Yue Song, Thomas Anderson Keller, Yisong Yue, Pietro Perona, Max Welling2026-03-11🤖 cs.LG