AgrI Challenge: A Data-Centric AI Competition for Cross-Team Validation in Agricultural Vision

Die AgrI Challenge stellt ein datenzentriertes Wettbewerbsframework mit einem neuartigen Cross-Team-Validierungsansatz vor, der durch unabhängige Datensammlung und kollaboratives Training die Generalisierungsfähigkeit von landwirtschaftlichen Vision-Modellen unter realen Feldbedingungen signifikant verbessert.

Mohammed Brahimi, Karim Laabassi, Mohamed Seghir Hadj Ameur, Aicha Boutorh, Badia Siab-Farsi, Amin Khouani, Omar Farouk Zouak, Seif Eddine Bouziane, Kheira Lakhdari, Abdelkader Nabil Benghanem2026-03-10🤖 cs.LG

Prompt-Based Caption Generation for Single-Tooth Dental Images Using Vision-Language Models

Diese Arbeit schließt die Lücke bestehender Datensätze, indem sie untersucht, wie Vision-Language-Modelle durch gezielte Prompts aussagekräftige Bildunterschriften für einzelne Zahnbilder generieren können, um ein ganzheitliches Verständnis der Zahnmedizin zu ermöglichen.

Anastasiia Sukhanova, Aiden Taylor, Julian Myers, Zichun Wang, Kartha Veerya Jammuladinne, Satya Sri Rajiteswari Nimmagadda, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs

UnSCAR: Universal, Scalable, Controllable, and Adaptable Image Restoration

Das Paper stellt UnSCAR vor, eine skalierbare und kontrollierbare Architektur für die universelle Bildrestauration, die durch einen Multi-Branch-Mixture-of-Experts-Ansatz das Problem des katastrophalen Vergessens bei der gemeinsamen Verarbeitung zahlreicher Degradationen löst und gleichzeitig robuste Generalisierung sowie benutzersteuerbare Ergebnisse ermöglicht.

Debabrata Mandal, Soumitri Chattopadhyay, Yujie Wang, Marc Niethammer, Praneeth Chakravarthula2026-03-10💻 cs

QdaVPR: A novel query-based domain-agnostic model for visual place recognition

Das Paper stellt QdaVPR vor, ein neuartiges, abfragebasiertes und domänenagnostisches Modell für die visuelle Ortserkennung, das durch ein duales adversäres Lernframework und eine Triplet-Supervision sowie synthetische Datenaugmentierung in verschiedenen Szenarien mit starken Domänenverschiebungen state-of-the-art Ergebnisse erzielt.

Shanshan Wan, Lai Kang, Yingmei Wei, Tianrui Shen, Haixuan Wang, Chao Zuo2026-03-10💻 cs

Disentangled Textual Priors for Diffusion-based Image Super-Resolution

Die Arbeit stellt DTPSR vor, ein neuartiges Diffusions-basiertes Framework für die Bild-Super-Resolution, das durch die Einführung entkoppelter textueller Priors in räumlicher und frequenzbasierten Dimensionen sowie eines entsprechenden Datensatzes (DisText-SR) sowohl die semantische Kontrollierbarkeit als auch die Bildqualität bei der Rekonstruktion von hochauflösenden Bildern aus niederauflösenden Eingaben signifikant verbessert.

Lei Jiang, Xin Liu, Xinze Tong, Zhiliang Li, Jie Liu, Jie Tang, Gangshan Wu2026-03-10💻 cs

Generalization in Online Reinforcement Learning for Mobile Agents

Diese Arbeit stellt mit AndroidWorld-Generalization einen neuen Benchmark und ein skalierbares Reinforcement-Learning-System vor, das zeigt, dass RL-basierte VLM-Agenten auf mobilen Geräten zwar signifikant besser auf unbekannte Aufgabeninstanzen generalisieren als überwachte Feinabstimmung, jedoch weiterhin vor erheblichen Herausforderungen bei der Generalisierung auf unbekannte Vorlagen und Anwendungen stehen.

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

RPG-SAM: Reliability-Weighted Prototypes and Geometric Adaptive Threshold Selection for Training-Free One-Shot Polyp Segmentation

Der Artikel stellt RPG-SAM vor, einen trainingfreien One-Shot-Ansatz zur Polypensegmentierung, der durch zuverlässigkeitsgewichtete Prototypen und eine geometrisch adaptive Schwellenwertauswahl die Heterogenität in Stütz- und Abfragebildern adressiert und damit die Genauigkeit auf dem Kvasir-Datensatz um 5,56 % verbessert.

Weikun Lin, Yunhao Bai, Yan Wang2026-03-10💻 cs

Classifying Novel 3D-Printed Objects without Retraining: Towards Post-Production Automation in Additive Manufacturing

Die Arbeit stellt den neuen Datensatz ThingiPrint vor und zeigt, dass ein kontrastives Feintuning mit rotationsinvariantem Ziel eine effektive, nachtrainierungsfreie Klassifizierung neuartiger 3D-gedruckter Objekte mittels ihrer CAD-Modelle ermöglicht, was die Automatisierung industrieller Nachbearbeitungsprozesse verbessert.

Fanis Mathioulakis, Gorjan Radevski, Silke GC Cleuren, Michel Janssens, Brecht Das, Koen Schauwaert, Tinne Tuytelaars2026-03-10💻 cs