cs.CV Arbeiten | Gist.Science

AgrI Challenge: A Data-Centric AI Competition for Cross-Team Validation in Agricultural Vision

Die AgrI Challenge stellt ein datenzentriertes Wettbewerbsframework mit einem neuartigen Cross-Team-Validierungsansatz vor, der durch unabhängige Datensammlung und kollaboratives Training die Generalisierungsfähigkeit von landwirtschaftlichen Vision-Modellen unter realen Feldbedingungen signifikant verbessert.

Mohammed Brahimi, Karim Laabassi, Mohamed Seghir Hadj Ameur, Aicha Boutorh, Badia Siab-Farsi, Amin Khouani, Omar Farouk Zouak, Seif Eddine Bouziane, Kheira Lakhdari, Abdelkader Nabil Benghanem2026-03-10🤖 cs.LG

N-Tree Diffusion for Long-Horizon Wildfire Risk Forecasting

Die Studie stellt N-Tree Diffusion (NT-Diffusion) vor, ein hierarchisches Diffusionsmodell, das durch das Teilen früher Entnoising-Stufen und das Verzweigen in späteren Phasen die Redundanz bei der probabilistischen Langzeitvorhersage von Waldbrandrisiken reduziert und dabei sowohl die Genauigkeit verbessert als auch die Inferenzkosten senkt.

Yucheng Xing, Xin Wang2026-03-10🤖 cs.LG

Task learning increases information redundancy of neural responses in macaque visual cortex

Die Studie zeigt, dass das Erlernen visueller Diskriminierungsaufgaben bei Makaken die Informationsredundanz in den neuronalen Antworten des visuellen Kortex V4 erhöht, was die Vorhersagen der bayesschen Inferenz stützt und auf einen generativen Verarbeitungsprozess im Gehirn hindeutet.

Shizhao Liu, Anton Pletenev, Ralf M. Haefner, Adam C. Snyder2026-03-10💻 cs

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

Die Studie stellt AQuA vor, einen feinabgestuften Datensatz zur Klassifizierung von Ambiguitätsstufen in visuellen Fragen, der es Vision-Language-Modellen ermöglicht, durch Feinabstimmung adaptive und kontextangemessene Antwortstrategien zu entwickeln, anstatt bei Mehrdeutigkeiten übermäßig selbstbewusste Antworten zu geben.

Jihyoung Jang, Hyounghun Kim2026-03-10💬 cs.CL

Interpretable Aneurysm Classification via 3D Concept Bottleneck Models: Integrating Morphological and Hemodynamic Clinical Features

Diese Studie stellt ein interpretierbares 3D-Concept-Bottleneck-Modell vor, das morphologische und hämodynamische klinische Merkmale integriert, um intrakranielle Aneurysmen mit hoher Genauigkeit und ohne Kompromisse bei der klinischen Transparenz zu klassifizieren.

Toqa Khaled, Ahmad Al-Kabbany2026-03-10💻 cs

VIVECaption: A Split Approach to Caption Quality Improvement

Der technische Bericht stellt VIVECaption vor, einen systematischen Zwei-seitigen Ansatz zur Verbesserung der Bildunterschriftenqualität durch eine umfassende Metrik-Taxonomie, die Erstellung goldstandard-Datensätze und das Fine-Tuning von Modellen, um hochwertige, urheberrechtsfreie Trainingsdaten für generative KI-Modelle zu gewährleisten.

Varun Ananth, Baqiao Liu, Haoran Cai2026-03-10💻 cs

Prompt-Based Caption Generation for Single-Tooth Dental Images Using Vision-Language Models

Diese Arbeit schließt die Lücke bestehender Datensätze, indem sie untersucht, wie Vision-Language-Modelle durch gezielte Prompts aussagekräftige Bildunterschriften für einzelne Zahnbilder generieren können, um ein ganzheitliches Verständnis der Zahnmedizin zu ermöglichen.

Anastasiia Sukhanova, Aiden Taylor, Julian Myers, Zichun Wang, Kartha Veerya Jammuladinne, Satya Sri Rajiteswari Nimmagadda, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs

UnSCAR: Universal, Scalable, Controllable, and Adaptable Image Restoration

Das Paper stellt UnSCAR vor, eine skalierbare und kontrollierbare Architektur für die universelle Bildrestauration, die durch einen Multi-Branch-Mixture-of-Experts-Ansatz das Problem des katastrophalen Vergessens bei der gemeinsamen Verarbeitung zahlreicher Degradationen löst und gleichzeitig robuste Generalisierung sowie benutzersteuerbare Ergebnisse ermöglicht.

Debabrata Mandal, Soumitri Chattopadhyay, Yujie Wang, Marc Niethammer, Praneeth Chakravarthula2026-03-10💻 cs

QdaVPR: A novel query-based domain-agnostic model for visual place recognition

Das Paper stellt QdaVPR vor, ein neuartiges, abfragebasiertes und domänenagnostisches Modell für die visuelle Ortserkennung, das durch ein duales adversäres Lernframework und eine Triplet-Supervision sowie synthetische Datenaugmentierung in verschiedenen Szenarien mit starken Domänenverschiebungen state-of-the-art Ergebnisse erzielt.

Shanshan Wan, Lai Kang, Yingmei Wei, Tianrui Shen, Haixuan Wang, Chao Zuo2026-03-10💻 cs

Disentangled Textual Priors for Diffusion-based Image Super-Resolution

Die Arbeit stellt DTPSR vor, ein neuartiges Diffusions-basiertes Framework für die Bild-Super-Resolution, das durch die Einführung entkoppelter textueller Priors in räumlicher und frequenzbasierten Dimensionen sowie eines entsprechenden Datensatzes (DisText-SR) sowohl die semantische Kontrollierbarkeit als auch die Bildqualität bei der Rekonstruktion von hochauflösenden Bildern aus niederauflösenden Eingaben signifikant verbessert.

Lei Jiang, Xin Liu, Xinze Tong, Zhiliang Li, Jie Liu, Jie Tang, Gangshan Wu2026-03-10💻 cs

Generalization in Online Reinforcement Learning for Mobile Agents

Diese Arbeit stellt mit AndroidWorld-Generalization einen neuen Benchmark und ein skalierbares Reinforcement-Learning-System vor, das zeigt, dass RL-basierte VLM-Agenten auf mobilen Geräten zwar signifikant besser auf unbekannte Aufgabeninstanzen generalisieren als überwachte Feinabstimmung, jedoch weiterhin vor erheblichen Herausforderungen bei der Generalisierung auf unbekannte Vorlagen und Anwendungen stehen.

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

Data Agent: Learning to Select Data via End-to-End Dynamic Optimization

Die Arbeit stellt „Data Agent" vor, einen End-to-End-Framework für die dynamische Datenselektion, der durch eine trainingsbewusste sequenzielle Entscheidungsfindung und adaptive Belohnungssignale das Training beschleunigt und dabei die Leistung erhält oder verbessert.

Suorong Yang, Fangjian Su, Hai Gan, Ziqi Ye, Jie Li, Baile Xu, Furao Shen, Soujanya Poria2026-03-10🤖 cs.LG

RPG-SAM: Reliability-Weighted Prototypes and Geometric Adaptive Threshold Selection for Training-Free One-Shot Polyp Segmentation

Der Artikel stellt RPG-SAM vor, einen trainingfreien One-Shot-Ansatz zur Polypensegmentierung, der durch zuverlässigkeitsgewichtete Prototypen und eine geometrisch adaptive Schwellenwertauswahl die Heterogenität in Stütz- und Abfragebildern adressiert und damit die Genauigkeit auf dem Kvasir-Datensatz um 5,56 % verbessert.

Weikun Lin, Yunhao Bai, Yan Wang2026-03-10💻 cs

DogWeave: High-Fidelity 3D Canine Reconstruction from a Single Image via Normal Fusion and Conditional Inpainting

Die Arbeit stellt DogWeave vor, ein modellbasiertes Framework, das aus einem einzelnen RGB-Bild hochdetaillierte 3D-Hundemodelle rekonstruiert, indem es parametrische Gitter durch Diffusions-gestützte Normalenoptimierung verfeinert und ungesichtete Bereiche mittels bedingter Inpainting-Techniken realistisch texturiert.

Shufan Sun, Chenchen Wang, Zongfu Yu2026-03-10💻 cs

Med-Evo: Test-time Self-evolution for Medical Multimodal Large Language Models

Das Paper stellt Med-Evo vor, ein bahnbrechendes Selbstentwicklungs-Framework für medizinische multimodale Large Language Models, das durch featuregestützte Pseudo-Beschriftung und eine Hard-Soft-Belohnungsfunktion die Leistung ohne zusätzliche annotierte Daten verbessert.

Dunyuan Xu, Xikai Yang, Juzheng Miao, Yaoqian Li, Jinpeng Li, Pheng-Ann Heng2026-03-10💻 cs

SLNet: A Super-Lightweight Geometry-Adaptive Network for 3D Point Cloud Recognition

Die Arbeit stellt SLNet vor, einen super-leichtgewichtigen und geometrieadaptiven Backbone für die 3D-Punktwolken-Erkennung, der durch innovative Komponenten wie NAPE und GMU eine hohe Genauigkeit bei deutlich geringerem Rechenaufwand und weniger Parametern als bestehende Modelle erreicht.

Mohammad Saeid, Amir Salarpour, Pedram MohajerAnsari, Mert D. Pesé2026-03-10🤖 cs.LG

Image Generation Models: A Technical History

Dieser Artikel bietet eine umfassende technische Übersicht über die Entwicklung von Bildgenerierungsmodellen – von VAEs und GANs bis hin zu Diffusionsverfahren – und behandelt dabei deren Architekturen, Trainingsmethoden, Grenzen sowie aktuelle Fortschritte in der Videogenerierung und die Notwendigkeit einer verantwortungsvollen Nutzung.

Rouzbeh Shirvani2026-03-10💬 cs.CL

SIGMAE: A Spectral-Index-Guided Foundation Model for Multispectral Remote Sensing

Das Paper stellt SIGMAE vor, ein spektralindexgestütztes Foundation-Modell für multispektrale Fernerkundungsbilder, das durch eine semantisch salienzgesteuerte dynamische Token-Maskierung (SSDTM) die Vor- und Nachbereitung verbessert und damit andere vortrainierte geospatiale Modelle in verschiedenen Downstream-Aufgaben übertrifft.

Xiaokang Zhang, Bo Li, Chufeng Zhou, Weikang Yu, Lefei Zhang2026-03-10💻 cs

Selective Transfer Learning of Cross-Modality Distillation for Monocular 3D Object Detection

Die vorgestellte Arbeit stellt MonoSTL vor, einen selektiven Transfer-Lernansatz, der durch die Integration von Tiefenunsicherheit in neue Destillationsmodule negative Effekte der Modality-Lücke bei der monokularen 3D-Objekterkennung überwindet und damit den aktuellen Stand der Technik auf KITTI und NuScenes übertrifft.

Rui Ding, Meng Yang, Nanning Zheng2026-03-10💻 cs

Classifying Novel 3D-Printed Objects without Retraining: Towards Post-Production Automation in Additive Manufacturing

Die Arbeit stellt den neuen Datensatz ThingiPrint vor und zeigt, dass ein kontrastives Feintuning mit rotationsinvariantem Ziel eine effektive, nachtrainierungsfreie Klassifizierung neuartiger 3D-gedruckter Objekte mittels ihrer CAD-Modelle ermöglicht, was die Automatisierung industrieller Nachbearbeitungsprozesse verbessert.

Fanis Mathioulakis, Gorjan Radevski, Silke GC Cleuren, Michel Janssens, Brecht Das, Koen Schauwaert, Tinne Tuytelaars2026-03-10💻 cs

← Zurück Weiter →