cs.CV Arbeiten | Gist.Science

MOO: A Multi-view Oriented Observations Dataset for Viewpoint Analysis in Cattle Re-Identification

Die Autoren stellen den MOO-Datensatz vor, eine groß angelegte synthetische AG-ReID-Datenbank mit 128.000 annotierten Bildern von 1.000 Rindern aus 128 Blickwinkeln, die es ermöglicht, den Einfluss der Elevationsänderung zu quantifizieren und durch synthetische geometrische Priors die Leistung von Tier-ReID-Modellen in realen Szenarien zu verbessern.

William Grolleau, Achraf Chaouch, Astrid Sabourin + 2 more2026-03-05🤖 cs.AI

SPRINT: Semi-supervised Prototypical Representation for Few-Shot Class-Incremental Tabular Learning

Die Arbeit stellt SPRINT vor, das erste halbüberwachte Few-Shot Class-Incremental-Learning-Framework für tabellarische Daten, das durch eine Mischung aus episodischem Training und pseudo-labeling-basierter Erweiterung neuer Klassenrepräsentationen sowie die Nutzung von Speicherplatz für historische Daten einen neuen State-of-the-Art in der domänenübergreifenden Genauigkeit erreicht.

Umid Suleymanov, Murat Kantarcioglu, Kevin S Chan + 6 more2026-03-05🤖 cs.AI

Scalable Evaluation of the Realism of Synthetic Environmental Augmentations in Images

Die Studie stellt einen skalierbaren Evaluierungsrahmen vor, der zeigt, dass generative KI-Modelle bei der realistischen Simulation von Umweltbedingungen wie Nebel, Regen und Nacht in Fahrzeugkameras deutlich besser abschneiden als regelbasierte Ansätze und damit eine praktikable Grundlage für die Erstellung synthetischer Testdaten bilden.

Damian J. Ruck, Paul Vautravers, Oliver Chalkley + 1 more2026-03-05🤖 cs.LG

Pointer-CAD: Unifying B-Rep and Command Sequences via Pointer-based Edges & Faces Selection

Das Paper stellt Pointer-CAD vor, ein neuartiges LLM-basiertes Framework, das durch eine pointerbasierte Auswahl von B-Rep-Entitäten die Limitationen reiner Befehlssequenzen überwindet, um komplexe CAD-Modelle mit geringeren topologischen Fehlern zu generieren.

Dacheng Qi, Chenyu Wang, Jingwei Xu + 6 more2026-03-05💬 cs.CL

ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

Das Paper stellt ArtHOI vor, ein bahnbrechendes Zero-Shot-Framework, das durch Umwandlung von monokularen Video-Priors in eine 4D-Rekonstruktion physikalisch plausible und geometrisch konsistente menschlich-objektive Interaktionen mit beweglichen Teilen synthetisiert.

Zihao Huang, Tianqi Liu, Zhaoxi Chen + 7 more2026-03-05💻 cs

Balancing Fidelity, Utility, and Privacy in Synthetic Cardiac MRI Generation: A Comparative Study

Diese Studie vergleicht DDPM, LDM und Flow Matching zur Erzeugung synthetischer kardialer MRT-Bilder und stellt fest, dass DDPM unter begrenzten Datenbedingungen die beste Balance zwischen Bildqualität, Nutzen für Segmentierungsaufgaben und Datenschutz bietet.

Madhura Edirisooriya, Dasuni Kawya, Ishan Kumarasinghe + 5 more2026-03-05🤖 cs.LG

Hold-One-Shot-Out (HOSO) for Validation-Free Few-Shot CLIP Adapters

Der vorgestellte HOSO-Adapter ist eine einfache, validierungsfreie Methode zur few-shot Anpassung von CLIP, die durch einen ein-Schuss-Hold-out-Mechanismus den optimalen Mischungsverhältnis-Parameter lernt und dabei die Leistung des CLIP-Adapter-Baselines um durchschnittlich mehr als vier Prozentpunkte verbessert.

Chris Vorster, Mayug Maniparambil, Noel E. O'Connor + 2 more2026-03-05💻 cs

Enhancing Authorship Attribution with Synthetic Paintings

Diese Studie zeigt, dass die Integration von mit DreamBooth generierten synthetischen Bildern in Trainingsdaten die Genauigkeit und Generalisierungsfähigkeit von Modellen zur Künstlerzuordnung bei Kunstwerken verbessert.

Clarissa Loures, Caio Hosken, Luan Oliveira + 2 more2026-03-05🤖 cs.LG

Underrepresented in Foundation Model Pretraining Data? A One-Shot Probe

Diese Arbeit stellt eine dateneffiziente Methode vor, die mithilfe eines Large Language Models und nur eines beschrifteten Bildes pro Klasse die Zero-Shot-Leistung von Vision-Language-Modellen in unterrepräsentierten Domänen mit hoher Genauigkeit vorhersagt, um den Bedarf an aufwendigen Testdatensätzen zu umgehen.

Chris Vorster, Mayug Maniparambil, Noel E. O'Connor + 2 more2026-03-05💻 cs

RANGER: Sparsely-Gated Mixture-of-Experts with Adaptive Retrieval Re-ranking for Pathology Report Generation

Die Arbeit stellt RANGER vor, ein Framework für die Generierung von Pathologieberichten, das durch einen spärlich gating Mixture-of-Experts-Ansatz und eine adaptive Neu-Rangfolge der Wissensabrufe die dynamische Spezialisierung und semantische Genauigkeit bei der Verarbeitung gigapixelgroßer Gewebeproben verbessert.

Yixin Chen, Ziyu Su, Hikmat Khan + 1 more2026-03-05🤖 cs.AI

FocusGraph: Graph-Structured Frame Selection for Embodied Long Video Question Answering

Der Artikel stellt FocusGraph vor, ein Framework zur Auswahl relevanter Schlüsselbilder aus langen Egocentric-Videos für die Beantwortung von Fragen mittels multimodaler LLMs, das durch einen trainierbaren Szenen-Caption-Selektor und eine trainingsfreie Patch-basierte Methode sowohl die Genauigkeit als auch die Effizienz im Vergleich zu bestehenden Ansätzen verbessert.

Tatiana Zemskova, Solomon Andryushenko, Ilya Obrubov + 4 more2026-03-05💻 cs

Helios: Real Real-Time Long Video Generation Model

Das Paper stellt Helios vor, ein 14-Milliarden-Parameter-Video-Generierungsmodell, das durch innovative Trainingsstrategien gegen Drift und effiziente Kontextkomprimierung Echtzeit-Videoerzeugung über Minuten hinweg auf einer einzigen GPU ermöglicht, ohne dabei auf gängige Beschleunigungstechniken oder Parallelisierungsframeworks angewiesen zu sein.

Shenghai Yuan, Yuanyang Yin, Zongjian Li + 3 more2026-03-05💻 cs

TaxonRL: Reinforcement Learning with Intermediate Rewards for Interpretable Fine-Grained Visual Reasoning

Das Paper stellt TaxonRL vor, eine Reinforcement-Learning-Methode mit intermediären Belohnungen, die durch hierarchische taxonomische Vorhersagen nicht nur die Genauigkeit bei der feingranularen visuellen Unterscheidung ähnlicher Arten übertrifft, sondern auch transparente und interpretierbare Schlussfolgerungsprozesse ermöglicht.

Maximilian von Klinski, Maximilian Schall2026-03-05💬 cs.CL

ZipMap: Linear-Time Stateful 3D Reconstruction with Test-Time Training

Die Arbeit stellt ZipMap vor, ein zustandsbehaftetes Feed-Forward-Modell, das durch Test-Time-Training eine lineare Rekonstruktionszeit für große Bildsammlungen ermöglicht und dabei die Genauigkeit quadratischer Methoden bei einer mehr als 20-fachen Geschwindigkeitssteigerung erreicht.

Haian Jin, Rundi Wu, Tianyuan Zhang + 4 more2026-03-05🤖 cs.AI

SimpliHuMoN: Simplifying Human Motion Prediction

Das Paper stellt SimpliHuMoN vor, einen einfachen und vielseitigen Transformer-basierten Ansatz, der durch den Einsatz von Selbst-Aufmerksamkeitsmodulen sowohl räumliche als auch zeitliche Abhängigkeiten erfasst und damit state-of-the-art Ergebnisse für die kombinierte Vorhersage von menschlicher Bewegung, Pose und Trajektorie auf verschiedenen Benchmarks erzielt.

Aadya Agrawal, Alexander Schwing2026-03-05🤖 cs.LG

Thought Flow Nets: From Single Predictions to Trains of Model Thought

Die Arbeit stellt „Thought Flow Nets" vor, ein von Hegels Dialektik inspiriertes Verfahren, das KI-Modelle durch einen iterativen Selbstkorrekturmechanismus befähigt, ihre Vorhersagen schrittweise zu verfeinern, was sowohl die Modellgenauigkeit als auch die menschliche Nutzerleistung und -wahrnehmung signifikant verbessert.

Hendrik Schuff, Heike Adel, Ngoc Thang Vu2026-03-04🤖 cs.LG

VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering

Die Studie stellt den VQA-MHUG-Datensatz mit multimodalen Blickdaten von 49 Teilnehmern vor und zeigt erstmals, dass eine höhere Übereinstimmung der Aufmerksamkeitsmechanismen von VQA-Modellen mit der menschlichen Textaufmerksamkeit ein signifikanter Prädiktor für die Modellleistung ist.

Ekta Sood, Fabian Kögel, Florian Strohm + 2 more2026-03-04💬 cs.CL

Multimodal Integration of Human-Like Attention in Visual Question Answering

Die Arbeit stellt MULAN vor, das erste Modell zur multimodalen Integration menschlicher Aufmerksamkeitsmuster in neuronale Netzwerke für das Visual Question Answering, das durch die Kombination von Bild- und Text-Salienzmodellen mit einem Transformer-basierten Ansatz sowohl einen neuen State-of-the-Art auf dem VQAv2-Datensatz erreicht als auch die Anzahl der trainierbaren Parameter im Vergleich zu früheren Arbeiten um etwa 80 % reduziert.

Ekta Sood, Fabian Kögel, Philipp Müller + 3 more2026-03-04💬 cs.CL

Leveraging Foundation Models for Content-Based Image Retrieval in Radiology

Die Studie demonstriert, dass vortrainierte Vision-Foundation-Modelle, insbesondere BiomedCLIP, als vielseitige und trainingsfreie Feature-Extraktoren für die inhaltsbasierte Bildwiedergewinnung in der Radiologie eingesetzt werden können und dabei auf einem Datensatz von 1,6 Millionen Bildern eine mit spezialisierten Systemen vergleichbare Leistung erzielen.

Stefan Denner, David Zimmerer, Dimitrios Bounias + 8 more2026-03-04💻 cs

Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes

Die Arbeit stellt „Implicit-Zoo" vor, einen umfassenden Datensatz aus tausenden GPU-Trainingstagen mit neuronalen impliziten Funktionen für 2D-Bilder und 3D-Szenen, der durch hochwertige Daten die Forschung in Bereichen wie Bildklassifizierung, semantischer Segmentierung und 3D-Pose-Regression vorantreibt.

Qi Ma, Danda Pani Paudel, Ender Konukoglu + 1 more2026-03-04💻 cs

← Zurück Weiter →