cs.CV Arbeiten | Gist.Science

Auto Quantum Machine Learning for Multisource Classification

Diese Arbeit stellt einen automatisierten Quanten-Machine-Learning-Ansatz (AQML) für die Datenfusion vor, der bei der Verarbeitung multisource-Daten und der Änderungserkennung auf dem ONERA-Datensatz eine höhere Genauigkeit als klassische MLPs und manuell entworfene QML-Modelle erreicht.

Tomasz Rybotycki, Sebastian Dziura, Piotr Gawron2026-02-24⚛️ quant-ph

Information-Guided Noise Allocation for Efficient Diffusion Training

Die Arbeit stellt InfoNoise vor, einen datenadaptiven Trainingsplan für Diffusionsmodelle, der mithilfe informationstheoretischer Prinzipien die Rauschverteilung optimiert und damit sowohl die Trainingsgeschwindigkeit als auch die Modellqualität im Vergleich zu manuell abgestimmten Schemata verbessert.

Gabriel Raya, Bac Nguyen, Georgios Batzolis + 6 more2026-02-24🤖 cs.LG

Systematic Analysis of Coupling Effects on Closed-Loop and Open-Loop Performance in Aerial Continuum Manipulators

Diese Studie zeigt, dass ein entkoppeltes dynamisches Modell für luftgestützte Kontinuum-Manipulatoren trotz signifikanter Abweichungen in der offenen Schleife eine geschlossene Regelkreis-Leistung erreicht, die mit dem gekoppelten Modell vergleichbar ist, jedoch bei geringeren Rechenkosten.

Niloufar Amiri, Shayan Sepahvand, Iraj Mantegh + 1 more2026-02-24💻 cs

Neural Fields as World Models

Die Studie schlägt isomorphe Weltmodelle vor, die die räumliche Topologie sensorischer Kortexstrukturen mittels neuronaler Felder und motor-gesteuerter Kanäle bewahren, wodurch physikalische Vorhersagen als geometrische Propagation erfolgen und zu einer effizienteren Transferleistung sowie der spontanen Entwicklung eines Körperschemas führen.

Joshua Nunley2026-02-24🧬 q-bio

Deep LoRA-Unfolding Networks for Image Restoration

Die Arbeit stellt LoRun vor, ein effizientes Deep-Learning-Verfahren zur Bildrestauration, das durch den Einsatz eines gemeinsamen vortrainierten Basis-Denoisers und leichtgewichtiger, stufen-spezifischer LoRA-Anpassungen die Parameterredundanz herkömmlicher Deep-Unfolding-Netzwerke überwindet und gleichzeitig eine präzise Anpassung an unterschiedliche Rauschniveaus ermöglicht.

Xiangming Wang, Haijin Zeng, Benteng Sun + 4 more2026-02-24💻 cs

Think with Grounding: Curriculum Reinforced Reasoning with Video Grounding for Long Video Understanding

Die Arbeit stellt Video-TwG vor, ein Curriculum-verstärktes Framework, das Video-LLMs durch einen „Think-with-Grounding"-Ansatz befähigt, bei der Langzeit-Videoanalyse bedarfsgerecht relevante Videoclips selektiv heranzuziehen, um Halluzinationen zu reduzieren und das Verständnis komplexer multimodaler Hinweise zu verbessern.

Houlun Chen, Xin Wang, Guangyao Li + 4 more2026-02-24🤖 cs.AI

HIME: Mitigating Object Hallucinations in LVLMs via Hallucination Insensitivity Model Editing

Die Arbeit stellt HIME vor, eine effiziente, trainingsfreie Methode zur gezielten Reduzierung von Objekthalluzinationen in Large Vision-Language Models durch schichtadaptive Gewichtsmanipulation, die auf einem neu eingeführten Halluzinations-Insensitivitäts-Score (HIS) basiert und dabei das vorhandene Vorwissen der Modelle bewahrt.

Ahmed Akl, Abdelwahed Khamis, Ali Cheraghian + 3 more2026-02-24💻 cs

NeXt2Former-CD: Efficient Remote Sensing Change Detection with Modern Vision Architectures

Die Arbeit stellt NeXt2Former-CD vor, ein effizientes Framework für die Fernerkundungs-Veränderungserkennung, das ConvNeXt-Encoder mit DINOv3-Vorabtrainierung, eine deformierbare Aufmerksamkeitsfusion und einen Mask2Former-Decoder kombiniert, um bei überlegener Genauigkeit gegenüber Mamba-basierten Methoden eine vergleichbare Inferenzgeschwindigkeit zu erreichen.

Yufan Wang, Sokratis Makrogiannis, Chandra Kambhamettu2026-02-24💻 cs

Subtle Motion Blur Detection and Segmentation from Static Image Artworks

Die Autoren stellen SMBlurDetect vor, ein einheitliches Framework, das durch die Generierung eines hochwertigen, subtilen Bewegungsunschärfe-Datensatzes und ein darauf trainiertes U-Net-Modell eine präzise, zero-shot Erkennung und Segmentierung von Bewegungsunschärfe in statischen Bildkunstwerken ermöglicht.

Ganesh Samarth, Sibendu Paul, Solale Tabarestani + 1 more2026-02-24💻 cs

Phase-Consistent Magnetic Spectral Learning for Multi-View Clustering

Dieser Beitrag stellt eine Methode für das Multi-View-Clustering vor, die durch die explizite Modellierung von Phasenübereinstimmungen in komplexwertigen magnetischen Affinitäten und die Extraktion stabiler spektraler Signale über einen hermiteschen Laplace-Operator robuste, phasenkonsistente Repräsentationen auch bei widersprüchlichen Sichtweisen und Rauschen ermöglicht.

Mingdong Lu, Zhikui Chen, Meng Liu + 2 more2026-02-24🤖 cs.LG

MiSCHiEF: A Benchmark in Minimal-Pairs of Safety and Culture for Holistic Evaluation of Fine-Grained Image-Caption Alignment

Die Arbeit stellt MiSCHiEF vor, ein Benchmark aus zwei Datensätzen für Sicherheits- und Kulturszenarien, der mittels kontrastiver Minimalpaare zeigt, dass aktuelle Vision-Language-Modelle bei der feingranularen Bild-Text-Ausrichtung, insbesondere bei der Unterscheidung subtiler sicherheitsrelevanter oder kultureller Nuancen, weiterhin erhebliche Schwierigkeiten aufweisen.

Sagarika Banerjee, Tangatar Madi, Advait Swaminathan + 4 more2026-02-24🤖 cs.AI

RoboCurate: Harnessing Diversity with Action-Verified Neural Trajectory for Robot Learning

Das Paper stellt RoboCurate vor, ein Framework zur Generierung synthetischer Roboterdaten, das die Qualität annotierter Aktionen durch Simulation und Vergleich mit generierten Videos validiert und durch Bildbearbeitung erweitert, wodurch sich die Erfolgsraten im Vergleich zu reinen Real-Daten in verschiedenen Szenarien erheblich steigern lassen.

Seungku Kim, Suhyeok Jang, Byungjun Yoon + 3 more2026-02-24🤖 cs.AI

Synthesizing Multimodal Geometry Datasets from Scratch and Enabling Visual Alignment via Plotting Code

Die Autoren stellen GeoCode vor, einen neu synthetisierten Multimodal-Datensatz für geometrische Probleme, der durch die Einbeziehung von Plotting-Code als explizites Ausrichtungsziel die visuelle Symbolik-Verknüpfung verbessert und damit die Leistung von Modellen in komplexen geometrischen Schlussfolgerungen signifikant steigert.

Haobo Lin, Tianyi Bai, Chen Chen + 4 more2026-02-24🤖 cs.AI

Benchmarking Computational Pathology Foundation Models For Semantic Segmentation

Diese Studie stellt einen Benchmark für zehn computergestützte Pathologie-Foundation-Modelle zur semantischen Segmentierung vor, bei dem sich zeigt, dass das multimodale Modell CONCH die besten Ergebnisse erzielt und die Kombination der Merkmalsvektoren mehrerer Modelle die Segmentierungsleistung über alle Datensätze hinweg signifikant verbessert.

Lavish Ramchandani, Aashay Tinaikar, Dev Kumar Das + 2 more2026-02-24💻 cs

Optimizing ID Consistency in Multimodal Large Models: Facial Restoration via Alignment, Entanglement, and Disentanglement

Die Arbeit stellt EditedID vor, ein trainingsfreies und plug-and-play-fähiges Framework, das durch eine neuartige Kombination aus Ausrichtung, Entflechtung und Verflechtung die Identitätserhaltung bei der Bearbeitung von Porträts in multimodalen großen Modellen signifikant verbessert.

Yuran Dong, Hang Dai, Mang Ye2026-02-24💻 cs

Driving with A Thousand Faces: A Benchmark for Closed-Loop Personalized End-to-End Autonomous Driving

Die Arbeit stellt Person2Drive vor, eine umfassende Benchmark-Plattform für personalisierte End-to-End-Autonomes Fahren, die durch ein skalierbares Datensammlungssystem, quantitative Stilmetriken und einen angepassten Lernrahmen die bisherige Vernachlässigung individueller Fahrstile überwindet.

Xiaoru Dong, Ruiqin Li, Xiao Han + 7 more2026-02-24💻 cs

TAG: Thinking with Action Unit Grounding for Facial Expression Recognition

Das Paper stellt TAG vor, ein Vision-Language-Framework für die Gesichtsausdrucksanalyse, das durch die Verankerung des multimodalen Schlussfolgerns in visuell überprüfbare Gesichtsbewegungseinheiten (Action Units) die Halluzinationen herkömmlicher Modelle reduziert und gleichzeitig die Robustheit sowie die visuelle Glaubwürdigkeit der Vorhersagen verbessert.

Haobo Lin, Tianyi Bai, Jiajun Zhang + 5 more2026-02-24🤖 cs.AI

A high-resolution nationwide urban village mapping product for 342 Chinese cities based on foundation models

Diese Studie stellt GeoLink-UV vor, ein hochauflösendes, fundiertes Modell-basiertes Kartierungsprodukt, das die Lage und Grenzen von 342 chinesischen Städten umfassend erfasst, um lückenlose Daten für die urbane Governance und nachhaltige Entwicklung zu liefern.

Lubin Bai, Sheng Xiao, Ziyu Yin + 4 more2026-02-24💻 cs

Initialization matters in few-shot adaptation of vision-language models for histopathological image classification

Diese Arbeit stellt ZS-MIL vor, eine Methode zur Few-Shot-Anpassung von Vision-Language-Modellen in der Histopathologie, die die Text-Encoder-Embeddings zur Initialisierung des Klassifikators nutzt und damit die Leistung und Stabilität gegenüber zufälliger Initialisierung signifikant verbessert.

Pablo Meseguer, Rocío del Amor, Valery Naranjo2026-02-24💻 cs

Rethinking Preference Alignment for Diffusion Models with Classifier-Free Guidance

Die Arbeit schlägt eine Methode vor, die Text-zu-Bild-Diffusionsmodelle ohne Nachtraining durch eine kontrastive Testzeit-Steuerung, die auf getrennten Modellen für positive und negative Daten basiert, präziser an menschliche Präferenzen anpasst.

Zhou Jiang, Yandong Wen, Zhen Liu2026-02-24💻 cs

← Zurück Weiter →