cs.CV Arbeiten | Gist.Science

Morphological Addressing of Identity Basins in Text-to-Image Diffusion Models

Die Studie zeigt, dass morphologische Strukturen – sei es durch deskriptive Merkmale oder phonesthemische Klangmuster in Prompts – in Text-zu-Bild-Diffusionsmodellen systematisch navigierbare Gradienten erzeugen, die es ermöglichen, spezifische Identitätsbasen ohne Referenzbilder zu formen und neue visuelle Konzepte zu generieren.

Andrew Fraser2026-02-24💻 cs

Triggering hallucinations in model-based MRI reconstruction via adversarial perturbations

Diese Studie zeigt, dass generative Modelle zur Rekonstruktion von Magnetresonanzbildern durch kleine, adversarische Störungen leicht zu Halluzinationen verleitet werden können, die herkömmliche Qualitätsmetriken nicht zuverlässig erkennen und somit ein Risiko für Fehldiagnosen darstellen.

Suna Buğday, Yvan Saeys, Jonathan Peck2026-02-24⚡ eess

Rodent-Bench

Die Studie stellt Rodent-Bench vor, einen neuen Benchmark zur Bewertung der Fähigkeiten von multimodalen Sprachmodellen bei der Annotation von Nagetier-Verhaltensvideos, und zeigt auf, dass aktuelle State-of-the-Art-Modelle für diese wissenschaftliche Aufgabe aufgrund erheblicher Schwierigkeiten bei der zeitlichen Segmentierung und der Unterscheidung subtiler Verhaltenszustände noch nicht einsatzfähig sind.

Thomas Heap, Laurence Aitchison, Emma Cahill + 1 more2026-02-24🤖 cs.AI

4D-UNet improves clutter rejection in human transcranial contrast enhanced ultrasound

Diese Studie stellt einen neuen 4D-U-Net-Ansatz vor, der durch die Integration von räumlichen und zeitlichen Informationen die Unterdrückung von Störsignalen in der transkraniellen Kontrastmittel-Ultraschallbildgebung beim Menschen verbessert und so die Visualisierung neurovaskulärer Strukturen ermöglicht.

Tristan Beruard, Armand Delbos, Arthur Chavignon + 2 more2026-02-24⚡ eess

GIST: Targeted Data Selection for Instruction Tuning via Coupled Optimization Geometry

Die Arbeit stellt GIST vor, eine Methode zur gezielten Datenselektion für das Instruction Tuning, die durch die Berücksichtigung der gekoppelten Optimierungsgeometrie bei Parameter-effizientem Fine-Tuning (PEFT) den State-of-the-art mit deutlich geringerem Speicher- und Rechenaufwand erreicht.

Guanghui Min, Tianhao Huang, Ke Wan + 1 more2026-02-24🤖 cs.LG

BloomNet: Exploring Single vs. Multiple Object Annotation for Flower Recognition Using YOLO Variants

Diese Studie stellt den neuen FloralSix-Datensatz vor und zeigt, dass YOLOv8m und YOLOv12n unter Verwendung des SGD-Optimierers je nach Annotierungsdichte (einzelne vs. mehrere Bounding-Boxen) und Umgebungsbedingungen (isoliert vs. dicht) unterschiedlich optimiert sind, um die präzise Blumenerkennung für landwirtschaftliche Anwendungen zu verbessern.

Safwat Nusrat, Prithwiraj Bhattacharjee2026-02-24🤖 cs.AI

DM4CT: Benchmarking Diffusion Models for Computed Tomography Reconstruction

Die Arbeit stellt DM4CT, ein umfassendes Benchmark-System vor, das die Leistungsfähigkeit und Grenzen von Diffusionsmodellen im Vergleich zu etablierten Rekonstruktionsmethoden bei der Computertomographie unter realen experimentellen Bedingungen systematisch evaluiert.

Jiayang Shi, Daniel M. Pelt, K. Joost Batenburg2026-02-24⚡ eess

Effect of Patch Size on Fine-Tuning Vision Transformers in Two-Dimensional and Three-Dimensional Medical Image Classification

Diese Studie zeigt, dass das Fine-Tuning von Vision-Transformern mit kleineren Patch-Größen (1, 2 und 4) die Klassifizierungsleistung in medizinischen 2D- und 3D-Bilddatensätzen signifikant verbessert, wobei eine Ensemble-Methode diese Ergebnisse weiter steigert.

Massoud Dehghan, Ramona Woitek, Amirreza Mahbod2026-02-24💻 cs

Narrating For You: Prompt-guided Audio-visual Narrating Face Generation Employing Multi-entangled Latent Space

Die Arbeit stellt einen neuartigen Ansatz vor, der aus einem statischen Bild, einer Sprachprofil- und einem Zieltext realistische sprechende Gesichter und Stimmen erzeugt, indem ein multi-verflochtener latenter Raum genutzt wird, um die räumlich-zeitlichen, personenbezogenen Merkmale zwischen den Audio- und Videomodaliäten zu verknüpfen.

Aashish Chandra, Aashutosh A, Abhijit Das2026-02-24💻 cs

Auto Quantum Machine Learning for Multisource Classification

Diese Arbeit stellt einen automatisierten Quanten-Machine-Learning-Ansatz (AQML) für die Datenfusion vor, der bei der Verarbeitung multisource-Daten und der Änderungserkennung auf dem ONERA-Datensatz eine höhere Genauigkeit als klassische MLPs und manuell entworfene QML-Modelle erreicht.

Tomasz Rybotycki, Sebastian Dziura, Piotr Gawron2026-02-24⚛️ quant-ph

Information-Guided Noise Allocation for Efficient Diffusion Training

Die Arbeit stellt InfoNoise vor, einen datenadaptiven Trainingsplan für Diffusionsmodelle, der mithilfe informationstheoretischer Prinzipien die Rauschverteilung optimiert und damit sowohl die Trainingsgeschwindigkeit als auch die Modellqualität im Vergleich zu manuell abgestimmten Schemata verbessert.

Gabriel Raya, Bac Nguyen, Georgios Batzolis + 6 more2026-02-24🤖 cs.LG

Systematic Analysis of Coupling Effects on Closed-Loop and Open-Loop Performance in Aerial Continuum Manipulators

Diese Studie zeigt, dass ein entkoppeltes dynamisches Modell für luftgestützte Kontinuum-Manipulatoren trotz signifikanter Abweichungen in der offenen Schleife eine geschlossene Regelkreis-Leistung erreicht, die mit dem gekoppelten Modell vergleichbar ist, jedoch bei geringeren Rechenkosten.

Niloufar Amiri, Shayan Sepahvand, Iraj Mantegh + 1 more2026-02-24💻 cs

Neural Fields as World Models

Die Studie schlägt isomorphe Weltmodelle vor, die die räumliche Topologie sensorischer Kortexstrukturen mittels neuronaler Felder und motor-gesteuerter Kanäle bewahren, wodurch physikalische Vorhersagen als geometrische Propagation erfolgen und zu einer effizienteren Transferleistung sowie der spontanen Entwicklung eines Körperschemas führen.

Joshua Nunley2026-02-24🧬 q-bio

Deep LoRA-Unfolding Networks for Image Restoration

Die Arbeit stellt LoRun vor, ein effizientes Deep-Learning-Verfahren zur Bildrestauration, das durch den Einsatz eines gemeinsamen vortrainierten Basis-Denoisers und leichtgewichtiger, stufen-spezifischer LoRA-Anpassungen die Parameterredundanz herkömmlicher Deep-Unfolding-Netzwerke überwindet und gleichzeitig eine präzise Anpassung an unterschiedliche Rauschniveaus ermöglicht.

Xiangming Wang, Haijin Zeng, Benteng Sun + 4 more2026-02-24💻 cs

Think with Grounding: Curriculum Reinforced Reasoning with Video Grounding for Long Video Understanding

Die Arbeit stellt Video-TwG vor, ein Curriculum-verstärktes Framework, das Video-LLMs durch einen „Think-with-Grounding"-Ansatz befähigt, bei der Langzeit-Videoanalyse bedarfsgerecht relevante Videoclips selektiv heranzuziehen, um Halluzinationen zu reduzieren und das Verständnis komplexer multimodaler Hinweise zu verbessern.

Houlun Chen, Xin Wang, Guangyao Li + 4 more2026-02-24🤖 cs.AI

HIME: Mitigating Object Hallucinations in LVLMs via Hallucination Insensitivity Model Editing

Die Arbeit stellt HIME vor, eine effiziente, trainingsfreie Methode zur gezielten Reduzierung von Objekthalluzinationen in Large Vision-Language Models durch schichtadaptive Gewichtsmanipulation, die auf einem neu eingeführten Halluzinations-Insensitivitäts-Score (HIS) basiert und dabei das vorhandene Vorwissen der Modelle bewahrt.

Ahmed Akl, Abdelwahed Khamis, Ali Cheraghian + 3 more2026-02-24💻 cs

NeXt2Former-CD: Efficient Remote Sensing Change Detection with Modern Vision Architectures

Die Arbeit stellt NeXt2Former-CD vor, ein effizientes Framework für die Fernerkundungs-Veränderungserkennung, das ConvNeXt-Encoder mit DINOv3-Vorabtrainierung, eine deformierbare Aufmerksamkeitsfusion und einen Mask2Former-Decoder kombiniert, um bei überlegener Genauigkeit gegenüber Mamba-basierten Methoden eine vergleichbare Inferenzgeschwindigkeit zu erreichen.

Yufan Wang, Sokratis Makrogiannis, Chandra Kambhamettu2026-02-24💻 cs

Subtle Motion Blur Detection and Segmentation from Static Image Artworks

Die Autoren stellen SMBlurDetect vor, ein einheitliches Framework, das durch die Generierung eines hochwertigen, subtilen Bewegungsunschärfe-Datensatzes und ein darauf trainiertes U-Net-Modell eine präzise, zero-shot Erkennung und Segmentierung von Bewegungsunschärfe in statischen Bildkunstwerken ermöglicht.

Ganesh Samarth, Sibendu Paul, Solale Tabarestani + 1 more2026-02-24💻 cs

Phase-Consistent Magnetic Spectral Learning for Multi-View Clustering

Dieser Beitrag stellt eine Methode für das Multi-View-Clustering vor, die durch die explizite Modellierung von Phasenübereinstimmungen in komplexwertigen magnetischen Affinitäten und die Extraktion stabiler spektraler Signale über einen hermiteschen Laplace-Operator robuste, phasenkonsistente Repräsentationen auch bei widersprüchlichen Sichtweisen und Rauschen ermöglicht.

Mingdong Lu, Zhikui Chen, Meng Liu + 2 more2026-02-24🤖 cs.LG

MiSCHiEF: A Benchmark in Minimal-Pairs of Safety and Culture for Holistic Evaluation of Fine-Grained Image-Caption Alignment

Die Arbeit stellt MiSCHiEF vor, ein Benchmark aus zwei Datensätzen für Sicherheits- und Kulturszenarien, der mittels kontrastiver Minimalpaare zeigt, dass aktuelle Vision-Language-Modelle bei der feingranularen Bild-Text-Ausrichtung, insbesondere bei der Unterscheidung subtiler sicherheitsrelevanter oder kultureller Nuancen, weiterhin erhebliche Schwierigkeiten aufweisen.

Sagarika Banerjee, Tangatar Madi, Advait Swaminathan + 4 more2026-02-24🤖 cs.AI

← Zurück Weiter →