cs.CV Arbeiten | Gist.Science

OCR-Agent: Agentic OCR with Capability and Memory Reflection

Das Paper stellt OCR-Agent vor, einen neuartigen iterativen Selbstkorrektur-Rahmen für Large Vision-Language Models, der durch die Kombination von Capability Reflection und Memory Reflection die Fehlerbehebung verbessert und auf dem OCRBench v2-Benchmark neue State-of-the-Art-Ergebnisse erzielt, ohne zusätzliches Training zu benötigen.

Shimin Wen, Zeyu Zhang, Xingdou Bian + 5 more2026-02-25💻 cs

VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation

Die Arbeit stellt VAUQ vor, ein trainingsfreies Framework zur visuell bewussten Unsicherheitsquantifizierung, das durch die Messung des Beitrags visueller Evidenz zur Vorhersagegenauigkeit die Selbstbewertung von Large Vision-Language Models verbessert und so Halluzinationen reduziert.

Seongheon Park, Changdae Oh, Hyeong Kyu Choi + 2 more2026-02-25💬 cs.CL

Motivation is Something You Need

Diese Arbeit stellt ein neuartiges, von der affektiven Neurowissenschaft inspiriertes Trainingsparadigma vor, das durch einen dualen Modellansatz mit intermittierender Aktivierung eines größeren „motivierten" Modells die Leistung von Bildklassifizierungsmodellen verbessert und dabei gleichzeitig die Trainingskosten senkt.

Mehdi Acheli, Walid Gaaloul2026-02-25🤖 cs.AI

ProxyFL: A Proxy-Guided Framework for Federated Semi-Supervised Learning

Das Paper stellt ProxyFL vor, einen Proxy-gesteuerten Rahmen für das federierte semi-überwachte Lernen, der sowohl externe als auch interne Datenheterogenität durch die Nutzung lernbarer Klassifikator-Gewichte als Proxy für die Kategorieverteilung effektiv adressiert.

Duowen Chen, Yan Wang2026-02-25🤖 cs.LG

Optimizing Occupancy Sensor Placement in Smart Environments

Die vorgestellte Studie entwickelt eine auf Integer Linear Programming basierende Methode zur automatischen Bestimmung optimaler Platzierungen von Zeit-Flug-Sensoren in Büroumgebungen, um die Zonenbelegung präzise zu erfassen und so Energieeinsparungen bei gleichzeitiger Wahrung der Privatsphäre zu ermöglichen.

Hao Lu, Richard J. Radke2026-02-25💻 cs

BrepGaussian: CAD reconstruction from Multi-View Images with Gaussian Splatting

Die Arbeit stellt BrepGaussian vor, ein neuartiges Zwei-Phasen-Framework, das mittels Gaussian Splatting aus multiplen 2D-Bildern präzise 3D-Boundary-Representationen (B-rep) rekonstruiert und dabei die Geometrie von den Patch-Features entkoppelt, um eine überlegene Generalisierung und saubere Geometrie zu erreichen.

Jiaxing Yu, Dongyang Ren, Hangyu Xu + 5 more2026-02-25💻 cs

UDVideoQA: A Traffic Video Question Answering Dataset for Multi-Object Spatio-Temporal Reasoning in Urban Dynamics

Die Arbeit stellt UDVideoQA vor, ein umfassendes Benchmark-Datenset mit 28.000 Frage-Antwort-Paaren aus anonymisierten Verkehrsvideos, das entwickelt wurde, um die Fähigkeiten von Video-Sprachmodellen beim räumlich-zeitlichen Mehr-Objekt-Reasoning und der kausalen Inferenz in urbanen Szenarien zu evaluieren und zu verbessern.

Joseph Raj Vishal, Nagasiri Poluri, Katha Naik + 7 more2026-02-25💻 cs

SynthRender and IRIS: Open-Source Framework and Dataset for Bidirectional Sim-Real Transfer in Industrial Object Perception

Diese Arbeit stellt das Open-Source-Framework SynthRender und den Datensatz IRIS vor, die durch synthetische Datengenerierung mit geleiteter Domänenrandomisierung und bidirektionale Sim-Real-Transfer-Techniken eine kostengünstige und robuste Objektwahrnehmung für industrielle Anwendungen ohne 3D-Modelle ermöglichen.

Jose Moises Araya-Martinez, Thushar Tom, Adrián Sanchis Reig + 3 more2026-02-25💻 cs

LUMEN: Longitudinal Multi-Modal Radiology Model for Prognosis and Diagnosis

Das Paper stellt LUMEN vor, ein neuartiges Trainingsframework für longitudinale Bruströntgenbilder, das durch multimodales und multi-task Instruction Fine-Tuning die diagnostische Genauigkeit und prognostischen Fähigkeiten von Vision-Language-Modellen in der Radiologie signifikant verbessert.

Zhifan Jiang, Dong Yang, Vishwesh Nath + 7 more2026-02-25🤖 cs.LG

SPRITETOMESH: Automatic Mesh Generation for 2D Skeletal Animation Using Learned Segmentation and Contour-Aware Vertex Placement

Die Arbeit stellt SPRITETOMESH vor, eine vollautomatische Pipeline, die mithilfe von maschinellem Lernen zur Segmentierung und algorithmischer Konturverfolgung 2D-Sprites in 300- bis 1200-mal schneller als manuelle Arbeit für Skelettanimationen vorbereitete Dreiecksnetze umwandelt.

Bastien Gimbert2026-02-25💻 cs

Seeing Through Words: Controlling Visual Retrieval Quality with Language Models

Die Autoren stellen einen neuen Ansatz vor, der generative Sprachmodelle nutzt, um kurze, mehrdeutige Textanfragen durch kontextuelle Details und explizite Qualitätskontrollen zu erweitern, um die Qualität der Bildwiedergewinnung in Vision-Language-Modellen gezielt zu steuern.

Jianglin Lu, Simon Jenni, Kushal Kafle + 3 more2026-02-25💻 cs

XMorph: Explainable Brain Tumor Analysis Via LLM-Assisted Hybrid Deep Intelligence

XMorph ist ein erklärbares und rechen-effizientes Framework, das mithilfe eines hybriden Deep-Learning-Ansatzes mit LLM-Unterstützung und einer informationsgewichteten Grenznormalisierung eine präzise Klassifizierung von Hirntumoren ermöglicht und dabei sowohl hohe Genauigkeit als auch klinisch interpretierbare Einblicke bietet.

Sepehr Salem Ghahfarokhi, M. Moein Esfahani, Raj Sunderraman + 2 more2026-02-25🤖 cs.AI

Mask-HybridGNet: Graph-based segmentation with emergent anatomical correspondence from pixel-level supervision

Die Arbeit stellt Mask-HybridGNet vor, ein Framework, das graphbasierte medizinische Bildsegmentierung durch direkte Schulung mit standardmäßigen Pixelmasken ermöglicht, wodurch die Notwendigkeit manueller Landmarken-Annotationen entfällt und gleichzeitig eine emergente, anatomisch konsistente Punktkorrespondenz über verschiedene Patienten hinweg erreicht wird.

Nicolás Gaggion, Maria J. Ledesma-Carbayo, Stergios Christodoulidis + 2 more2026-02-25💻 cs

Spa3R: Predictive Spatial Field Modeling for 3D Visual Reasoning

Das Paper stellt Spa3R vor, ein selbstüberwachtes Framework, das durch Predictive Spatial Field Modeling (PSFM) eine einheitliche 3D-Raumvorstellung aus unposed Mehransichtsbildern lernt und so Vision-Language-Modelle ohne explizite 3D-Modi auf State-of-the-Art-Niveau für räumliches Schlussfolgern bringt.

Haoyi Jiang, Liu Liu, Xinjie Wang + 5 more2026-02-25💻 cs

Human Video Generation from a Single Image with 3D Pose and View Control

Das Paper stellt HVG vor, ein latentes Videodiffusionsmodell, das aus einem einzigen Bild hochwertige, 4D-konsistente menschliche Videos mit 3D-Pose- und Blicksteuerung generiert, indem es durch artikulierte Pose-Modulation, Ausrichtung von Ansicht und Zeit sowie progressive räumlich-zeitliche Abtastung Herausforderungen wie selbstverdeckte Falten und Mehransichtskonsistenz löst.

Tiantian Wang, Chun-Han Yao, Tao Hu + 3 more2026-02-25💻 cs

Region of Interest Segmentation and Morphological Analysis for Membranes in Cryo-Electron Tomography

Die Autoren stellen TomoROIS-SurfORA vor, ein zweistufiges Framework, das mittels Deep Learning direkt Regionen von Interesse in der Kryo-Elektronentomographie segmentiert und anschließend morphologische Oberflächeneigenschaften von Membranen quantitativ analysiert.

Xingyi Cheng, Julien Maufront, Aurélie Di Cicco + 3 more2026-02-25💻 cs

Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs

Die Arbeit stellt „Reflective Test-Time Planning" vor, ein Framework für embodied LLMs, das durch die Integration von Reflexion während der Aktion, nach der Ausführung und retrospektiv die Fähigkeit zur Fehlerkorrektur und langfristigen Kreditvergabe verbessert, was in Langzeit-Haushalts- und Roboter-Benchmarks zu signifikanten Leistungssteigerungen führt.

Yining Hong, Huang Huang, Manling Li + 3 more2026-02-25💬 cs.CL

Multi-Vector Index Compression in Any Modality

Diese Arbeit stellt vier Methoden zur komprimierten Multi-Vektor-Indexierung vor, wobei die neu entwickelte, aufmerksamkeitsgesteuerte Clustering-Technik (AGC) auf Text-, Dokumenten- und Videodatenbeständen eine überlegene Effizienz und Genauigkeit bei der Reduzierung von Speicher- und Rechenkosten im Vergleich zu anderen Kompressionsansätzen und dem unkomprimierten Index demonstriert.

Hanxiang Qin, Alexander Martin, Rohan Jha + 3 more2026-02-25💬 cs.CL

Squint: Fast Visual Reinforcement Learning for Sim-to-Real Robotics

Die Arbeit stellt Squint vor, eine visuelle Soft Actor-Critic-Methode, die durch Parallelisierung, einen verteilten Kritiker und optimierte Implementierung das Training von Robotik-Policies auf einem einzelnen GPU in nur wenigen Minuten ermöglicht und damit sowohl die Simulationsgeschwindigkeit als auch den erfolgreichen Transfer auf reale Systeme verbessert.

Abdulaziz Almuzairee, Henrik I. Christensen2026-02-25🤖 cs.LG

Label-free segmentation from cardiac ultrasound using self-supervised learning

Die Studie stellt ein skalierbares, selbstüberwachtes Deep-Learning-Verfahren vor, das ohne manuelle Annotationen eine klinisch valide Segmentierung von Herzkammern in Ultraschallbildern ermöglicht und dabei die Genauigkeit überwachter Methoden sowie die Variation zwischen Kliniker erreicht.

Danielle L. Ferreira, Connor Lau, Zaynaf Salaymang + 1 more2026-02-24⚡ eess

← Zurück Weiter →