cs.CV Arbeiten | Gist.Science

Neural Prior Estimation: Learning Class Priors from Latent Representations

Diese Arbeit stellt den Neural Prior Estimator (NPE) vor, ein theoretisch fundiertes Framework, das aus latenten Repräsentationen klassenspezifische Priors lernt, um die durch Klassenungleichgewicht verursachte Verzerrung in tiefen neuronalen Netzen zu korrigieren und so die Vorhersagegenauigkeit für unterrepräsentierte Klassen zu verbessern.

Masoud Yavari, Payman Moallem2026-02-23🤖 cs.LG

On the Evaluation Protocol of Gesture Recognition for UAV-based Rescue Operation based on Deep Learning: A Subject-Independence Perspective

Diese Arbeit widerlegt die Validität des Evaluierungsprotokolls für die gestenbasierte UAV-Rescue-Operation von Liu und Szirányi, indem sie nachweist, dass die berichteten perfekten Genauigkeitswerte auf einem fehlerhaften, zufälligen Split auf Frame-Ebene beruhen, der zu Datenlecks führt und die Generalisierungsfähigkeit auf unbekannte Personen verschleiert.

Domonkos Varga2026-02-23💻 cs

TopoGate: Quality-Aware Topology-Stabilized Gated Fusion for Longitudinal Low-Dose CT New-Lesion Prediction

Das Paper stellt TopoGate vor, ein leichtgewichtiges, interpretierbares Modell, das durch eine qualitätsbewusste, gating-gesteuerte Fusion von CT-Aufnahmen und Subtraktionsbildern die Vorhersage neuer Läsionen in longitudinalen Niedrigdosis-CT-Follow-ups stabilisiert und dabei durch die Berücksichtigung von Bildqualität, Registrierung und topologischer Stabilität die Zuverlässigkeit im klinischen Einsatz erhöht.

Seungik Cho2026-02-23⚡ eess

Learning Compact Video Representations for Efficient Long-form Video Understanding in Large Multimodal Models

Diese Arbeit stellt einen neuartigen End-to-End-Ansatz für das Verständnis langer Videos in großen multimodalen Modellen vor, der durch einen informationsdichte-basierten adaptiven Sampler und einen autoencoder-basierten räumlich-zeitlichen Kompressor redundante Daten effizient reduziert und gleichzeitig wesentliche diskriminierende Informationen bewahrt.

Yuxiao Chen, Jue Wang, Zhikang Zhang + 8 more2026-02-23💻 cs

Understanding the Fine-Grained Knowledge Capabilities of Vision-Language Models

Die Studie zeigt, dass Vision-Language-Modelle bei feinabgestuften Klassifizierungsaufgaben hinterherhinken, wobei Verbesserungen des visuellen Encoders und des Vortrainings (insbesondere bei nicht eingefrorenen Sprachmodellgewichten) einen überproportionalen positiven Einfluss auf diese Fähigkeiten haben, während bessere Sprachmodelle alle Benchmarks nur gleichmäßig steigern.

Dhruba Ghosh, Yuhui Zhang, Ludwig Schmidt2026-02-23🤖 cs.AI

A Single Image and Multimodality Is All You Need for Novel View Synthesis

Die Arbeit stellt einen Rahmen vor, der extrem spärliche multimodale Abstandsmessungen (z. B. Radar oder LiDAR) nutzt, um robuste Tiefenkarten zu rekonstruieren, welche als geometrische Bedingung in Diffusionsmodellen die Qualität und Konsistenz der Novel-View-Synthese aus einzelnen Bildern erheblich verbessern.

Amirhosein Javadi, Chi-Shiang Gau, Konstantinos D. Polyzos + 1 more2026-02-23💻 cs

ROCKET: Residual-Oriented Multi-Layer Alignment for Spatially-Aware Vision-Language-Action Models

Das Paper stellt ROCKET vor, ein neuartiges Framework für residuenorientierte Multi-Layer-Alignment, das die räumliche Wahrnehmung von Vision-Language-Action-Modellen durch eine effiziente, gradientenkonfliktreduzierende Ausrichtung mehrerer Schichten mit einem 3D-Vision-Grundmodell erheblich verbessert und dabei nur einen Bruchteil der Rechenleistung benötigt.

Guoheng Sun, Tingting Du, Kaixi Feng + 6 more2026-02-23🤖 cs.AI

From Global Radiomics to Parametric Maps: A Unified Workflow Fusing Radiomics and Deep Learning for PDAC Detection

Diese Arbeit stellt einen einheitlichen Workflow vor, der handgefertigte Radiomics-Features auf globaler und voxelbasierter Ebene in ein nnUNet-Modell integriert, um die Detektion von Pankreaskarzinomen (PDAC) durch komplementäre Signale zu verbessern und dabei hohe Leistungswerte auf dem PANORAMA-Datensatz sowie in einem externen Kohortenvergleich zu erzielen.

Zengtian Deng, Yimeng He, Yu Shi + 4 more2026-02-23⚡ eess

Image Quality Assessment: Exploring Quality Awareness via Memory-driven Distortion Patterns Matching

Die vorgeschlagene Methode MQAF nutzt ein durch biologisches Gedächtnis inspiriertes Framework mit einem Speicher für Verzerrungsmuster, um die Bildqualität sowohl im Vollreferenz- als auch im Vollreferenz-freien Modus präzise zu bewerten und so die Abhängigkeit von idealen Referenzbildern zu überwinden.

Xuting Lan, Mingliang Zhou, Xuekai Wei + 5 more2026-02-23💻 cs

MUOT_3M: A 3 Million Frame Multimodal Underwater Benchmark and the MUTrack Tracking Method

Die Studie stellt mit MUOT_3M das erste groß angelegte, multimodale Unterwasser-Objektverfolgungs-Benchmark mit 3 Millionen Bildern vor und entwickelt darauf aufbauend MUTrack, einen effizienten Tracker, der durch Wissensdistillation multimodales Wissen in ein unimodales Modell überträgt und dabei den aktuellen Stand der Technik in Genauigkeit und Geschwindigkeit übertrifft.

Ahsan Baidar Bakht, Mohamad Alansari, Muhayy Ud Din + 5 more2026-02-23💻 cs

Towards LLM-centric Affective Visual Customization via Efficient and Precise Emotion Manipulating

Diese Arbeit stellt die LLM-zentrierte Aufgabe der affektiven visuellen Anpassung (L-AVC) vor und schlägt mit dem EPEM-Ansatz eine effiziente und präzise Methode zur Manipulation subjektiver Emotionen in Bildern vor, die durch die Module EIC und PER sowohl die emotionale Umwandlung als auch den Erhalt emotionsneutraler Inhalte sicherstellt.

Jiamin Luo, Xuqian Gu, Jingjing Wang + 1 more2026-02-23💻 cs

DeepSVU: Towards In-depth Security-oriented Video Understanding via Unified Physical-world Regularized MoE

Die Arbeit stellt DeepSVU vor, eine neue Chat-Aufgabe für das vertiefte sicherheitsorientierte Videoverständnis, die durch den vorgeschlagenen Unified Physical-world Regularized MoE (UPRM)-Ansatz nicht nur Bedrohungen erkennt, sondern auch deren Ursachen attribuiert und bewertet, indem sie grob-zu-feine physikalische Weltinformationen effektiv modelliert.

Yujie Jin, Wenxin Zhang, Jingjing Wang + 1 more2026-02-23🤖 cs.AI

UAOR: Uncertainty-aware Observation Reinjection for Vision-Language-Action Models

Das Paper stellt UAOR vor, einen trainingsfreien und plug-and-play-Modul für Vision-Language-Action-Modelle, der bei hoher Unsicherheit Beobachtungsdaten über einen Attention-Mechanismus in die Feed-Forward-Netzwerke reinjiziert, um die Aktionsgenerierung ohne zusätzliche Daten oder Module zu verbessern.

Jiabing Yang, Yixiang Chen, Yuan Xu + 12 more2026-02-23💻 cs

Spatio-temporal Decoupled Knowledge Compensator for Few-Shot Action Recognition

Die Arbeit stellt DiST vor, ein neuartiges Framework für die Few-Shot-Aktionserkennung, das mittels eines Entkopplungs- und Integrationsansatzes räumliches und zeitliches Wissen aus großen Sprachmodellen nutzt, um aussagekräftige, mehrstufige Prototypen zu lernen und so den aktuellen Stand der Technik auf fünf Standard-Datensätzen zu übertreffen.

Hongyu Qu, Xiangbo Shu, Rui Yan + 3 more2026-02-23💻 cs

Faster Training, Fewer Labels: Self-Supervised Pretraining for Fine-Grained BEV Segmentation

Die vorgestellte Methode nutzt einen zweiphasigen Trainingsansatz mit selbstüberwachtem Pretraining durch differentiable Reprojektion und Mask2Former-Pseudolabels, um die Annotation für die feinkörnige BEV-Segmentierung zu halbieren und gleichzeitig die Leistung sowie die Effizienz im Vergleich zu vollständig überwachten Baselines zu steigern.

Daniel Busch, Christian Bohn, Thomas Kurbiel + 3 more2026-02-23💻 cs

Comparative Assessment of Multimodal Earth Observation Data for Soil Moisture Estimation

Diese Studie stellt einen hochauflösenden (10 m) Rahmen zur Schätzung der Bodenfeuchte in Europa vor, der zeigt, dass die Kombination von Sentinel-1-, Sentinel-2- und ERA-5-Daten mit maschinellen Lernverfahren zwar präzise Ergebnisse liefert, aber spezialisierte spektrale Indizes in diesem datenarmen Regressionskontext den Embeddings von Foundation-Modellen wie Prithvi überlegen bleiben.

Ioannis Kontogiorgakis, Athanasios Askitopoulos, Iason Tsardanidis + 4 more2026-02-23🤖 cs.LG

DohaScript: A Large-Scale Multi-Writer Dataset for Continuous Handwritten Hindi Text

Die Arbeit stellt DohaScript vor, einen groß angelegten, mehrschreiberigen Datensatz mit kontinuierlichem handschriftlichem Hindi-Text von 531 Autoren, der als standardisierter Benchmark dient, um die bisherige Unterrepräsentation von Devanagari-Schrift in der Forschung zu überwinden und Aufgaben wie Handschrifterkennung sowie Stilanalyse zu ermöglichen.

Kunwar Arpit Singh, Ankush Prakash, Haroon R Lone2026-02-23🤖 cs.AI

Predict to Skip: Linear Multistep Feature Forecasting for Efficient Diffusion Transformers

Die Arbeit stellt PrediT vor, ein trainingsfreies Beschleunigungsframework für Diffusions-Transformer, das durch lineare Mehrschritt-Methoden zur Vorhersage von Merkmalen und eine dynamische Korrektur die Rechenzeit um bis zu 5,54-fach reduziert, ohne die Bildqualität signifikant zu beeinträchtigen.

Hanshuai Cui, Zhiqing Tang, Qianli Ma + 2 more2026-02-23💻 cs

OODBench: Out-of-Distribution Benchmark for Large Vision-Language Models

Die Arbeit stellt OODBench vor, einen automatisierten Benchmark mit 40.000 Instanzen, der die signifikanten Leistungseinbußen aktueller Large Vision-Language Models bei Out-of-Distribution-Daten aufdeckt und eine zuverlässige, gestufte Bewertungsmethode für zukünftige Forschungen bietet.

Ling Lin, Yang Bai, Heng Su + 5 more2026-02-23🤖 cs.AI

RamanSeg: Interpretability-driven Deep Learning on Raman Spectra for Cancer Diagnosis

Die Studie stellt RamanSeg vor, ein interpretierbares, prototypenbasiertes Deep-Learning-Modell zur Krebsdiagnose mittels Raman-Spektroskopie, das nicht nur die Interpretierbarkeit von „Black-Box"-Ansätzen verbessert, sondern auch eine segmentierungsbasierte Klassifizierung ermöglicht, die in einer Variante die Leistung eines U-Net-Baselines übertrifft.

Chris Tomy, Mo Vali, David Pertzborn + 9 more2026-02-23⚡ eess

← Zurück Weiter →