cs.CV Arbeiten | Gist.Science

PanoEnv: Exploring 3D Spatial Intelligence in Panoramic Environments with Reinforcement Learning

Die Arbeit stellt PanoEnv vor, einen umfassenden Benchmark für 3D-Raumverständnis in panoramischen Umgebungen, und demonstriert, wie ein curriculumsbasiertes Reinforcement-Learning-Framework mit GRPO die räumliche Intelligenz von Vision-Language-Modellen signifikant verbessert und dabei sogar größere Modelle übertreffen kann.

Zekai Lin, Xu Zheng2026-02-26💻 cs

World Guidance: World Modeling in Condition Space for Action Generation

Das Paper stellt WoG (World Guidance) vor, ein Framework, das die Fähigkeiten von Vision-Language-Action-Modellen verbessert, indem es zukünftige Beobachtungen in einen kompakten Bedingungsrraum abbildet, um gleichzeitig präzise Aktionen zu generieren und eine überlegene Generalisierung zu erreichen.

Yue Su, Sijin Chen, Haixin Shi + 7 more2026-02-26💻 cs

RGB-Event HyperGraph Prompt for Kilometer Marker Recognition based on Pre-trained Foundation Models

Die Autoren stellen eine robuste Methode zur Erkennung von Kilometermarken in U-Bahnen vor, die auf einem vortrainierten RGB-OCR-Modell mit multimodaler Anpassung und einem neu vorgestellten, großen synchronisierten RGB-Event-Datensatz (EvMetro5K) basiert, um die Herausforderungen komplexer Umgebungen wie schlechte Beleuchtung und hohe Geschwindigkeiten zu bewältigen.

Xiaoyu Xian, Shiao Wang, Xiao Wang + 2 more2026-02-26🤖 cs.AI

RT-RMOT: A Dataset and Framework for RGB-Thermal Referring Multi-Object Tracking

Die Autoren stellen RT-RMOT vor, eine neue Aufgabe für die RGB-Thermische Referenz-Multi-Objekt-Verfolgung, die durch den ersten entsprechenden Datensatz RefRT und das darauf aufbauende, mittels RL-Optimierung verfeinerte Framework RTrack gelöst wird, um die Verfolgung auch unter schwierigen Sichtbedingungen wie Dunkelheit oder Rauch zu ermöglichen.

Yanqiu Yu, Zhifan Jin, Sijia Chen + 4 more2026-02-26💻 cs

SPGen: Stochastic scanpath generation for paintings using unsupervised domain adaptation

Die Arbeit stellt SPGen vor, ein tiefes Lernmodell, das mittels unüberwachter Domänenanpassung, differenzierbarer Fixationsauswahl und stochastischer Sampling-Verfahren Scanpfade für Kunstwerke vorhersagt, um das visuelle Interesse an kulturellem Erbe zu analysieren und zu bewahren.

Mohamed Amine Kerkouri, Marouane Tliba, Aladine Chetouani + 1 more2026-02-26💻 cs

AutoSew: A Geometric Approach to Stitching Prediction with Graph Neural Networks

Das Paper stellt AutoSew vor, einen vollständig automatisierten, rein geometriebasierten Ansatz, der mithilfe von Graph Neural Networks und optimaler Transporttheorie Nahtkorrespondenzen direkt aus 2D-Schnittmustern vorhersagt und dabei durch die Einführung eines annotierten Datensatzes sowie eine hohe Genauigkeit bestehende Methoden übertrifft.

Pablo Ríos-Navarro, Elena Garces, Jorge Lopez-Moreno2026-02-26💻 cs

NESTOR: A Nested MOE-based Neural Operator for Large-Scale PDE Pre-Training

Die Arbeit stellt NESTOR vor, einen auf einem verschachtelten Mixture-of-Experts-Framework basierenden neuronalen Operator, der durch die Kombination von globalen und lokalen Abhängigkeitsmodellen eine effiziente Large-Scale-Vorverarbeitung für diverse PDE-Systeme ermöglicht und sich durch verbesserte Generalisierung und Übertragbarkeit auf nachgelagerte Aufgaben auszeichnet.

Dengdi Sun, Xiaoya Zhou, Xiao Wang + 4 more2026-02-26🤖 cs.AI

AdaSpot: Spend Resolution Where It Matters for Precise Event Spotting

Das Paper stellt AdaSpot vor, ein effizientes Framework für die präzise Ereigniserkennung in Videos, das durch die adaptive Auswahl informativer Bildbereiche in hoher Auflösung bei gleichzeitiger Verarbeitung des restlichen Bildmaterials in niedriger Auflösung sowohl den Rechenaufwand reduziert als auch den State-of-the-Art in Bezug auf Genauigkeit erreicht.

Artur Xarles, Sergio Escalera, Thomas B. Moeslund + 1 more2026-02-26💻 cs

WeatherCity: Urban Scene Reconstruction with Controllable Multi-Weather Transformation

Das Paper stellt WeatherCity vor, ein neuartiges Framework zur rekonstruierbaren 4D-Wiedergabe urbaner Szenen, das durch eine textgesteuerte Bildbearbeitung, eine spezielle Wetter-Gaussian-Repräsentation und physikbasierte Partikelmodelle eine hochauflösende, konsistente und kontrollierbare Simulation verschiedener Wetterbedingungen für autonome Fahrzeuge ermöglicht.

Wenhua Wu, Huai Guan, Zhe Liu + 1 more2026-02-26💻 cs

Brain3D: Brain Report Automation via Inflated Vision Transformers in 3D

Die Studie stellt Brain3D vor, ein spezialisiertes 3D-Vision-Language-Modell, das durch eine gestufte Anpassung eines auf 2D vortrainierten Encoders präzise klinische Befundberichte für Hirntumoren aus volumetrischen MRT-Daten generiert und dabei die räumlichen Grenzen herkömmlicher 2D-Ansätze überwindet.

Mariano Barone, Francesco Di Serio, Giuseppe Riccio + 4 more2026-02-26💻 cs

GeoDiv: Framework For Measuring Geographical Diversity In Text-To-Image Models

Die Arbeit stellt GeoDiv vor, ein Framework, das große Sprach- und Vision-Language-Modelle nutzt, um systematisch geografische Verzerrungen und mangelnde Vielfalt in Text-zu-Bild-Modellen zu messen und aufzeigt, wie diese oft stereotype, sozioökonomisch verzerrte Darstellungen von Ländern wie Indien, Nigeria und Kolumbien erzeugen.

Abhipsa Basu, Mohana Singh, Shashank Agnihotri + 2 more2026-02-26💻 cs

Lumosaic: Hyperspectral Video via Active Illumination and Coded-Exposure Pixels

Das Paper stellt Lumosaic vor, ein kompaktes aktives Hyperspektralvideosystem, das durch die Synchronisation einer schmalbandigen LED-Array-Beleuchtung mit einem Kamera-Sensor, der eine koderte Pixelbelichtung ermöglicht, hochauflösende, spektral genaue und zeitlich stabile Hyperspektralvideos dynamischer Szenen in Echtzeit erfasst.

Dhruv Verma, Andrew Qiu, Roberto Rangel + 8 more2026-02-26⚡ eess

WeaveTime: Stream from Earlier Frames into Emergent Memory in VideoLLMs

Die Arbeit stellt WeaveTime vor, ein effizientes und modellunabhängiges Framework für Video-LLMs, das durch eine leichte zeitliche Rekonstruktionsaufgabe und einen unsicherheitsgesteuerten Abrufmechanismus die zeitliche Kausalität in Streaming-Szenarien sicherstellt und so Genauigkeit bei gleichzeitiger Latenzreduktion verbessert.

Yulin Zhang, Cheng Shi, Sibei Yang2026-02-26💻 cs

MedTri: A Platform for Structured Medical Report Normalization to Enhance Vision-Language Pretraining

Die Studie stellt MedTri vor, ein Framework zur Normalisierung medizinischer Berichte in strukturierte Tripletts, das durch die Beseitigung von Stilvariationen und irrelevante Inhalten die Qualität des medizinischen Vision-Language-Pretrainings signifikant verbessert.

Yuetan Chu, Xinhua Ma, Xinran Jin + 2 more2026-02-26💻 cs

NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language Priors

Die Arbeit stellt NoLan vor, ein training-freies Framework, das Objekthalluzinationen in Large Vision-Language Models durch die dynamische Unterdrückung sprachlicher Priors im Decoder effektiv reduziert.

Lingfeng Ren, Weihao Yu, Runpeng Yu + 1 more2026-02-26💬 cs.CL

CASR: A Robust Cyclic Framework for Arbitrary Large-Scale Super-Resolution with Distribution Alignment and Self-Similarity Awareness

Das Papier stellt CASR vor, einen effizienten zyklischen Rahmen für die beliebige Skalierung von Bildern, der durch die Module SDAM und SARM Verteilungsverschiebungen und Inkonsistenzen überwindet, um bei extremen Vergrößerungen stabile Ergebnisse und eine hohe Generalisierungsfähigkeit zu gewährleisten.

Wenhao Guo, Zhaoran Zhao, Peng Lu + 3 more2026-02-26💻 cs

Mixed Magnification Aggregation for Generalizable Region-Level Representations in Computational Pathology

Die Studie stellt einen neuartigen Region-Level-Mixing-Encoder vor, der Repräsentationen aus gemischten Vergrößerungsstufen mittels eines Masked-Embedding-Modeling-Vortrainings kombiniert, um die Generalisierbarkeit in der computergestützten Pathologie zu verbessern und die Anzahl der benötigten Repräsentationen pro Slide zu reduzieren.

Eric Zimmermann, Julian Viret, Michal Zelechowski + 7 more2026-02-26💻 cs

Off-The-Shelf Image-to-Image Models Are All You Need To Defeat Image Protection Schemes

Die Studie zeigt, dass handelsübliche Bild-zu-Bild-Generativmodelle durch einfache Textprompts als universelle Denoiser eingesetzt werden können, um eine Vielzahl von Bildschutzmechanismen wirksamer zu umgehen als bisherige spezialisierte Angriffe und damit eine weitverbreitete Sicherheitslücke aufzudecken.

Xavier Pleimling, Sifat Muhammad Abdullah, Gunjan Balde + 4 more2026-02-26🤖 cs.AI

WHOLE: World-Grounded Hand-Object Lifted from Egocentric Videos

Das Paper stellt WHOLE vor, eine Methode, die durch einen generativen Prior Hand- und Objektbewegungen gemeinsam aus Egocentric-Videos rekonstruiert, um die Herausforderungen von Okklusionen und inkonsistenten Beziehungen zu überwinden und damit den aktuellen Stand der Technik in der Pose-Schätzung zu verbessern.

Yufei Ye, Jiaman Li, Ryan Rong + 1 more2026-02-26💻 cs

Towards Attributions of Input Variables in a Coalition

Dieses Paper adressiert das Problem der Variablenpartitionierung in Shapley-Wert-basierten Erklärbarkeitsmethoden, indem es durch die Analyse von Interaktionen und die Einführung neuer Metriken zur Bewertung von Koalitionszuverlässigkeit attributive Konflikte löst und damit intuitivere Erklärungen für KI-Modelle ermöglicht.

Xinhao Zheng, Huiqi Deng, Quanshi Zhang2026-02-25🤖 cs.AI

← Zurück Weiter →