cs.CV Arbeiten | Gist.Science

Learning to Retrieve Navigable Candidates for Efficient Vision-and-Language Navigation

Die vorgestellte Arbeit schlägt einen retrieval-basierten Rahmen vor, der durch die Kombination von instruktionsbasierten Trajektorien-Beispielen und der Vorauswahl relevanter Navigationskandidaten die Effizienz und Stabilität von LLM-basiertem Vision-and-Language Navigation verbessert, ohne das zugrunde liegende Sprachmodell zu modifizieren.

Shutian Gu, Chengkai Huang, Ruoyu Wang + 1 more2026-02-18🤖 cs.AI

Spanning the Visual Analogy Space with a Weight Basis of LoRAs

Die Arbeit stellt LoRWeB vor, eine Methode, die das Problem der Verallgemeinerung bei visuellen Analogien löst, indem sie durch einen leichten Encoder eine dynamische Kombination aus einer lernbaren Basis von LoRA-Modulen verwendet, um komplexe Bildtransformationen ohne Textbeschreibung zu generieren.

Hila Manor, Rinon Gal, Haggai Maron + 2 more2026-02-18⚡ eess

Language and Geometry Grounded Sparse Voxel Representations for Holistic Scene Understanding

Diese Arbeit stellt eine neuartige Methode vor, die auf sprach- und geometrie-verankerten, spärlichen Voxel-Repräsentationen basiert, um Erscheinungsbild, Semantik und Geometrie in einem einheitlichen Rahmen synergistisch zu modellieren und so den aktuellen Stand der Technik bei der ganzheitlichen Szenenverständnis und -rekonstruktion zu übertreffen.

Guile Wu, David Huang, Bingbing Liu + 1 more2026-02-18💻 cs

RaCo: Ranking and Covariance for Practical Learned Keypoints

Die Arbeit stellt RaCo vor, ein leichtgewichtiges neuronales Netzwerk, das ohne kovisibles Bildpaar robust und wiederholbare 3D-Keypoints mit integrierter Rangfolge und Kovarianzschätzung für verschiedene Computer-Vision-Aufgaben lernt.

Abhiram Shenoi, Philipp Lindenberger, Paul-Edouard Sarlin + 1 more2026-02-18💻 cs

NeRFscopy: Neural Radiance Fields for in-vivo Time-Varying Tissues from Endoscopy

Der Artikel stellt NeRFscopy vor, ein selbstüberwachtes Verfahren, das mithilfe von Neural Radiance Fields aus monokularen Endoskopievideos eine präzise 3D-Rekonstruktion und neue Sichtweisen von sich verformenden, zeitlich variierenden Geweben ermöglicht.

Laura Salort-Benejam, Antonio Agudo2026-02-18💻 cs

Meteorological data and Sky Images meets Neural Models for Photovoltaic Power Forecasting

Diese Studie entwickelt einen hybriden multimodalen Ansatz, der Himmelsbilder mit meteorologischen Daten und neuronalen Modellen kombiniert, um die Genauigkeit der Photovoltaik-Leistungsprognose, insbesondere bei Wolken und für Rampenereignisse, zu verbessern und so das Netzmanagement zu optimieren.

Ines Montoya-Espinagosa, Antonio Agudo2026-02-18💻 cs

Context-aware Skin Cancer Epithelial Cell Classification with Scalable Graph Transformers

Die Studie stellt eine skalierbare Graph-Transformer-Methode vor, die im Vergleich zu bildbasierten Modellen durch die Nutzung des gesamten zellulären Kontexts in Ganzzahldiagrammen (Whole-Slide-Images) eine überlegene Genauigkeit bei der Unterscheidung von gesunden und tumorösen Epithelzellen beim kutanen Plattenepithelkarzinom erreicht.

Lucas Sancéré, Noémie Moreau, Katarzyna Bozek2026-02-18💻 cs

Task-Agnostic Continual Learning for Chest Radiograph Classification

Die Studie stellt CARL-XRay vor, einen neuen Ansatz für das kontinuierliche Lernen bei der Klassifizierung von Thorax-Röntgenbildern, der durch den Einsatz von task-spezifischen Adaptern und einem latenten Task-Selektor eine stabile Anpassung an sequenziell eintreffende Datensätze ohne vollständiges Neulernen oder Speicherung roher Bilddaten ermöglicht.

Muthu Subash Kavitha, Anas Zafar, Amgad Muneer + 1 more2026-02-18🤖 cs.AI

VideoSketcher: Video Models Prior Enable Versatile Sequential Sketch Generation

Das Paper stellt VideoSketcher vor, eine dateneffiziente Methode, die vortrainierte Text-zu-Video-Diffusionsmodelle mit Sprachmodellen kombiniert, um hochwertige sequenzielle Skizzen zu generieren, die sowohl textbasierten Anweisungen zur Strichreihenfolge folgen als auch visuelle Details durch eine zweistufige Feinabstimmung mit nur wenigen manuellen Beispielen erlernen.

Hui Ren, Yuval Alaluf, Omer Bar Tal + 3 more2026-02-18💻 cs

Dex4D: Task-Agnostic Point Track Policy for Sim-to-Real Dexterous Manipulation

Das Paper stellt Dex4D vor, ein Sim-to-Real-Framework, das eine aufgabenunabhängige 3D-Punktverfolgungs-Policy lernt, um diverse dexteröse Manipulationsaufgaben durch zero-shot-Übertragung und Online-Feedback ohne Nachjustierung zu lösen.

Yuxuan Kuang, Sungjae Park, Katerina Fragkiadaki + 1 more2026-02-18🤖 cs.LG

LightX3ECG: A Lightweight and eXplainable Deep Learning System for 3-lead Electrocardiogram Classification

Die Studie stellt LightX3ECG vor, ein leichtgewichtiges und erklärbares Deep-Learning-System, das zur genauen Erkennung verschiedener Herz-Kreislauf-Erkrankungen ausschließlich drei EKG-Ableitungen nutzt, um die Diagnose durch tragbare Geräte zugänglicher zu machen.

Khiem H. Le, Hieu H. Pham, Thao BT. Nguyen + 3 more2026-02-17🤖 cs.AI

Realtime Data-Efficient Portrait Stylization Based On Geometric Alignment

Diese Arbeit stellt eine dateneffiziente Methode zur Porträtstilisierung vor, die durch die Integration differenzierbarer Thin-Plate-Spline-Module in ein GAN-Framework geometrische Konsistenz sicherstellt und somit Echtzeit-Inferenz auf mobilen Geräten bei deutlich reduzierter Rechenkomplexität ermöglicht.

Xinrui Wang, Zhuoru Li, Xiao Zhou + 2 more2026-02-17💻 cs

TKN: Transformer-based Keypoint Prediction Network For Real-time Video Prediction

Die vorgestellte Transformer-basierte Keypoint-Vorhersagenetzwerk (TKN) ermöglicht eine Echtzeit-Videovorhersage mit einer Geschwindigkeit von 1.176 Bildern pro Sekunde, indem sie durch unsuperviertes Lernen, eine Beschleunigungsmatrix und parallele Berechnung die Rechenkosten senkt und gleichzeitig die Genauigkeit erhält.

Haoran Li, XiaoLu Li, Yihang Lin + 4 more2026-02-17🤖 cs.AI

A Survey on Generative Modeling with Limited Data, Few Shots, and Zero Shot

Diese Übersichtsarbeit bietet eine umfassende Analyse und eine neue Taxonomie für generative Modelle unter Datenbeschränkungen (GM-DC), indem sie über 230 Studien zu Herausforderungen wie Überanpassung und inkompatibler Wissensübertragung sowie zu Lösungsansätzen wie Transferlernen und Daten-Augmentierung zusammenfasst und einen praktischen Fahrplan für zukünftige Forschung in diesem Bereich liefert.

Milad Abdollahzadeh, Guimeng Liu, Touba Malekzadeh + 3 more2026-02-17🤖 cs.LG

Efficiently Assemble Normalization Layers and Regularization for Federated Domain Generalization

Die Studie stellt gPerXAN vor, eine neuartige Architektur für das federierte Domänengeneralisieren, die durch personalisierte explizit zusammengesetzte Normalisierungsschichten und einen Leitregularisierer datenschutzkonform und effizient domäneninvariante Repräsentationen erlernt, um die Generalisierungsfähigkeit auf unsichtbare Domänen zu verbessern.

Khiem Le, Long Ho, Cuong Do + 2 more2026-02-17🤖 cs.LG

Benchmarking AI-based data assimilation to advance data-driven global weather forecasting

Die Studie stellt DABench vor, ein umfassendes Benchmark-System, das den objektiven Vergleich und die Weiterentwicklung von KI-basierten Datenassimilationsmethoden für die globale Wettervorhersage ermöglicht und deren Wettbewerbsfähigkeit mit etablierten Verfahren nachweist.

Wuxin Wang, Weicheng Ni, Ben Fei + 7 more2026-02-17🤖 cs.LG

Story-Iter: A Training-free Iterative Paradigm for Long Story Visualization

Die Arbeit stellt Story-Iter vor, ein trainingsfreies, iteratives Paradigma mit einem globalen Referenz-Cross-Attention-Modul, das die semantische Konsistenz und feingranulare Interaktionen bei der Visualisierung langer Geschichten mit bis zu 100 Bildern durch die schrittweise Integration aller vorherigen Referenzbilder verbessert.

Jiawei Mao, Xiaoke Huang, Yunfei Xie + 7 more2026-02-17💻 cs

Cautious Optimizers: Improving Training with One Line of Code

Die Arbeit stellt einen „Cautious Optimizer" vor, der durch eine minimale, eine Zeile umfassende Modifikation beliebiger Momentum-Optimierer in PyTorch die Stabilität und Trainingsgeschwindigkeit bei LLMs und Bildklassifizierung verbessert, ohne dabei die theoretischen Konvergenzgarantien zu verletzen.

Kaizhao Liang, Lizhang Chen, Bo Liu + 1 more2026-02-17💬 cs.CL

LVLM-COUNT: Enhancing the Counting Ability of Large Vision-Language Models

Die Arbeit stellt LVLM-COUNT vor, eine einfache Basismethode, die die Zählleistung von Large Vision-Language Models bei großen Objektzahlen durch einen Divide-and-Conquer-Ansatz mit einem speziellen Mechanismus zur Vermeidung von Doppelzählungen verbessert.

Muhammad Fetrat Qharabagh, Mohammadreza Ghofrani, Kimon Fountoulakis2026-02-17🤖 cs.AI

Are foundation models for computer vision good conformal predictors?

Die Studie zeigt, dass Vision- und Vision-Language-Grundmodelle sich hervorragend für konforme Vorhersagen eignen, wobei die APS-Methode besonders vielversprechend ist und eine Kalibrierung der Konfidenzvorhersagen die Effizienz adaptiver Verfahren sogar verschlechtern kann.

Leo Fillioux, Julio Silva-Rodríguez, Ismail Ben Ayed + 4 more2026-02-17💻 cs

← Zurück Weiter →