cs.CV Arbeiten | Gist.Science

Image-to-Brain Signal Generation for Visual Prosthesis with CLIP Guided Multimodal Diffusion Models

Diese Arbeit stellt einen neuartigen Rahmen vor, der mithilfe von CLIP-gesteuerten Diffusions-Transformern und Large Language Models Bilder in biologisch plausible M/EEG-Signale umwandelt, um die bisher vernachlässigte Kodierungsphase visueller Prothesen zu vervollständigen.

Ganxi Xu, Zhao-Rong Lai, Yuting Tang + 5 more2026-02-17💻 cs

BEVTraj: Map-Free End-to-End Trajectory Prediction in Bird's-Eye View with Deformable Attention and Sparse Goal Proposals

Das Paper stellt BEVTraj vor, ein kartengestütztes, end-to-end Framework für die Trajektorienvorhersage im autonomen Fahren, das mittels deformierbarer Aufmerksamkeit und sparsamer Zielvorschläge präzise Vorhersagen direkt aus Rohdaten im Bird's-Eye-View ermöglicht, ohne auf teure HD-Karten angewiesen zu sein.

Minsang Kong, Myeongjun Kim, Sang Gu Kang + 3 more2026-02-17💻 cs

Curriculum Multi-Task Self-Supervision Improves Lightweight Architectures for Onboard Satellite Hyperspectral Image Segmentation

Die Autoren stellen ein neuartiges Curriculum Multi-Task Self-Supervised Learning (CMTSSL)-Framework vor, das durch die Kombination von Masked Image Modeling und entkoppelten räumlich-spektralen Jigsaw-Puzzles leichtgewichtige Architekturen für die onboard-Hyperspektralbildsegmentierung von Satelliten erheblich verbessert und dabei eine über 16.000-fache Gewichtsreduktion im Vergleich zu State-of-the-Art-Modellen ermöglicht.

Hugo Carlesso, Josiane Mothe, Radu Tudor Ionescu2026-02-17🤖 cs.AI

Pyramid Token Pruning for High-Resolution Large Vision-Language Models via Region, Token, and Instruction-Guided Importance

Das Paper stellt Pyramid Token Pruning (PTP) vor, eine trainingsfreie Strategie, die durch die hierarchische Kombination von visuellen Saliency-Merkmalen und instruktionsgesteuerter Relevanz die Rechenkosten und Latenz bei hochauflösenden Large Vision-Language Models drastisch reduziert, ohne die Leistung signifikant zu beeinträchtigen.

Yuxuan Liang, Xu Li, Xiaolei Chen + 4 more2026-02-17💻 cs

DiffusionNFT: Online Diffusion Reinforcement with Forward Process

Die Arbeit stellt DiffusionNFT vor, ein effizientes Online-Reinforcement-Learning-Verfahren für Diffusionsmodelle, das den Trainingsprozess durch Optimierung des Vorwärtsprozesses mittels Flow Matching vereinfacht, keine Likelihood-Schätzung benötigt und dabei eine bis zu 25-fach höhere Effizienz sowie überlegene Leistung im Vergleich zu bestehenden Methoden wie FlowGRPO erzielt.

Kaiwen Zheng, Huayu Chen, Haotian Ye + 7 more2026-02-17🤖 cs.AI

DeLiVR: Differential Spatiotemporal Lie Bias for Efficient Video Deraining

Die Arbeit stellt DeLiVR vor, eine effiziente Methode zur Videorentfernung von Regen, die durch die Integration von differenziellen Lie-Gruppen-Bias-Termen in die Aufmerksamkeitsmechanismen eine geometrisch konsistente und robuste räumlich-zeitliche Ausrichtung erreicht, um Regenstreifen, Unschärfe und Rauschen zu beseitigen.

Shuning Sun, Jialang Lu, Xiang Chen + 5 more2026-02-17💻 cs

LAKAN: Landmark-assisted Adaptive Kolmogorov-Arnold Network for Face Forgery Detection

Die Arbeit stellt LAKAN vor, eine landmarkengestützte, adaptive Kolmogorov-Arnold-Netzwerk-Architektur, die durch den Einsatz lernbarer Spline-Aktivierungsfunktionen und geometrischer Priors eine überlegene Leistung bei der Erkennung von Deepfake-Gesichtsfälschungen erzielt.

Jiayao Jiang, Bin Liu, Qi Chu + 1 more2026-02-17💻 cs

Efficient Test-Time Scaling for Small Vision-Language Models

Diese Arbeit stellt zwei effiziente Test-Time-Scaling-Strategien für kleine Vision-Language-Modelle vor, die durch augmentierungsbasierte Token-Aggregation und konsensbasierte Parameteranpassung während der Inferenz die Leistung steigern, ohne die Ressourceneffizienz zu beeinträchtigen.

Mehmet Onurcan Kaya, Desmond Elliott, Dim P. Papadopoulos2026-02-17🤖 cs.LG

UGround: Towards Unified Visual Grounding with Unrolled Transformers

Das Paper stellt UGround vor, ein einheitliches Paradigma für visuelles Grounding, das durch eine Reinforcement-Learning-gesteuerte, stochastische Auswahl von Zwischenschichten in unrollierten Transformern und die Nutzung von Masken als explizite räumliche Prompts die Fehlerakkumulation herkömmlicher Ansätze überwindet und eine Vielzahl von Aufgaben von der Referenzsegmentierung bis hin zur Reasoning-Segmentierung in einem einzigen Framework vereint.

Rui Qian, Xin Yin, Chuanhang Deng + 4 more2026-02-17💻 cs

PAGCNet: A Pose-Aware and Geometry Constrained Framework for Panoramic Depth Estimation

Die Arbeit stellt PAGCNet vor, ein Framework zur panoramischen Tiefenschätzung, das durch die gemeinsame Schätzung von Kamerapose und Raumaufbau geometrische Randbedingungen für regelmäßige Innenräume nutzt, um die Tiefenrekonstruktion in komplexen Szenen ohne externe Messungen signifikant zu verbessern.

Kanglin Ning, Ruzhao Chen, Penghong Wang + 3 more2026-02-17💻 cs

The impact of abstract and object tags on image privacy classification

Die Studie zeigt, dass abstrakte Tags bei begrenztem Budget für die Klassifizierung von Bildprivatsphäre effektiver sind als Objekttags, während bei einer größeren Anzahl von Tags objektspezifische Informationen ebenso nützlich werden.

Darya Baranouskaya, Andrea Cavallaro2026-02-17💻 cs

Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency

Diese Arbeit stellt rCM vor, einen score-regulierten kontinuierlichen Konsistenzansatz, der durch einen parallelisierbaren JVP-Kernel und eine Regularisierung die Skalierung von Diffusionsmodellen auf große Bild- und Videomodelle ermöglicht, dabei die Qualität verbessert und die Generierung um den Faktor 15 bis 50 beschleunigt.

Kaiwen Zheng, Yuji Wang, Qianli Ma + 7 more2026-02-17🤖 cs.LG

AnyUp: Universal Feature Upsampling

Die Arbeit stellt AnyUp vor, eine effiziente und trainingsfreie Methode zur universellen Upsampling von Vision-Features beliebiger Auflösung, die im Gegensatz zu bestehenden Ansätzen ohne anwendungsspezifisches Training auskommt und dabei die Semantik der Merkmale erhält.

Thomas Wimmer, Prune Truong, Marie-Julie Rakotosaona + 4 more2026-02-17🤖 cs.LG

Consistent text-to-image generation via scene de-contextualization

Dieses Paper stellt SDeC vor, eine effiziente, trainingsfreie Methode, die durch die Unterdrückung latenter Szenen-Kontext-Korrelationen in Prompt-Embeddings eine konsistente Text-zu-Bild-Generierung mit identitätserhaltenden Subjekten über diverse Szenen hinweg ermöglicht, ohne dass alle Ziel-Szenen im Voraus bekannt sein müssen.

Song Tang, Peihao Gong, Kunyu Li + 5 more2026-02-17💻 cs

PC-UNet: An Enforcing Poisson Statistics U-Net for Positron Emission Tomography Denoising

Die vorgestellte Arbeit stellt PC-UNet vor, ein auf U-Net basierendes Modell mit einem neuartigen Poisson-Varianz- und Mittelwert-Konsistenzverlust, das physikalische Daten integriert, um die Bildqualität bei der Rauschunterdrückung in der Positronen-Emissions-Tomographie (PET) bei niedrigen Strahlendosen zu verbessern.

Yang Shi, Jingchao Wang, Liangsi Lu + 9 more2026-02-17🤖 cs.AI

PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies

Die Arbeit stellt PRISMM-Bench vor, den ersten Benchmark, der auf von Gutachtern identifizierten Inkonsistenzen in wissenschaftlichen Publikationen basiert und zeigt, dass aktuelle Large Multimodal Models bei der Erkennung und Behebung multimodaler Widersprüche in wissenschaftlichen Texten erhebliche Schwierigkeiten haben.

Lukas Selch, Yufang Hou, M. Jehanzeb Mirza + 4 more2026-02-17💻 cs

Modal Aphasia: Can Unified Multimodal Models Describe Images From Memory?

Die Studie führt das Phänomen der „Modal-Aphasie" ein, bei dem einheitliche multimodale Modelle visuelle Konzepte zwar perfekt memorieren und generieren, aber scheitern, diese korrekt in Textform zu beschreiben, was Sicherheitslücken in KI-Systemen aufzeigt.

Michael Aerni, Joshua Swanson, Kristina Nikolić + 1 more2026-02-17💻 cs

Top-Down Semantic Refinement for Image Captioning

Die Arbeit stellt Top-Down Semantic Refinement (TDSR) vor, einen effizienten, auf Monte-Carlo-Baumsuche basierenden Rahmen, der die Bildbeschreibung durch hierarchische, zielgerichtete Verfeinerung optimiert und so die Kohärenz und Detailgenauigkeit bestehender Vision-Language-Modelle erheblich verbessert, ohne deren Rechenkosten signifikant zu erhöhen.

Jusheng Zhang, Kaitong Cai, Jing Yang + 3 more2026-02-17🤖 cs.AI

Formal Reasoning About Confidence and Automated Verification of Neural Networks

Diese Arbeit stellt ein generalisiertes Framework vor, das durch die Einführung zusätzlicher Schichten in neuronale Netze eine einheitliche formale Verifikation von sowohl Robustheit als auch Konfidenz ermöglicht und dabei bestehende ad-hoc-Ansätze signifikant übertrifft.

Mohammad Afzal, S. Akshay, Blaise Genest + 1 more2026-02-17🤖 cs.AI

Algorithms Trained on Normal Chest X-rays Can Predict Health Insurance Types

Diese Studie zeigt, dass KI-Modelle, die auf normalen Röntgenbildern des Thorax trainiert wurden, die Art der Krankenversicherung – und damit sozioökonomische Ungleichheiten – mit signifikanter Genauigkeit vorhersagen können, was darauf hindeutet, dass medizinische Bilddaten keine neutralen biologischen Informationen sind, sondern subtile soziale Signaturen enthalten.

Chi-Yu Chen, Rawan Abulibdeh, Arash Asgari + 8 more2026-02-17🤖 cs.AI

← Zurück Weiter →