cs.CV Arbeiten | Gist.Science

Toward Early Quality Assessment of Text-to-Image Diffusion Models

Die Arbeit stellt Probe-Select vor, eine effiziente Plug-in-Methode, die die Bildqualität von Text-zu-Bild-Generierungsmodellen bereits anhand früher Denoiser-Aktivierungen vorhersagt, um vielversprechende Samen frühzeitig auszuwählen und so die Sampling-Kosten um über 60 % zu senken, ohne das zugrunde liegende Modell zu verändern.

Huanlei Guo, Hongxin Wei, Bingyi Jing2026-03-05🤖 cs.LG

Generalized non-exponential Gaussian splatting

Diese Arbeit erweitert die 3D-Gaussian-Splatting-Methode auf nicht-exponentielle Strahlungstransportmodelle, die durch eine quadratische Transmittanz definiert werden und bei vergleichbarer Bildqualität eine bis zu vierfache Beschleunigung durch reduzierte Overdraws ermöglichen.

Sébastien Speierer, Adrian Jarabo2026-03-05💻 cs

TRACE: Task-Adaptive Reasoning and Representation Learning for Universal Multimodal Retrieval

Das Paper stellt TRACE vor, ein neuartiges Framework für universelle multimodale Retrieval, das durch die Generierung und Komprimierung von Chain-of-Thought-Reasoning in einen kompakten Embedding-Token die Genauigkeit bei komplexen Abfragen verbessert, gleichzeitig aber durch implizites Routing die Effizienz bei einfachen Anfragen erhält und somit den aktuellen State-of-the-Art auf dem M-BEIR-Benchmark übertrifft.

Xiangzhao Hao, Shijie Wang, Tianyu Yang + 3 more2026-03-05💻 cs

MoECLIP: Patch-Specialized Experts for Zero-shot Anomaly Detection

Das Paper stellt MoECLIP vor, ein Mixture-of-Experts-Modell für die Zero-Shot-Anomalieerkennung, das durch dynamisches Patch-Routing zu spezialisierten LoRA-Experten sowie durch orthogonale Merkmalsseparation und ETF-Verlust die Generalisierungsfähigkeit von CLIP erhält und gleichzeitig eine präzise Anpassung an Anomalien ermöglicht, wodurch es auf 14 Benchmark-Datensätzen den State-of-the-Art übertrifft.

Jun Yeong Park, JunYoung Seo, Minji Kang + 1 more2026-03-05🤖 cs.AI

ProSMA-UNet: Decoder Conditioning for Proximal-Sparse Skip Feature Selection

Die Arbeit stellt ProSMA-UNet vor, ein U-Net-Modell, das durch decoder-konditionierte, sparse Feature-Auswahl mittels eines $\ell_1$ -proximalen Operators und mehrskaliger Kompatibilitätsfelder Rauschen in Skip-Connections effektiv unterdrückt und damit insbesondere bei schwierigen 3D-Medizinbildsegmentierungen einen neuen State-of-the-art erreicht.

Chun-Wun Cheng, Yanqi Cheng, Peiyuan Jing + 4 more2026-03-05💻 cs

Specificity-aware reinforcement learning for fine-grained open-world classification

Die Arbeit stellt SpeciaRL vor, einen neuartigen, spezifitätsbewussten Reinforcement-Learning-Rahmen, der Large Multimodal Models durch eine dynamische, verifizierbasierte Belohnungsfunktion so feinabstimmt, dass sie im offenen Welt-Szenario präzise und korrekte Feinklassifizierungen von visuellen Konzepten liefern.

Samuele Angheben, Davide Berasi, Alessandro Conti + 2 more2026-03-05💻 cs

Deep Sketch-Based 3D Modeling: A Survey

Diese Arbeit stellt eine umfassende Übersicht über Deep Sketch-Based 3D Modeling (DS-3DM) vor, indem sie ein neues, auf dem IMO-Framework basierendes Design-Schema namens MORPHEUS einführt, das aktuelle Methoden kategorisiert, deren Grenzen aufzeigt und interdisziplinäre Forschungsrichtungen für benutzerzentrierte, kontrollierbare 3D-Modellierung identifiziert.

Alberto Tono, Jiajun Wu, Gordon Wetzstein + 4 more2026-03-05💻 cs

The Influence of Iconicity in Transfer Learning for Sign Language Recognition

Die Studie zeigt, dass der Transferlernen-Ansatz für die Gebärdenzeichenerkennung durch die Nutzung ikonischer Ähnlichkeiten zwischen verschiedenen Zeichensprachen (z. B. Chinesisch zu Arabisch und Griechisch zu Flämisch) signifikante Leistungsverbesserungen erzielt, wobei Mediapipe-Features mit MLP- und GRU-Architekturen verarbeitet wurden.

Keren Artiaga, Conor Lynch, Haithem Afli + 1 more2026-03-05🤖 cs.AI

mHC-HSI: Clustering-Guided Hyper-Connection Mamba for Hyperspectral Image Classification

Diese Arbeit stellt mHC-HSI vor, ein neuartiges, durch Clustering geführtes Hyper-Connection-Mamba-Modell, das durch die Integration physikalisch sinnvoller Spektralgruppen und weicher Cluster-Zugehörigkeitskarten die Genauigkeit und Interpretierbarkeit der Klassifizierung hyperspektraler Bilder verbessert.

Yimin Zhu, Zack Dewis, Quinn Ledingham + 6 more2026-03-05💻 cs

Beyond Accuracy: Evaluating Visual Grounding In Multimodal Medical Reasoning

Die Studie zeigt, dass herkömmliche Genauigkeitsmetriken in der multimodalen medizinischen Bildanalyse irreführend sein können, da sie oft textbasierte Abkürzungen belohnen und eine neue, gegenkontrastive Evaluierungsframework mit Metriken wie dem Visual Reliance Score (VRS) und der Halluzinierten Visuellen Schlussfolgerungsrate (HVRR) vorschlägt, um das tatsächliche visuelle Verständnis von Modellen zu messen und zu verbessern.

Anas Zafar, Leema Krishna Murali, Ashish Vashist2026-03-05💻 cs

Proact-VL: A Proactive VideoLLM for Real-Time AI Companions

Die Arbeit stellt Proact-VL, ein proaktives VideoLLM-Framework, und den Live Gaming Benchmark vor, um die Herausforderungen niedriger Latenz, autonomer Antwortentscheidungen und kontrollierter Inhaltsqualität für interaktive KI-Begleiter in Echtzeit zu lösen.

Weicai Yan, Yuhong Dai, Qi Ran + 6 more2026-03-05💻 cs

Impact of Localization Errors on Label Quality for Online HD Map Construction

Diese Studie untersucht, wie sich verschiedene Lokalisierungsfehler (Ramp-, Gauß- und Perlin-Rauschen) auf die Qualität von Labels für den Online-Bau von HD-Karten auswirken, und zeigt, dass insbesondere Winkelabweichungen die Leistung von Modellen wie MapTRv2 stärker beeinträchtigen als Positionsfehler, wobei die Leistung mit zunehmendem Anteil an verrauschten Daten überproportional abnimmt.

Alexander Blumberg, Jonas Merkert, Richard Fehler + 4 more2026-03-05💻 cs

Beyond Pixel Histories: World Models with Persistent 3D State

Das Paper stellt PERSIST vor, ein neues Paradigma für interaktive Weltmodelle, das durch die Simulation eines latenten 3D-Szenenraums mit persistierendem Speicher eine konsistente Geometrie und räumliche Stabilität über lange Zeiträume hinweg ermöglicht und damit bestehende Methoden in Bezug auf 3D-Konsistenz und langfristige Interaktivität übertrifft.

Samuel Garcin, Thomas Walker, Steven McDonagh + 5 more2026-03-05🤖 cs.AI

Phys4D: Fine-Grained Physics-Consistent 4D Modeling from Video Diffusion

Die Arbeit stellt Phys4D vor, eine Pipeline, die durch ein dreistufiges Trainingsparadigma aus Video-Diffusionsmodellen physik-konsistente 4D-Weltdarstellungen ableitet und dabei geometrische Kohärenz sowie langfristige physikalische Plausibilität signifikant verbessert.

Haoran Lu, Shang Wu, Jianshu Zhang + 9 more2026-03-05🤖 cs.AI

Geographically-Weighted Weakly Supervised Bayesian High-Resolution Transformer for 200m Resolution Pan-Arctic Sea Ice Concentration Mapping and Uncertainty Estimation using Sentinel-1, RCM, and AMSR2 Data

Diese Studie stellt einen neuartigen, geographisch gewichteten, schwach überwachten Bayesianischen High-Resolution Transformer vor, der Sentinel-1-, RCM- und AMSR2-Daten fusioniert, um eine präzise 200-m-Auflösung der Meereiskonzentration im gesamten Arktischen Ozean mit zuverlässiger Unsicherheitsschätzung zu ermöglichen.

Mabel Heffring, Lincoln Linlin Xu2026-03-05🤖 cs.LG

PhyPrompt: RL-based Prompt Refinement for Physically Plausible Text-to-Video Generation

Das Paper stellt PhyPrompt vor, ein auf Bestärkendem Lernen basierendes Framework, das durch einen zweistufigen Prozess und ein dynamisches Belohnungscurriculum Eingabe-Prompts automatisch so verfeinert, dass Text-zu-Video-Modelle physikalisch plausible Ergebnisse liefern, ohne dabei die semantische Genauigkeit zu beeinträchtigen.

Shang Wu, Chenwei Xu, Zhuofan Xia + 6 more2026-03-05🤖 cs.AI

PinCLIP: Large-scale Foundational Multimodal Representation at Pinterest

Das Paper stellt PinCLIP vor, ein groß angelegtes multimodales Repräsentationsmodell auf Basis eines hybriden Vision-Transformers, das durch eine neuartige Nachbarn-Ausrichtungszielsetzung die Bild-Text-Ausrichtung bei Pinterest verbessert und sowohl die Offline-Leistung als auch die Online-Engagement-Metriken, einschließlich der Lösung des Cold-Start-Problems, signifikant steigert.

Josh Beal, Eric Kim, Jinfeng Rao + 3 more2026-03-05💻 cs

Modeling Cross-vision Synergy for Unified Large Vision Model

Das Papier stellt PolyV vor, ein einheitliches Large Vision Model, das durch eine spezialisierte Mixture-of-Experts-Architektur und ein synergieorientiertes Trainingsparadigma die tiefgreifende wechselseitige Verstärkung von Bild-, Video- und 3D-Daten ermöglicht und dabei bestehende Modelle signifikant übertroffen hat.

Shengqiong Wu, Lanhu Wu, Mingyang Bao + 5 more2026-03-05💻 cs

Confidence-aware Monocular Depth Estimation for Minimally Invasive Surgery

Die Studie stellt einen neuartigen, vertrauensbewussten Rahmen zur monokularen Tiefenschätzung in der minimal-invasiven Chirurgie vor, der durch kalibrierte Vertrauensziele und eine entsprechende Verlustfunktion die Genauigkeit verbessert und gleichzeitig pixelgenaue Konfidenzschätzungen für eine zuverlässigere klinische Anwendung liefert.

Muhammad Asad, Emanuele Colleoni, Pritesh Mehta + 7 more2026-03-05💻 cs

From Local Matches to Global Masks: Novel Instance Detection in Open-World Scenes

Die Arbeit stellt L2G-Det vor, ein neuartiges Framework für die Instanzerkennung in offenen Welten, das durch dichten Patch-Matching und die Prompting-Erweiterung des Segment-Anything-Modells (SAM) robuste Objektsegmentierung ohne explizite Vorschläge ermöglicht.

Qifan Zhang, Sai Haneesh Allu, Jikai Wang + 2 more2026-03-05💻 cs

← Zurück Weiter →