cs.CV Arbeiten | Gist.Science

Optimizing Neural Network Architecture for Medical Image Segmentation Using Monte Carlo Tree Search

Diese Arbeit stellt MNAS-Unet vor, einen neuartigen Framework für die medizinische Bildsegmentierung, der Monte-Carlo-Baumsuche mit Neural Architecture Search kombiniert, um die Sucheffizienz um 54 % zu steigern und gleichzeitig ein leichtgewichtiges, präzises Modell mit nur 0,6 Millionen Parametern zu erzeugen.

Liping Meng, Fan Nie, Yunyun Zhang + 1 more2026-02-27💻 cs

AeroDGS: Physically Consistent Dynamic Gaussian Splatting for Single-Sequence Aerial 4D Reconstruction

Die Arbeit stellt AeroDGS vor, ein physikgestütztes Framework zur 4D-Rekonstruktion dynamischer Szenen aus einzelnen UAV-Aufnahmen, das durch einen geometrischen Lifting-Modul und physikalische Optimierungsprioritäten die inhärente Mehrdeutigkeit monokularer Luftaufnahmen überwindet und eine präzise, physikalisch konsistente Darstellung sowohl statischer Hintergründe als auch dynamischer Objekte ermöglicht.

Hanyang Liu, Rongjun Qin2026-02-27🤖 cs.AI

Enhancing Renal Tumor Malignancy Prediction: Deep Learning with Automatic 3D CT Organ Focused Attention

Diese Studie stellt ein Deep-Learning-Framework mit einer Organ-Fokus-Aufmerksamkeitsverlustfunktion vor, das die Vorhersage von Nierentumor-Malignität aus 3D-CT-Bildern ohne manuelle Segmentierung ermöglicht und dabei die Leistung konventioneller, segmentierungsbasierter Modelle übertrifft.

Zhengkang Fan, Chengkun Sun, Russell Terry + 2 more2026-02-27🤖 cs.AI

Vision Transformers Need More Than Registers

Die Arbeit identifiziert eine träge Aggregation von semantisch irrelevanten Hintergrund-Patches als Ursache für Artefakte in Vision Transformern und schlägt eine selektive Integration von Patch-Features in den CLS-Token vor, um diese zu reduzieren und die Leistung über 12 Benchmarks hinweg zu verbessern.

Cheng Shi, Yizhou Yu, Sibei Yang2026-02-27💻 cs

MolFM-Lite: Multi-Modal Molecular Property Prediction with Conformer Ensemble Attention and Cross-Modal Fusion

Die Arbeit stellt MolFM-Lite vor, ein mehrmodales Modell zur Vorhersage molekularer Eigenschaften, das durch die Kombination von SELFIES-Sequenzen, Graphen und Konformer-Ensembles mittels Cross-Attention sowie kontextabhängiger FiLM-Modulation die Leistungsfähigkeit gegenüber einmodalen Baselines signifikant steigert.

Syed Omer Shah, Mohammed Maqsood Ahmed, Danish Mohiuddin Mohammed + 2 more2026-02-27🤖 cs.LG

SimpleOCR: Rendering Visualized Questions to Teach MLLMs to Read

Die Arbeit stellt SimpleOCR vor, eine effiziente Trainingsstrategie, die Multimodal Large Language Models durch das Rendern von Textfragen direkt auf Bildern zwingt, visuelle Texterkennung aktiv zu nutzen und so die „Modell-Laziness" überwindet, ohne die Architektur zu verändern.

Yibo Peng, Peng Xia, Ding Zhong + 6 more2026-02-27🤖 cs.LG

Exploring Multimodal LMMs for Online Episodic Memory Question Answering on the Edge

Diese Studie untersucht die Machbarkeit von Multimodalen Large Language Models (MLLMs) für den Echtzeit-Abgleich episodischer Erinnerungen auf Edge-Geräten und zeigt, dass eine lokale Implementierung mit einem zweistufigen asynchronen Pipeline-Ansatz eine hohe Genauigkeit und niedrige Latenz erreicht, die mit Cloud-Lösungen vergleichbar sind, während sie gleichzeitig Datenschutz und Reaktionszeiten verbessert.

Giuseppe Lando, Rosario Forte, Antonino Furnari2026-02-27💻 cs

MammoWise: Multi-Model Local RAG Pipeline for Mammography Report Generation

Das Paper stellt MammoWise vor, ein lokales, mehrstufiges Pipeline-System, das Open-Source-Vision-Language-Modelle durch Techniken wie Few-Shot-Prompting und Retrieval-Augmented Generation (RAG) in der Lage versetzt, präzise Mammographie-Berichte zu generieren und klinische Klassifikationen wie BI-RADS sowie Brustdichte zuverlässig zu bestimmen.

Raiyan Jahangir, Nafiz Imtiaz Khan, Amritanand Sudheerkumar + 1 more2026-02-27💻 cs

Space Syntax-guided Post-training for Residential Floor Plan Generation

Diese Arbeit stellt Space Syntax-guided Post-training (SSPT) vor, einen Ansatz, der durch die Einbindung von Raumstrukturwissen über ein nicht-differenzierbares Orakel und Reinforcement Learning die Generierung von Wohngrundrissen verbessert, indem sie die Dominanz öffentlicher Räume und funktionale Hierarchien gegenüber rein datengetriebenen Basismodellen stärkt.

Zhuoyang Jiang, Dongqing Zhang2026-02-27🤖 cs.LG

Pix2Key: Controllable Open-Vocabulary Retrieval with Semantic Decomposition and Self-Supervised Visual Dictionary Learning

Das Paper stellt Pix2Key vor, ein System für die zusammengesetzte Bildsuche, das durch semantische Dekomposition in offene Vokabular-Wörterbücher und selbstüberwachtes Lernen von visuellen Wörtern eine intentbewusste und diverse Bildwiedergewinnung ohne spezifische CIR-Überwachung ermöglicht.

Guoyizhe Wei, Yang Jiao, Nan Xi + 4 more2026-02-27💻 cs

HARU-Net: Hybrid Attention Residual U-Net for Edge-Preserving Denoising in Cone-Beam Computed Tomography

Die Studie stellt HARU-Net vor, ein neuartiges hybrides U-Net mit Aufmerksamkeitsmechanismen und Residuenblöcken, das Rauschen in konischen Strahlen-Computertomographie-Bildern (CBCT) effektiv reduziert und dabei Kanten sowie anatomische Details besser erhält als bestehende Methoden, was die diagnostische Qualität bei niedrigen Strahlendosen verbessert.

Khuram Naveed, Ruben Pauwels2026-02-27⚡ eess

DisQ-HNet: A Disentangled Quantized Half-UNet for Interpretable Multimodal Image Synthesis Applications to Tau-PET Synthesis from T1 and FLAIR MRI

Die Arbeit stellt DisQ-HNet vor, ein interpretierbares, quantisiertes Halb-UNet-Modell, das mittels Partial Information Decomposition und pseudo-Skip-Connections T1- und FLAIR-MRT-Daten nutzt, um aussagekräftige Tau-PET-Bilder zur Unterstützung der Alzheimer-Diagnostik zu synthetisieren.

Agamdeep S. Chopra, Caitlin Neher, Tianyi Ren + 2 more2026-02-27🤖 cs.AI

DrivePTS: A Progressive Learning Framework with Textual and Structural Enhancement for Driving Scene Generation

Die Arbeit stellt DrivePTS vor, ein progressives Lernframework für die Generierung von Fahrzeugszenen, das durch die Entkopplung geometrischer Bedingungen, die Nutzung von Vision-Language-Modellen für detaillierte Textbeschreibungen und einen frequenzgesteuerten Strukturverlust die Fidelity und Kontrollierbarkeit gegenüber bestehenden Methoden signifikant verbessert.

Zhechao Wang, Yiming Zeng, Lufan Ma + 4 more2026-02-27🤖 cs.AI

SwiftNDC: Fast Neural Depth Correction for High-Fidelity 3D Reconstruction

SwiftNDC ist ein schnelles, allgemeines Framework, das durch eine neuronale Tiefenkorrektur konsistente Tiefenkarten und eine robuste geometrische Initialisierung erzeugt, um die 3D-Gaussian-Splatting-Rekonstruktion für sowohl hochpräzise Mesh-Erstellung als auch verbesserte Novel-View-Synthese signifikant zu beschleunigen und zu verbessern.

Kang Han, Wei Xiang, Lu Yu + 3 more2026-02-27💻 cs

Quality-Aware Robust Multi-View Clustering for Heterogeneous Observation Noise

Das Paper stellt QARMVC vor, einen neuartigen Rahmen für robustes Multi-View-Clustering, der mittels eines Informationsengpass-Mechanismus instanzspezifische Qualitätsbewertungen zur präzisen Erfassung heterogener Beobachtungsrauschen nutzt, um durch gewichtete Kontrastive Lernziele und eine konsensbasierte Fusion die Clusterleistung gegenüber dem Zustand der Technik zu verbessern.

Peihan Wu, Guanjie Cheng, Yufei Tong + 2 more2026-02-27🤖 cs.AI

Guidance Matters: Rethinking the Evaluation Pitfall for Text-to-Image Generation

Diese Arbeit enthüllt eine kritische Evaluationslücke, bei der herkömmliche Methoden fälschlicherweise große Guidance-Scales bevorzugen, und stellt mit dem GA-Eval-Framework sowie der TDG-Methode eine korrigierte Bewertungsgrundlage vor, die zeigt, dass viele aktuelle Ansätze in der Praxis keine echten Verbesserungen gegenüber dem Standard Classifier-free Guidance bieten.

Dian Xie, Shitong Shao, Lichen Bai + 5 more2026-02-27🤖 cs.AI

GIFSplat: Generative Prior-Guided Iterative Feed-Forward 3D Gaussian Splatting from Sparse Views

GIFSplat ist ein rein feed-forward Framework, das durch iterative Residual-Updates und die Nutzung eines eingefrorenen Diffusions-Priors eine hochwertige 3D-Gaussian-Splatting-Rekonstruktion aus wenigen unposed Ansichten ermöglicht, ohne dabei die Inferenzzeit im Sekundenbereich zu überschreiten oder Gradientenoptimierung zu benötigen.

Tianyu Chen, Wei Xiang, Kang Han + 4 more2026-02-27💻 cs

Causal Motion Diffusion Models for Autoregressive Motion Generation

Die Arbeit stellt CMDM vor, ein einheitliches Framework für die autoregressive Bewegungsgenerierung, das auf einem kausalen Diffusions-Transformer und einem semantisch ausgerichteten latenten Raum basiert, um hochwertige, flüssige und in Echtzeit generierbare Bewegungen zu ermöglichen, die sowohl die kausale Konsistenz als auch die Inferenzgeschwindigkeit bestehender Modelle verbessern.

Qing Yu, Akihisa Watanabe, Kent Fujiwara2026-02-27💻 cs

BetterScene: 3D Scene Synthesis with Representation-Aligned Generative Model

Die Arbeit stellt BetterScene vor, eine Methode zur Verbesserung der Novel View Synthesis für reale Szenen mit extrem wenigen Fotos, die durch die Anpassung des VAE-Moduls des Stable Video Diffusion-Modells an geometrische und semantische Konsistenz sowie die Integration von 3D-Gaussian-Splatting Artefakte reduziert und visuell konsistente Ergebnisse liefert.

Yuci Han, Charles Toth, John E. Anderson + 2 more2026-02-27🤖 cs.AI

$ϕ$ -DPO: Fairness Direct Preference Optimization Approach to Continual Learning in Large Multimodal Models

Diese Arbeit stellt $Ï$ -DPO vor, einen neuartigen Fairness-Direct-Preference-Optimization-Ansatz für das kontinuierliche Lernen in großen multimodalen Modellen, der durch die Einführung eines spezialisierten Verlustterms und die Erstellung von Präferenzannotationen sowohl das katastrophale Vergessen als auch Verzerrungen durch unausgewogene Datenverteilungen adressiert und dabei State-of-the-Art-Ergebnisse erzielt.

Thanh-Dat Truong, Huu-Thien Tran, Jackson Cothren + 2 more2026-02-27🤖 cs.LG

← Zurück Weiter →

cs.CV