cs.CV Arbeiten | Gist.Science

Stateful Cross-layer Vision Modulation

Die Arbeit stellt SCVM vor, einen neuartigen visuellen Rahmen, der durch einen rekursiv aktualisierten cross-layer-Speicher und eine schichtweise Feedback-Modulation die Darstellungsentwicklung steuert, um feingranulare Details zu bewahren und die Leistung multimodaler Sprachmodelle ohne zusätzliche Token, Encoder oder Anpassungen des Sprachmodells zu verbessern.

Ying Liu, Yudong Han, Kean Shi + 1 more2026-03-03💻 cs

Act Like a Pathologist: Tissue-Aware Whole Slide Image Reasoning

Die Arbeit stellt HistoSelect vor, ein effizientes, fragegesteuertes Framework für die Analyse gigapixelgroßer pathologischer Ganzschnittbilder, das durch eine zweistufige, gewebebewusste Selektion relevanter Bildbereiche die Token-Nutzung um 70 % reduziert und gleichzeitig die Genauigkeit sowie die Interpretierbarkeit von Frage-Antwort-Aufgaben verbessert.

Wentao Huang, Weimin Lyu, Peiliang Lou + 8 more2026-03-03💻 cs

Direct low-field MRI super-resolution using undersampled k-space

Diese Arbeit stellt ein neuartiges Framework vor, das mithilfe eines k-Raum-Dual-Channel-U-Net direkt aus unterabgetastetem k-Raum-Daten von Low-Field-MR-Scans hochaufgelöste Bilder rekonstruiert und dabei die Bildqualität voll abgetasteter Aufnahmen erreicht sowie räumliche Nachverarbeitungsmethoden übertrifft.

Daniel Tweneboah Anyimadu, Mohammed M. Abdelsamea, Ahmed Karam Eldaly2026-03-03💻 cs

Specializing Foundation Models via Mixture of Low-Rank Experts for Comprehensive Head CT Analysis

Die Studie stellt das Mixture-of-Low-Rank-Experts (MoLRE)-Framework vor, das durch spezialisierte Adapter und unsupervisiertes Routing die Leistung von medizinischen Foundation-Modellen bei der umfassenden Analyse von Kopf-CT-Scans für 75 verschiedene pathologische Befunde signifikant verbessert, ohne explizite Pathologie-Supervision zu benötigen.

Youngjin Yoo, Han Liu, Bogdan Georgescu + 14 more2026-03-03💻 cs

CoLC: Communication-Efficient Collaborative Perception with LiDAR Completion

Das Paper stellt CoLC vor, einen effizienten kollaborativen Wahrnehmungsrahmen, der durch LiDAR-Vervollständigung, eine foreground-bewusste Punktabtastung und eine erweiterte Frühfusion die Kommunikationskosten senkt und gleichzeitig die räumliche Vollständigkeit sowie die Robustheit bei heterogenen Modellen sicherstellt.

Yushan Han, Hui Zhang, Qiming Xia + 2 more2026-03-03💻 cs

SCOUT: Fast Spectral CT Imaging in Ultra LOw-data Regimes via PseUdo-label GeneraTion

Die Arbeit stellt SCOUT vor, eine selbstüberwachte Methode zur schnellen Rekonstruktion von Spektral-CT-Bildern unter extremen Datenknappheitsbedingungen, die ohne externe Trainingsdaten auskommt und durch die Generierung von Pseudo-Labels hochpräzise Ergebnisse mit minimierten Artefakten liefert.

Guoquan Wei, Liu Shi, Shaoyu Wang + 3 more2026-03-03💻 cs

STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification

Die Arbeit stellt STMI vor, ein neuartiges Framework für die multimodale Objekt-Wiedererkennung, das durch segmentierungsgesteuerte Merkmalsmodulation, semantische Token-Neuzuweisung und cross-modale Hypergraph-Interaktion die Hintergrundstörungen reduziert und diskriminierende Merkmale verbessert.

Xingguo Xu, Zhanyu Liu, Weixiang Zhou + 5 more2026-03-03💻 cs

TokenSplat: Token-aligned 3D Gaussian Splatting for Feed-forward Pose-free Reconstruction

TokenSplat ist ein feed-forward Framework, das durch eine token-alignede Vorhersage und einen asymmetrischen Dual-Flow-Decoder eine präzise 3D-Gaussian-Rekonstruktion und stabile Kamerapositionsschätzung aus unposeden Multi-View-Bildern ohne iterative Verfeinerung ermöglicht.

Yihui Li, Chengxin Lv, Zichen Tang + 2 more2026-03-03💻 cs

Towards Universal Khmer Text Recognition

Die Arbeit stellt ein universelles Framework zur Erkennung von Khmer-Texten vor, das mithilfe einer neuartigen modality-spezifischen adaptiven Merkmalsauswahl (MAFS) verschiedene Textmodalitäten wie gedruckten, handschriftlichen und Szenentext in einem einzigen Modell verarbeitet und dabei sowohl neue State-of-the-Art-Ergebnisse erzielt als auch den ersten umfassenden Benchmark für diese Aufgabe bereitstellt.

Marry Kong, Rina Buoy, Sovisal Chenda + 3 more2026-03-03💻 cs

Towards Khmer Scene Document Layout Detection

Diese Arbeit stellt die erste umfassende Studie zur Erkennung des Layouts von Khmer-Dokumenten in der realen Welt vor, indem sie einen neuen Datensatz, ein Open-Source-Daten-Augmentierungswerkzeug und YOLO-basierte Modelle mit orientierten Begrenzungsboxen einführt, um die Lücke bei der Analyse von Khmer-Texten zu schließen.

Marry Kong, Rina Buoy, Sovisal Chenda + 3 more2026-03-03💻 cs

IU: Imperceptible Universal Backdoor Attack

Die Arbeit stellt einen neuen, für das menschliche Auge unsichtbaren universellen Backdoor-Angriff vor, der mithilfe von Graph Convolutional Networks (GCNs) und einem dualen Optimierungsziel eine hohe Angriffserfolgsrate bei extrem niedrigen Vergiftungsraten und gleichzeitigem Erhalt der Tarnung erreicht.

Hsin Lin, Yan-Lun Chen, Ren-Hung Hwang + 1 more2026-03-03🤖 cs.LG

A Reconstruction System for Industrial Pipeline Inner Walls Using Panoramic Image Stitching with Endoscopic Imaging

Dieser Beitrag stellt ein auf panoramischer Bildstitching-Technologie basierendes System vor, das mittels industrieller Endoskope und polarer Koordinatentransformation effizient hochauflösende Panoramen von Rohrinnenwänden zur verbesserten Fehlererkennung und Zustandsbewertung erzeugt.

Rui Ma, Yifeng Wang, Ziteng Yang + 1 more2026-03-03💻 cs

Diversity over Uniformity: Rethinking Representation in Generated Image Detection

Die Arbeit stellt einen Anti-Feature-Collapse-Lernrahmen vor, der durch die Aufrechterhaltung vielfältiger und komplementärer Beweise im Repräsentationsraum die Generalisierungsfähigkeit von Detektoren für generierte Bilder in unsichtbaren Szenarien signifikant verbessert.

Qinghui He, Haifeng Zhang, Qiao Qin + 3 more2026-03-03💻 cs

UniHM: Unified Dexterous Hand Manipulation with Vision Language Model

UniHM ist ein bahnbrechendes Framework, das Vision-Language-Modelle nutzt, um dexterous Handmanipulationen durch freie Sprachbefehle zu steuern, indem es verschiedene Handmorphologien vereinheitlicht, ausschließlich auf menschlichen Interaktionsdaten trainiert wird und durch physikgesteuerte Verfeinerung realistische Bewegungsabläufe erzeugt.

Zhenhao Zhang, Jiaxin Liu, Ye Shi + 1 more2026-03-03💻 cs

Stroke outcome and evolution prediction from CT brain using a spatiotemporal diffusion autoencoder

Die Studie stellt einen selbstüberwachten, semantisch aussagekräftigen Ansatz auf Basis von Diffusions-Autoencodern vor, der CT-Bilder und zeitliche Verläufe nutzt, um das Ergebnis und die Entwicklung von Schlaganfällen präziser vorherzusagen als bisherige Methoden.

Adam Marcus, Paul Bentley, Daniel Rueckert2026-03-03🤖 cs.AI

Analyzing and Improving Fast Sampling of Text-to-Image Diffusion Models

Diese Arbeit stellt eine systematische Analyse von beschleunigten Sampling-Methoden für Text-zu-Bild-Diffusionsmodelle vor und schlägt einen neuartigen Zeitplan namens TORS vor, der auf geometrischen Eigenschaften basiert und in nur 10 Schritten hochwertige Bilder erzeugt.

Zhenyu Zhou, Defang Chen, Siwei Lyu + 2 more2026-03-03💻 cs

DUCX: Decomposing Unfairness in Tool-Using Chest X-ray Agents

Die Studie „DUCX" führt eine systematische Fairness-Auditierung von medizinischen Agenten für die Bruströntgenbildanalyse durch und identifiziert durch eine stufenweise Zerlegung spezifische Verzerrungsquellen wie Tool-Exposure, Tool-Transition und Reasoning-Bias, die über die reine End-to-End-Leistung hinausgehen und eine prozessorientierte Entschärfung für den gerechten klinischen Einsatz erfordern.

Zikang Xu, Ruinan Jin, Xiaoxiao Li2026-03-03💻 cs

Neural Functional Alignment Space: Brain-Referenced Representation of Artificial Neural Networks

Die Autoren stellen den Neural Functional Alignment Space (NFAS) vor, ein neuartiges, hirnbasiertes Rahmenwerk, das künstliche neuronale Netze durch die Modellierung ihrer intrinsischen dynamischen Entwicklung und die Projektion in ein biologisch verankertes Koordinatensystem auf eine gemeinsame funktionale Ebene bringt.

Ruiyu Yan, Hanqi Jiang, Yi Pan + 4 more2026-03-03💻 cs

Efficient Conformal Volumetry for Template-Based Segmentation

Die Arbeit stellt ConVOLT vor, ein effizientes Framework zur konformen Unsicherheitsquantifizierung, das durch die Nutzung von Deformationsfeld-Eigenschaften bei der template-basierten Segmentierung in der medizinischen Bildverarbeitung deutlich schärfere Volumenintervalle bei garantierter Abdeckung erzeugt als herkömmliche Methoden im Ausgaberaum.

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03🧬 q-bio

NERFIFY: A Multi-Agent Framework for Turning NeRF Papers into Code

Das Paper stellt NERFIFY vor, ein Multi-Agenten-Framework, das NeRF-Forschungspapiere mithilfe domänenspezifischer Innovationen wie kontextfreier Grammatiken und visueller Rückkopplung zuverlässig in ausführbaren Nerfstudio-Code umwandelt und dabei die Implementierungszeit von Wochen auf Minuten reduziert.

Seemandhar Jain, Keshav Gupta, Kunal Gupta + 1 more2026-03-03💻 cs

← Zurück Weiter →