cs.CV Arbeiten | Gist.Science

PolGS++: Physically-Guided Polarimetric Gaussian Splatting for Fast Reflective Surface Reconstruction

Das Paper stellt PolGS++ vor, ein physikalisch geleitetes Framework zur polarimetrischen Gaussian Splatting, das durch die Integration eines pBRDF-Modells und einer tiefenbasierten Sichtbarkeitsmaske eine schnelle und präzise Rekonstruktion reflektierender Oberflächen ermöglicht.

Yufei Han, Chu Zhou, Youwei Lyu, Qi Chen, Si Li, Boxin Shi, Yunpeng Jia, Heng Guo, Zhanyu Ma2026-03-12💻 cs

Backdoor Directions in Vision Transformers

Diese Arbeit untersucht die Repräsentation von Backdoor-Angriffen in Vision Transformern, identifiziert eine kausale „Trigger-Richtung" in den Aktivierungen, die zur Diagnose und zum Verständnis der Verarbeitungslogik verschiedener Trigger-Typen sowie zur Entwicklung eines gewichtsbasierten, datenfreien Detektionsverfahrens genutzt wird.

Sengim Karayalcin, Marina Krcek, Pin-Yu Chen, Stjepan Picek2026-03-12💻 cs

HanMoVLM: Large Vision-Language Models for Professional Artistic Painting Evaluation

Die Arbeit stellt HanMoVLM vor, ein auf Large Vision-Language Models basierendes System, das durch die Einführung des HanMo-Bench-Datensatzes und expertenvalidiertes Chain-of-Thought-Reasoning professionelle Bewertungen chinesischer Gemälde ermöglicht und als hochqualitativer Verifizierer die Testzeit-Skalierung für die Generierung künstlerisch überlegener Bilder unterstützt.

Hongji Yang, Yucheng Zhou, Wencheng Han, Songlian Li, Xiaotong Zhao, Jianbing Shen2026-03-12💻 cs

A dataset of medication images with instance segmentation masks for preventing adverse drug events

Die Studie stellt MEDISEG vor, einen umfassenden Datensatz mit Instanzsegmentierungsmasken für 32 Pillentypen in 8262 Bildern, der dazu dient, KI-Modelle zur zuverlässigen Erkennung von Medikamenten in realen Szenarien zu trainieren und so Medikationsfehler zu verhindern.

W. I. Chu, S. Hirani, G. Tarroni, L. Li2026-03-12💻 cs

BALD-SAM: Disagreement-based Active Prompting in Interactive Segmentation

Die Arbeit stellt BALD-SAM vor, ein aktives Lernframework, das die epistemische Unsicherheit eines kleinen Vorhersagekopfes nutzt, um bei der Segmentierung mit dem Segment-Anything-Modell (SAM) die informativsten räumlichen Prompt-Positionen automatisch zu identifizieren und dabei die menschliche und sogar die Orakel-Prompting-Leistung in vielfältigen Domänen übertreffen.

Prithwijit Chowdhury, Mohit Prabhushankar, Ghassan AlRegib2026-03-12🤖 cs.AI

Evaluating Few-Shot Pill Recognition Under Visual Domain Shift

Diese Studie zeigt, dass Few-Shot-Methoden die semantische Erkennung von Pillen auch mit nur einem Beispiel effektiv anpassen können, jedoch unter realen Bedingungen wie Überlappungen und Verdeckungen die Lokalisierung und Rückrufrate signifikant abfallen, was die Notwendigkeit realistischer Trainingsdaten für den Einsatz unterstreicht.

W. I. Chu, G. Tarroni, L. Li2026-03-12💻 cs

On the Reliability of Cue Conflict and Beyond

Die Arbeit stellt mit REFINED-BIAS ein neues, zuverlässiges Evaluierungsframework vor, das die Instabilitäten und Ambiguitäten bestehender Cue-Conflict-Benchmarks behebt, um durch explizit definierte, ausgewogene Cue-Paare und eine rankingbasierte Messung über den gesamten Labelraum eine verlässlichere Diagnose von Form- und Textur-Bias in neuronalen Netzen zu ermöglichen.

Pum Jun Kim, Seung-Ah Lee, Seongho Park, Dongyoon Han, Jaejun Yoo2026-03-12🤖 cs.AI

Human Presence Detection via Wi-Fi Range-Filtered Doppler Spectrum on Commodity Laptops

Diese Arbeit stellt eine bahnbrechende Lösung zur Erkennung menschlicher Anwesenheit vor, die ausschließlich die integrierte Wi-Fi-Hardware von Standard-Laptops nutzt und durch eine neuartige, bereichsgefilterte Doppler-Spektrum-Analyse sowie eine adaptive Mehrraten-Verarbeitung kostengünstige, datenschutzfreundliche und kalibrierungsfreie Präsenzerkennung ohne externe Sensoren ermöglicht.

Jessica Sanson, Rahul C. Shah, Valerio Frascolla2026-03-12⚡ eess

UltrasoundAgents: Hierarchical Multi-Agent Evidence-Chain Reasoning for Breast Ultrasound Diagnosis

Die Arbeit stellt UltrasoundAgents vor, ein hierarchisches Multi-Agenten-Framework, das durch einen entkoppelten progressiven Trainingsansatz und eine evidenzbasierte Schlussfolgerungskette die Brustultraschalldiagnose verbessert, indem es den klinischen Workflow nachahmt und transparente, nachvollziehbare BI-RADS-Klassifikationen liefert.

Yali Zhu, Kang Zhou, Dingbang Wu, Gaofeng Meng2026-03-12💻 cs

Beyond Sequential Distance: Inter-Modal Distance Invariant Position Encoding

Die Arbeit stellt DIPE vor, eine neue Positionenkodierung, die das Problem des visuellen Verblassens in multimodalen Großsprachmodellen bei langen Kontexten löst, indem sie die durch Multimodal-RoPE verursachte Bestrafung intermodaler Aufmerksamkeit aufhebt und so eine stabile visuelle Verankerung unabhängig von der Textlänge gewährleistet.

Lin Chen, Bolin Ni, Qi Yang, Zili Wang, Kun Ding, Ying Wang, Houwen Peng, Shiming Xiang2026-03-12💻 cs

Bilevel Layer-Positioning LoRA for Real Image Dehazing

Der vorgestellte Ansatz BiLaLoRA verbessert das Entnebeln realer Bilder durch eine CLIP-gesteuerte, unüberwachte Verlustfunktion und eine adaptive Strategie zur automatischen Suche nach optimalen LoRA-Injektionsschichten, um die Anpassungsfähigkeit an diverse Haze-Szenarien zu erhöhen.

Yan Zhang, Long Ma, Yuxin Feng, Zhe Huang, Fan Zhou, Zhuo Su2026-03-12💻 cs

S2D: Sparse to Dense Lifting for 3D Reconstruction with Minimal Inputs

Der Paper stellt S2D vor, eine neuartige Pipeline, die durch einen effizienten Diffusionsprozess und eine robuste Rekonstruktionsstrategie spärliche Punktwolken in hochwertige, dichte 3D-Gaussian-Splatting-Rekonstruktionen umwandelt und damit die Anforderungen an die Eingabedaten für 3D-Anwendungen minimiert.

Yuzhou Ji, Qijian Tian, He Zhu, Xiaoqi Jiang, Guangzhi Cao, Lizhuang Ma, Yuan Xie, Xin Tan2026-03-12💻 cs

Novel Architecture of RPA In Oral Cancer Lesion Detection

Diese Studie zeigt, dass die Implementierung des Singleton-Musters und der Batch-Verarbeitung in den beiden neuen RPA-Architekturen OC-RPAv1 und OC-RPAv2 die Vorhersagezeit bei der Erkennung von Mundkrebsläsionen von 0,29 auf 0,06 Sekunden pro Bild reduziert und somit eine 60- bis 100-fache Effizienzsteigerung gegenüber Standardmethoden ermöglicht.

Revana Magdy, Joy Naoum, Ali Hamdi2026-03-12💻 cs

Lifelong Imitation Learning with Multimodal Latent Replay and Incremental Adjustment

Die vorgestellte Arbeit stellt ein lebenslanges Imitationslern-Framework vor, das durch multimodale latente Wiedergabe und eine inkrementelle Anpassung mit Winkelrandbeschränkung das kontinuierliche Lernen unter Speicherbeschränkungen ermöglicht und gleichzeitig das Vergessen reduziert, wodurch neue State-of-the-Art-Ergebnisse auf den LIBERO-Benchmarks erzielt werden.

Fanqi Yu, Matteo Tiezzi, Tommaso Apicella, Cigdem Beyan, Vittorio Murino2026-03-12💻 cs

Bridging the Skill Gap in Clinical CBCT Interpretation with CBCTRepD

Die Studie stellt CBCTRepD vor, ein KI-gestütztes System zur Generierung von zahnärztlichen CBCT-Berichten, das auf einem großen Datensatz trainiert wurde und nachweislich Radiologen aller Erfahrungsstufen durch verbesserte Berichtqualität, Standardisierung und die Reduzierung von Diagnosefehlern unterstützt.

Qinxin Wu, Fucheng Niu, Hengchuan Zhu, Yifan Sun, Ye Shen, Xu Li, Han Wu, Leqi Liu, Zhiwen Pan, Zuozhu Liu, Fudong Zhu, Bin Feng2026-03-12💻 cs

Historical Consensus: Preventing Posterior Collapse via Iterative Selection of Gaussian Mixture Priors

Diese Arbeit stellt die „Historical Consensus Training"-Methode vor, die durch iterative Auswahl und Optimierung von Gaußschen Mischverteilungs-Priors einen stabilen Parameterbereich schafft, der das Posterior-Collapse-Phänomen in Variational Autoencodern unabhängig von Architektur oder Regularisierung vollständig verhindert.

Zegu Zhang, Jian Zhang2026-03-12🤖 cs.LG

Pointy - A Lightweight Transformer for Point Cloud Foundation Models

Die Arbeit stellt Pointy vor, einen leichten Transformer für Punktwolken, der durch eine sorgfältig kuratierte Architektur und ein kontrolliertes Training mit nur 39.000 Punktwolken die Leistung größerer Foundation-Modelle übertrifft und dabei auf umfangreiche Kreuzmodalsupervision verzichtet.

Konrad Szafer, Marek Kraft, Dominik Belter2026-03-12🤖 cs.LG

Contrastive learning-based video quality assessment-jointed video vision transformer for video recognition

Diese Arbeit stellt SSL-V3 vor, einen selbstüberwachten Video-Vision-Transformer, der durch die Integration einer No-Reference-Videoqualitätsbewertung (VQA) die Klassifizierung von Videos, insbesondere bei unscharfen Aufnahmen wie im medizinischen Bereich, erheblich verbessert.

Jian Sun, Mohammad H. Mahoor2026-03-12💻 cs

Med-DualLoRA: Local Adaptation of Foundation Models for 3D Cardiac MRI

Die Arbeit stellt Med-DualLoRA vor, ein privatsphäreschonendes, federiertes Feinabstimmungsframework für medizinische Basismodelle, das durch die Trennung global geteilter und lokaler Parameter die Anpassung an heterogene 3D-Herz-MRT-Daten verbessert und dabei die Kommunikationskosten sowie Datenschutzrisiken minimiert.

Joan Perramon-Llussà, Amelia Jiménez-Sánchez, Grzegorz Skorupko, Fotis Avgoustidis, Carlos Martín-Isla, Karim Lekadir, Polyxeni Gkontra2026-03-12💻 cs

VCR: Variance-Driven Channel Recalibration for Robust Low-Light Enhancement

Die Arbeit stellt VCR vor, einen neuartigen Rahmen für die Bildverbesserung bei schwachem Licht, der durch die Module zur kanalspezifischen Anpassung und zur Farbdistributionsausrichtung die Entkopplung von Helligkeit und Farbe verbessert und so natürliche Ergebnisse ohne Rauschen liefert.

Zhixin Cheng, Fangwen Zhang, Xiaotian Yin, Baoqun Yin, Haodian Wang2026-03-12💻 cs

← Zurück Weiter →