cs Arbeiten | Gist.Science

Beyond Sequential Distance: Inter-Modal Distance Invariant Position Encoding

Die Arbeit stellt DIPE vor, eine neue Positionenkodierung, die das Problem des visuellen Verblassens in multimodalen Großsprachmodellen bei langen Kontexten löst, indem sie die durch Multimodal-RoPE verursachte Bestrafung intermodaler Aufmerksamkeit aufhebt und so eine stabile visuelle Verankerung unabhängig von der Textlänge gewährleistet.

Lin Chen, Bolin Ni, Qi Yang, Zili Wang, Kun Ding, Ying Wang, Houwen Peng, Shiming Xiang2026-03-12💻 cs

Exploring Indicators of Developers' Sentiment Perceptions in Student Software Projects

Diese Studie untersucht an 81 Studierenden, wie Stimmung, Lebensumstände und Gruppendynamiken die Wahrnehmung von Sentiment in Softwareprojekten beeinflussen, und zeigt, dass die Sentiment-Einschätzung stark von der individuellen Person und der Mehrdeutigkeit der Aussagen abhängt, während systematische Effekte von Projektphasen oder einzelnen Faktoren kaum nachweisbar sind.

Martin Obaidi, Marc Herrmann, Jendrik Martensen, Jil Klünder, Kurt Schneider2026-03-12💻 cs

FG-CLTP: Fine-Grained Contrastive Language Tactile Pretraining for Robotic Manipulation

Die Arbeit stellt FG-CLTP vor, ein feinabgestimmtes kontrastives Vorpretraining-Framework, das quantitative taktile 3D-Punktwolken-Daten nutzt, um die Genauigkeit bei der Roboter-Manipulation zu steigern und eine robuste multimodale Steuerung für kontaktreiche Aufgaben zu ermöglichen.

Wenxuan Ma, Chaofan Zhang, Yinghao Cai, Guocai Yao, Shaowei Cui, Shuo Wang2026-03-12💻 cs

Bilevel Layer-Positioning LoRA for Real Image Dehazing

Der vorgestellte Ansatz BiLaLoRA verbessert das Entnebeln realer Bilder durch eine CLIP-gesteuerte, unüberwachte Verlustfunktion und eine adaptive Strategie zur automatischen Suche nach optimalen LoRA-Injektionsschichten, um die Anpassungsfähigkeit an diverse Haze-Szenarien zu erhöhen.

Yan Zhang, Long Ma, Yuxin Feng, Zhe Huang, Fan Zhou, Zhuo Su2026-03-12💻 cs

RL-Augmented MPC for Non-Gaited Legged and Hybrid Locomotion

Die Autoren stellen eine hierarchische Architektur vor, die Reinforcement Learning mit Modellprädiktiver Regelung koppelt, um durch das Lernen von Gangmustern in der Simulation den rechenintensiven Abtastzeitpunkt für Kontakten zu entlasten und dabei eine erfolgreiche Null-Shot-Übertragung von der Simulation auf reale, nicht-gangbasierte und hybride Laufroboter ohne Domänenrandomisierung zu ermöglichen.

Andrea Patrizi, Carlo Rizzardo, Arturo Laurenzi, Francesco Ruscelli, Luca Rossini, Nikos G. Tsagarakis2026-03-12💻 cs

VoxCare: Studying Natural Communication Behaviors of Hospital Caregivers through Wearable Sensing of Egocentric Audio

Die Studie stellt VoxCare vor, ein skalierbares, datenschutzkonformes System zur Echtzeiterfassung von Kommunikationsmustern medizinischer Fachkräfte über tragbare Audio-Sensoren, um durch die Analyse von Sprechaktivität und vokaler Erregung Rückschlüsse auf Arbeitsbelastung und Stress im klinischen Alltag zu ziehen und so die Patientenversorgung zu verbessern.

Tiantian Feng, Kleanthis Avramidis, Anfeng Xu, Deqi Wang, Brandon M Booth, Shrikanth Narayanan2026-03-12💻 cs

S2D: Sparse to Dense Lifting for 3D Reconstruction with Minimal Inputs

Der Paper stellt S2D vor, eine neuartige Pipeline, die durch einen effizienten Diffusionsprozess und eine robuste Rekonstruktionsstrategie spärliche Punktwolken in hochwertige, dichte 3D-Gaussian-Splatting-Rekonstruktionen umwandelt und damit die Anforderungen an die Eingabedaten für 3D-Anwendungen minimiert.

Yuzhou Ji, Qijian Tian, He Zhu, Xiaoqi Jiang, Guangzhi Cao, Lizhuang Ma, Yuan Xie, Xin Tan2026-03-12💻 cs

Expressive Boundedness of Authoritative DNS Response Selection

Diese Arbeit formalisiert die semantischen Grenzen der autoritativen DNS-Antwortauswahl als einen durch das Protokoll definierten, beschränkten Bereich und beweist, dass jede solche Auswahlfunktion eine endliche Normalform besitzt, was eine prinzipielle Analyse von Komposition und Äquivalenz über verschiedene Systeme hinweg ermöglicht.

Chris Bertinato2026-03-12💻 cs

Data Augmentation and Convolutional Network Architecture Influence on Distributed Learning

Diese Studie untersucht den Einfluss von CNN-Architekturen und Daten-Augmentierung auf die Genauigkeit und Recheneffizienz in verteilten Lernumgebungen, um Optimierungsansätze für ressourcenintensive Szenarien zu liefern.

Victor Forattini Jansen, Emanuel Teixeira Martins, Yasmin Souza Lima, Flavio de Oliveira Silva, Rodrigo Moreira, Larissa Ferreira Rodrigues Moreira2026-03-12💻 cs

Training-Free Multi-Step Inference for Target Speaker Extraction

Der vorgestellte Ansatz ermöglicht eine trainingsfreie, mehrstufige Inferenz für die Extraktion von Zielsprechern durch iterative Verfeinerung eines eingefrorenen vortrainierten Modells, wobei eine gemeinsame Optimierung mehrerer Metriken eine kontrollierbare Anpassung für den praktischen Einsatz ohne Ground-Truth-Referenzen erlaubt.

Zhenghai You, Ying Shi, Lantian Li, Dong Wang2026-03-12💻 cs

Novel Architecture of RPA In Oral Cancer Lesion Detection

Diese Studie zeigt, dass die Implementierung des Singleton-Musters und der Batch-Verarbeitung in den beiden neuen RPA-Architekturen OC-RPAv1 und OC-RPAv2 die Vorhersagezeit bei der Erkennung von Mundkrebsläsionen von 0,29 auf 0,06 Sekunden pro Bild reduziert und somit eine 60- bis 100-fache Effizienzsteigerung gegenüber Standardmethoden ermöglicht.

Revana Magdy, Joy Naoum, Ali Hamdi2026-03-12💻 cs

Lifelong Imitation Learning with Multimodal Latent Replay and Incremental Adjustment

Die vorgestellte Arbeit stellt ein lebenslanges Imitationslern-Framework vor, das durch multimodale latente Wiedergabe und eine inkrementelle Anpassung mit Winkelrandbeschränkung das kontinuierliche Lernen unter Speicherbeschränkungen ermöglicht und gleichzeitig das Vergessen reduziert, wodurch neue State-of-the-Art-Ergebnisse auf den LIBERO-Benchmarks erzielt werden.

Fanqi Yu, Matteo Tiezzi, Tommaso Apicella, Cigdem Beyan, Vittorio Murino2026-03-12💻 cs

Huffman-Bucket Sketch: A Simple $O(m)$ Algorithm for Cardinality Estimation

Die Arbeit stellt den Huffman-Bucket-Sketch vor, eine speichereffiziente und zusammenführbare Datenstruktur, die HyperLogLog-Sketches durch verlustlose Huffman-Kodierung der Registerwerte in $O(m+\log n)$ Bits komprimiert und dabei amortisierte konstante Update-Zeiten sowie Merge-Fähigkeit beibehält.

Matti Karppa2026-03-12💻 cs

Bridging the Skill Gap in Clinical CBCT Interpretation with CBCTRepD

Die Studie stellt CBCTRepD vor, ein KI-gestütztes System zur Generierung von zahnärztlichen CBCT-Berichten, das auf einem großen Datensatz trainiert wurde und nachweislich Radiologen aller Erfahrungsstufen durch verbesserte Berichtqualität, Standardisierung und die Reduzierung von Diagnosefehlern unterstützt.

Qinxin Wu, Fucheng Niu, Hengchuan Zhu, Yifan Sun, Ye Shen, Xu Li, Han Wu, Leqi Liu, Zhiwen Pan, Zuozhu Liu, Fudong Zhu, Bin Feng2026-03-12💻 cs

STADA: Specification-based Testing for Autonomous Driving Agents

Die Arbeit stellt STADA vor, ein spezifikationsbasiertes Testframework für autonome Fahragenten, das Szenarien systematisch aus formalen LTLf-Spezifikationen generiert und dabei im Vergleich zu bestehenden Baselines eine deutlich höhere Abdeckung bei gleichzeitig deutlich reduziertem Simulationsaufwand erreicht.

Joy Saha, Trey Woodlief, Sebastian Elbaum, Matthew B. Dwyer2026-03-12💻 cs

Simple minimally unsatisfiable subsets of 2-CNFs

Der Artikel untersucht minimale unerfüllbare Teilmengen von 2-CNF-Formeln, indem er einen linearen Erkennungsalgorithmus für 2-MUs vorstellt, die Komplexität des Findens spezifischer MUS-Varianten analysiert und einen inkrementellen Polynomzeit-Algorithmus für MUSs mit mindestens einer Unit-Klausel entwickelt.

Oliver Kullmann, Edward Clewer2026-03-12💻 cs

Contrastive learning-based video quality assessment-jointed video vision transformer for video recognition

Diese Arbeit stellt SSL-V3 vor, einen selbstüberwachten Video-Vision-Transformer, der durch die Integration einer No-Reference-Videoqualitätsbewertung (VQA) die Klassifizierung von Videos, insbesondere bei unscharfen Aufnahmen wie im medizinischen Bereich, erheblich verbessert.

Jian Sun, Mohammad H. Mahoor2026-03-12💻 cs

Med-DualLoRA: Local Adaptation of Foundation Models for 3D Cardiac MRI

Die Arbeit stellt Med-DualLoRA vor, ein privatsphäreschonendes, federiertes Feinabstimmungsframework für medizinische Basismodelle, das durch die Trennung global geteilter und lokaler Parameter die Anpassung an heterogene 3D-Herz-MRT-Daten verbessert und dabei die Kommunikationskosten sowie Datenschutzrisiken minimiert.

Joan Perramon-Llussà, Amelia Jiménez-Sánchez, Grzegorz Skorupko, Fotis Avgoustidis, Carlos Martín-Isla, Karim Lekadir, Polyxeni Gkontra2026-03-12💻 cs

VCR: Variance-Driven Channel Recalibration for Robust Low-Light Enhancement

Die Arbeit stellt VCR vor, einen neuartigen Rahmen für die Bildverbesserung bei schwachem Licht, der durch die Module zur kanalspezifischen Anpassung und zur Farbdistributionsausrichtung die Entkopplung von Helligkeit und Farbe verbessert und so natürliche Ergebnisse ohne Rauschen liefert.

Zhixin Cheng, Fangwen Zhang, Xiaotian Yin, Baoqun Yin, Haodian Wang2026-03-12💻 cs

Report for NSF Workshop on Algorithm-Hardware Co-design for Medical Applications

Dieser Bericht fasst die Diskussionen und strategischen Empfehlungen des NSF-Workshops vom September 2024 zusammen, der interdisziplinäre Experten zusammenbrachte, um einen fundamentalen Wandel im Entwurf, der Validierung und der klinischen Translation von medizinischen Technologien durch algorithmisch-hardwarebasierte Co-Design-Ansätze zu fordern.

Peipei Zhou, Zheng Dong, Insup Lee, Aidong Zhang, Robert Dick, Majid Sarrafzadeh, Xiaodong Wu, Weisong Shi, Zhuoping Yang, Jingtong Hu, Yiyu Shi2026-03-12💻 cs

← Zurück Weiter →

cs