cs Arbeiten | Gist.Science

DeepSparse: A Foundation Model for Sparse-View CBCT Reconstruction

Die Studie stellt DeepSparse, das erste Foundation-Modell für die Rekonstruktion von Sparse-View-CBCT-Bildern, vor, das durch die innovative DiCE-Netzwerkarchitektur und das HyViP-Vorabtrainingsframework eine überlegene Bildqualität bei reduzierter Strahlenbelastung und verbesserter Generalisierbarkeit im Vergleich zu bestehenden Methoden erreicht.

Yiqun Lin, Jixiang Chen, Hualiang Wang, Jiewen Yang, Jiarong Guo, Yi Zhang, Xiaomeng Li2026-03-10💻 cs

HEXGEN-FLOW: Optimizing LLM Inference Request Scheduling for Agentic Text-to-SQL

Die Arbeit stellt HEXGEN-FLOW vor, ein Framework, das durch einen hierarchischen Scheduler und eine adaptive Prioritätswarteschlange die Latenz verringert und den Durchsatz für agentic Text-to-SQL-Anfragen auf heterogenen GPU-Clustern signifikant verbessert.

You Peng, Youhe Jiang, Wenqi Jiang, Chen Wang, Binhang Yuan2026-03-10💻 cs

M3CAD: Towards Generic Cooperative Autonomous Driving Benchmark

Die Arbeit stellt M³CAD vor, ein umfassendes Benchmark mit multimodalen Daten von 204 Sequenzen, das als erster spezifischer Standard für die Forschung zu kooperativem, multiaufgabenfähigem autonomen Fahren dient und durch die Einführung einer netzwerkadaptiven Multi-Level-Fusionsmethode die Balance zwischen Kommunikationseffizienz und Wahrnehmungsgenauigkeit verbessert.

Morui Zhu, Yongqi Zhu, Yihao Zhu, Qi Chen, Deyuan Qu, Song Fu, Qing Yang2026-03-10💻 cs

FoldNet: Learning Generalizable Closed-Loop Policy for Garment Folding via Keypoint-Driven Asset and Demonstration Synthesis

Die Arbeit stellt FoldNet vor, ein Framework, das durch die Synthese eines keypoint-basierten synthetischen Datensatzes und den Einsatz des KG-DAgger-Algorithmus für die Fehlerwiederherstellung eine generalisierbare, geschlossene Regelstrategie für das robotergestützte Falten von Kleidungsstücken mit einer realen Erfolgsrate von 75 % ermöglicht.

Yuxing Chen, Bowen Xiao, He Wang2026-03-10💻 cs

Diffusion-SAFE: Diffusion-Native Human-to-Robot Driving Handover for Shared Autonomy

Die Arbeit stellt Diffusion-SAFE vor, einen geschlossenen Regelkreis auf Basis von Diffusionsmodellen, der durch die Vorhersage menschlicher Absichten und eine sicherheitsgeleitete Denoisierung eine nahtlose und probabilistisch gesicherte Kontrolleübergabe zwischen Mensch und autonomem Fahrzeug ermöglicht.

Yunxin Fan, Monroe Kennedy III2026-03-10💻 cs

MTVCraft: Tokenizing 4D Motion for Arbitrary Character Animation

Die Arbeit stellt MTVCraft vor, ein bahnbrechendes Framework, das erstmals rohe 3D-Bewegungssequenzen (4D-Motion) durch einen speziellen Tokenizer und einen bewegungsbewussten Video-DiT direkt für die Animation beliebiger Charaktere nutzt, wodurch eine überlegene Generalisierung und flexible Steuerung im Vergleich zu herkömmlichen 2D-Pose-basierten Methoden erreicht wird.

Yanbo Ding, Xirui Hu, Zhizhi Guo, Yan Zhang, Xinrui Wang, Zhixiang He, Chi Zhang, Yali Wang, Xuelong Li2026-03-10💻 cs

Precision Proactivity: Measuring Cognitive Load in Real-World AI-Assisted Work

Die Studie zeigt, dass bei 34 Finanzexperten, die GPT-4o für komplexe Bewertungsaufgaben nutzten, extrane kognitive Belastung die Leistung stärker beeinträchtigt als intrinsische Belastung, wobei proaktive KI-Eingriffe zwar die Ergebnisqualität steigern, aber bei weniger erfahrenen Nutzern zu einer asymmetrischen Belastung führen, die durch häufige, modellinitiierte Aufgabenwechsel am stärksten negativ beeinflusst wird.

Brandon Lepine, Juho Kim, Pamela Mishkin, Matthew Beane2026-03-10💻 cs

Power flow and optimal power flow using quantum and digital annealers: a computational scalability analysis

Diese Studie stellt die Adiabatic Quantum Power Flow (AQPF) und Adiabatic Quantum Optimal Power Flow (AQOPF) Algorithmen vor, die die Leistungsfluss- und Optimalleistungsflussprobleme in diskrete kombinatorische Optimierungsmodelle umwandeln, und bewertet deren Skalierbarkeit und Robustheit auf verschiedenen Quanten- und digitalen Annealer-Hardware-Plattformen anhand von Testsystemen bis zu 1354 Bussen.

Zeynab Kaseb, Matthias Moller, Pedro P. Vergara, Peter Palensky2026-03-10💻 cs

Representing local protein environments with machine learning force fields

Diese Arbeit stellt eine neuartige Repräsentation lokaler Proteinumgebungen vor, die auf Zwischenschichten atomarer Grundmodelle basiert und nicht nur Struktur- und chemische Merkmale präzise erfasst, sondern auch den Aufbau datengesteuerter Priors sowie die Entwicklung eines hochpräzisen, physikbasierten Vorhersagemodells für NMR-Chemische Verschiebungen ermöglicht.

Meital Bojan, Sanketh Vedula, Advaith Maddipatla, Nadav Bojan Sellam, Anar Rzayev, Federico Napoli, Paul Schanda, Alex M. Bronstein2026-03-10💻 cs

Unsupervised Discovery of Failure Taxonomies from Deployment Logs

Diese Arbeit stellt einen unüberwachten Ansatz vor, der mittels multimodaler Vision-Sprache-Argumentation und Clustering aus großen Mengen an Roboter-Deployments-Logs semantisch kohärente und handlungsrelevante Fehlertaxonomien automatisch entdeckt, um die Systemrobustheit durch gezielte Datensammlung und verbessertes Fehlermonitoring zu steigern.

Aryaman Gupta, Yusuf Umut Ciftci, Somil Bansal2026-03-10💻 cs

Assigning Multi-Robot Tasks to Multitasking Robots

Dieses Paper stellt ein neuartiges Rahmenwerk zur Zuweisung von Aufgaben an multitaskingfähige Roboter vor, das physische Einschränkungen berücksichtigt und durch einen MAX-SAT-basierten Ansatz sowie einen effizienten Greedy-Heuristik-Algorithmus die Aufgabenallokation im Vergleich zu herkömmlichen Ein-Aufgaben-Methoden optimiert.

Winston Smith, Yu Zhang2026-03-10💻 cs

Context Matters! Relaxing Goals with LLMs for Feasible 3D Scene Planning

Die Arbeit stellt ContextMatters vor, ein Framework, das Large Language Models und klassische Planung kombiniert, um durch kontextabhängige Ziellockerung auf 3D-Scene-Graphen die Erfolgsrate von Embodied Agents in komplexen Umgebungen signifikant zu steigern.

Emanuele Musumeci, Michele Brienza, Francesco Argenziano, Abdel Hakim Drid, Vincenzo Suriani, Daniele Nardi, Domenico D. Bloisi2026-03-10💻 cs

Transforming H&E images into IHC: A Variance-Penalized GAN for Precision Oncology

Diese Studie stellt einen varianzgesteuerten GAN-basierten Ansatz vor, der aus kostengünstigen H&E-Färbungen hochpräzise HER2-IHC-Bilder generiert und durch die Vermeidung von Mode Collapse sowie die Verbesserung der strukturellen Vielfalt die Genauigkeit der Brustkrebsdiagnostik signifikant steigert.

Sara Rehmat, Hafeez Ur Rehman, Byeong-Gwon Kang, Sarra Ayouni, Yunyoung Nam2026-03-10💻 cs

Light of Normals: Unified Feature Representation for Universal Photometric Stereo

Die Arbeit stellt LINO UniPS vor, ein universelles photometrisches Stereo-System, das durch Light Register Tokens und Interleaved Attention Blocks eine Entkopplung von Beleuchtung und Oberflächennormals erreicht, während eine waveletbasierte Architektur und ein spezieller Verlustbegriff feine geometrische Details bewahren, was in Kombination mit dem neuen PS-Verse-Datensatz zu neuen State-of-the-Art-Ergebnissen führt.

Houyuan Chen, Hong Li, Chongjie Ye + 11 more2026-03-10💻 cs

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

Diese Arbeit stellt ein neuartiges, von Vision-Language-Modellen (VLMs) geführtes kaskadiertes Framework für die Open-Vocabulary-Tarnobjektsegmentierung vor, das durch die Nutzung von VLM-Features als explizite Prompts für das Segment Anything Model (SAM) und die Einbeziehung des Segmentierungsergebnisses als weicher räumlicher Prior die Herausforderungen der visuellen Ambiguität und des Domänenunterschieds bei der Segmentierung und Klassifizierung von Tarnobjekten überwindet.

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng2026-03-10💻 cs

WaLi: Can Pressure Sensors in HVAC Systems Capture Human Speech?

Die Studie stellt WaLi vor, ein System, das mithilfe eines komplexwertigen Conformer-Modells und einer globalen Aufmerksamkeitskomponente vertrauliche Sprache aus den oft vernachlässigten Druckdaten von HVAC-Sensoren rekonstruiert und damit eine bisher unbeachtete, erhebliche Privatsphärenbedrohung aufzeigt.

Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Anomadarshi Barua2026-03-10💻 cs

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

Die SUBARU-Methode ermöglicht eine signifikante Stromreduzierung bei Hörgeräten durch den gezielten Einsatz von Sub-Nyquist-Abtastung und niedriger Bitauflösung in Kombination mit einem effizienten Upsampling-Verfahren, das dennoch eine hochwertige Sprachverbesserung in Echtzeit gewährleistet.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi Barua2026-03-10💻 cs

Autonomous Vision-Aided UAV Positioning for Obstacle-Aware Wireless Connectivity

Die Studie stellt VTOPA vor, einen visuell gestützten Algorithmus zur autonomen Positionierung von UAVs in städtischen Umgebungen, der durch die Echtzeiterkennung von Hindernissen und Nutzerstandorten die Sichtverbindung sicherstellt und so die aggregierte Durchsatzrate um bis zu 50 % steigert sowie die Latenz um 50 % senkt.

Kamran Shafafi, Manuel Ricardo, Rui Campos2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

Das Paper stellt LD-RPS vor, eine datasetfreie, einheitliche Methode zur Bildwiederherstellung, die durch rekurrentes Posterior-Sampling mit einem vortrainierten latenten Diffusionsmodell und multimodalen semantischen Priors verschiedene Degradationen ohne spezifisches Training bewältigt.

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition

Die Arbeit stellt Query-based Adaptive Aggregation (QAA) vor, eine neuartige Merkmalsaggregationsmethode, die durch lernbare Abfragen als Referenzcodebücher die Generalisierungsfähigkeit von Modellen für das universelle visuelle Ortserkennungsproblem (VPR) über mehrere Datensätze hinweg verbessert und dabei den Zustand der Technik übertrifft.

Jiuhong Xiao, Yang Zhou, Giuseppe Loianno2026-03-10💻 cs

← Zurück Weiter →