cs.AI Arbeiten | Gist.Science

Prompt-SID: Learning Structural Representation Prompt via Latent Diffusion for Single-Image Denoising

Die Arbeit stellt Prompt-SID vor, ein selbstüberwachtes Framework für die Einzelbild-Denoising, das mittels latenten Diffusionsprozessen strukturelle Prompts generiert und über einen Transformer-basierten Aufmerksamkeitsmechanismus integriert, um strukturelle Details zu bewahren und die Effizienz gegenüber bestehenden blind-spot-basierten Methoden zu steigern.

Huaqiu Li, Wang Zhang, Xiaowan Hu, Tao Jiang, Zikang Chen, Haoqian Wang2026-03-10💻 cs

Quantifying Information Loss under Coarse-Grained Partitions: A Discrete Framework for Explainable Artificial Intelligence

Diese Arbeit stellt ein diskretes mathematisches Rahmenwerk vor, das mittels grobkörniger Partitionen und eines KL-basierten Informationsverlustmaßes die Abwägung zwischen Interpretierbarkeit und Informationsgenauigkeit in erklärbarer KI quantifiziert.

Takashi Izumo2026-03-10🤖 cs.AI

Language in the Flow of Time: Time-Series-Paired Texts Weaved into a Unified Temporal Narrative

Die Studie stellt das Framework „Texts as Time Series" (TaTS) vor, das zeitlich gepaarte Texte als Hilfsvariablen nutzt, um bestehende reine Zahlen-basierte Zeitreihenmodelle ohne Architekturänderungen zu erweitern und deren Vorhersage- sowie Imputationsleistung in multimodalen Szenarien zu verbessern.

Zihao Li, Xiao Lin, Zhining Liu, Jiaru Zou, Ziwei Wu, Lecheng Zheng, Dongqi Fu, Yada Zhu, Hendrik Hamann, Hanghang Tong, Jingrui He2026-03-10🤖 cs.LG

LaVCa: LLM-assisted Visual Cortex Captioning

Die Studie stellt LaVCa vor, eine datengestützte Methode, die große Sprachmodelle nutzt, um präzise natürliche Sprachbeschreibungen für die Selektivität von Neuronen im visuellen Kortex zu generieren und damit tiefere Einblicke in die menschliche visuelle Repräsentation sowie feinere funktionale Differenzierungen als bisherige Ansätze ermöglicht.

Takuya Matsuyama, Shinji Nishimoto, Yu Takagi2026-03-10🤖 cs.LG

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

Die Studie stellt ein Clustering-basiertes Framework vor, das Aufgaben nach Schwierigkeitsgrad gruppiert, um die Leistung von Large Language Models auf zukünftigen Downstream-Aufgaben mit hoher Genauigkeit vorherzusagen und so die Herausforderungen unvorhersehbarer Skalierungseffekte und inkonsistenter Leistungsmuster zu überwinden.

Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang Li2026-03-10🤖 cs.LG

Subclass Classification of Gliomas Using MRI Fusion Technique

Diese Studie stellt einen Algorithmus vor, der durch die Fusion von segmentierten T1-, T2-, T1ce- und FLAIR-MRT-Bildern mittels UNET und gewichteter Durchschnittsbildung sowie deren Klassifizierung mit einem ResNet50-Modell eine Genauigkeit von 99,25 % bei der Untergruppenklassifizierung von Gliomen erreicht.

Kiranmayee Janardhan, Christy Bobby Thomas2026-03-10💻 cs

Deep Learning-Based Approach for Automatic 2D and 3D MRI Segmentation of Gliomas

Diese Studie stellt einen tiefenlernbasierten Ansatz vor, der auf UNET-, Inception- und ResNet-Architekturen aufbaut, um durch eine ausgewogene Kombination von 2D- und 3D-Faltungsschichten eine automatisierte und präzise Gliom-Segmentierung in MRT-Bildern zu ermöglichen, wobei das ResNet-Modell auf den BraTS-Datensätzen mit einer 3D-Dice-Bewertung von 0,9888 die besten Ergebnisse erzielte.

Kiranmayee Janardhan, Christy Bobby T2026-03-10💻 cs

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning

Die Autoren stellen LOOP vor, eine neue Reinforcement-Learning-Methode für die Feinabstimmung von Text-zu-Bild-Diffusionsmodellen, die die Varianzreduktionstechniken von REINFORCE mit der Robustheit und Stichprobeneffizienz von PPO kombiniert, um einen besseren Ausgleich zwischen Effizienz und Leistung zu erzielen.

Shashank Gupta, Chaitanya Ahuja, Tsung-Yu Lin + 4 more2026-03-10🤖 cs.AI

Parallelized Planning-Acting for Efficient LLM-based Multi-Agent Systems in Minecraft

Diese Arbeit stellt ein neuartiges, paralleles Planungs-Aktions-Framework für LLM-basierte Multi-Agenten-Systeme in Minecraft vor, das durch eine duale Thread-Architektur mit unterbrechbarer Ausführung die bisherige sequenzielle Beschränkung überwindet und so eine Echtzeit-Reaktionsfähigkeit in dynamischen Umgebungen ermöglicht.

Yaoru Li, Shunyu Liu, Tongya Zheng, Li Sun, Mingli Song2026-03-10💻 cs

LLM-Powered Prediction of Hyperglycemia and Discovery of Behavioral Treatment Pathways from Wearables and Diet

Diese Studie stellt GlucoLens vor, ein erklärbares KI-System, das mithilfe von Wearable-Daten, Ernährungsinformationen und großen Sprachmodellen postprandiale Hyperglykämie bei Erwachsenen präzise vorhersagt und personalisierte Verhaltensinterventionen zur Vermeidung von Blutzuckerspitzen ableitet.

Abdullah Mamun, Asiful Arefeen, Susan B. Racette + 4 more2026-03-10🤖 cs.AI

Enhancing Alzheimer's Diagnosis: Leveraging Anatomical Landmarks in Graph Convolutional Neural Networks on Tetrahedral Meshes

Die vorgestellte Arbeit verbessert die Alzheimer-Diagnose und die Vorhersage von Amyloid-Positivität bei Mittelrisiko-Patienten durch ein skalierbares, auf Transformer-Architekturen basierendes geometrisches Deep-Learning-Modell, das Tetraedermeshes mit anatomischen Landmarken verarbeitet und damit teure PET-Scans teilweise ersetzt.

Yanxi Chen, Mohammad Farazi, Zhangsihao Yang, Yonghui Fan, Nicholas Ashton, Eric M Reiman, Yi Su, Yalin Wang2026-03-10💻 cs

The impact of AI and peer feedback on research writing skills: a study using the CGScholar platform among Kazakhstani scholars

Diese Studie untersucht, wie sich die Vertrautheit mit KI-Tools und Peer-Feedback auf die akademische Schreibentwicklung kasachischer Wissenschaftler auswirkt, und zeigt, dass eine Kombination aus KI-gestütztem Feedback und traditionellem Peer-Input die Forschungsqualität verbessern kann.

Raigul Zheldibayeva2026-03-10🤖 cs.AI

ViLAM: Distilling Vision-Language Reasoning into Attention Maps for Social Robot Navigation

Das Paper stellt ViLAM vor, eine Methode, die durch Wissensdistillation von großen Vision-Sprach-Modellen in räumliche Aufmerksamkeitskarten soziale Navigationsfähigkeiten in Roboter integriert und damit die Erfolgswahrscheinlichkeit bei der sozialen Roboternavigation im Vergleich zu bestehenden Methoden um 14,2 % bis 50 % steigert.

Mohamed Elnoor, Kasun Weerakoon, Gershom Seneviratne, Jing Liang, Vignesh Rajagopal, Dinesh Manocha2026-03-10💻 cs

IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models

Die Arbeit stellt IMPACT vor, ein neuartiges Bewegungsplanungsframework, das Vision-Language-Modelle nutzt, um semantische Umgebungsinformationen zu erfassen und anisotrope Kostenkarten zu generieren, die es einem kontaktbewussten A*-Planer ermöglichen, in überfüllten Umgebungen stabile und sicherheitsbewusste Kontaktbahnen zu finden.

Yiyang Ling, Karan Owalekar, Oluwatobiloba Adesanya, Erdem Bıyık, Daniel Seita2026-03-10🤖 cs.LG

Engineering Systems for Data Analysis Using Interactive Structured Inductive Programming

Das Paper stellt iProg vor, ein Werkzeug für interaktives strukturiertes induktives Programmieren, das durch eine zweistufige Kollaboration zwischen Mensch und KI (Zerlegung in Datenflussdiagramme und Codegenerierung) unter Nutzung eines Intelligibilitätsprotokolls wissenschaftliche Datenanalysesysteme schneller, qualitativ hochwertiger und zuverlässiger entwickelt als herkömmliche Low-Code- oder No-Code-Ansätze.

Shraddha Surana, Ashwin Srinivasan, Michael Bain2026-03-10💻 cs

More Women, Same Stereotypes: Unpacking the Gender Bias Paradox in Large Language Models

Diese Studie zeigt, dass große Sprachmodelle zwar durch Fine-Tuning und RLHF weibliche Charaktere in Berufen überrepräsentieren, diese jedoch paradoxerweise weiterhin stärker an geschlechtsspezifischen Stereotypen als an realen Arbeitsmarktdaten ausgerichtet sind, was die Notwendigkeit ausgewogener Gegenmaßnahmen unterstreicht.

Evan Chen, Run-Jun Zhan, Yan-Bai Lin, Hung-Hsuan Chen2026-03-10💬 cs.CL

From 2D Alignment to 3D Plausibility: Unifying Heterogeneous 2D Priors and Penetration-Free Diffusion for Occlusion-Robust Two-Hand Reconstruction

Diese Arbeit stellt eine Methode zur robusten Rekonstruktion von zwei Händen aus monokularen Bildern vor, die heterogene 2D-Strukturpriors aus Vision-Modellen mit einem kollisionsfreien Diffusionsmodell kombiniert, um Interaktionsfehler und Handdurchdringungen auch bei starken Verdeckungen zu vermeiden.

Gaoge Han, Yongkang Cheng, Zhe Chen, Shaoli Huang, Tongliang Liu2026-03-10💻 cs

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

Die Arbeit stellt EDU-PRM vor, ein neuartiges, entropiegetriebenes Prozess-Reward-Modell, das durch automatische, unsicherheitsbasierte Segmentierung von Denkprozessen teure manuelle Annotationen eliminiert und gleichzeitig bei deutlich reduziertem Trainingsdatenaufwand sowie effizienterer Token-Nutzung state-of-the-art Ergebnisse in der mathematischen Problemlösung erzielt.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

MediTools -- Medical Education Powered by LLMs

Das Forschungsprojekt MediTools nutzt Large Language Models, um die medizinische Ausbildung durch interaktive Tools wie dermatologische Fall-Simulationen, KI-gestützte Literaturrecherche und Nachrichten-Zusammenfassungen zu revolutionieren und klinische Fähigkeiten zu verbessern.

Amr Alshatnawi, Remi Sampaleanu, David Liebovitz2026-03-10💻 cs

Enhancing Metabolic Syndrome Prediction with Hybrid Data Balancing and Counterfactuals

Diese Studie verbessert die Vorhersage des metabolischen Syndroms durch einen neuartigen hybriden Rahmen (MetaBoost) zur Optimierung des Datenbalancings und durch eine kontrafaktische Analyse, die Blutzucker und Triglyceride als entscheidende klinische Risikofaktoren identifiziert.

Sanyam Paresh Shah, Abdullah Mamun, Shovito Barua Soumma + 1 more2026-03-10🤖 cs.AI

← Zurück Weiter →