cs.AI Arbeiten | Gist.Science

Input-Adaptive Generative Dynamics in Diffusion Models

Diese Arbeit stellt einen Ansatz vor, bei dem Diffusionsmodelle ihre Generierungsprozesse an die Komplexität einzelner Eingaben anpassen, indem sie unter variierenden Zeitrahmen und Rauschplänen trainiert werden, was zu einer Reduktion der erforderlichen Abtastschritte bei gleichbleibender Bildqualität führt.

Yucheng Xing, Xiaodong Liu, Xin Wang2026-03-10🤖 cs.LG

The Illusion of Collusion

Die Studie zeigt, dass algorithmische Agenten ohne direkte Kenntnis der Konkurrenz durch reine Synchronität ihrer Aktionen in wiederholten Gefangenendilemma-Spielen zu einer „naiven Kollusion" neigen können, wobei das Auftreten dieses Phänomens stark von der Wahl des Lernalgorithmus (z. B. deterministisch vs. zufällig) abhängt und erhebliche Implikationen für die Wettbewerbspolitik hat.

Connor Douglas, Foster Provost, Arun Sundararajan2026-03-10💻 cs

Energy-Efficient SLAM via Joint Design of Sensing, Communication, and Exploration Speed

Diese Arbeit optimiert den Energieverbrauch lebenslanger SLAM-Systeme durch eine gemeinsame Gestaltung von Sensorik, Kommunikation und Erkundungsgeschwindigkeit, wobei Sensordaten und Odometrie über ein drahtloses Netzwerk an ein Rechenzentrum zur Echtzeit-Kartierung übertragen werden.

Zidong Han, Ruibo Jin, Xiaoyang Li + 3 more2026-03-10🤖 cs.AI

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Die Arbeit stellt HarmonicEval vor, ein referenzfreies, umfassendes Evaluationsmaß für Vision-Language-Modelle, das in einem Bottom-up-Verfahren kriterienspezifische Scores aggregiert, und führt gleichzeitig den MMHE-Benchmark mit 18.000 menschlichen Urteilen über vier multimodale Aufgaben ein, um die Generalisierbarkeit automatischer Metriken in Multi-Task-Szenarien zu verbessern.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

Diese Arbeit stellt eine Methode vor, die vortrainierte Vision-Language-Modelle nutzt, um abstrakte symbolische Weltmodelle aus wenigen Bild-Demonstrationen zu lernen, wodurch Roboter in der Lage sind, langfristige Entscheidungsprobleme in komplexen Umgebungen durch Planung auf neue Ziele und Szenarien zu verallgemeinern.

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack Kaelbling2026-03-10🤖 cs.LG

Efficient Semi-Supervised Adversarial Training via Latent Clustering-Based Data Reduction

Diese Arbeit stellt effiziente Datenreduktionsstrategien für das semi-supervisierte adversarielle Training vor, die durch latente Clustering-Techniken die benötigte Menge an ungelabelten Daten und die Rechenzeit drastisch senken, ohne dabei die Robustheit des Modells zu beeinträchtigen.

Somrita Ghosh, Yuelin Xu, Xiao Zhang2026-03-10🤖 cs.LG

A Single Model Ensemble Framework for Neural Machine Translation using Pivot Translation

Die vorgestellte Arbeit stellt ein neues Ensemble-Framework für neuronale maschinelle Übersetzung vor, das mithilfe von Pivot-Übersetzungen und einer nachträglichen Aggregation mit nur einem einzigen Modell die Übersetzungsqualität für ressourcenarme Sprachpaare verbessert, ohne die hohen Trainingskosten herkömmlicher Mehrfachmodelle zu verursachen.

Seokjin Oh, Keonwoong Noh, Woohwan Jung2026-03-10💬 cs.CL

GRADIEND: Feature Learning within Neural Networks Exemplified through Biases

Die Studie stellt GRADIEND vor, eine neuartige Encoder-Decoder-Methode, die Modellgradienten nutzt, um gesellschaftliche Vorurteile wie Geschlecht oder Herkunft zu identifizieren und gezielt zu entfernen, ohne dabei andere Fähigkeiten des Modells zu beeinträchtigen.

Jonathan Drechsel, Steffen Herbold2026-03-10🤖 cs.LG

An Efficient Local Search Approach for Polarized Community Discovery in Signed Networks

Diese Arbeit stellt einen effizienten lokalen Suchalgorithmus vor, der polarisierte Gemeinschaften in signierten Netzwerken unter Berücksichtigung neutraler Knoten identifiziert, eine neuartige Optimierungszielsetzung zur Vermeidung von Größenungleichgewichten einführt und dabei eine lineare Konvergenzrate nachweist.

Linus Aronsson, Morteza Haghir Chehreghani2026-03-10🤖 cs.LG

Mitigating Unintended Memorization with LoRA in Federated Learning for LLMs

Diese Arbeit zeigt, dass die Anwendung von Low-Rank Adaptation (LoRA) im Federated Learning das Risiko der ungewollten Memorierung von Trainingsdaten in großen Sprachmodellen um bis zu den Faktor 10 reduziert, ohne dabei die Modellleistung signifikant zu beeinträchtigen.

Thierry Bossy, Julien Vignoud, Tahseen Rabbani, Juan R. Troncoso Pastoriza, Martin Jaggi2026-03-10🤖 cs.LG

Prompt-SID: Learning Structural Representation Prompt via Latent Diffusion for Single-Image Denoising

Die Arbeit stellt Prompt-SID vor, ein selbstüberwachtes Framework für die Einzelbild-Denoising, das mittels latenten Diffusionsprozessen strukturelle Prompts generiert und über einen Transformer-basierten Aufmerksamkeitsmechanismus integriert, um strukturelle Details zu bewahren und die Effizienz gegenüber bestehenden blind-spot-basierten Methoden zu steigern.

Huaqiu Li, Wang Zhang, Xiaowan Hu, Tao Jiang, Zikang Chen, Haoqian Wang2026-03-10💻 cs

Quantifying Information Loss under Coarse-Grained Partitions: A Discrete Framework for Explainable Artificial Intelligence

Diese Arbeit stellt ein diskretes mathematisches Rahmenwerk vor, das mittels grobkörniger Partitionen und eines KL-basierten Informationsverlustmaßes die Abwägung zwischen Interpretierbarkeit und Informationsgenauigkeit in erklärbarer KI quantifiziert.

Takashi Izumo2026-03-10🤖 cs.AI

Language in the Flow of Time: Time-Series-Paired Texts Weaved into a Unified Temporal Narrative

Die Studie stellt das Framework „Texts as Time Series" (TaTS) vor, das zeitlich gepaarte Texte als Hilfsvariablen nutzt, um bestehende reine Zahlen-basierte Zeitreihenmodelle ohne Architekturänderungen zu erweitern und deren Vorhersage- sowie Imputationsleistung in multimodalen Szenarien zu verbessern.

Zihao Li, Xiao Lin, Zhining Liu, Jiaru Zou, Ziwei Wu, Lecheng Zheng, Dongqi Fu, Yada Zhu, Hendrik Hamann, Hanghang Tong, Jingrui He2026-03-10🤖 cs.LG

LaVCa: LLM-assisted Visual Cortex Captioning

Die Studie stellt LaVCa vor, eine datengestützte Methode, die große Sprachmodelle nutzt, um präzise natürliche Sprachbeschreibungen für die Selektivität von Neuronen im visuellen Kortex zu generieren und damit tiefere Einblicke in die menschliche visuelle Repräsentation sowie feinere funktionale Differenzierungen als bisherige Ansätze ermöglicht.

Takuya Matsuyama, Shinji Nishimoto, Yu Takagi2026-03-10🤖 cs.LG

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

Die Studie stellt ein Clustering-basiertes Framework vor, das Aufgaben nach Schwierigkeitsgrad gruppiert, um die Leistung von Large Language Models auf zukünftigen Downstream-Aufgaben mit hoher Genauigkeit vorherzusagen und so die Herausforderungen unvorhersehbarer Skalierungseffekte und inkonsistenter Leistungsmuster zu überwinden.

Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang Li2026-03-10🤖 cs.LG

Subclass Classification of Gliomas Using MRI Fusion Technique

Diese Studie stellt einen Algorithmus vor, der durch die Fusion von segmentierten T1-, T2-, T1ce- und FLAIR-MRT-Bildern mittels UNET und gewichteter Durchschnittsbildung sowie deren Klassifizierung mit einem ResNet50-Modell eine Genauigkeit von 99,25 % bei der Untergruppenklassifizierung von Gliomen erreicht.

Kiranmayee Janardhan, Christy Bobby Thomas2026-03-10💻 cs

Deep Learning-Based Approach for Automatic 2D and 3D MRI Segmentation of Gliomas

Diese Studie stellt einen tiefenlernbasierten Ansatz vor, der auf UNET-, Inception- und ResNet-Architekturen aufbaut, um durch eine ausgewogene Kombination von 2D- und 3D-Faltungsschichten eine automatisierte und präzise Gliom-Segmentierung in MRT-Bildern zu ermöglichen, wobei das ResNet-Modell auf den BraTS-Datensätzen mit einer 3D-Dice-Bewertung von 0,9888 die besten Ergebnisse erzielte.

Kiranmayee Janardhan, Christy Bobby T2026-03-10💻 cs

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning

Die Autoren stellen LOOP vor, eine neue Reinforcement-Learning-Methode für die Feinabstimmung von Text-zu-Bild-Diffusionsmodellen, die die Varianzreduktionstechniken von REINFORCE mit der Robustheit und Stichprobeneffizienz von PPO kombiniert, um einen besseren Ausgleich zwischen Effizienz und Leistung zu erzielen.

Shashank Gupta, Chaitanya Ahuja, Tsung-Yu Lin + 4 more2026-03-10🤖 cs.AI

Parallelized Planning-Acting for Efficient LLM-based Multi-Agent Systems in Minecraft

Diese Arbeit stellt ein neuartiges, paralleles Planungs-Aktions-Framework für LLM-basierte Multi-Agenten-Systeme in Minecraft vor, das durch eine duale Thread-Architektur mit unterbrechbarer Ausführung die bisherige sequenzielle Beschränkung überwindet und so eine Echtzeit-Reaktionsfähigkeit in dynamischen Umgebungen ermöglicht.

Yaoru Li, Shunyu Liu, Tongya Zheng, Li Sun, Mingli Song2026-03-10💻 cs

LLM-Powered Prediction of Hyperglycemia and Discovery of Behavioral Treatment Pathways from Wearables and Diet

Diese Studie stellt GlucoLens vor, ein erklärbares KI-System, das mithilfe von Wearable-Daten, Ernährungsinformationen und großen Sprachmodellen postprandiale Hyperglykämie bei Erwachsenen präzise vorhersagt und personalisierte Verhaltensinterventionen zur Vermeidung von Blutzuckerspitzen ableitet.

Abdullah Mamun, Asiful Arefeen, Susan B. Racette + 4 more2026-03-10🤖 cs.AI

← Zurück Weiter →