cs.AI Arbeiten | Gist.Science

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

Die Arbeit stellt IMSE vor, eine Testzeit-Anpassungsmethode, die durch die SVD-basierte Anpassung nur der Singulärwerte von Vision-Transformern und eine Diversitätsmaximierung zur Vermeidung von Feature-Collapse sowie durch domänenspezifischen Code-Retrieval für kontinuierliche Szenarien einen State-of-the-Art-Erfolg bei gleichzeitig drastisch reduzierter Anzahl trainierbarer Parameter erzielt.

Sunghyun Baek (Korea Advanced Institute of Science and Technology), Jaemyung Yu (Korea Advanced Institute of Science and Technology), Seunghee Koh (Korea Advanced Institute of Science and Technology), Minsu Kim (LG Energy Solution), Hyeonseong Jeon (LG Energy Solution), Junmo Kim (Korea Advanced Institute of Science and Technology)2026-03-10💻 cs

SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training

Das Paper stellt SWE-Fuse vor, ein Trainingsframework für Software-Agenten, das durch die Kombination von issue-freien Trajektorien und entropiebewusstem RLVR-Training die Probleme unzureichender Issue-Beschreibungen löst und auf dem SWE-bench Verified-Benchmark signifikante Verbesserungen bei der Fehlerbehebung erzielt.

Xin-Cheng Wen, Binbin Chen, Haoxuan Lan, Hang Yu, Peng Di, Cuiyun Gao2026-03-10💻 cs

AI Agents, Language, Deep Learning and the Next Revolution in Science

Der Artikel schlägt vor, dass intelligente, menschlich überwachte KI-Agenten, die auf Deep Learning und großen Sprachmodellen basieren, die nächste Evolution der wissenschaftlichen Methode darstellen, wie am Beispiel des Dr.-Sai-Systems am Institut für Hochenergiephysik der Chinesischen Akademie der Wissenschaften demonstriert wird, um die wachsende Komplexität in datenintensiven Wissenschaften wie der Teilchenphysik zu bewältigen.

Ke Li, Beijiang Liu, Bruce Mellado, Changzheng Yuan, Zhengde Zhang2026-03-10💻 cs

ELLMob: Event-Driven Human Mobility Generation with Self-Aligned LLM Framework

Die Arbeit stellt ELLMob vor, ein selbstabstimmendes LLM-Framework, das unter Verwendung der Fuzzy-Trace-Theorie und eines neu erstellten, ereignisannotierten Datensatzes menschengemäße Mobilitätsdaten generiert, die sowohl gewohnheitsbasierte Muster als auch Einschränkungen durch Großereignisse wie den Taifun Hagibis, die COVID-19-Pandemie und die Olympischen Spiele 2021 in Tokio erfolgreich vereinen.

Yusong Wang, Chuang Yang, Jiawei Wang, Xiaohang Xu, Jiayi Xu, Dongyuan Li, Chuan Xiao, Renhe Jiang2026-03-10🤖 cs.LG

PSTNet: Physically-Structured Turbulence Network

Die Arbeit stellt PSTNet vor, ein extrem ressourcenschonendes neuronales Netzwerk mit nur 552 Parametern, das physikalische Prinzipien direkt in seine Architektur integriert, um die Echtzeit-Schätzung atmosphärischer Turbulenzen für sicherheitskritische Flugsysteme präziser und effizienter zu ermöglichen als herkömmliche Methoden.

Boris Kriuk, Fedor Kriuk2026-03-10🤖 cs.LG

Advancing Automated Algorithm Design via Evolutionary Stagewise Design with LLMs

Die Arbeit stellt EvoStage vor, ein neuartiges evolutionäres Paradigma, das durch stufenweise Zerlegung, Echtzeit-Feedback und Multi-Agenten-Systeme die LLM-basierte algorithmische Gestaltung verbessert und dabei menschliche Experten sowie bestehende Methoden in Bezug auf Chip-Platzierung und Black-Box-Optimierung übertrifft.

Chen Lu, Ke Xue, Chengrui Gao, Yunqi Shi, Siyuan Xu, Mingxuan Yuan, Chao Qian, Zhi-Hua Zhou2026-03-10💻 cs

Adaptive Collaboration with Humans: Metacognitive Policy Optimization for Multi-Agent LLMs with Continual Learning

Die Arbeit stellt das HILA-Framework vor, das durch eine metakognitive Policy und einen Dual-Loop-Optimierungsansatz Multi-Agent-Systeme befähigt, den Zeitpunkt für autonome Lösungen oder menschliche Expertise-Einbindung dynamisch zu steuern und sich durch kontinuierliches Lernen aus Feedback stetig zu verbessern.

Wei Yang, Defu Cao, Jiacheng Pang, Muyan Weng, Yan Liu2026-03-10💻 cs

VORL-EXPLORE: A Hybrid Learning Planning Approach to Multi-Robot Exploration in Dynamic Environments

Das Paper stellt VORL-EXPLORE vor, einen hybriden Lern- und Planungsansatz für die Multi-Robot-Erkundung in dynamischen Umgebungen, der durch eine geteilte Schätzung der Navigierbarkeit die Aufgabenverteilung mit der Bewegungssteuerung koppelt, um Engpässe zu vermeiden und eine robuste, kollisionsfreie Erkundung zu gewährleisten.

Ning Liu, Sen Shen, Zheng Li, Sheng Liu, Dongkun Han, Shangke Lyu, Thomas Braunl2026-03-10💻 cs

OSExpert: Computer-Use Agents Learning Professional Skills via Exploration

Das Paper stellt OSExpert vor, einen Computer-Nutzungs-Agenten, der durch einen GUI-basierten Tiefensuch-Algorithmus (GUI-DFS) und das Erlernen von Aktionsprimitiven professionelle Fähigkeiten erwirbt, wodurch er auf dem Benchmark OSExpert-Eval eine Leistungssteigerung von rund 20 % und eine um 80 % verbesserte Effizienz im Vergleich zu menschlichen Experten erreicht.

Jiateng Liu, Zhenhailong Wang, Rushi Wang, Bingxuan Li, Jeonghwan Kim, Aditi Tiwari, Pengfei Yu, Denghui Zhang, Heng Ji2026-03-10💻 cs

Emergence is Overrated: AGI as an Archipelago of Experts

Dieser Artikel stellt die These von Krakauer, Krakauer und Mitchell in Frage, dass wahre Intelligenz auf effizienter Kompression und Analogie beruht, und argumentiert stattdessen, dass menschliche Expertise durch domänenspezifische Musterakkumulation entsteht, was dazu führt, dass Künstliche Allgemeine Intelligenz (AGI) besser als ein „Archipel von Experten" aus spezialisierten Modulen ohne einheitliche Prinzipien konzeptualisiert werden sollte.

Daniel Kilov2026-03-10💬 cs.CL

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

Die Arbeit stellt \$OneMillion-Bench vor, einen Benchmark mit 400 von Experten erstellten Aufgaben aus fünf Fachbereichen, der darauf abzielt, die Zuverlässigkeit und professionelle Tiefe von Sprachagenten in realen, wirtschaftlich bedeutenden Szenarien durch eine rubrikbasierte Bewertung zu messen.

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

CMMR-VLN: Vision-and-Language Navigation via Continual Multimodal Memory Retrieval

Die Arbeit stellt CMMR-VLN vor, ein Vision-and-Language-Navigation-Framework, das Large-Language-Modelle durch eine strukturierte, multimodale Erinnerung und Reflexionsmechanismen befähigt, relevante Erfahrungen selektiv abzurufen, was in Simulationen und realen Tests zu signifikant verbesserten Erfolgsraten im Vergleich zu bestehenden Ansätzen führt.

Haozhou Li, Xiangyu Dong, Huiyan Jiang, Yaoming Zhou, Xiaoguang Ma2026-03-10💻 cs

Aero-Promptness: Drag-Aware Aerodynamic Manipulability for Propeller-driven Vehicles

Diese Arbeit stellt den Drag-Aware Aerodynamic Manipulability (DAAM) vor, einen geometrischen Rahmen für die Kraftzuweisung redundanter Multirotoren, der durch eine riemannsche Metrik und die Optimierung des manipulierbaren Volumens motorische Drehmomentgrenzen sowie aerodynamischen Widerstand explizit berücksichtigt, um eine koordinateninvariante Redundanzauflösung zu ermöglichen.

Antonio Franchi2026-03-10🔢 math

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

Die Arbeit stellt ViSA vor, ein Framework zur Verbesserung der aerialen Vision-Language-Navigation durch visuelle-räumliche Schlussfolgerung, das ohne Nachtraining von Sprachmodellen auskommt und auf dem CityNav-Benchmark eine 70,3%ige Steigerung der Erfolgsrate gegenüber dem aktuellen State-of-the-Art erzielt.

Haoyu Tong, Xiangyu Dong, Xiaoguang Ma, Haoran Zhao, Yaoming Zhou, Chenghao Lin2026-03-10💻 cs

PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents

Die Arbeit stellt PIRA-Bench vor, einen neuen Benchmark und ein Framework namens PIRF, die darauf abzielen, GUI-Agenten von einem reaktiven hin zu einem proaktiven Paradigma zu überführen, bei dem KI-Assistenten Nutzerabsichten autonom aus visuellen Eingaben vorhersagen und Empfehlungen geben.

Yuxiang Chai, Shunye Tang, Han Xiao, Rui Liu, Hongsheng Li2026-03-10💻 cs

FedMomentum: Preserving LoRA Training Momentum in Federated Fine-Tuning

Das Papier stellt FedMomentum vor, ein neuartiges Framework für das federierte Fine-Tuning von LLMs mit LoRA, das durch mathematisch korrekte Aggregation und SVD-basierte Rekonstruktion den Trainingsmomentum erhält und so die Konvergenzgeschwindigkeit sowie die Endgenauigkeit im Vergleich zu bestehenden Methoden verbessert.

Peishen Yan, Yang Hua, Hao Wang, Jiaru Zhang, Xiaoyu Wu, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

Alignment--Process--Outcome: Rethinking How AIs and Humans Collaborate

Dieser Artikel stellt ein neues dynamisches Rahmenwerk vor, das die Zusammenarbeit von Menschen und KI durch zwei komplementäre Perspektiven – die Aufgaben- und die Intentions-Linse – neu konzeptualisiert, um die komplexen, nicht-linearen Beziehungen zwischen Ausrichtung, Prozessstruktur und Ergebnisqualität zu erklären.

Haichang Li, Anjun Zhu, Arpit Narechania2026-03-10💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Die Arbeit stellt MambaDance vor, einen neuartigen Ansatz zur Tanzgenerierung, der ein Mamba-basiertes Diffusionsmodell mit einer glockenförmigen Beat-Repräsentation kombiniert, um im Vergleich zu Transformer-basierten Methoden längere, rhythmisch präzisere und musikalisch synchronisierte Tanzbewegungen zu erzeugen.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

Das Paper stellt DyLLM vor, ein trainingsfreies Inferenz-Framework für Masked Diffusion Language Models, das durch die selektive Berechnung nur salienter Token basierend auf der Ähnlichkeit ihrer Aufmerksamkeitskontexte die Durchsatzrate um bis zu 9,6-fach steigert, ohne dabei die Genauigkeit nennenswert zu beeinträchtigen.

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho Ahn2026-03-10💬 cs.CL

GCGNet: Graph-Consistent Generative Network for Time Series Forecasting with Exogenous Variables

Die Arbeit stellt GCGNet vor, ein graphenbasiertes generatives Netzwerk, das durch die Kombination von Variationsgenerierung, Graph-Strukturausrichtung und Graphenverfeinerung robuste und präzise Zeitreihenvorhersagen unter Einbeziehung exogener Variablen ermöglicht und dabei gleichzeitig zeitliche und kanalübergreifende Korrelationen gemeinsam modelliert.

Zhengyu Li, Xiangfei Qiu, Yuhan Zhu, Xingjian Wu, Jilin Hu, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

← Zurück Weiter →