cs.AI Arbeiten | Gist.Science

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

Die Arbeit stellt ViSA vor, ein Framework zur Verbesserung der aerialen Vision-Language-Navigation durch visuelle-räumliche Schlussfolgerung, das ohne Nachtraining von Sprachmodellen auskommt und auf dem CityNav-Benchmark eine 70,3%ige Steigerung der Erfolgsrate gegenüber dem aktuellen State-of-the-Art erzielt.

Haoyu Tong, Xiangyu Dong, Xiaoguang Ma, Haoran Zhao, Yaoming Zhou, Chenghao Lin2026-03-10💻 cs

PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents

Die Arbeit stellt PIRA-Bench vor, einen neuen Benchmark und ein Framework namens PIRF, die darauf abzielen, GUI-Agenten von einem reaktiven hin zu einem proaktiven Paradigma zu überführen, bei dem KI-Assistenten Nutzerabsichten autonom aus visuellen Eingaben vorhersagen und Empfehlungen geben.

Yuxiang Chai, Shunye Tang, Han Xiao, Rui Liu, Hongsheng Li2026-03-10💻 cs

FedMomentum: Preserving LoRA Training Momentum in Federated Fine-Tuning

Das Papier stellt FedMomentum vor, ein neuartiges Framework für das federierte Fine-Tuning von LLMs mit LoRA, das durch mathematisch korrekte Aggregation und SVD-basierte Rekonstruktion den Trainingsmomentum erhält und so die Konvergenzgeschwindigkeit sowie die Endgenauigkeit im Vergleich zu bestehenden Methoden verbessert.

Peishen Yan, Yang Hua, Hao Wang, Jiaru Zhang, Xiaoyu Wu, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

Alignment--Process--Outcome: Rethinking How AIs and Humans Collaborate

Dieser Artikel stellt ein neues dynamisches Rahmenwerk vor, das die Zusammenarbeit von Menschen und KI durch zwei komplementäre Perspektiven – die Aufgaben- und die Intentions-Linse – neu konzeptualisiert, um die komplexen, nicht-linearen Beziehungen zwischen Ausrichtung, Prozessstruktur und Ergebnisqualität zu erklären.

Haichang Li, Anjun Zhu, Arpit Narechania2026-03-10💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Die Arbeit stellt MambaDance vor, einen neuartigen Ansatz zur Tanzgenerierung, der ein Mamba-basiertes Diffusionsmodell mit einer glockenförmigen Beat-Repräsentation kombiniert, um im Vergleich zu Transformer-basierten Methoden längere, rhythmisch präzisere und musikalisch synchronisierte Tanzbewegungen zu erzeugen.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

Das Paper stellt DyLLM vor, ein trainingsfreies Inferenz-Framework für Masked Diffusion Language Models, das durch die selektive Berechnung nur salienter Token basierend auf der Ähnlichkeit ihrer Aufmerksamkeitskontexte die Durchsatzrate um bis zu 9,6-fach steigert, ohne dabei die Genauigkeit nennenswert zu beeinträchtigen.

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho Ahn2026-03-10💬 cs.CL

GCGNet: Graph-Consistent Generative Network for Time Series Forecasting with Exogenous Variables

Die Arbeit stellt GCGNet vor, ein graphenbasiertes generatives Netzwerk, das durch die Kombination von Variationsgenerierung, Graph-Strukturausrichtung und Graphenverfeinerung robuste und präzise Zeitreihenvorhersagen unter Einbeziehung exogener Variablen ermöglicht und dabei gleichzeitig zeitliche und kanalübergreifende Korrelationen gemeinsam modelliert.

Zhengyu Li, Xiangfei Qiu, Yuhan Zhu, Xingjian Wu, Jilin Hu, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Diese Arbeit stellt ein robustes multimodales Framework mit sicherer Kreuz-Aufmerksamkeit und Modality-Dropout vor, das durch Fokussierung auf unvollständige Daten und Klassenungleichgewicht die Emotionserkennung im Rahmen der 10. ABAW-Herausforderung verbessert.

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

Die Arbeit stellt CDRRM vor, ein neuartiges Framework, das durch kontrastive Profilierung und Synthese hochwertige Rubriken generiert, um Reward-Modelle für Large Language Models interpretierbarer, bias-resistenter und dateneffizienter zu gestalten.

Dengcan Liu, Fengkai Yang, Xiaohan Wang, Shurui Yan, Jiajun Chai, Jiahao Li, Yikun Ban, Zhendong Mao, Wei Lin, Guojun Yin2026-03-10🤖 cs.LG

S2S-FDD: Bridging Industrial Time Series and Natural Language for Explainable Zero-shot Fault Diagnosis

Der vorgestellte S2S-FDD-Rahmen überbrückt die semantische Lücke zwischen hochdimensionalen industriellen Zeitreihensignalen und natürlicher Sprache, indem er Sensordaten in verständliche Zusammenfassungen umwandelt und eine mehrstufige, baumstrukturierte Diagnosemethode nutzt, um erklärbare Zero-Shot-Fehlerdiagnosen zu ermöglichen.

Baoxue Li, Chunhui Zhao2026-03-10💻 cs

Speed3R: Sparse Feed-forward 3D Reconstruction Models

Das Paper stellt Speed3R vor, ein effizientes 3D-Rekonstruktionsmodell, das durch eine duale Aufmerksamkeitsmechanik, die sich auf die wichtigsten Bild-Token konzentriert, die Inferenzgeschwindigkeit im Vergleich zu herkömmlichen dichten Modellen um das 12,4-Fache steigert, während nur eine minimale Genauigkeitseinbuße in Kauf genommen wird.

Weining Ren, Xiao Tan, Kai Han2026-03-10💻 cs

ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning

Die Arbeit stellt ImageEdit-R1 vor, ein Multi-Agenten-Framework, das durch den Einsatz von Reinforcement Learning die Koordination spezialisierter Vision-Language- und Generative-Agenten optimiert, um komplexe Bildbearbeitungsaufgaben präziser und kontextbewusster zu lösen als bestehende monolithische oder manuell gestaltete Ansätze.

Yiran Zhao, Yaoqi Ye, Xiang Liu, Michael Qizhe Shieh, Trung Bui2026-03-10💻 cs

In-Context Reinforcement Learning for Tool Use in Large Language Models

Die Arbeit stellt In-Context Reinforcement Learning (ICRL) vor, einen reinen Reinforcement-Learning-Ansatz, der durch den Einsatz und die schrittweise Reduzierung von Few-Shot-Beispielen während des Rollouts das teure Supervised Fine-Tuning überflüssig macht und Large Language Models effizient zum Erlernen des Werkzeuggebrauchs befähigt.

Yaoqi Ye, Yiran Zhao, Keyu Duan, Zeyu Zheng, Kenji Kawaguchi, Cihang Xie, Michael Qizhe Shieh2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

Das Paper stellt DSH-Bench vor, ein umfassendes Benchmark mit hierarchischer Taxonomie, Schwierigkeits- und Szenarioanalyse sowie einem neuen Konsistenzmaß, das die Evaluierung und Weiterentwicklung von subjektgetriebenen Text-zu-Bild-Modellen durch detaillierte Diagnosen und eine höhere Übereinstimmung mit menschlichen Bewertungen verbessert.

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Die Arbeit stellt das DC-W2S-Framework vor, das durch die Kombination von Selbst- und Nachbarschaftskonsens schwache, verrauschte Überwachungssignale filtert, um zuverlässige Prozess-Belohnungsmodelle für biologische Schlussfolgerungen ohne exhaustive Expertenannotation zu trainieren.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking

Die Arbeit stellt das UIS-Digger-Framework und den UIS-QA-Benchmark vor, um die bisher vernachlässigte Herausforderung der Suche nach unindexierten Informationen zu adressieren und zeigt, dass ein optimiertes Multi-Agenten-System selbst mit kleineren Modellen leistungsfähiger ist als aktuelle State-of-the-Art-LLMs.

Chang Liu, Chuqiao Kuang, Tianyi Zhuang, Yuxin Cheng, Huichi Zhou, Xiaoguang Li, Lifeng Shang2026-03-10💻 cs

SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

Der Artikel stellt SaiVLA-0 vor, ein rechnerbewusstes Vision-Language-Action-Modell, das durch eine neurowissenschaftlich inspirierte Dreiteilung aus Cerebrum, Pons und Cerebellum sowie eine foveierte Blicksteuerung effizientere und stabilere Robotersteuerung ermöglicht.

Xiang Shi, Wenlong Huang, Menglin Zou, Xinhai Sun2026-03-10🤖 cs.LG

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

Der Artikel stellt FoleyFlow vor, ein neues Modell zur koordinierten Video-zu-Audio-Generierung, das durch einen Maskierungsansatz zur semantischen und rhythmischen Ausrichtung sowie einen dynamischen bedingten Fluss für eine zeitlich präzise Synchronisation übertrifft bestehende Methoden.

Shentong Mo, Yibing Song2026-03-10🤖 cs.LG

DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding

Die Arbeit stellt DARC vor, eine retraining-freie Inferenzmethode, die durch risikobewusste, distributionell robuste Decodierung die Abstimmung von Sprachmodellen auf heterogene menschliche Präferenzen verbessert, indem sie Diskrepanzen und Tail-Risiken reduziert, ohne die durchschnittliche Qualität zu beeinträchtigen.

Mingxi Zou, Jiaxiang Chen, Junfan Li, Langzhang Liang, Qifan Wang, Xu Yinghui, Zenglin Xu2026-03-10🤖 cs.LG

Gradually Excavating External Knowledge for Implicit Complex Question Answering

Diese Arbeit stellt einen schrittweisen Rahmen zur aktiven Gewinnung externen Wissens vor, der es großen Sprachmodellen ermöglicht, komplexe implizite Fragen im offenen Bereich durch iteratives Abfragen und logisches Schließen zu beantworten und dabei auf dem StrategyQA-Datensatz einen neuen State-of-the-Art für Modelle der ~10-Milliarden-Parameter-Klasse zu erreichen.

Chang Liu, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Edmund Y. Lam, Ngai Wong2026-03-10💬 cs.CL

← Zurück Weiter →