Latent Speech-Text Transformer

Das Paper stellt den Latent Speech-Text Transformer (LST) vor, der durch die Aggregation von Sprach-Token zu latenten Patches die Sequenzlängen von Sprache und Text angleicht, was sowohl die Recheneffizienz als auch die Leistung in Sprach- und Textaufgaben im Vergleich zu herkömmlichen autoregressiven Modellen signifikant verbessert.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc Le2026-03-11🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

Das Paper stellt AlphaApollo vor, ein System für tiefes agentices Denken, das durch die Orchestrierung von Modellen und Tools mittels mehrstufiger agenter Reasoning-, Lern- und Evolutionsmechanismen die Leistung von Foundation-Modellen bei komplexen mathematischen Aufgaben signifikant verbessert.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo Han2026-03-11🤖 cs.AI

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

Das Paper stellt RL-100 vor, ein leistungsfähiges Reinforcement-Learning-Framework für Roboter, das durch die Kombination von Diffusion-Policies mit PPO und Konsistenz-Distillation in acht realen Aufgaben eine 100-prozentige Erfolgsrate erzielt und dabei menschliche Operateure in Geschwindigkeit und Robustheit übertrifft.

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe Xu2026-03-11🤖 cs.AI

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Die Arbeit stellt FALCON vor, ein neues Paradigma für Vision-Language-Action-Modelle, das durch die Integration von räumlichen Grundwissen aus 3D-Spatial-Foundation-Modellen in den Aktionskopf die Lücke zwischen 2D-Vision und 3D-Aktion schließt und damit in Simulationen sowie realen Umgebungen neue Maßstäbe in Bezug auf Generalisierung und Robustheit setzt.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou2026-03-11🤖 cs.AI

Research and Prototyping Study of an LLM-Based Chatbot for Electromagnetic Simulations

Diese Studie stellt einen auf dem Large Language Model Google Gemini 2.0 Flash basierenden Chatbot vor, der mithilfe von Python, Gmsh und GetDP den Prozess der Einrichtung und Lösung von zweidimensionalen elektromagnetischen Wirbelstrom-Simulationen mit variablen Leitergeometrien und benutzerdefinierten Nachverarbeitungsroutinen automatisiert, um die Vorbereitungszeit erheblich zu verkürzen.

Albert Piwonski, Mirsad Hadžiefendic2026-03-11🤖 cs.AI

Mitigating Long-Tail Bias in HOI Detection via Adaptive Diversity Cache

Die vorgestellte Arbeit führt den modularen, trainingsfreien „Adaptive Diversity Cache" (ADC) ein, der durch die dynamische Ansammlung und Anpassung vielfältiger Merkmalsdarstellungen während der Inferenz die langschwänzige Verzerrung bei der Erkennung von Mensch-Objekt-Interaktionen (HOI) effektiv reduziert und dabei die Leistung seltener Kategorien auf etablierten Datensätzen signifikant verbessert.

Yuqiu Jiang, Xiaozhen Qiao, Yifan Chen, Ye Zheng, Zhe Sun, Xuelong Li2026-03-11🤖 cs.AI

When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models

Die Studie stellt UPA-RFAS vor, ein universelles und übertragbares Angriffsframework für Vision-Language-Action-Modelle, das durch eine physikalische Patch-Attacke in der Lage ist, Roboter unter verschiedenen Architekturen und Umgebungen zu manipulieren, indem es Repräsentationsverschiebungen und spezifische VLA-Schwachstellen ausnutzt.

Hui Lu, Yi Yu, Yiming Yang, Chenyu Yi, Qixin Zhang, Bingquan Shen, Alex C. Kot, Xudong Jiang2026-03-11🤖 cs.AI

Multi-Agent Reinforcement Learning with Communication-Constrained Priors

Diese Arbeit stellt ein generalisiertes Multi-Agenten-Reinforcement-Learning-Framework vor, das verlustbehaftete und verlustfreie Kommunikation durch einen kommunikationsbeschränkten Prior und eine duale gegenseitige Informations-Schätzung modelliert, um die Robustheit und Skalierbarkeit kooperativer Strategien in komplexen, dynamischen Umgebungen zu verbessern.

Guang Yang, Tianpei Yang, Jingwen Qiao, Yanqing Wu, Jing Huo, Xingguo Chen, Yang Gao2026-03-11🤖 cs.AI