cs.AI Arbeiten | Gist.Science

REAP the Experts: Why Pruning Prevails for One-Shot MoE compression

Die Studie stellt fest, dass das Beschneiden von Experten (Pruning) für generative Aufgaben überlegen ist, und schlägt die Methode REAP vor, die durch die Kombination von Router-Gate-Werten und Experten-Aktivierungsnormen eine nahezu verlustfreie Kompression von Mixture-of-Experts-Modellen ermöglicht.

Mike Lasby, Ivan Lazarevich, Nish Sinnadurai, Sean Lie, Yani Ioannou, Vithursan ThangarasaWed, 11 Ma🤖 cs.AI

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

Das Paper stellt RL-100 vor, ein leistungsfähiges Reinforcement-Learning-Framework für Roboter, das durch die Kombination von Diffusion-Policies mit PPO und Konsistenz-Distillation in acht realen Aufgaben eine 100-prozentige Erfolgsrate erzielt und dabei menschliche Operateure in Geschwindigkeit und Robustheit übertrifft.

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe XuWed, 11 Ma🤖 cs.AI

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Die Arbeit stellt FALCON vor, ein neues Paradigma für Vision-Language-Action-Modelle, das durch die Integration von räumlichen Grundwissen aus 3D-Spatial-Foundation-Modellen in den Aktionskopf die Lücke zwischen 2D-Vision und 3D-Aktion schließt und damit in Simulationen sowie realen Umgebungen neue Maßstäbe in Bezug auf Generalisierung und Robustheit setzt.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan ZhouWed, 11 Ma🤖 cs.AI

SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation

Die Arbeit stellt SynHLMA vor, ein neuartiges Framework, das mithilfe einer diskreten Darstellung und eines sprachbasierten Modells Hand-Manipulationssequenzen für artikulierte Objekte generiert, um natürliche Sprachanweisungen in realistische Greifbewegungen zu übersetzen.

Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan GuoWed, 11 Ma🤖 cs.AI

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

Der Artikel stellt GraphKeeper vor, einen neuartigen Ansatz für das domain-incrementale Lernen auf Graphen, der durch Wissensentwirrung und -bewahrung das katastrophale Vergessen verhindert und damit signifikante Verbesserungen gegenüber bestehenden Methoden erzielt.

Zihao Guo, Qingyun Sun, Ziwei Zhang, Haonan Yuan, Huiping Zhuang, Xingcheng Fu, Jianxin LiWed, 11 Ma🤖 cs.AI

Structured Matrix Scaling for Multi-Class Calibration

Die vorgestellte Arbeit zeigt, dass strukturierte Regularisierung, robuste Vorverarbeitung und effiziente Optimierung die Überanpassung bei parametrischen Nachkalibrierungsmethoden für Mehrklassenklassifikation effektiv verhindern und damit signifikante Verbesserungen gegenüber bestehenden Techniken wie der Temperatur- oder Vektorskalierung ermöglichen.

Eugène Berta, David Holzmüller, Michael I. Jordan, Francis BachWed, 11 Ma🤖 cs.AI

Lightweight Time Series Data Valuation on Time Series Foundation Models via In-Context Finetuning

Die Arbeit stellt LTSV vor, eine leichte Methode zur Bewertung von Zeitreihendaten für Zeitreihen-Foundation-Modelle, die durch In-Context-Finetuning und temporale Blockaggregation eine effiziente und genaue Schätzung des Datenbeitrags unter Berücksichtigung zeitlicher Abhängigkeiten ermöglicht.

Shunyu Wu, Tianyue Li, Yixuan Leng, Jingyi Suo, Jian Lou, Dan Li, See-Kiong NgWed, 11 Ma🤖 cs.AI

MediRound: Multi-Round Entity-Level Reasoning Segmentation in Medical Images

Das Paper stellt MediRound vor, ein neues Framework mit einem zugehörigen Datensatz (MR-MedSeg) und einem Korrekturmechanismus, das die mehrstufige, entitätsbasierte medizinische Bildsegmentierung durch dialogbasiertes Schlussfolgern ermöglicht und damit bestehende Ein-Runden-Methoden für medizinische Lernszenarien übertrifft.

Qinyue Tong, Ziqian Lu, Jun Liu, Rui Zuo, Zheming LuWed, 11 Ma🤖 cs.AI

TSFM in-context learning for time-series classification of bearing-health status

Diese Arbeit stellt eine Methode zur Klassifizierung des Lagerzustands mittels In-Context-Learning mit Zeitreihen-Grundmodellen vor, die eine feineinstellungsfreie Analyse von Vibrationsdaten unter verschiedenen Betriebsbedingungen ermöglicht und den Weg für AI-gestützte Wartungssysteme als Service ebnet.

Michel Tokic, Slobodan Djukanovic, Anja von Beuningen, Cheng FengWed, 11 Ma🤖 cs.AI

Research and Prototyping Study of an LLM-Based Chatbot for Electromagnetic Simulations

Diese Studie stellt einen auf dem Large Language Model Google Gemini 2.0 Flash basierenden Chatbot vor, der mithilfe von Python, Gmsh und GetDP den Prozess der Einrichtung und Lösung von zweidimensionalen elektromagnetischen Wirbelstrom-Simulationen mit variablen Leitergeometrien und benutzerdefinierten Nachverarbeitungsroutinen automatisiert, um die Vorbereitungszeit erheblich zu verkürzen.

Albert Piwonski, Mirsad HadžiefendicWed, 11 Ma🤖 cs.AI

Mitigating Long-Tail Bias in HOI Detection via Adaptive Diversity Cache

Die vorgestellte Arbeit führt den modularen, trainingsfreien „Adaptive Diversity Cache" (ADC) ein, der durch die dynamische Ansammlung und Anpassung vielfältiger Merkmalsdarstellungen während der Inferenz die langschwänzige Verzerrung bei der Erkennung von Mensch-Objekt-Interaktionen (HOI) effektiv reduziert und dabei die Leistung seltener Kategorien auf etablierten Datensätzen signifikant verbessert.

Yuqiu Jiang, Xiaozhen Qiao, Yifan Chen, Ye Zheng, Zhe Sun, Xuelong LiWed, 11 Ma🤖 cs.AI

Periodic Asynchrony: An On-Policy Approach for Accelerating LLM Reinforcement Learning

Die Arbeit stellt einen provably exakten, periodisch asynchronen On-Policy-Ansatz vor, der durch die Entkopplung von Inferenz und Training sowie eine einheitliche Tri-Modell-Architektur die End-to-End-Trainingsdurchsatzrate von LLMs auf NPU-Plattformen um das Drei- bis Fünffache steigert, ohne die Genauigkeit zu beeinträchtigen.

Jian LuWed, 11 Ma🤖 cs.AI

When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models

Die Studie stellt UPA-RFAS vor, ein universelles und übertragbares Angriffsframework für Vision-Language-Action-Modelle, das durch eine physikalische Patch-Attacke in der Lage ist, Roboter unter verschiedenen Architekturen und Umgebungen zu manipulieren, indem es Repräsentationsverschiebungen und spezifische VLA-Schwachstellen ausnutzt.

Hui Lu, Yi Yu, Yiming Yang, Chenyu Yi, Qixin Zhang, Bingquan Shen, Alex C. Kot, Xudong JiangWed, 11 Ma🤖 cs.AI

Multi-Agent Reinforcement Learning with Communication-Constrained Priors

Diese Arbeit stellt ein generalisiertes Multi-Agenten-Reinforcement-Learning-Framework vor, das verlustbehaftete und verlustfreie Kommunikation durch einen kommunikationsbeschränkten Prior und eine duale gegenseitige Informations-Schätzung modelliert, um die Robustheit und Skalierbarkeit kooperativer Strategien in komplexen, dynamischen Umgebungen zu verbessern.

Guang Yang, Tianpei Yang, Jingwen Qiao, Yanqing Wu, Jing Huo, Xingguo Chen, Yang GaoWed, 11 Ma🤖 cs.AI

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

Diese Studie stellt ELERAG vor, eine für den Bildungssektor optimierte Retrieval-Augmented-Generation-Architektur, die durch die Integration von Entity Linking und einer hybriden Neuordnung auf Basis von Reciprocal Rank Fusion die faktenbasierte Genauigkeit bei der Beantwortung von Fragen auf Italienisch in domänenspezifischen Kontexten signifikant verbessert.

Francesco Granata, Francesco Poggi, Misael MongiovìWed, 11 Ma🤖 cs.AI

EMFusion: Conditional Diffusion Framework for Trustworthy Frequency Selective EMF Forecasting in Wireless Networks

Die Arbeit stellt EMFusion vor, ein bedingtes diffusionsbasiertes Framework zur probabilistischen Vorhersage frequenzselektiver elektromagnetischer Felder in drahtlosen Netzen, das durch die Integration kontextueller Faktoren und einer Imputations-basierten Stichprobenstrategie sowohl präzise multivariate Prognosen als auch verlässliche Unsicherheitsquantifizierung ermöglicht.

Zijiang Yan, Yixiang Huang, Jianhua Pei, Hina Tabassum, Luca ChiaraviglioWed, 11 Ma🤖 cs.AI

Small Language Models for Efficient Agentic Tool Calling: Outperforming Large Models with Targeted Fine-tuning

Die Studie zeigt, dass ein durch gezieltes Feinabstimmen optimiertes Small Language Model (OPT-350M) bei der Tool-Auswahl Large Language Models deutlich übertrifft und somit eine kosteneffiziente Alternative für den produktiven Einsatz von generativer KI bietet.

Polaris Jhandi, Owais Kazi, Shreyas Subramanian, Neel SendasWed, 11 Ma🤖 cs.AI

Reinforcement Learning for Self-Improving Agent with Skill Library

Die Arbeit stellt SAGE vor, ein Reinforcement-Learning-Framework, das durch sequenzielle Rollouts und eine integrierte Belohnungsfunktion die Selbstverbesserung von LLM-Agenten mittels einer dynamischen Skill-Bibliothek ermöglicht und dabei sowohl die Erfolgsrate als auch die Effizienz im Vergleich zu bestehenden Ansätzen signifikant steigert.

Jiongxiao Wang, Qiaojing Yan, Yawei Wang, Yijun Tian, Soumya Smruti Mishra, Zhichao Xu, Megha Gandhi, Panpan Xu, Lin Lee CheongWed, 11 Ma🤖 cs.AI

MCGI: Manifold-Consistent Graph Indexing for Billion-Scale Disk-Resident Vector Search

Die Arbeit stellt MCGI vor, eine geometrieaware Methode zur diskbasierten Vektorsuche, die durch die dynamische Anpassung der Suchstrategie an die lokale intrinsische Dimensionalität die Leistung von Approximate Nearest Neighbor-Suchen in hochdimensionalen Räumen erheblich verbessert und dabei die Abhängigkeit von statischen Hyperparametern eliminiert.

Dongfang ZhaoWed, 11 Ma🤖 cs.AI

CRANE: Causal Relevance Analysis of Language-Specific Neurons in Multilingual Large Language Models

Die Arbeit stellt CRANE vor, ein neues Analyseframework, das mithilfe gezielter Neuronen-Interventionen und nicht bloßer Aktivierungsmessungen sprachspezifische Neuronen in mehrsprachigen großen Sprachmodellen präziser identifiziert und dabei eine asymmetrische, aber nicht ausschließliche Spezialisierung dieser Neuronen aufzeigt.

Yifan Le, Yunliang LiWed, 11 Ma🤖 cs.AI

← Zurück Weiter →