cs.AI Arbeiten | Gist.Science

FinSheet-Bench: From Simple Lookups to Complex Reasoning, Where LLMs Break on Financial Spreadsheets

Die Studie „FinSheet-Bench" stellt ein synthetisches Benchmark für Finanztabellen vor und zeigt, dass aktuelle Large Language Models bei komplexen, strukturierten Finanzdaten noch zu viele Fehler machen, um in professionellen Anwendungen ohne menschliche Überprüfung eingesetzt zu werden.

Jan Ravnik, Matjaž Ličen, Felix Bührmann, Bithiah Yuan, Felix Stinson, Tanvi Singh2026-03-10💻 cs

Norm-Hierarchy Transitions in Representation Learning: When and Why Neural Networks Abandon Shortcuts

Die vorgestellte Arbeit führt das Norm-Hierarchie-Übergangs-Modell ein, das erklärt, wie Gewichtsabbau neuronale Netze langsam von spurious-Shortcut-Lösungen mit hoher Norm zu strukturierten Darstellungen mit niedrigerer Norm überführt, wodurch Phänomene wie verzögertes Lernen und Grokking vereinheitlicht werden.

Truong Xuan Khanh, Truong Quynh Hoa2026-03-10🤖 cs.LG

The Third Ambition: Artificial Intelligence and the Science of Human Behavior

Dieser Artikel schlägt vor, große Sprachmodelle als drittes, neues Forschungsziel neben Produktivität und Ausrichtung zu nutzen, indem er sie als wissenschaftliche Instrumente zur Analyse menschlichen Verhaltens, kultureller Muster und moralischer Argumentation auf Basis ihrer als Kondensat menschlicher Symbolik verstandenen Trainingsdaten einsetzt.

W. Russell Neuman, Chad Coleman2026-03-10💬 cs.CL

VisualScratchpad: Inference-time Visual Concepts Analysis in Vision Language Models

Die Arbeit stellt VisualScratchpad vor, eine interaktive Schnittstelle, die mithilfe von Sparse Autoencodern und Text-zu-Bild-Aufmerksamkeit visuelle Konzepte in Vision-Language-Modellen analysiert, um deren Fehlermodi wie unzureichende Cross-Modal-Ausrichtung oder irreführende visuelle Konzepte aufzudecken und zu debuggen.

Hyesu Lim, Jinho Choi, Taekyung Kim, Byeongho Heo, Jaegul Choo, Dongyoon Han2026-03-10💻 cs

Agora: Teaching the Skill of Consensus-Finding with AI Personas Grounded in Human Voice

Die Studie stellt „Agora" als eine KI-gestützte Plattform vor, die mithilfe von LLMs und authentischen menschlichen Stimmen hilft, die Fähigkeit zum Konsensfinden zu trainieren, und zeigt in einer Vorstudie, dass Nutzer mit Zugang zu detaillierten Erklärungen bessere Problemlösungsfähigkeiten und qualitativ hochwertigere Konsensentscheidungen erzielen als eine Kontrollgruppe, die nur aggregierte Daten sah.

Suyash Fulay, Prerna Ravi, Emily Kubin, Shrestha Mohanty, Michiel Bakker, Deb Roy2026-03-10💻 cs

Learning Concept Bottleneck Models from Mechanistic Explanations

Die Arbeit stellt den Mechanistic Concept Bottleneck Model (M-CBM) vor, ein neuartiges Framework, das durch Extraktion und Benennung lernbarer Konzepte aus einem Black-Box-Modell mittels Sparse Autoencodern und Multimodalen LLMs interpretierbare Modelle schafft, die bei kontrollierter Informationsleckage die Leistung herkömmlicher CBMs übertreffen.

Antonio De Santis, Schrasing Tong, Marco Brambilla, Lalana Kagal2026-03-10🤖 cs.LG

AgrI Challenge: A Data-Centric AI Competition for Cross-Team Validation in Agricultural Vision

Die AgrI Challenge stellt ein datenzentriertes Wettbewerbsframework mit einem neuartigen Cross-Team-Validierungsansatz vor, der durch unabhängige Datensammlung und kollaboratives Training die Generalisierungsfähigkeit von landwirtschaftlichen Vision-Modellen unter realen Feldbedingungen signifikant verbessert.

Mohammed Brahimi, Karim Laabassi, Mohamed Seghir Hadj Ameur, Aicha Boutorh, Badia Siab-Farsi, Amin Khouani, Omar Farouk Zouak, Seif Eddine Bouziane, Kheira Lakhdari, Abdelkader Nabil Benghanem2026-03-10🤖 cs.LG

Latent Generative Models with Tunable Complexity for Compressed Sensing and other Inverse Problems

Diese Arbeit stellt tunbare Komplexitäts-Priors für generative Modelle vor, die durch den Einsatz von Nested Dropout in inversen Problemen wie der komprimierten Abtastung konsistent niedrigere Rekonstruktionsfehler als Modelle mit fester Komplexität erzielen.

Sean Gunn, Jorio Cocola, Oliver De Candido, Vaggos Chatziafratis, Paul Hand2026-03-10🤖 cs.LG

The Yerkes-Dodson Curve for AI Agents: Emergent Cooperation Under Environmental Pressure in Multi-Agent LLM Simulations

Diese Studie zeigt, dass sich die kooperative Interaktion von Multi-Agenten-LLM-Systemen in einem Grid-World-Szenario gemäß der Yerkes-Dodson-Kurve verhält, wobei mittlere Umgebungsdruckniveaus die Handelsaktivität maximieren, während extremer Druck zu einem Zusammenbruch der Verhaltensvielfalt führt und sexuelle Selektion Aggression eliminiert.

Ivan Pasichnyk2026-03-10💻 cs

Scaling Laws in the Tiny Regime: How Small Models Change Their Mistakes

Die Studie zeigt, dass im Tiny-Regime unter 20 Millionen Parametern die Skalierungsgesetze für Fehlerquoten steiler verlaufen als bei großen Modellen, sich jedoch die Fehlerstruktur grundlegend ändert, indem kleine Modelle ihre Kapazität auf einfache Klassen konzentrieren und dabei überraschend besser kalibriert sind, was die Notwendigkeit einer Validierung direkt am Zielmodell für Edge-Deployment unterstreicht.

Mohammed Alnemari, Rizwan Qureshi, Nader Begrazadah2026-03-10🤖 cs.LG

Position: LLMs Must Use Functor-Based and RAG-Driven Bias Mitigation for Fairness

Diese Positionspapier plädiert für einen kombinierten Ansatz zur Bekämpfung von Verzerrungen in großen Sprachmodellen, der kategorientheoretische Funktoren zur strukturellen Entschärfung von Vorurteilen mit retrievalgestützter Generierung (RAG) zur dynamischen Kontextualisierung durch externe Wissensquellen verbindet, um faire und gerechte Ausgaben zu gewährleisten.

Ravi Ranjan, Utkarsh Grover, Agorista Polyzou2026-03-10💬 cs.CL

ConfHit: Conformal Generative Design with Oracle Free Guarantees

Das Paper stellt ConfHit vor, ein distributionsfreies Framework, das durch gewichtete Austauschbarkeit und eine verschachtelte Testprozedur zuverlässige statistische Garantien für die Generierung von Wirkstoffkandidaten ohne experimentelle Oracle bietet.

Siddhartha Laghuvarapu, Ying Jin, Jimeng Sun2026-03-10🤖 cs.LG

Domain-Specific Quality Estimation for Machine Translation in Low-Resource Scenarios

Diese Studie untersucht die domänenspezifische Qualitätsschätzung für die maschinelle Übersetzung in ressourcenarmen Szenarien zwischen Englisch und indischen Sprachen und zeigt, dass die Anpassung von Transformer-Zwischenschichten mittels Low-Rank-Methoden die Robustheit und Genauigkeit von Open-Weight-Modellen signifikant verbessert.

Namrata Patil Gurav, Akashdeep Ranu, Archchana Sindhujan, Diptesh Kanojia2026-03-10🤖 cs.LG

Scheduling Parallel Optical Circuit Switches for AI Training

Die Arbeit stellt den Algorithmus „Spectra" vor, der durch eine dreistufige Strategie aus Zerlegung, lastbewusster Zuweisung und Lastausgleich die Scheduling-Zeit für parallele optische Schaltkreise in KI-Trainings-Netzwerken unter Berücksichtigung von Rekonfigurationsverzögerungen signifikant reduziert und dabei die Leistung bestehender Methoden um den Faktor 1,4 bis 2,4 verbessert.

Kevin Liang, Litao Qiao, Isaac Keslassy, Bill Lin2026-03-10💻 cs

SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

Diese Systematisierung des Wissens (SoK) stellt das erste einheitliche Rahmenwerk für autonome Retrieval-Augmented-Generation-Systeme vor, indem sie diese als sequenzielle Entscheidungsprozesse formalisiert, eine umfassende Taxonomie und Architekturdekomposition entwickelt, kritische Evaluierungslücken und systemische Risiken analysiert sowie einen Fahrplan für zukünftige Forschungsrichtungen zur Steigerung von Zuverlässigkeit und Skalierbarkeit aufzeigt.

Saroj Mishra, Suman Niroula, Umesh Yadav, Dilip Thakur, Srijan Gyawali, Shiva Gaire2026-03-10💬 cs.CL

Sparsity and Out-of-Distribution Generalization

Diese Arbeit bietet ein prinzipiell begründetes theoretisches Rahmenwerk für Out-of-Distribution-Generalisierung, das auf der Annahme beruht, dass spärliche Hypothesen, die sich auf wenige, durch Erfahrung hervorgehobene Merkmale stützen, auch bei Verteilungsverschiebungen robust generalisieren, sofern eine ausreichende Überlappung in den relevanten Merkmalsbereichen besteht.

Scott Aaronson, Lin Lin Lee, Jiawei Li2026-03-10🤖 cs.LG

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

Die Studie stellt AQuA vor, einen feinabgestuften Datensatz zur Klassifizierung von Ambiguitätsstufen in visuellen Fragen, der es Vision-Language-Modellen ermöglicht, durch Feinabstimmung adaptive und kontextangemessene Antwortstrategien zu entwickeln, anstatt bei Mehrdeutigkeiten übermäßig selbstbewusste Antworten zu geben.

Jihyoung Jang, Hyounghun Kim2026-03-10💬 cs.CL

Adaptive Capacity Allocation for Vision Language Action Fine-tuning

Die Arbeit stellt LoRA-SP vor, eine adaptive Feinabstimmungsmethode für Vision-Language-Action-Modelle, die durch eine dynamische, energiegesteuerte Kapazitätszuweisung die Übertragbarkeit und Multi-Task-Leistung von Robotern im Vergleich zu herkömmlichen LoRA-Ansätzen signifikant verbessert.

Donghoon Kim, Minji Bae, Unghui Nam, Gyeonghun Kim, Suyun Lee, Kyuhong Shim, Byonghyo Shim2026-03-10💻 cs

UnSCAR: Universal, Scalable, Controllable, and Adaptable Image Restoration

Das Paper stellt UnSCAR vor, eine skalierbare und kontrollierbare Architektur für die universelle Bildrestauration, die durch einen Multi-Branch-Mixture-of-Experts-Ansatz das Problem des katastrophalen Vergessens bei der gemeinsamen Verarbeitung zahlreicher Degradationen löst und gleichzeitig robuste Generalisierung sowie benutzersteuerbare Ergebnisse ermöglicht.

Debabrata Mandal, Soumitri Chattopadhyay, Yujie Wang, Marc Niethammer, Praneeth Chakravarthula2026-03-10💻 cs

Machine Learning for the Internet of Underwater Things: From Fundamentals to Implementation

Dieser Tutorial-Überblick fasst die Anwendung von Machine-Learning-Methoden im Internet der Unterwasser-Dinge zusammen, indem er deren Potenzial zur Bewältigung spezifischer Herausforderungen wie akustischer Dämpfung und begrenzter Energie über alle Netzwerkschichten hinweg analysiert, signifikante Leistungssteigerungen dokumentiert und eine Roadmap für die zukünftige Implementierung sowie offene Forschungsfragen aufzeigt.

Kenechi Omeke, Attai Abubakar, Michael Mollel, Lei Zhang, Qammer H. Abbasi, Muhammad Ali Imran2026-03-10💻 cs

← Zurück Weiter →