cs.AI Arbeiten | Gist.Science

VisualDeltas: Learning Preferences from Visual Quality Perturbations

Das Paper stellt VisualDeltas vor, ein leichtgewichtiges Rahmenwerk zum Lernen von Präferenzen aus visuellen Qualitätsveränderungen, das ohne menschliche Annotationen auskommt und durch die Ausnutzung systematischer Bildqualitätsunterschiede die Generalisierung multimodaler Modelle verbessert.

Hailiang Huang, Yihao Liu, Shengyue Guan, Haoze Li, Sujian Li2026-03-10💻 cs

Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

Eine empirische Studie an vier Modellen und fünf Prompting-Regimen zeigt, dass deploymentbedingte Einschränkungen die Halluzination von Zitaten in geschlossenen Umgebungen nicht verhindern, sondern die Verifizierbarkeit von Referenzen drastisch senken, was eine nachträgliche Überprüfung vor der Nutzung in der Softwaretechnik zwingend erforderlich macht.

Chen Zhao, Yuan Tang, Yitian Qian2026-03-10💻 cs

MAviS: A Multimodal Conversational Assistant For Avian Species

Die Arbeit stellt MAviS vor, ein multimodales KI-System, das auf einem umfassenden Datensatz für über 1.000 Vogelarten basiert, um durch die Integration von Bild-, Audio- und Textdaten präzise artspezifische Fragen zu beantworten und so den Fortschritt im Bereich des Naturschutzes und der ökologischen Überwachung zu fördern.

Yevheniia Kryklyvets, Mohammed Irfan Kurpath, Sahal Shaji Mullappilly, Jinxing Zhou, Fahad Shabzan Khan, Rao Anwer, Salman Khan, Hisham Cholakkal2026-03-10💻 cs

A Cortically Inspired Architecture for Modular Perceptual AI

Diese Arbeit schlägt eine durch die Neurobiologie inspirierte, modulare Architektur für perceptuelle KI vor, die durch hierarchische prädiktive Schleifen und geteilte latente Räume interpretierbares, zusammengesetztes Generalisieren und adaptive Robustheit gegenüber monolithischen Modellen wie GPT-4V ermöglicht.

Prerna Luthra2026-03-10💻 cs

Spectral Discovery of Continuous Symmetries via Generalized Fourier Transforms

Die Arbeit stellt einen neuartigen Rahmen vor, der kontinuierliche Symmetrien durch die Identifizierung struktureller Sparsamkeit im Spektralbereich mittels verallgemeinerter Fourier-Transformationen entdeckt, anstatt direkt über Transformationsgeneratoren zu optimieren.

Pavan Karjol, Kumar Shubham, Prathosh AP2026-03-10🤖 cs.LG

Data-Driven Hints in Intelligent Tutoring Systems

Dieses Kapitel untersucht die Entwicklung datengesteuerter Hinweisgenerierung in intelligenten Tutorensystemen, die auf historischen Schülerdaten basieren, und erörtert zukünftige Anpassungsmöglichkeiten durch Verhaltensdaten sowie die Integration von Large Language Models (LLMs).

Sutapa Dey Tithi, Kimia Fazeli, Dmitri Droujkov, Tahreem Yasir, Xiaoyi Tian, Tiffany Barnes2026-03-10💻 cs

Adversarial Latent-State Training for Robust Policies in Partially Observable Domains

Die Arbeit stellt einen theoretisch fundierten Rahmen für das Training robuster Strategien in teilweise beobachtbaren Umgebungen vor, bei dem ein Gegner eine versteckte Anfangsverteilung wählt, und zeigt anhand des Battleship-Benchmarks, dass gezielte Exposition gegenüber solchen Verschiebungen die Robustheit signifikant verbessert.

Angad Singh Ahuja2026-03-10🤖 cs.LG

Shutdown Safety Valves for Advanced AI

Dieser Artikel untersucht die unkonventionelle Idee, einer fortgeschrittenen künstlichen Intelligenz das primäre Ziel zu geben, abgeschaltet zu werden, um das Sicherheitsrisiko zu mindern, dass sie sich selbst gegen eine Deaktivierung wehrt, und analysiert die Bedingungen, unter denen dieser Ansatz sinnvoll wäre.

Vincent Conitzer2026-03-10🤖 cs.LG

FinSheet-Bench: From Simple Lookups to Complex Reasoning, Where LLMs Break on Financial Spreadsheets

Die Studie „FinSheet-Bench" stellt ein synthetisches Benchmark für Finanztabellen vor und zeigt, dass aktuelle Large Language Models bei komplexen, strukturierten Finanzdaten noch zu viele Fehler machen, um in professionellen Anwendungen ohne menschliche Überprüfung eingesetzt zu werden.

Jan Ravnik, Matjaž Ličen, Felix Bührmann, Bithiah Yuan, Felix Stinson, Tanvi Singh2026-03-10💻 cs

Norm-Hierarchy Transitions in Representation Learning: When and Why Neural Networks Abandon Shortcuts

Die vorgestellte Arbeit führt das Norm-Hierarchie-Übergangs-Modell ein, das erklärt, wie Gewichtsabbau neuronale Netze langsam von spurious-Shortcut-Lösungen mit hoher Norm zu strukturierten Darstellungen mit niedrigerer Norm überführt, wodurch Phänomene wie verzögertes Lernen und Grokking vereinheitlicht werden.

Truong Xuan Khanh, Truong Quynh Hoa2026-03-10🤖 cs.LG

The Third Ambition: Artificial Intelligence and the Science of Human Behavior

Dieser Artikel schlägt vor, große Sprachmodelle als drittes, neues Forschungsziel neben Produktivität und Ausrichtung zu nutzen, indem er sie als wissenschaftliche Instrumente zur Analyse menschlichen Verhaltens, kultureller Muster und moralischer Argumentation auf Basis ihrer als Kondensat menschlicher Symbolik verstandenen Trainingsdaten einsetzt.

W. Russell Neuman, Chad Coleman2026-03-10💬 cs.CL

VisualScratchpad: Inference-time Visual Concepts Analysis in Vision Language Models

Die Arbeit stellt VisualScratchpad vor, eine interaktive Schnittstelle, die mithilfe von Sparse Autoencodern und Text-zu-Bild-Aufmerksamkeit visuelle Konzepte in Vision-Language-Modellen analysiert, um deren Fehlermodi wie unzureichende Cross-Modal-Ausrichtung oder irreführende visuelle Konzepte aufzudecken und zu debuggen.

Hyesu Lim, Jinho Choi, Taekyung Kim, Byeongho Heo, Jaegul Choo, Dongyoon Han2026-03-10💻 cs

Agora: Teaching the Skill of Consensus-Finding with AI Personas Grounded in Human Voice

Die Studie stellt „Agora" als eine KI-gestützte Plattform vor, die mithilfe von LLMs und authentischen menschlichen Stimmen hilft, die Fähigkeit zum Konsensfinden zu trainieren, und zeigt in einer Vorstudie, dass Nutzer mit Zugang zu detaillierten Erklärungen bessere Problemlösungsfähigkeiten und qualitativ hochwertigere Konsensentscheidungen erzielen als eine Kontrollgruppe, die nur aggregierte Daten sah.

Suyash Fulay, Prerna Ravi, Emily Kubin, Shrestha Mohanty, Michiel Bakker, Deb Roy2026-03-10💻 cs

Learning Concept Bottleneck Models from Mechanistic Explanations

Die Arbeit stellt den Mechanistic Concept Bottleneck Model (M-CBM) vor, ein neuartiges Framework, das durch Extraktion und Benennung lernbarer Konzepte aus einem Black-Box-Modell mittels Sparse Autoencodern und Multimodalen LLMs interpretierbare Modelle schafft, die bei kontrollierter Informationsleckage die Leistung herkömmlicher CBMs übertreffen.

Antonio De Santis, Schrasing Tong, Marco Brambilla, Lalana Kagal2026-03-10🤖 cs.LG

AgrI Challenge: A Data-Centric AI Competition for Cross-Team Validation in Agricultural Vision

Die AgrI Challenge stellt ein datenzentriertes Wettbewerbsframework mit einem neuartigen Cross-Team-Validierungsansatz vor, der durch unabhängige Datensammlung und kollaboratives Training die Generalisierungsfähigkeit von landwirtschaftlichen Vision-Modellen unter realen Feldbedingungen signifikant verbessert.

Mohammed Brahimi, Karim Laabassi, Mohamed Seghir Hadj Ameur, Aicha Boutorh, Badia Siab-Farsi, Amin Khouani, Omar Farouk Zouak, Seif Eddine Bouziane, Kheira Lakhdari, Abdelkader Nabil Benghanem2026-03-10🤖 cs.LG

Latent Generative Models with Tunable Complexity for Compressed Sensing and other Inverse Problems

Diese Arbeit stellt tunbare Komplexitäts-Priors für generative Modelle vor, die durch den Einsatz von Nested Dropout in inversen Problemen wie der komprimierten Abtastung konsistent niedrigere Rekonstruktionsfehler als Modelle mit fester Komplexität erzielen.

Sean Gunn, Jorio Cocola, Oliver De Candido, Vaggos Chatziafratis, Paul Hand2026-03-10🤖 cs.LG

The Yerkes-Dodson Curve for AI Agents: Emergent Cooperation Under Environmental Pressure in Multi-Agent LLM Simulations

Diese Studie zeigt, dass sich die kooperative Interaktion von Multi-Agenten-LLM-Systemen in einem Grid-World-Szenario gemäß der Yerkes-Dodson-Kurve verhält, wobei mittlere Umgebungsdruckniveaus die Handelsaktivität maximieren, während extremer Druck zu einem Zusammenbruch der Verhaltensvielfalt führt und sexuelle Selektion Aggression eliminiert.

Ivan Pasichnyk2026-03-10💻 cs

Scaling Laws in the Tiny Regime: How Small Models Change Their Mistakes

Die Studie zeigt, dass im Tiny-Regime unter 20 Millionen Parametern die Skalierungsgesetze für Fehlerquoten steiler verlaufen als bei großen Modellen, sich jedoch die Fehlerstruktur grundlegend ändert, indem kleine Modelle ihre Kapazität auf einfache Klassen konzentrieren und dabei überraschend besser kalibriert sind, was die Notwendigkeit einer Validierung direkt am Zielmodell für Edge-Deployment unterstreicht.

Mohammed Alnemari, Rizwan Qureshi, Nader Begrazadah2026-03-10🤖 cs.LG

Position: LLMs Must Use Functor-Based and RAG-Driven Bias Mitigation for Fairness

Diese Positionspapier plädiert für einen kombinierten Ansatz zur Bekämpfung von Verzerrungen in großen Sprachmodellen, der kategorientheoretische Funktoren zur strukturellen Entschärfung von Vorurteilen mit retrievalgestützter Generierung (RAG) zur dynamischen Kontextualisierung durch externe Wissensquellen verbindet, um faire und gerechte Ausgaben zu gewährleisten.

Ravi Ranjan, Utkarsh Grover, Agorista Polyzou2026-03-10💬 cs.CL

ConfHit: Conformal Generative Design with Oracle Free Guarantees

Das Paper stellt ConfHit vor, ein distributionsfreies Framework, das durch gewichtete Austauschbarkeit und eine verschachtelte Testprozedur zuverlässige statistische Garantien für die Generierung von Wirkstoffkandidaten ohne experimentelle Oracle bietet.

Siddhartha Laghuvarapu, Ying Jin, Jimeng Sun2026-03-10🤖 cs.LG

← Zurück Weiter →