cs.AI Arbeiten | Gist.Science

SommBench: Assessing Sommelier Expertise of Language Models

Die Studie stellt SommBench vor, ein mehrsprachiges Benchmark-System zur Bewertung der Sommelier-Expertise von Sprachmodellen in den Bereichen Weintheorie, Merkmalsvollendung und Speisen-Wein-Paarung, wobei die Ergebnisse zeigen, dass Modelle zwar theoretisches Wissen gut beherrschen, sensorisch begründete Aufgaben jedoch deutlich schwieriger sind.

William Brach, Tomas Bedej, Jacob Nielsen, Jacob Pichna, Juraj Bedej, Eemeli Saarensilta, Julie Dupouy, Gianluca Barmina, Andrea Blasi Núñez, Peter Schneider-Kamp, Kristian Koštál, Michal Ries, Lukas Galke Poech2026-03-13💬 cs.CL

CRAFT: A Tendon-Driven Hand with Hybrid Hard-Soft Compliance

Die Arbeit stellt die CRAFT-Hand vor, einen tendongetriebenen anthropomorphen Greifer mit hybrider Hard-Soft-Kompliance, der durch weiche Gelenke und starre Glieder sowie rollende Kontaktflächen eine hohe Belastbarkeit, Wiederholgenauigkeit und Geschicklichkeit bei der Manipulation empfindlicher Objekte ermöglicht.

Leo Lin, Shivansh Patel, Jay Moon, Svetlana Lazebnik, Unnat Jain2026-03-13🤖 cs.AI

Increasing intelligence in AI agents can worsen collective outcomes

Die Studie zeigt, dass bei knappen Ressourcen eine höhere Intelligenz und Vielfalt von KI-Agenten zu gefährlichen Systemüberlastungen führen kann, während bei ausreichender Kapazität dieselben Faktoren die Überlastung minimieren, wobei das Ergebnis ausschließlich vom Verhältnis von Kapazität zu Populationsgröße abhängt.

Neil F. Johnson2026-03-13💰 q-fin

TopoBench: Benchmarking LLMs on Hard Topological Reasoning

Die Studie stellt TopoBench vor, einen Benchmark zur Bewertung der Fähigkeit von Large Language Models, komplexe topologische Gitterrätsel zu lösen, und identifiziert durch Fehleranalysen und Interventionen, dass die Hauptschwierigkeit nicht im logischen Schlussfolgern, sondern im Extrahieren und Beibehalten räumlicher Constraints aus den Darstellungen liegt.

Mayug Maniparambil, Nils Hoehing, Janak Kapuriya, Arjun Karuvally, Ellen Rushe, Anthony Ventresque, Noel O'Connor, Fergal Reid2026-03-13🤖 cs.AI

Automatic Generation of High-Performance RL Environments

Diese Arbeit stellt eine wiederverwendbare Methode vor, die komplexe Reinforcement-Learning-Umgebungen mithilfe von KI-Agenten, hierarchischer Verifizierung und iterativer Reparatur automatisch in hochoptimierte Implementierungen übersetzt, wodurch die Entwicklungszeit drastisch verkürzt und die Trainingsgeschwindigkeit um Größenordnungen gesteigert wird.

Seth Karten, Rahul Dev Appapogu, Chi Jin2026-03-13🤖 cs.LG

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

Die Arbeit stellt FlashMotion vor, ein neuartiges Trainingsframework, das durch eine spezielle Hybrid-Strategie aus Diffusions- und adversariellen Zielen die Lücke zwischen Few-Step-Video-Generierung und präziser Trajektoriensteuerung schließt und dabei sowohl die Bildqualität als auch die Bewegungsgenauigkeit im Vergleich zu bestehenden Methoden verbessert.

Quanhao Li, Zhen Xing, Rui Wang, Haidong Cao, Qi Dai, Daoguo Dong, Zuxuan Wu2026-03-13🤖 cs.LG

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

Die Studie „IsoCompute Playbook" leitet berechnungsoptimale Regeln für die Allokation von Sampling-Ressourcen beim Reinforcement Learning von Large Language Models ab und zeigt, wie sich die Anzahl paralleler Rollouts je Problem je nach Budget und Schwierigkeitsgrad gezielt skalieren lässt, um Stabilität und Effizienz zu maximieren.

Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar2026-03-13🤖 cs.LG

GlyphBanana: Advancing Precise Text Rendering Through Agentic Workflows

Das Paper stellt GlyphBanana vor, einen trainingfreien agentic Workflow, der durch die Integration von Glyph-Vorlagen in den latenten Raum und die Aufmerksamkeitskarten die präzise Text- und Formelgenerierung in verschiedenen Text-zu-Bild-Modellen verbessert.

Zexuan Yan, Jiarui Jin, Yue Ma, Shijian Wang, Jiahui Hu, Wenxiang Jiao, Yuan Lu, Linfeng Zhang2026-03-13🤖 cs.AI

A Quantitative Characterization of Forgetting in Post-Training

Diese Arbeit liefert eine quantitative Charakterisierung des Vergessens beim Nachtrainieren generativer Modelle, indem sie zeigt, wie die Wahl der Divergenzrichtung (Forward- vs. Reverse-KL), die geometrische Überlappung der Aufgaben und das Sampling-Verfahren das Ausmaß von Massenverlust und Komponentenverschiebung bestimmen.

Krishnakumar Balasubramanian, Shiva Prasad Kasiviswanathan2026-03-13📊 stat

BehaviorVLM: Unified Finetuning-Free Behavioral Understanding with Vision-Language Reasoning

Das Paper stellt BehaviorVLM vor, ein einheitliches, feintuning-freies Vision-Language-Framework, das durch explizite logische Schlussfolgerungen und mehrstufige Pipelines eine skalierbare und wenig annotierungsintensive Analyse von Tierverhalten sowie eine präzise Pose-Schätzung ermöglicht.

Jingyang Ke, Weihan Li, Amartya Pradhan, Jeffrey Markowitz, Anqi Wu2026-03-13🤖 cs.AI

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Die Studie stellt mit MADQA ein neues Benchmark-Dataset vor und zeigt, dass multimodale Agenten bei der Beantwortung von Fragen in Dokumentensammlungen zwar eine mit Menschen vergleichbare Genauigkeit erreichen, dies jedoch primär durch stochastische Brute-Force-Suche statt durch echte strategische Planung erreichen und dabei eine signifikante Lücke zur optimalen Oracle-Leistung offenlassen.

Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, Shreyansh Padarha, Ryan Othniel Kearns, Adam Mahdi, Niels Rogge, Clémentine Fourrier, Siwei Han, Huaxiu Yao, Artemis Llabrés, Yiming Xu, Dimosthenis Karatzas, Hao Zhang, Anupam Datta2026-03-13💬 cs.CL

Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials

Die Arbeit stellt „Proof-Carrying Materials" (PCM) vor, ein dreistufiges Verfahren aus adversarieller Fälschung, Bootstrap-Verfeinerung und formaler Verifizierung, das die Zuverlässigkeit maschinengelernter Interatomarer Potentiale sicherstellt und deren Nachweisfähigkeit für die Entdeckung stabiler Materialien im Vergleich zu herkömmlichen Filtern um 25 % steigert.

Abhinaba Basu, Pavan Chakraborty2026-03-13🔬 cond-mat.mtrl-sci

Compiling Temporal Numeric Planning into Discrete PDDL+: Extended Version

Diese Arbeit stellt eine praktische, polynomielle Kompilierung vor, die zeitliche numerische Planung mit dauerhaften Aktionen vollständig in die Sprache PDDL+ übersetzt und dabei die Semantik erhält sowie die Planlänge nur um einen konstanten Faktor erhöht.

Andrea Micheli, Enrico Scala, Alessandro Valentini2026-03-13🤖 cs.AI

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

Die Arbeit stellt WORKSWORLD vor, eine neue Domäne für numerische, domänenunabhängige Planer, die die automatische Generierung und Terminierung verteilter Datenpipelines auf einer Ressourcenstruktur ermöglicht, indem sie Datenquellen, Komponenten und Ziele ohne explizite Vorgabe des gesamten Workflow-Graphen als Ziel definiert.

Taylor Paul, William Regli2026-03-13🤖 cs.AI

RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images

Die Arbeit stellt RDNet vor, ein auf SwinTransformer basierendes Netzwerk für die saliente Objekterkennung in optischen Fernerkundungsbildern, das durch dynamisch adaptive Detailerkennung, frequenzangepasste Kontextverstärkung und eine regionsproportionale Lokalisierung die Herausforderungen variierender Objektgrößen überwindet und damit den aktuellen Stand der Technik übertrifft.

Bin Wan, Runmin Cong, Xiaofei Zhou, Hao Fang, Yaoqi Sun, Sam Kwong2026-03-13🤖 cs.AI

Portfolio of Solving Strategies in CEGAR-based Object Packing and Scheduling for Sequential 3D Printing

Die Arbeit stellt Portfolio-CEGAR-SEQ vor, einen parallelen Algorithmus, der durch die Kombination mehrerer Anordnungsstrategien und die Ausnutzung moderner Mehrkern-CPUs die Effizienz der sequenziellen 3D-Druckplanung verbessert und dabei oft weniger Druckplatten benötigt als das ursprüngliche CEGAR-SEQ-Verfahren.

Pavel Surynek2026-03-13🤖 cs.AI

Sparking Scientific Creativity via LLM-Driven Interdisciplinary Inspiration

Die Studie stellt Idea-Catalyst vor, ein neues Framework, das durch die systematische Umformulierung von Forschungszielen in domänenübergreifende konzeptionelle Probleme und die gezielte Integration von Erkenntnissen aus anderen Disziplinen die wissenschaftliche Kreativität und den interdisziplinären Erkenntnisgewinn sowohl bei Menschen als auch bei großen Sprachmodellen signifikant steigert.

Priyanka Kargupta, Shuhaib Mehri, Dilek Hakkani-Tur, Jiawei Han2026-03-13💬 cs.CL

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

Die Arbeit zeigt, dass in großen vortrainierten Modellen diverse aufgabenspezifische Experten dicht um die Gewichte verteilt sind, sodass eine einfache Methode zum zufälligen Stören und Auswählen der besten Parameter in der Lage ist, mit etablierten Nachtrainingsverfahren wie PPO oder ES mitzuhalten.

Yulu Gan, Phillip Isola2026-03-13🤖 cs.LG

Security Considerations for Artificial Intelligence Agents

Dieser Artikel fasst Perplexitys Erfahrungen mit der Sicherheit von KI-Agenten zusammen, identifiziert neue Angriffsvektoren wie indirekte Prompt-Injection und verwirrte Stellvertreter, bewertet mehrschichtige Verteidigungsstrategien und formuliert Empfehlungen für zukünftige Sicherheitsstandards im Einklang mit NIST-Richtlinien.

Ninghui Li, Kaiyuan Zhang, Kyle Polley, Jerry Ma2026-03-13🤖 cs.LG

Incremental Neural Network Verification via Learned Conflicts

Diese Arbeit stellt eine inkrementelle Verifikationsmethode vor, die gelernte Konflikte über verwandte Abfragen hinweg wiederverwendet, um die Redundanz in branch-and-bound-basierten neuronalen Netzwerk-Verifizierern zu verringern und die Effizienz um bis zu 1,9-fach zu steigern.

Raya Elsaleh, Liam Davis, Haoze Wu, Guy Katz2026-03-13🤖 cs.AI

← Zurück Weiter →