cs.AI papers | Gist.Science

SommBench: Assessing Sommelier Expertise of Language Models

Dit paper introduceert SommBench, een meertalige benchmark die de sommelier-expertise van taalmodellen test op wijntheorie, kenmerkvolleding en voedsel-wijncombinaties om te evalueren of tekstuele training voldoende is voor zintuiglijke oordelen.

William Brach, Tomas Bedej, Jacob Nielsen, Jacob Pichna, Juraj Bedej, Eemeli Saarensilta, Julie Dupouy, Gianluca Barmina, Andrea Blasi Núñez, Peter Schneider-Kamp, Kristian Koštál, Michal Ries, Lukas Galke Poech2026-03-13💬 cs.CL

CRAFT: A Tendon-Driven Hand with Hybrid Hard-Soft Compliance

Dit paper introduceert CRAFT, een door pezen aangedreven, antropomorfe hand met hybride hard-zachte compliantie die door zachte materialen op de gewrichten en starre linkers een robuust, herhaalbaar en kostenefficiënt ontwerp biedt voor contactrijke manipulatie.

Leo Lin, Shivansh Patel, Jay Moon, Svetlana Lazebnik, Unnat Jain2026-03-13🤖 cs.AI

Increasing intelligence in AI agents can worsen collective outcomes

De studie toont aan dat het verhogen van de intelligentie van AI-agenten bij schaarste aan middelen de collectieve overbelasting juist kan verergeren, terwijl dit effect bij overvloedige middelen juist verdwijnt, afhankelijk van de verhouding tussen capaciteit en populatie.

Neil F. Johnson2026-03-13💰 q-fin

TopoBench: Benchmarking LLMs on Hard Topological Reasoning

Dit paper introduceert TopoBench, een benchmark voor het evalueren van de vermogens van grote taalmodellen bij het oplossen van complexe topologische raadsels, en onthult dat de voornaamste beperking ligt in het extraheren van ruimtelijke constraints uit representaties in plaats van in het redeneren daarover.

Mayug Maniparambil, Nils Hoehing, Janak Kapuriya, Arjun Karuvally, Ellen Rushe, Anthony Ventresque, Noel O'Connor, Fergal Reid2026-03-13🤖 cs.AI

Automatic Generation of High-Performance RL Environments

Dit artikel introduceert een kostenefficiënte, herbruikbare methode die complexe reinforcement learning-omgevingen automatisch vertaalt naar hoogpresterende implementaties met semantische equivalentie en aanzienlijke snelheidswinsten, zoals aangetoond door vijf diverse case studies.

Seth Karten, Rahul Dev Appapogu, Chi Jin2026-03-13🤖 cs.LG

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

FlashMotion is een nieuw trainingskader dat een trajectadapter en een hybride fijne-tuningstrategie combineert om hoogwaardige, traject-accurate video's te genereren in slechts enkele stappen, terwijl het de bestaande methoden voor video-distillatie en multi-step-modellen overtreft.

Quanhao Li, Zhen Xing, Rui Wang, Haidong Cao, Qi Dai, Daoguo Dong, Zuxuan Wu2026-03-13🤖 cs.LG

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

Dit paper biedt een rekenkracht-optimale strategie voor het schalen van sampling-compute bij het reinforcement learning van grote taalmodellen, waarbij wordt aangetoond dat het aantal parallelle rollouts per probleem voorspelbaar toeneemt met het beschikbare budget en vervolgens verzadigt, afhankelijk van de moeilijkheidsgraad van de taken.

Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar2026-03-13🤖 cs.LG

GlyphBanana: Advancing Precise Text Rendering Through Agentic Workflows

Het paper introduceert GlyphBanana, een trainingsvrije agente workflow die de nauwkeurigheid van tekst- en formulegeneratie in tekst-naar-beeldmodellen verbetert door glyph-sjablonen in de latente ruimte en aandachtskaarten te injecteren.

Zexuan Yan, Jiarui Jin, Yue Ma, Shijian Wang, Jiahui Hu, Wenxiang Jiao, Yuan Lu, Linfeng Zhang2026-03-13🤖 cs.AI

A Quantitative Characterization of Forgetting in Post-Training

Dit artikel biedt een kwantitatieve theoretische analyse van vergeten tijdens post-training van generatieve modellen, waarbij wordt aangetoond dat de richting van de divergentie (forward-KL versus reverse-KL), de overlap tussen taken en het gebruik van replay bepalen of massaal vergeten optreedt of dat vergeten beperkt blijft tot een gecontroleerde drift.

Krishnakumar Balasubramanian, Shiva Prasad Kasiviswanathan2026-03-13📊 stat

BehaviorVLM: Unified Finetuning-Free Behavioral Understanding with Vision-Language Reasoning

BehaviorVLM is een unificerend visueel-taalraamwerk dat zonder taakspecifieke fijnafstemming dierlijk gedrag en houding analyseert door gebruik te maken van vooraf getrainde modellen en verifieerbare redeneerstappen, waardoor de afhankelijkheid van menselijke annotatie aanzienlijk wordt verminderd.

Jingyang Ke, Weihan Li, Amartya Pradhan, Jeffrey Markowitz, Anqi Wu2026-03-13🤖 cs.AI

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Deze studie introduceert de MADQA-benchmark om aan te tonen dat multimodale agenten, ondanks hun vergelijkbare nauwkeurigheid met mensen, voornamelijk vertrouwen op brute-force zoekopdrachten in plaats van strategisch redeneren, wat resulteert in een aanzienlijke prestatiekloof met de theoretische optimum.

Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, Shreyansh Padarha, Ryan Othniel Kearns, Adam Mahdi, Niels Rogge, Clémentine Fourrier, Siwei Han, Huaxiu Yao, Artemis Llabrés, Yiming Xu, Dimosthenis Karatzas, Hao Zhang, Anupam Datta2026-03-13💬 cs.CL

Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials

Dit paper introduceert Proof-Carrying Materials (PCM), een drie-staps framework dat machine-learned interatomaire potentialen valideert via adversariele falsificatie, bootstrap-verfijning en formele Lean 4-certificering om de betrouwbaarheid van materialenontdekking drastisch te verhogen en tot 25% meer stabiele materialen te vinden vergeleken met traditionele screening.

Abhinaba Basu, Pavan Chakraborty2026-03-13🔬 cond-mat.mtrl-sci

Compiling Temporal Numeric Planning into Discrete PDDL+: Extended Version

Dit paper presenteert een praktische, polynoomtijd-compilatie die tijdsgebonden numerieke planning met durende acties volledig omzet naar het PDDL+-formaat, waarbij de semantiek behouden blijft en de planlengte slechts met een constante factor toeneemt.

Andrea Micheli, Enrico Scala, Alessandro Valentini2026-03-13🤖 cs.AI

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

Dit paper introduceert WORKSWORLD, een nieuw domein voor geautomatiseerd plannen en plannen van gedistribueerde data-pipelines, waarbij een geavanceerde numerieke planner op standaard hardware in staat is om workflows van maximaal 14 componenten over acht locaties te bouwen en te plotten.

Taylor Paul, William Regli2026-03-13🤖 cs.AI

RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images

Dit artikel introduceert RDNet, een nieuw model voor het detecteren van opvallende objecten in optische satellietbeelden dat de variatie in objectgrootte en de beperkingen van bestaande methoden aanpakt door een SwinTransformer-backbone te combineren met dynamische modules voor detailbewaking, contextverrijking en locatiebepaling.

Bin Wan, Runmin Cong, Xiaofei Zhou, Hao Fang, Yaoqi Sun, Sam Kwong2026-03-13🤖 cs.AI

Portfolio of Solving Strategies in CEGAR-based Object Packing and Scheduling for Sequential 3D Printing

Dit paper introduceert Portfolio-CEGAR-SEQ, een parallelle implementatie die diverse strategieën voor objectindeling en planning combineert om de efficiëntie van sequentiële 3D-printing op moderne multi-core processors te verbeteren en het aantal benodigde printplaten te verminderen.

Pavel Surynek2026-03-13🤖 cs.AI

Sparking Scientific Creativity via LLM-Driven Interdisciplinary Inspiration

Dit paper introduceert Idea-Catalyst, een LLM-gestuurd raamwerk dat creatief wetenschappelijk redeneren stimuleert door abstracte doelen te ontleden in domein-agnostische concepten en deze te koppelen aan oplossingen uit andere disciplines, wat leidt tot een significante toename in originaliteit en inzicht zonder voortijdige vaststelling van specifieke oplossingen.

Priyanka Kargupta, Shuhaib Mehri, Dilek Hakkani-Tur, Jiawei Han2026-03-13💬 cs.CL

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

Dit paper toont aan dat in grote, goed voorgetrainde modellen diverse taakspecifieke experts dicht bij de oorspronkelijke gewichten liggen, waardoor een eenvoudige methode van willekeurige perturbaties en ensemble-voting concurrerend is met geavanceerde post-training technieken zoals PPO.

Yulu Gan, Phillip Isola2026-03-13🤖 cs.LG

Security Considerations for Artificial Intelligence Agents

Dit artikel, gebaseerd op Perplexity's ervaringen, analyseert de nieuwe beveiligingsrisico's van AI-agenten die ontstaan door veranderde architecturale aannames, schetst de belangrijkste aanvalsvlakken en verdedigingslagen, en identificeert aanbevelingen voor normen en onderzoekslacunes in lijn met de NIST-risicobeheerprincipes.

Ninghui Li, Kaiyuan Zhang, Kyle Polley, Jerry Ma2026-03-13🤖 cs.LG

Incremental Neural Network Verification via Learned Conflicts

Dit paper introduceert een incrementele verificatietechniek voor neurale netwerken die geleerde conflicten hergebruikt over gerelateerde queries heen om redundantie te verminderen en verificatiesnelheid tot 1,9 keer te verhogen.

Raya Elsaleh, Liam Davis, Haoze Wu, Guy Katz2026-03-13🤖 cs.AI

← Vorige Volgende →