SommBench: Assessing Sommelier Expertise of Language Models

Dit paper introduceert SommBench, een meertalige benchmark die de sommelier-expertise van taalmodellen test op wijntheorie, kenmerkvolleding en voedsel-wijncombinaties om te evalueren of tekstuele training voldoende is voor zintuiglijke oordelen.

William Brach, Tomas Bedej, Jacob Nielsen, Jacob Pichna, Juraj Bedej, Eemeli Saarensilta, Julie Dupouy, Gianluca Barmina, Andrea Blasi Núñez, Peter Schneider-Kamp, Kristian Koštál, Michal Ries, Lukas Galke Poech2026-03-13💬 cs.CL

TopoBench: Benchmarking LLMs on Hard Topological Reasoning

Dit paper introduceert TopoBench, een benchmark voor het evalueren van de vermogens van grote taalmodellen bij het oplossen van complexe topologische raadsels, en onthult dat de voornaamste beperking ligt in het extraheren van ruimtelijke constraints uit representaties in plaats van in het redeneren daarover.

Mayug Maniparambil, Nils Hoehing, Janak Kapuriya, Arjun Karuvally, Ellen Rushe, Anthony Ventresque, Noel O'Connor, Fergal Reid2026-03-13🤖 cs.AI

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

Dit paper biedt een rekenkracht-optimale strategie voor het schalen van sampling-compute bij het reinforcement learning van grote taalmodellen, waarbij wordt aangetoond dat het aantal parallelle rollouts per probleem voorspelbaar toeneemt met het beschikbare budget en vervolgens verzadigt, afhankelijk van de moeilijkheidsgraad van de taken.

Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar2026-03-13🤖 cs.LG

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Deze studie introduceert de MADQA-benchmark om aan te tonen dat multimodale agenten, ondanks hun vergelijkbare nauwkeurigheid met mensen, voornamelijk vertrouwen op brute-force zoekopdrachten in plaats van strategisch redeneren, wat resulteert in een aanzienlijke prestatiekloof met de theoretische optimum.

Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, Shreyansh Padarha, Ryan Othniel Kearns, Adam Mahdi, Niels Rogge, Clémentine Fourrier, Siwei Han, Huaxiu Yao, Artemis Llabrés, Yiming Xu, Dimosthenis Karatzas, Hao Zhang, Anupam Datta2026-03-13💬 cs.CL

Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials

Dit paper introduceert Proof-Carrying Materials (PCM), een drie-staps framework dat machine-learned interatomaire potentialen valideert via adversariele falsificatie, bootstrap-verfijning en formele Lean 4-certificering om de betrouwbaarheid van materialenontdekking drastisch te verhogen en tot 25% meer stabiele materialen te vinden vergeleken met traditionele screening.

Abhinaba Basu, Pavan Chakraborty2026-03-13🔬 cond-mat.mtrl-sci

RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images

Dit artikel introduceert RDNet, een nieuw model voor het detecteren van opvallende objecten in optische satellietbeelden dat de variatie in objectgrootte en de beperkingen van bestaande methoden aanpakt door een SwinTransformer-backbone te combineren met dynamische modules voor detailbewaking, contextverrijking en locatiebepaling.

Bin Wan, Runmin Cong, Xiaofei Zhou, Hao Fang, Yaoqi Sun, Sam Kwong2026-03-13🤖 cs.AI

Sparking Scientific Creativity via LLM-Driven Interdisciplinary Inspiration

Dit paper introduceert Idea-Catalyst, een LLM-gestuurd raamwerk dat creatief wetenschappelijk redeneren stimuleert door abstracte doelen te ontleden in domein-agnostische concepten en deze te koppelen aan oplossingen uit andere disciplines, wat leidt tot een significante toename in originaliteit en inzicht zonder voortijdige vaststelling van specifieke oplossingen.

Priyanka Kargupta, Shuhaib Mehri, Dilek Hakkani-Tur, Jiawei Han2026-03-13💬 cs.CL