SommBench: Assessing Sommelier Expertise of Language Models

Die Studie stellt SommBench vor, ein mehrsprachiges Benchmark-System zur Bewertung der Sommelier-Expertise von Sprachmodellen in den Bereichen Weintheorie, Merkmalsvollendung und Speisen-Wein-Paarung, wobei die Ergebnisse zeigen, dass Modelle zwar theoretisches Wissen gut beherrschen, sensorisch begründete Aufgaben jedoch deutlich schwieriger sind.

William Brach, Tomas Bedej, Jacob Nielsen, Jacob Pichna, Juraj Bedej, Eemeli Saarensilta, Julie Dupouy, Gianluca Barmina, Andrea Blasi Núñez, Peter Schneider-Kamp, Kristian Koštál, Michal Ries, Lukas Galke Poech2026-03-13💬 cs.CL

TopoBench: Benchmarking LLMs on Hard Topological Reasoning

Die Studie stellt TopoBench vor, einen Benchmark zur Bewertung der Fähigkeit von Large Language Models, komplexe topologische Gitterrätsel zu lösen, und identifiziert durch Fehleranalysen und Interventionen, dass die Hauptschwierigkeit nicht im logischen Schlussfolgern, sondern im Extrahieren und Beibehalten räumlicher Constraints aus den Darstellungen liegt.

Mayug Maniparambil, Nils Hoehing, Janak Kapuriya, Arjun Karuvally, Ellen Rushe, Anthony Ventresque, Noel O'Connor, Fergal Reid2026-03-13🤖 cs.AI

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

Die Arbeit stellt FlashMotion vor, ein neuartiges Trainingsframework, das durch eine spezielle Hybrid-Strategie aus Diffusions- und adversariellen Zielen die Lücke zwischen Few-Step-Video-Generierung und präziser Trajektoriensteuerung schließt und dabei sowohl die Bildqualität als auch die Bewegungsgenauigkeit im Vergleich zu bestehenden Methoden verbessert.

Quanhao Li, Zhen Xing, Rui Wang, Haidong Cao, Qi Dai, Daoguo Dong, Zuxuan Wu2026-03-13🤖 cs.LG

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

Die Studie „IsoCompute Playbook" leitet berechnungsoptimale Regeln für die Allokation von Sampling-Ressourcen beim Reinforcement Learning von Large Language Models ab und zeigt, wie sich die Anzahl paralleler Rollouts je Problem je nach Budget und Schwierigkeitsgrad gezielt skalieren lässt, um Stabilität und Effizienz zu maximieren.

Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar2026-03-13🤖 cs.LG

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Die Studie stellt mit MADQA ein neues Benchmark-Dataset vor und zeigt, dass multimodale Agenten bei der Beantwortung von Fragen in Dokumentensammlungen zwar eine mit Menschen vergleichbare Genauigkeit erreichen, dies jedoch primär durch stochastische Brute-Force-Suche statt durch echte strategische Planung erreichen und dabei eine signifikante Lücke zur optimalen Oracle-Leistung offenlassen.

Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, Shreyansh Padarha, Ryan Othniel Kearns, Adam Mahdi, Niels Rogge, Clémentine Fourrier, Siwei Han, Huaxiu Yao, Artemis Llabrés, Yiming Xu, Dimosthenis Karatzas, Hao Zhang, Anupam Datta2026-03-13💬 cs.CL

Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials

Die Arbeit stellt „Proof-Carrying Materials" (PCM) vor, ein dreistufiges Verfahren aus adversarieller Fälschung, Bootstrap-Verfeinerung und formaler Verifizierung, das die Zuverlässigkeit maschinengelernter Interatomarer Potentiale sicherstellt und deren Nachweisfähigkeit für die Entdeckung stabiler Materialien im Vergleich zu herkömmlichen Filtern um 25 % steigert.

Abhinaba Basu, Pavan Chakraborty2026-03-13🔬 cond-mat.mtrl-sci

RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images

Die Arbeit stellt RDNet vor, ein auf SwinTransformer basierendes Netzwerk für die saliente Objekterkennung in optischen Fernerkundungsbildern, das durch dynamisch adaptive Detailerkennung, frequenzangepasste Kontextverstärkung und eine regionsproportionale Lokalisierung die Herausforderungen variierender Objektgrößen überwindet und damit den aktuellen Stand der Technik übertrifft.

Bin Wan, Runmin Cong, Xiaofei Zhou, Hao Fang, Yaoqi Sun, Sam Kwong2026-03-13🤖 cs.AI

Sparking Scientific Creativity via LLM-Driven Interdisciplinary Inspiration

Die Studie stellt Idea-Catalyst vor, ein neues Framework, das durch die systematische Umformulierung von Forschungszielen in domänenübergreifende konzeptionelle Probleme und die gezielte Integration von Erkenntnissen aus anderen Disziplinen die wissenschaftliche Kreativität und den interdisziplinären Erkenntnisgewinn sowohl bei Menschen als auch bei großen Sprachmodellen signifikant steigert.

Priyanka Kargupta, Shuhaib Mehri, Dilek Hakkani-Tur, Jiawei Han2026-03-13💬 cs.CL