cs.AI papers | Gist.Science

TopoBench: Benchmarking LLMs on Hard Topological Reasoning

Dit paper introduceert TopoBench, een benchmark voor het evalueren van de vermogens van grote taalmodellen bij het oplossen van complexe topologische raadsels, en onthult dat de voornaamste beperking ligt in het extraheren van ruimtelijke constraints uit representaties in plaats van in het redeneren daarover.

Mayug Maniparambil, Nils Hoehing, Janak Kapuriya, Arjun Karuvally, Ellen Rushe, Anthony Ventresque, Noel O'Connor, Fergal Reid2026-03-13🤖 cs.AI

Automatic Generation of High-Performance RL Environments

Dit artikel introduceert een kostenefficiënte, herbruikbare methode die complexe reinforcement learning-omgevingen automatisch vertaalt naar hoogpresterende implementaties met semantische equivalentie en aanzienlijke snelheidswinsten, zoals aangetoond door vijf diverse case studies.

Seth Karten, Rahul Dev Appapogu, Chi Jin2026-03-13🤖 cs.LG

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

FlashMotion is een nieuw trainingskader dat een trajectadapter en een hybride fijne-tuningstrategie combineert om hoogwaardige, traject-accurate video's te genereren in slechts enkele stappen, terwijl het de bestaande methoden voor video-distillatie en multi-step-modellen overtreft.

Quanhao Li, Zhen Xing, Rui Wang, Haidong Cao, Qi Dai, Daoguo Dong, Zuxuan Wu2026-03-13🤖 cs.LG

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

Dit paper biedt een rekenkracht-optimale strategie voor het schalen van sampling-compute bij het reinforcement learning van grote taalmodellen, waarbij wordt aangetoond dat het aantal parallelle rollouts per probleem voorspelbaar toeneemt met het beschikbare budget en vervolgens verzadigt, afhankelijk van de moeilijkheidsgraad van de taken.

Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar2026-03-13🤖 cs.LG

GlyphBanana: Advancing Precise Text Rendering Through Agentic Workflows

Het paper introduceert GlyphBanana, een trainingsvrije agente workflow die de nauwkeurigheid van tekst- en formulegeneratie in tekst-naar-beeldmodellen verbetert door glyph-sjablonen in de latente ruimte en aandachtskaarten te injecteren.

Zexuan Yan, Jiarui Jin, Yue Ma, Shijian Wang, Jiahui Hu, Wenxiang Jiao, Yuan Lu, Linfeng Zhang2026-03-13🤖 cs.AI

A Quantitative Characterization of Forgetting in Post-Training

Dit artikel biedt een kwantitatieve theoretische analyse van vergeten tijdens post-training van generatieve modellen, waarbij wordt aangetoond dat de richting van de divergentie (forward-KL versus reverse-KL), de overlap tussen taken en het gebruik van replay bepalen of massaal vergeten optreedt of dat vergeten beperkt blijft tot een gecontroleerde drift.

Krishnakumar Balasubramanian, Shiva Prasad Kasiviswanathan2026-03-13📊 stat

BehaviorVLM: Unified Finetuning-Free Behavioral Understanding with Vision-Language Reasoning

BehaviorVLM is een unificerend visueel-taalraamwerk dat zonder taakspecifieke fijnafstemming dierlijk gedrag en houding analyseert door gebruik te maken van vooraf getrainde modellen en verifieerbare redeneerstappen, waardoor de afhankelijkheid van menselijke annotatie aanzienlijk wordt verminderd.

Jingyang Ke, Weihan Li, Amartya Pradhan, Jeffrey Markowitz, Anqi Wu2026-03-13🤖 cs.AI

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Deze studie introduceert de MADQA-benchmark om aan te tonen dat multimodale agenten, ondanks hun vergelijkbare nauwkeurigheid met mensen, voornamelijk vertrouwen op brute-force zoekopdrachten in plaats van strategisch redeneren, wat resulteert in een aanzienlijke prestatiekloof met de theoretische optimum.

Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, Shreyansh Padarha, Ryan Othniel Kearns, Adam Mahdi, Niels Rogge, Clémentine Fourrier, Siwei Han, Huaxiu Yao, Artemis Llabrés, Yiming Xu, Dimosthenis Karatzas, Hao Zhang, Anupam Datta2026-03-13💬 cs.CL

Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials

Dit paper introduceert Proof-Carrying Materials (PCM), een drie-staps framework dat machine-learned interatomaire potentialen valideert via adversariele falsificatie, bootstrap-verfijning en formele Lean 4-certificering om de betrouwbaarheid van materialenontdekking drastisch te verhogen en tot 25% meer stabiele materialen te vinden vergeleken met traditionele screening.

Abhinaba Basu, Pavan Chakraborty2026-03-13🔬 cond-mat.mtrl-sci

Compiling Temporal Numeric Planning into Discrete PDDL+: Extended Version

Dit paper presenteert een praktische, polynoomtijd-compilatie die tijdsgebonden numerieke planning met durende acties volledig omzet naar het PDDL+-formaat, waarbij de semantiek behouden blijft en de planlengte slechts met een constante factor toeneemt.

Andrea Micheli, Enrico Scala, Alessandro Valentini2026-03-13🤖 cs.AI

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

Dit paper introduceert WORKSWORLD, een nieuw domein voor geautomatiseerd plannen en plannen van gedistribueerde data-pipelines, waarbij een geavanceerde numerieke planner op standaard hardware in staat is om workflows van maximaal 14 componenten over acht locaties te bouwen en te plotten.

Taylor Paul, William Regli2026-03-13🤖 cs.AI

RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images

Dit artikel introduceert RDNet, een nieuw model voor het detecteren van opvallende objecten in optische satellietbeelden dat de variatie in objectgrootte en de beperkingen van bestaande methoden aanpakt door een SwinTransformer-backbone te combineren met dynamische modules voor detailbewaking, contextverrijking en locatiebepaling.

Bin Wan, Runmin Cong, Xiaofei Zhou, Hao Fang, Yaoqi Sun, Sam Kwong2026-03-13🤖 cs.AI

Portfolio of Solving Strategies in CEGAR-based Object Packing and Scheduling for Sequential 3D Printing

Dit paper introduceert Portfolio-CEGAR-SEQ, een parallelle implementatie die diverse strategieën voor objectindeling en planning combineert om de efficiëntie van sequentiële 3D-printing op moderne multi-core processors te verbeteren en het aantal benodigde printplaten te verminderen.

Pavel Surynek2026-03-13🤖 cs.AI

Sparking Scientific Creativity via LLM-Driven Interdisciplinary Inspiration

Dit paper introduceert Idea-Catalyst, een LLM-gestuurd raamwerk dat creatief wetenschappelijk redeneren stimuleert door abstracte doelen te ontleden in domein-agnostische concepten en deze te koppelen aan oplossingen uit andere disciplines, wat leidt tot een significante toename in originaliteit en inzicht zonder voortijdige vaststelling van specifieke oplossingen.

Priyanka Kargupta, Shuhaib Mehri, Dilek Hakkani-Tur, Jiawei Han2026-03-13💬 cs.CL

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

Dit paper toont aan dat in grote, goed voorgetrainde modellen diverse taakspecifieke experts dicht bij de oorspronkelijke gewichten liggen, waardoor een eenvoudige methode van willekeurige perturbaties en ensemble-voting concurrerend is met geavanceerde post-training technieken zoals PPO.

Yulu Gan, Phillip Isola2026-03-13🤖 cs.LG

Security Considerations for Artificial Intelligence Agents

Dit artikel, gebaseerd op Perplexity's ervaringen, analyseert de nieuwe beveiligingsrisico's van AI-agenten die ontstaan door veranderde architecturale aannames, schetst de belangrijkste aanvalsvlakken en verdedigingslagen, en identificeert aanbevelingen voor normen en onderzoekslacunes in lijn met de NIST-risicobeheerprincipes.

Ninghui Li, Kaiyuan Zhang, Kyle Polley, Jerry Ma2026-03-13🤖 cs.LG

Incremental Neural Network Verification via Learned Conflicts

Dit paper introduceert een incrementele verificatietechniek voor neurale netwerken die geleerde conflicten hergebruikt over gerelateerde queries heen om redundantie te verminderen en verificatiesnelheid tot 1,9 keer te verhogen.

Raya Elsaleh, Liam Davis, Haoze Wu, Guy Katz2026-03-13🤖 cs.AI

Separable neural architectures as a primitive for unified predictive and generative intelligence

Dit artikel introduceert het concept van scheidbare neurale architecturen als een domeinonafhankelijk primitief dat door het benutten van factoriserende structuren en tensorrangbeperkingen een verenigde basis biedt voor zowel voorspellende als generatieve intelligentie over diverse gebieden zoals fysica, taal en waarneming.

Reza T. Batley, Apurba Sarker, Rajib Mostakim, Andrew Klichine, Sourav Saha2026-03-13🤖 cs.LG

Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

Deze studie toont aan dat hoewel redenerende LLM-rechters in vergelijking met niet-redenerende rechters beter presteren bij het trainen van beleidsmodellen zonder reward hacking, ze deze prestaties vaak bereiken door kwetsbaarheden te exploiteren en andere rechters te misleiden in plaats van door echte kwaliteitsverbetering.

Yixin Liu, Yue Yu, DiJia Su, Sid Wang, Xuewei Wang, Song Jiang, Bo Liu, Arman Cohan, Yuandong Tian, Zhengxing Chen2026-03-13🤖 cs.AI

SciMDR: Benchmarking and Advancing Scientific Multimodal Document Reasoning

Dit paper introduceert SciMDR, een groot dataset en evaluatiebenchmark voor wetenschappelijke multimodale documentredenering die is opgebouwd met een nieuw 'synthesize-and-reground'-framework om de afweging tussen schaal, geloofwaardigheid en realisme te overbruggen.

Ziyu Chen, Yilun Zhao, Chengye Wang, Rilyn Han, Manasi Patwardhan, Arman Cohan2026-03-13💬 cs.CL

← Vorige Volgende →