cs.CL papers | Gist.Science

Agent Tools Orchestration Leaks More: Dataset, Benchmark, and Mitigation

Dit artikel introduceert het concept van Tools Orchestration Privacy Risk (TOP-R), waarbij autonome agenten via LLM's onbedoeld gevoelige informatie synthetiseren uit niet-gevoelige tool-data, en biedt de eerste systematische analyse, een nieuw benchmark (TOP-Bench) en effectieve mitigatiestrategieën om dit privacyrisico aan te pakken.

Yuxuan Qiao, Dongqin Liu, Hongchang Yang, Wei Zhou, Songlin Hu2026-03-09🤖 cs.AI

Window-based Membership Inference Attacks Against Fine-tuned Large Language Models

Deze paper introduceert WBC, een nieuw aanvalsmodel dat de effectiviteit van lidmaatschapsinference-aanvallen op fine-tuned grote taalmodellen aanzienlijk verbetert door lokale, contextgebonden geheugensignalen te analyseren in plaats van te vertrouwen op globale gemiddelden.

Yuetian Chen, Yuntao Du, Kaiyuan Zhang, Ashish Kundu, Charles Fleming, Bruno Ribeiro, Ninghui Li2026-03-09🤖 cs.AI

Classroom AI: Large Language Models as Grade-Specific Teachers

Dit paper introduceert een framework voor het finetunen van Large Language Models om op maat gemaakte, leeftijdsadequate educatieve content te genereren voor zes verschillende onderwijsniveaus, wat leidt tot een aanzienlijke verbetering in de graadovereenkomst zonder in te leveren op feitelijke juistheid.

Jio Oh, Steven Euijong Whang, James Evans, Jindong Wang2026-03-09🤖 cs.AI

Creating a Hybrid Rule and Neural Network Based Semantic Tagger using Silver Standard Data: the PyMUSAS framework for Multilingual Semantic Annotation

Dit paper introduceert het PyMUSAS-framework, dat een hybride aanpak combineert van regels en neurale netwerken voor meertalige semantische annotatie in het USAS-systeem, waarbij gebruik wordt gemaakt van een nieuw 'silver standard'-dataset om de prestaties te evalueren en te verbeteren.

Andrew Moore, Paul Rayson, Dawn Archer, Tim Czerniak, Dawn Knight, Daisy Lal, Gearóid Ó Donnchadha, Mícheál Ó Meachair, Scott Piao, Elaine Uí Dhonnchadha, Johanna Vuorinen, Yan Yabo, Xiaobin Yang2026-03-09💬 cs.CL

Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models

Dit paper introduceert Latent Exploration Decoding (LED), een trainingsvrije decodingstrategie die de onbedoelde exploratie-inzinking bij Large Reasoning Models na post-training oplost door het selecteren van dieptec configuraties met maximale entropie op basis van tussenlagen, waardoor de nauwkeurigheid op redeneerbenchmarks aanzienlijk verbetert.

Wenhui Tan, Fiorenzo Parascandolo, Enver Sangineto, Jianzhong Ju, Zhenbo Luo, Qian Cao, Rita Cucchiara, Ruihua Song, Jian Luan2026-03-09🤖 cs.LG

COMI: Coarse-to-fine Context Compression via Marginal Information Gain

Deze paper introduceert COMI, een coarse-to-fine contextcompressieframework dat gebruikmaakt van de Marginal Information Gain-metriek om redundantie te elimineren en semantische relevantie te behouden, wat leidt tot aanzienlijk betere prestaties dan bestaande methoden bij hoge compressiesnelheden.

Jiwei Tang, Shilei Liu, Zhicheng Zhang, Yujin Yuan, Libin Zheng, Wenbo Su, Bo Zheng2026-03-09💬 cs.CL

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

Dit artikel presenteert een verzameling casestudies die aantonen hoe onderzoekers succesvol samenwerken met Google's Gemini-modellen om open problemen op te lossen, conjecturen te weerleggen en nieuwe bewijzen te genereren in theoretische informatica en aanverwante vakgebieden, waarbij effectieve technieken voor mens-AI-samenwerking worden geïdentificeerd.

David P. Woodruff, Vincent Cohen-Addad, Lalit Jain, Jieming Mao, Song Zuo, MohammadHossein Bateni, Simina Branzei, Michael P. Brenner, Lin Chen, Ying Feng, Lance Fortnow, Gang Fu, Ziyi Guan, Zahra Hadizadeh, Mohammad T. Hajiaghayi, Mahdi JafariRaviz, Adel Javanmard, Karthik C. S., Ken-ichi Kawarabayashi, Ravi Kumar, Silvio Lattanzi, Euiwoong Lee, Yi Li, Ioannis Panageas, Dimitris Paparas, Benjamin Przybocki, Bernardo Subercaseaux, Ola Svensson, Shayan Taherijam, Xuan Wu, Eylon Yogev, Morteza Zadimoghaddam, Samson Zhou, Yossi Matias, James Manyika, Vahab Mirrokni2026-03-09🤖 cs.AI

Towards Autonomous Mathematics Research

In dit artikel wordt Aletheia, een autonoom wiskundig onderzoekssysteem dat door iteratief genereren, verifiëren en reviseren van oplossingen in natuurlijke taal, geïntroduceerd om de overgang van olympiadeproblemen naar professioneel wiskundig onderzoek te maken, waarbij het zowel volledig door AI gegenereerde papers als mens-AI-samenwerkingen demonstreert.

Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-Tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong2026-03-09🤖 cs.AI

DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

Het paper introduceert DataChef-32B, een model dat via versterkingsleer automatisch optimale datarecepten voor LLM-adaptatie genereert, waarbij de resultaten op diverse taken vergelijkbaar zijn met die van menselijke experts en zelfs de officiële post-training checkpoints van Qwen3-1.7B op het wiskundevakgebied overtreffen.

Yicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen2026-03-09🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

Dit artikel bekritiseert de illusie van een objectieve 'ground truth' in dataannotatie door aan te tonen dat menselijke meningsverschillen vaak ten onrechte als ruis worden behandeld in plaats van als waardevolle signalen, en pleit voor pluralistische annotatie-infrastructuur die culturele diversiteit erkent in plaats van te onderdrukken.

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed2026-03-09🤖 cs.AI

IntelliAsk: Learning to Ask High-Quality Research Questions via RLVR

Dit paper introduceert IntelliAsk, een model dat via versterkingsleer met de IntelliReward-beloning wordt getraind om hoogwaardige, evidence-based onderzoeksvragen te genereren die beter presteren dan bestaande baselines en tegelijkertijd de redeneer- en schrijfcapaciteiten van het model verbeteren.

Karun Sharma, Vidushee Vats, Shengzhi Li, Yuxiang Wang, Zhongtian Sun, Prayag Tiwari2026-03-09🤖 cs.AI

Diverse Word Choices, Same Reference: Annotating Lexically-Rich Cross-Document Coreference

Dit paper introduceert een herziene annotatieschema voor cross-document coreferentieoplossing dat lexische diversiteit en framingvariatie in nieuwsberichten beter vastlegt door coreferentieketens te behandelen als discours-elementen, wat wordt gevalideerd door de herannotatie van de NewsWCL50- en ECB+-datasets.

Anastasia Zhukova, Felix Hamborg, Karsten Donnay, Norman Meuschke, Bela Gipp2026-03-09💬 cs.CL

The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR $\rightarrow$ LLM Pipelines?

Dit paper weerlegt het idee dat spraak-LLM's inherent beter zijn dan ASR-LLM-kaskaders door aan te tonen dat ze in de praktijk vaak inefficiënte kaskaders zijn die bij ruis slechter presteren dan hun tekstuele tegenhangers, aangezien de onderliggende tekstrepresentaties causaal noodzakelijk blijven voor hun redeneervermogen.

Jayadev Billa2026-03-09🤖 cs.AI

Both Ends Count! Just How Good are LLM Agents at "Text-to-Big SQL"?

Dit paper introduceert nieuwe, schaalafhankelijke evaluatiemetrics voor "Text-to-Big SQL" om aan te tonen dat bestaande benchmarks ontoereikend zijn voor het beoordelen van de kosten, latentie en prestaties van LLM-agents in productieomgevingen met grote datasets.

Germán T. Eizaguirre, Lars Tissen, Marc Sánchez-Artigas2026-03-09💬 cs.CL

Modality Collapse as Mismatched Decoding: Information-Theoretic Limits of Multimodal LLMs

Dit artikel toont vanuit een informatie-theoretisch perspectief aan dat modality collapse in multimodale LLM's het gevolg is van een mismatch tussen de decoder en de brondata, waarbij het trainingsdoel van de decoder bepaalt welke informatie toegankelijk is in plaats van de modelarchitectuur of encoder-uitlijning.

Jayadev Billa2026-03-09🤖 cs.AI

CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

Dit paper introduceert CoME, een nieuw mobiel agent-architectuur met gespecialiseerde experts en een progressieve trainingsstrategie die hybride redeneervaardigheden verbetert en foutpropagatie beperkt door middel van informatiewinst-gedreven DPO, wat leidt tot superieure prestaties op AITZ- en AMEX-datasets.

Yuxuan Liu, Weikai Xu, Kun Huang, Changyu Chen, Jiankun Zhao, Pengzhi Gao, Wei Liu, Jian Luan, Shuo Shang, Bo Du, Ji-Rong Wen, Rui Yan2026-03-09🤖 cs.AI

Verify as You Go: An LLM-Powered Browser Extension for Fake News Detection

Dit artikel introduceert Aletheia, een browserextensie die LLM's en Retrieval-Augmented Generation gebruikt om nepnieuws te detecteren en transparante, bewijsgebaseerde uitleg te bieden, wat in experimenten en een gebruikersstudie met 250 deelnemers effectiever bleek dan bestaande oplossingen.

Dorsaf Sallami, Esma Aïmeur2026-03-09💬 cs.CL

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

Het paper introduceert Omni-C, een efficiënte, dichte Transformer-encoder die heterogene modaliteiten comprimeert tot gedeelde representaties zonder MoE-architecturen, waardoor de complexiteit en het geheugengebruik aanzienlijk worden verminderd terwijl de prestaties vergelijkbaar blijven met gespecialiseerde expertmodellen.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de Gusmão2026-03-09🤖 cs.AI

Attention Meets Reachability: Structural Equivalence and Efficiency in Grammar-Constrained LLM Decoding

Dit paper introduceert een theoretisch raamwerk voor grammatica-gedwongen decoding dat bewijst dat taalkundig equivalente grammatica's weliswaar identieke toekenningsmasks opleveren, maar aanzienlijk verschillende computatiekosten kunnen veroorzaken door structurele ambiguïteit, en biedt bovendien onderbouwing voor het optimaliseren van grammatica's en het beperken van de distortie bij het maskeren van logits.

Faruk Alpay, Bilge Senturk2026-03-09🤖 cs.LG

EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

Dit paper introduceert EigenData, een zelfevoluerend multi-agentplatform dat de volledige levenscyclus van function-calling data automatiseert en gebruikt om de Berkeley Function-Calling Leaderboard te auditeren en te repareren, wat resulteert in een betrouwbaardere evaluatie die beter correleert met menselijke oordelen over functionele correctheid.

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di Jin2026-03-09✓ Author reviewed🤖 cs.AI

← Vorige Volgende →

cs.CL