cs.AI artigos | Gist.Science

DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

O artigo apresenta o DataChef-32B, um modelo que utiliza aprendizado por reforço para gerar automaticamente receitas de dados otimizadas para a adaptação de LLMs, alcançando desempenho comparável ou superior ao de especialistas humanos em diversas tarefas.

Yicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen2026-03-09🤖 cs.AI

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

O artigo apresenta o SWE-MiniSandbox, uma abordagem leve e sem containers que utiliza mecanismos isolados no nível do kernel e técnicas de pré-armazenamento para reduzir drasticamente a sobrecarga de disco e o tempo de configuração no treinamento de agentes de engenharia de software por aprendizado por reforço, mantendo desempenho comparável ao dos pipelines baseados em containers.

Danlong Yuan, Wei Wu, Zhengren Wang, Xueliang Zhao, Huishuai Zhang, Dongyan Zhao2026-03-09🤖 cs.AI

Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection

Este artigo propõe uma fórmula de pontuação "Pico + Acumulação" para detectar ataques de injeção de prompts em múltiplas voltas em proxies de LLM sem invocar modelos de linguagem, superando as limitações da média ponderada e alcançando 90,8% de recall com uma taxa de falsos positivos de apenas 1,20% em um conjunto de dados de mais de 10.000 conversas.

J Alex Corll2026-03-09🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

Este artigo analisa criticamente a ilusão da "verdade fundamental" na anotação de dados, argumentando que a busca por consenso suprime a subjetividade legítima e a diversidade cultural, propondo em seu lugar infraestruturas de anotação pluralistas que valorizem o desacordo como um sinal essencial para o desenvolvimento de modelos de aprendizado de máquina culturalmente competentes.

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed2026-03-09🤖 cs.AI

An Adaptive Model Selection Framework for Demand Forecasting under Horizon-Induced Degradation to Support Business Strategy and Operations

Este estudo propõe o AHSIV, um framework adaptativo de seleção de modelos para previsão de demanda que integra métricas de erro ajustadas ao horizonte de previsão e classificação estrutural da demanda para resolver a instabilidade de rankings em ambientes heterogêneos, oferecendo uma solução operacionalmente coerente para decisões multi-SKU.

Adolfo González, Víctor Parada2026-03-09🤖 cs.AI

IntelliAsk: Learning to Ask High-Quality Research Questions via RLVR

O artigo apresenta o IntelliAsk, um modelo treinado com Aprendizado por Reforço via Verificação (RLVR) e uma nova função de recompensa (IntelliReward) para gerar perguntas de revisão de pesquisa de alta qualidade, fundamentadas e substanciais, superando modelos de linha de base e demonstrando melhorias em benchmarks de raciocínio e escrita.

Karun Sharma, Vidushee Vats, Shengzhi Li, Yuxiang Wang, Zhongtian Sun, Prayag Tiwari2026-03-09🤖 cs.AI

The Compute ICE-AGE: Invariant Compute Envelope under Addressable Graph Evolution

Este artigo apresenta resultados empíricos de uma implementação em C++ do "Compute ICE-AGE", um substrato de estado semântico determinístico baseado em grafos que, ao contrário das arquiteturas de IA atuais, mantém uma latência de travessia e um consumo térmico invariantes independentemente do volume de dados, escalando apenas com a capacidade de memória.

Raymond Jay Martin II2026-03-09🤖 cs.AI

FLoRG: Federated Fine-tuning with Low-rank Gram Matrices and Procrustes Alignment

O artigo apresenta o FLoRG, um framework de ajuste fino federado que utiliza agregação de matrizes de Gram de baixa ordem e alinhamento de Procrustes para eliminar erros de agregação, reduzir a deriva de decomposição e diminuir significativamente a sobrecarga de comunicação, superando os métodos existentes em precisão e eficiência.

Chuiyang Meng, Ming Tang, Vincent W. S. Wong2026-03-09🤖 cs.AI

The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR $\rightarrow$ LLM Pipelines?

Este artigo demonstra que os Modelos de Linguagem de Fala (Speech LLMs) atuais comportam-se essencialmente como cascatas dispendiosas de ASR seguidas por LLMs, onde as representações textuais são causalmente necessárias e os benefícios em condições limpas podem inverter-se em cenários ruidosos.

Jayadev Billa2026-03-09🤖 cs.AI

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

O artigo apresenta o EMPO $^2$ , um framework híbrido de aprendizado por reforço que integra memória para aprimorar a exploração e combina atualizações on- e off-policy, resultando em agentes de LLM significativamente mais adaptáveis e com melhor desempenho em tarefas novas e ambientes complexos.

Zeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang2026-03-09🤖 cs.AI

Modality Collapse as Mismatched Decoding: Information-Theoretic Limits of Multimodal LLMs

Este artigo demonstra que o colapso de modalidades em LLMs multimodais é causado por um problema de decodificação incompatível, onde a perda de informação é limitada pelo desajuste distribucional e pela regra de pontuação do decodificador, e não pela arquitetura do modelo, provando que o objetivo de treinamento determina quais informações multimodais permanecem acessíveis.

Jayadev Billa2026-03-09🤖 cs.AI

CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

O artigo apresenta o CoME, uma nova arquitetura de agentes móveis que utiliza quatro especialistas distintos e uma estratégia de treinamento progressiva, juntamente com um método de otimização baseado em ganho de informação, para superar as limitações atuais na integração equilibrada e no aprimoramento desacoplado de capacidades de raciocínio híbrido.

Yuxuan Liu, Weikai Xu, Kun Huang, Changyu Chen, Jiankun Zhao, Pengzhi Gao, Wei Liu, Jian Luan, Shuo Shang, Bo Du, Ji-Rong Wen, Rui Yan2026-03-09🤖 cs.AI

Theory of Code Space: Do Code Agents Understand Software Architecture?

O artigo apresenta o "Theory of Code Space" (ToCS), um benchmark que avalia a capacidade de agentes de IA de construir e manter crenças arquiteturais coerentes em bases de código, revelando que a eficácia da exploração ativa, o uso de mapas de crenças estruturados e a estabilidade da memória variam significativamente entre diferentes modelos de linguagem.

Grigory Sapunov2026-03-09🤖 cs.AI

Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery

Este trabalho propõe uma decomposição funcional de Anel Tensorial reparametrizada, que utiliza Representações Neurais Implícitas e uma estrutura de base fixa para superar as limitações de dados em malhas e melhorar a recuperação de detalhes de alta frequência em tarefas de reconstrução de dados multidimensionais.

Yangyang Xu, Junbo Ke, You-Wei Wen, Chao Wang2026-03-09🤖 cs.AI

How Well Does Agent Development Reflect Real-World Work?

Este estudo revela uma discrepância significativa entre o foco atual no desenvolvimento de agentes de IA (centrado em programação) e a distribuição real do trabalho humano e do valor econômico, propondo princípios para criar benchmarks mais representativos e úteis.

Zora Zhiruo Wang, Sanidhya Vijayvargiya, Aspen Chen, Hanmo Zhang, Venu Arvind Arangarajan, Jett Chen, Valerie Chen, Diyi Yang, Daniel Fried, Graham Neubig2026-03-09🤖 cs.AI

Multimodal Mixture-of-Experts with Retrieval Augmentation for Protein Active Site Identification

O artigo apresenta o MERA, um novo framework de identificação de sítios ativos de proteínas que combina um mecanismo de mistura de especialistas com recuperação hierárquica e uma estratégia de fusão baseada na teoria de evidência de Dempster-Shafer para superar desafios de dados esparsos e confiabilidade de modalidades, alcançando desempenho superior ao estado da arte.

Jiayang Wu, Jiale Zhou, Rubo Wang, Xingyi Zhang, Xun Lin, Tianxu Lv, Leong Hou U, Yefeng Zheng2026-03-09🤖 cs.AI

"When to Hand Off, When to Work Together": Expanding Human-Agent Co-Creative Collaboration through Concurrent Interaction

Este artigo apresenta o sistema CLEO e um modelo de decisão que permitem a agentes de IA interpretar ações humanas em tempo real em artefatos compartilhados, facilitando a colaboração co-criativa dinâmica ao distinguir entre feedback e trabalho independente.

Kihoon Son, Hyewon Lee, DaEun Choi, Yoonsu Kim, Tae Soo Kim, Yoonjoo Lee, John Joon Young Chung, HyunJoon Jung, Juho Kim2026-03-09🤖 cs.AI

Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics

O artigo apresenta o Whisper-RIR-Mega, um novo conjunto de dados de benchmark que emparelha falas limpas do LibriSpeech com suas versões reverberadas usando respostas ao impulso reais, visando avaliar e melhorar a robustez de modelos de reconhecimento automático de fala (ASR) às variações acústicas de ambientes.

Mandip Goswami2026-03-09🤖 cs.AI

Rigidity-Aware Geometric Pretraining for Protein Design and Conformational Ensembles

O artigo apresenta o RigidSSL, um framework de pré-treinamento auto-supervisionado que integra aprendizado geométrico baseado em rigidez e dinâmica molecular para superar limitações atuais na geração de proteínas, melhorando significativamente a projetabilidade, a diversidade e a precisão na modelagem de ensembles conformacionais.

Zhanghan Ni, Yanjing Li, Zeju Qiu, Bernhard Schölkopf, Hongyu Guo, Weiyang Liu, Shengchao Liu2026-03-09🤖 cs.AI

Can LLM Aid in Solving Constraints with Inductive Definitions?

Este artigo propõe uma abordagem neuro-simbólica que integra Grandes Modelos de Linguagem (LLMs) com solucionadores de restrições para gerar lemas auxiliares e verificar conjecturas, demonstrando uma melhoria de cerca de 25% na resolução de tarefas de prova envolvendo definições indutivas em comparação com os solucionadores de última geração.

Weizhi Feng, Shidong Shen, Jiaxiang Liu, Taolue Chen, Fu Song, Zhilin Wu2026-03-09🤖 cs.AI

← Anterior Próximo →

cs.AI