cs.AI artigos | Gist.Science

Beyond Additivity: Sparse Isotonic Shapley Regression toward Nonlinear Explainability

O artigo apresenta a Regressão Isotônica Shapley Esparsa (SISR), um novo framework unificado de explicação não linear que supera as limitações de aditividade e custo computacional dos valores Shapley tradicionais ao aprender simultaneamente uma transformação monótona para restaurar a aditividade e impor esparsidade para identificar características relevantes em espaços de alta dimensão.

Jialai She2026-03-10🤖 cs.LG

Parallel Decoder Transformer: Planner-Seeded Latent Coordination for Synchronized Parallel Decoding

O artigo apresenta o Parallel Decoder Transformer (PDT), uma arquitetura que internaliza a coordenação de geração paralela em modelos de linguagem congelados, utilizando um planejador inicial e um mecanismo de "Dynamic Notes Bus" para sincronizar múltiplos fluxos de decodificação sem depender de orquestração externa.

Logan Robbins2026-03-10💬 cs.CL

Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction

Este trabalho apresenta o MaGRoad, um novo framework baseado em raciocínio centrado em caminhos, e o dataset WildRoad para superar as limitações dos métodos atuais na extração robusta de redes viárias em ambientes off-road, alcançando desempenho superior e maior eficiência inferencial.

Wenfei Guan, Jilin Mei, Tong Shen, Xumin Wu, Shuo Wang, Chen Min, Yu Hu2026-03-10💻 cs

SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks

O artigo apresenta o SALVE, um framework unificado que utiliza autoencoders esparsos e mapeamento de saliência para descobrir, validar e realizar edições precisas no espaço de pesos de redes neurais, permitindo o controle mecânico e interpretável de seus comportamentos.

Vegard Flovik2026-03-10🤖 cs.LG

Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

Este artigo apresenta uma pesquisa abrangente sobre a adaptação de agentes de IA pós-treinamento, organizando o campo fragmentado em um framework de quatro paradigmas que engloba a adaptação do agente e das ferramentas, analisando métodos de pós-treinamento, arquiteturas de memória adaptativa e habilidades de agentes, além de discutir suas compensações, práticas de avaliação e desafios futuros.

Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei Han2026-03-10💬 cs.CL

Meta-RL Induces Exploration in Language Agents

O artigo apresenta o LaMer, um framework de Meta-RL que capacita agentes de linguagem a explorar ativamente e adaptar suas políticas em tempo de execução por meio de reflexão, superando significativamente as abordagens de RL tradicionais em tarefas de longo prazo e ambientes não vistos.

Yulun Jiang, Liangze Jiang, Damien Teney, Michael Moor, Maria Brbic2026-03-10🤖 cs.LG

ReDepth Anything: Test-Time Depth Refinement via Self-Supervised Re-lighting

O artigo apresenta o Re-Depth Anything, um framework de auto-supervisão em tempo de teste que aprimora a estimativa de profundidade monocromática ao fundir modelos fundamentais com priors de modelos de difusão 2D para re-sintetizar a iluminação e refinar a profundidade sem rótulos, superando significativamente os modelos existentes como o Depth Anything V2 e alcançando resultados state-of-the-art ao ser aplicado sobre o Depth Anything 3.

Ananta R. Bhattarai, Helge Rhodin2026-03-10🤖 cs.LG

Cost Trade-offs of Reasoning and Non-Reasoning Large Language Models in Text-to-SQL

Este artigo demonstra que, em ambientes de nuvem como o Google BigQuery, os modelos de linguagem com raciocínio reduzem significativamente os custos de execução de consultas Text-to-SQL ao processarem menos dados e evitarem padrões ineficientes, revelando que a otimização de tempo não garante eficiência financeira e fornecendo diretrizes para mitigar riscos em ambientes corporativos.

Saurabh Deochake, Debajyoti Mukhopadhyay2026-03-10💻 cs

Physics-Informed Neural Networks for Device and Circuit Modeling: A Case Study of NeuroSPICE

O artigo apresenta o NeuroSPICE, um framework baseado em Redes Neurais Informadas pela Física (PINN) que resolve equações diferenciais-algébricas de circuitos e dispositivos para oferecer vantagens em problemas inversos e otimização de projeto, especialmente em sistemas não lineares emergentes como memórias ferroelétricas.

Chien-Ting Tung, Chenming Hu2026-03-10🔬 physics.app-ph

Toward a Physical Theory of Intelligence

Este artigo apresenta o quadro de Codificação Congruente à Conservação (CCE), uma estrutura física unificada que explica a inteligência como um processo termodinâmico emergente, conectando dissipação, medição quântica e geometria do espaço-tempo para derivar limites fundamentais da computação e da consciência.

Peter David Fagan2026-03-10💻 cs

Reliable Grid Forecasting: State Space Models for Safety-Critical Energy Systems

Este artigo propõe um novo quadro de avaliação focado na segurança operacional para previsão de carga elétrica, demonstrando que métricas tradicionais como MAPE são insuficientes para capturar riscos de subprevisão e que, embora a integração explícita de dados meteorológicos e modelos de espaço de estado reduzam a incerteza, a calibração probabilística exige restrições de viés para evitar a "segurança falsa" gerada por superprevisões excessivas.

Sunki Hong, Jisoo Lee2026-03-10⚡ eess

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

O artigo apresenta o DrivingGen, o primeiro benchmark abrangente para modelos de mundo generativos na condução autónoma, que combina um conjunto de dados diversificado com métricas inovadoras para avaliar a realismo visual, a plausibilidade de trajetórias, a coerência temporal e o controlo, preenchendo lacunas críticas na avaliação e fomentando o desenvolvimento de simuladores mais fiáveis e seguros.

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

Batch-of-Thought: Cross-Instance Learning for Enhanced LLM Reasoning

O artigo apresenta o Batch-of-Thought (BoT), um método sem treinamento que melhora o raciocínio de Grandes Modelos de Linguagem ao processar consultas relacionadas em conjunto para identificar padrões compartilhados e detectar erros, resultando em maior precisão e redução de custos de inferência.

Xuan Yang, Furong Jia, Roy Xie, Xiong Xi, Hengwei Bian, Jian Li, Monica Agrawal2026-03-10💻 cs

NC-Bench: An LLM Benchmark for Evaluating Conversational Competence

O NC-Bench é um novo benchmark para avaliar a competência conversacional de modelos de linguagem, focando na estrutura e no formato das interações com base no IBM Natural Conversation Framework, em vez do conteúdo, e revela que, embora os modelos se saiam bem em respostas básicas, enfrentam dificuldades significativas em tarefas de reparo e em solicitações complexas de múltiplas voltas.

Robert J. Moore, Sungeun An, Farhan Ahmed, Jay Pankaj Gala2026-03-10💬 cs.CL

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

Este estudo audita e realiza uma etnografia traçada do preditor LAION-Aesthetics, revelando como seu viés algorítmico reforça o olhar imperial e masculino ao filtrar desproporcionalmente imagens com representações de mulheres, homens e pessoas LGBTQ+, além de priorizar estilos artísticos ocidentais e japoneses, devido à origem de seus dados de treinamento em fotógrafos anglófonos e entusiastas de IA ocidentais.

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu2026-03-10💻 cs

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

O artigo apresenta o "Single-Shot Planning" para Agentes de Uso de Computador, uma arquitetura de segurança que gera um plano de execução completo antes de observar o ambiente, garantindo integridade contra injeções de prompt e ataques de desvio de ramificação enquanto mantém ou melhora o desempenho em modelos de IA.

Hanna Foerster, Tom Blanchard, Kristina Nikolic, Ilia Shumailov, Cheng Zhang, Robert Mullins, Nicolas Papernot, Florian Tramèr, Yiren Zhao2026-03-10💻 cs

BoxMind: Closed-loop AI strategy optimization for elite boxing validated in the 2024 Olympics

O artigo apresenta o BoxMind, um sistema de IA de ciclo fechado que transforma dados de vídeo em estratégias táticas otimizadas, validado durante os Jogos Olímpicos de 2024 com contribuições diretas para o histórico desempenho da equipe nacional de boxe da China.

Kaiwen Wang, Kaili Zheng, Rongrong Deng, Qingmin Fan, Milin Zhang, Zongrui Li, Xuesi Zhou, Bo Han, Liren Chen, Chenyi Guo, Ji Wu2026-03-10💻 cs

Multifaceted Scenario-Aware Hypergraph Learning for Next POI Recommendation

O artigo propõe o MSAHG, um método de aprendizado em hipergrafos que utiliza sub-hipergrafos disjuntos por cenário e um mecanismo de divisão de parâmetros para superar as limitações das abordagens existentes ao capturar padrões de mobilidade específicos e resolver conflitos entre diferentes contextos na recomendação de próximos locais de interesse.

Yuxi Lin, Yongkang Li, Jie Xing, Zipei Fan2026-03-10💻 cs

DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

O artigo apresenta o DevBench, um benchmark baseado em dados reais de desenvolvedores que avalia modelos de linguagem em tarefas de geração de código com alta validade ecológica, oferecendo diagnósticos detalhados sobre precisão sintática, raciocínio semântico e utilidade prática para orientar a seleção e o aprimoramento de modelos.

Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, Elsie Nallipogu2026-03-10🤖 cs.LG

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

O artigo apresenta o MAS-Orchestra, um framework de treinamento que formula a orquestração de agentes como um problema de aprendizado por reforço para gerar sistemas multiagentes de forma holística, e o MASBENCH, um benchmark controlado que demonstra que os benefícios dos sistemas multiagentes dependem criticamente da estrutura da tarefa, permitindo melhorias consistentes e eficiência superior em diversas tarefas de raciocínio.

Zixuan Ke, Yifei Ming, Austin Xu, Ryan Chin, Xuan-Phi Nguyen, Prathyusha Jwalapuram, Jiayu Wang, Semih Yavuz, Caiming Xiong, Shafiq Joty2026-03-10💬 cs.CL

← Anterior Próximo →