cs.AI artigos | Gist.Science

Offline Dynamic Inventory and Pricing Strategy: Addressing Censored and Dependent Demand

Este artigo propõe dois novos algoritmos baseados em dados para estimar políticas ótimas de precificação e controle de estoque em ambientes offline com demanda censurada e dependente, superando desafios como a perda da propriedade de Markov e a não estacionariedade através de aproximações de MDPs de alta ordem e análise de sobrevivência.

Korel Gundem, Zhengling Qi2026-03-12📊 stat

Scalable Multi-Task Learning through Spiking Neural Networks with Adaptive Task-Switching Policy for Intelligent Autonomous Agents

O artigo apresenta o SwitchMT, uma metodologia inovadora que utiliza Redes Neurais de Spiking com uma política de alternância de tarefas adaptativa para superar a interferência entre tarefas e permitir a aprendizagem multi-tarefa escalável e eficiente em agentes autônomos com recursos limitados.

Rachmad Vidya Wicaksana Putra, Avaneesh Devkota, Muhammad Shafique2026-03-12🤖 cs.AI

Large Language Model Psychometrics: A Systematic Review of Evaluation, Validation, and Enhancement

Este artigo de revisão sintetiza o campo emergente da Psicometria de Grandes Modelos de Linguagem (LLMs), integrando teorias e instrumentos psicológicos para estabelecer novos paradigmas de avaliação, validação e aprimoramento que visam alinhar os sistemas de IA com a inteligência humana e promover benefícios sociais.

Haoran Ye, Jing Jin, Yuhang Xie, Xin Zhang, Guojie Song2026-03-12💬 cs.CL

REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?

O artigo apresenta o REI-Bench, o primeiro benchmark para planejamento de tarefas robóticas que modela instruções vagas baseadas em expressões referenciais, demonstrando que essa ambiguidade degrada significativamente o desempenho dos modelos e propondo uma abordagem de "cognição contextual orientada a tarefas" para gerar instruções claras e melhorar a acessibilidade para usuários não especialistas, como idosos e crianças.

Chenxi Jiang, Chuhao Zhou, Jianfei Yang2026-03-12💬 cs.CL

Training with Pseudo-Code for Instruction Following

O artigo propõe uma abordagem de ajuste fino que utiliza representações de pseudocódigo para melhorar a capacidade dos modelos de linguagem em seguir instruções, resultando em ganhos significativos de desempenho em benchmarks de instrução, raciocínio matemático e senso comum.

Prince Kumar, Rudra Murthy, Riyaz Bhat, Danish Contractor2026-03-12💬 cs.CL

LLLMs: A Data-Driven Survey of Evolving Research on Limitations of Large Language Models

Este artigo apresenta uma revisão semiautomatizada e orientada por dados de pesquisas sobre as limitações de modelos de linguagem grandes (LLLMs) entre 2022 e 2025, identificando um crescimento acelerado do tema e mapeando suas principais tendências, como raciocínio, alucinação e segurança, por meio da análise de um vasto corpus de publicações.

Aida Kostikova, Zhipin Wang, Deidamea Bajri, Ole Pütz, Benjamin Paaßen, Steffen Eger2026-03-12💬 cs.CL

Consistency-based Abductive Reasoning over Perceptual Errors of Multiple Pre-trained Models in Novel Environments

Este artigo propõe um quadro de raciocínio abduzido baseado em consistência que integra previsões de múltiplos modelos pré-treinados para mitigar a degradação de desempenho em ambientes novos, utilizando regras lógicas para selecionar um subconjunto de previsões que maximize a cobertura mantendo inconsistências abaixo de um limite, resultando em ganhos significativos de precisão e recall em comparação com modelos individuais e ensembles padrão.

Mario Leiva, Noel Ngu, Joshua Shay Kricheli, Aditya Taparia, Ransalu Senanayake, Paulo Shakarian, Nathaniel Bastian, John Corcoran, Gerardo Simari2026-03-12🤖 cs.AI

Comparative Analysis of Modern Machine Learning Models for Retail Sales Forecasting

Este estudo demonstra que, para previsão de vendas no varejo com demanda intermitente e dados incompletos, métodos baseados em árvores como o XGBoost superam arquiteturas de aprendizado profundo, indicando que a adequação às características do problema é mais crucial do que a sofisticação do modelo.

Luka Hobor, Mario Brcic, Lidija Polutnik, Ante Kapetanovic2026-03-12🤖 cs.LG

Self-Improving Loops for Visual Robotic Planning

O artigo apresenta o SILVR, um método que permite que modelos de vídeo para planejamento robótico melhorem continuamente de forma online através de loops de autoaprendizagem em trajetórias geradas por si mesmos, alcançando melhor desempenho em tarefas novas sem depender de recompensas humanas ou demonstrações de especialistas.

Calvin Luo, Zilai Zeng, Mingxi Jia, Yilun Du, Chen Sun2026-03-12🤖 cs.AI

Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

O artigo apresenta o ReLIFT, uma abordagem inovadora que intercala aprendizado por reforço (RL) e ajuste fino supervisionado (SFT) online para superar as limitações do RL ao adquirir novos conhecimentos e padrões de raciocínio, demonstrando melhorias significativas em benchmarks de alto nível com uso reduzido de dados.

Lu Ma, Hao Liang, Meiyi Qiang, Lexiang Tang, Xiaochen Ma, Zhen Hao Wong, Junbo Niu, Chengyu Shen, Runming He, Yanhao Li, Bin Cui, Wentao Zhang2026-03-12🤖 cs.AI

Differential Privacy in Machine Learning: A Survey from Symbolic AI to LLMs

Esta pesquisa oferece uma visão abrangente da evolução da privacidade diferencial, desde a IA simbólica até os Grandes Modelos de Linguagem, analisando suas definições fundamentais, métodos de integração em modelos de aprendizado de máquina e técnicas de avaliação prática para garantir sistemas de IA seguros e responsáveis.

Francisco Aguilera-Martínez, Fernando Berzal2026-03-12🤖 cs.AI

Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation

Este artigo apresenta a Decodificação Paralela Consciente da Localidade (LPD), uma nova abordagem que acelera significativamente a geração autoregressiva de imagens ao reduzir drasticamente o número de passos de inferência e a latência, mantendo a qualidade visual através de um modelo de geração paralelizada flexível e de uma ordenação de geração otimizada.

Zhuoyang Zhang, Luke J. Huang, Chengyue Wu, Shang Yang, Kelly Peng, Yao Lu, Song Han2026-03-12🤖 cs.AI

Technological folie à deux: Feedback Loops Between AI Chatbots and Mental Illness

O artigo alerta que a interação entre chatbots de IA e usuários com condições de saúde mental pode criar ciclos de feedback perigosos que exacerbam a desestabilização de crenças e o isolamento social, exigindo uma resposta coordenada entre práticas clínicas, desenvolvimento de IA e regulamentação para mitigar esses riscos emergentes de saúde pública.

Sebastian Dohnány, Zeb Kurth-Nelson, Eleanor Spens, Lennart Luettgau, Alastair Reid, Iason Gabriel, Christopher Summerfield, Murray Shanahan, Matthew M Nour2026-03-12🧬 q-bio

What Makes Code Generation Ethically Sourced?

Este artigo introduz o conceito de Geração de Código com Origem Ética (ES-CodeGen), estabelecendo uma taxonomia de 11 dimensões e identificando consequências relevantes por meio de uma revisão de literatura e uma pesquisa com profissionais, com o objetivo de promover práticas éticas e sustentáveis em todo o ciclo de desenvolvimento de modelos de geração de código.

Zhuolin Xu, Chenglin Li, Qiushi Li, Shin Hwei Tan2026-03-12🤖 cs.AI

IntrinsicWeather: Controllable Weather Editing in Intrinsic Space

O artigo apresenta o IntrinsicWeather, um framework baseado em difusão que realiza edição controlada de condições climáticas no espaço intrínseco, superando métodos existentes ao decompor a imagem em mapas de material, geometria e iluminação para gerar resultados mais precisos em cenas ao ar livre, com aplicações promissoras para a robustez de sistemas de direção autônoma.

Yixin Zhu, Zuo-Liang Zhu, Jian Yang + 3 more2026-03-12🤖 cs.AI

Shadow in the Cache: Unveiling and Mitigating Privacy Risks of KV-cache in LLM Inference

Este artigo revela que o cache KV em modelos de linguagem grandes (LLMs) expõe dados sensíveis a ataques de reconstrução e propõe o KV-Cloak, um mecanismo de defesa leve e reversível que protege a privacidade sem comprometer a precisão ou o desempenho do modelo.

Zhifan Luo, Shuo Shao, Su Zhang, Lijing Zhou, Yuke Hu, Chenxu Zhao, Zhihao Liu, Zhan Qin2026-03-12💬 cs.CL

The Yokai Learning Environment: Tracking Beliefs Over Space and Time

Este artigo apresenta o Yokai Learning Environment (YLE), um novo benchmark de código aberto para coordenação zero-shot que supera as limitações do Hanabi Learning Environment ao exigir que agentes cooperantes construam terreno comum através do rastreamento de crenças sobre cartas móveis e do raciocínio sob dicas ambíguas, revelando que os métodos de IA de última geração que dominam o Hanabi falham em manter modelos internos consistentes com parceiros desconhecidos no YLE.

Constantin Ruhdorfer, Matteo Bortoletto, Johannes Forkel, Jakob Foerster, Andreas Bulling2026-03-12🤖 cs.AI

From Next Token Prediction to (STRIPS) World Models

Este artigo investiga se a previsão do próximo token pode gerar modelos de mundo capazes de planejamento em ambientes simbólicos, demonstrando que, embora o modelo "STRIPS Transformer" tenha um viés indutivo forte, um transformer padrão com atenção de quebra de vara (stick-breaking) alcança maior precisão e generalização, permitindo a extração de modelos STRIPS válidos para planejamento em estados e objetivos não vistos.

Carlos Núñez-Molina, Vicenç Gómez, Hector Geffner2026-03-12🤖 cs.AI

Global Minimizers of Sigmoid Contrastive Loss

Este artigo explica teoricamente as vantagens de sincronizar temperatura e viés treináveis na função de perda sigmoidal, introduzindo o conceito de "Constelações" para justificar o sucesso do modelo SigLIP, elucidar o fenômeno do "modality gap" e determinar a dimensão necessária para representações de alta qualidade.

Kiril Bangachev, Guy Bresler, Iliyas Noman, Yury Polyanskiy2026-03-12🤖 cs.LG

RADAR: Reasoning-Ability and Difficulty-Aware Routing for Reasoning LLMs

O RADAR é um framework de roteamento leve e interpretável que otimiza o desempenho e o custo de modelos de raciocínio ao direcionar consultas com base em sua dificuldade e na capacidade dos modelos em diferentes orçamentos de raciocínio.

Nigel Fernandez, Branislav Kveton, Ryan A. Rossi, Andrew S. Lan, Zichao Wang2026-03-12🤖 cs.AI

← Anterior Próximo →