cs.AI artigos | Gist.Science

A Consequentialist Critique of Binary Classification Evaluation: Theory, Practice, and Tools

Este artigo propõe uma crítica consequencialista à avaliação de classificação binária, defendendo a adoção de regras de pontuação adequadas como o escore Brier em vez de métricas de limiar fixo, e oferece um novo framework teórico, uma variante do escore Brier e a ferramenta prática `briertools` para alinhar a avaliação de modelos de aprendizado de máquina com a utilidade decisória real.

Gerardo Flores, Abigail Schiff, Alyssa H. Smith, Julia A Fukuyama, Ashia C. Wilson2026-03-11🤖 cs.AI

MCP Bridge: A Lightweight, LLM-Agnostic RESTful Proxy for Model Context Protocol Servers

Este artigo apresenta o MCP Bridge, um proxy RESTful leve e agnóstico a modelos que supera as limitações de execução local do Protocolo de Contexto de Modelo (MCP) ao oferecer conectividade segura e multiplataforma, complementado por modelos Qwen otimizados via aprendizado por reforço que alcançam desempenho superior em tarefas de ferramentas.

Arash Ahmadi, Sarah Sharif, Yaser M. Banad2026-03-11🤖 cs.AI

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

O artigo apresenta o Stepwise Guided Policy Optimization (SGPO), uma nova abordagem que mitiga a limitação do GRPO em grupos de amostras inteiramente incorretas ao introduzir diversidade de respostas via um modelo julgador passo a passo, acelerando assim o aprendizado de modelos de linguagem grandes em tarefas de raciocínio sem exigir que o julgador gere soluções corretas.

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi Lin2026-03-11🤖 cs.AI

Let's Verify Math Questions Step by Step

O artigo apresenta o MathQ-Verify, um pipeline de cinco etapas que valida rigorosamente a validade e a completude de problemas matemáticos, filtrando questões mal formuladas e superando os métodos existentes em benchmarks ao reduzir o ruído nos dados de treinamento de modelos de linguagem.

Chengyu Shen, Zhen Hao Wong, Runming He, Hao Liang, Meiyi Qiang, Zimo Meng, Zhengyang Zhao, Bohan Zeng, Zhengzhou Zhu, Bin Cui, Wentao Zhang2026-03-11🤖 cs.AI

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

O artigo apresenta o UltraEdit, um método de edição de modelos de linguagem que dispensa treinamento, dados de sujeitos e memória, permitindo atualizações de conhecimento em tempo real com alta eficiência e escalabilidade em GPUs de consumo, além de introduzir o UltraEditBench, o maior conjunto de dados do campo com mais de 2 milhões de pares de edição.

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai Zhang2026-03-11🤖 cs.AI

SATURN: SAT-based Reinforcement Learning to Unleash LLMs Reasoning

O artigo apresenta o Saturn, um framework de Aprendizado por Reforço baseado em Problemas de Satisfatibilidade Booleana (SAT) que supera as limitações de escalabilidade, verificabilidade e controle de dificuldade das tarefas existentes, permitindo treinar LLMs com um currículo progressivo que resulta em melhorias significativas tanto na resolução de problemas SAT quanto em tarefas gerais de matemática e programação.

Huanyu Liu, Ge Li, Jia Li, Hao Zhu, Kechi Zhang, Yihong Dong2026-03-11🤖 cs.AI

Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities

O artigo apresenta o Daily-Omni, um novo benchmark de perguntas e respostas multimodais focado em raciocínio temporal entre áudio e vídeo, que revela que os atuais Modelos de Linguagem Multimodal ainda enfrentam dificuldades significativas na alinhamento temporal robusto entre essas modalidades.

Ziwei Zhou, Rui Wang, Zuxuan Wu, Yu-Gang Jiang2026-03-11🤖 cs.AI

Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review

Este artigo apresenta a primeira revisão sistemática sobre a integração de modelos fundamentais na robótica de serviços móveis, analisando como essas tecnologias superam desafios técnicos e éticos para habilitar robôs mais adaptáveis, seguros e socialmente responsivos em ambientes reais.

Matthew Lisondra, Beno Benhabib, Goldie Nejat2026-03-11💬 cs.CL

Rating Quality of Diverse Time Series Data by Meta-learning from LLM Judgment

O artigo apresenta o TSRating, um novo framework unificado que utiliza o julgamento de Grandes Modelos de Linguagem (LLMs) e um esquema de meta-aprendizado para avaliar com precisão e eficiência a qualidade de séries temporais provenientes de diversos domínios, superando as limitações dos métodos existentes.

Shunyu Wu, Dan Li, Wenjie Feng, Haozheng Ye, Jian Lou, See-Kiong Ng2026-03-11🤖 cs.AI

Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

Este trabalho propõe o CORA, um método de atribuição de crédito em aprendizado por reforço multiagente cooperativo que utiliza a alocação do núcleo da teoria dos jogos cooperativos para estimar vantagens baseadas em coalizões e promover comportamentos coordenados ótimos, superando as limitações das abordagens tradicionais de compartilhamento global de vantagem.

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang Li2026-03-11🤖 cs.AI

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

O artigo apresenta o ChannelTokenFormer, um framework baseado em Transformer que resolve simultaneamente os desafios de dependências entre canais, amostragem assíncrona e valores ausentes em previsões de séries temporais multivariadas do mundo real, demonstrando superior robustez e precisão em benchmarks públicos e dados industriais privados.

Jinkwan Jang, Hyungjin Park, Jinmyeong Choi, Taesup Kim2026-03-11🤖 cs.AI

ConLID: Supervised Contrastive Learning for Low-Resource Language Identification

O artigo propõe o ConLID, uma abordagem de aprendizado contrastivo supervisionado que melhora a identificação de idiomas em línguas de baixo recurso ao aprender representações invariantes a domínios, superando limitações de dados unidomínio sem prejudicar o desempenho em línguas de alto recurso.

Negar Foroutan, Jakhongir Saydaliev, Ye Eun Kim, Antoine Bosselut2026-03-11🤖 cs.AI

OPENXRD: A Comprehensive Benchmark Framework for LLM/MLLM XRD Question Answering

O artigo apresenta o OPENXRD, um framework abrangente de benchmarking para avaliar a capacidade de modelos de linguagem (LLMs) e multimodais (MLLMs) de assimilar informações contextuais em perguntas sobre difração de raios-X, demonstrando que materiais revisados por especialistas e modelos de porte médio obtêm os maiores ganhos de desempenho em comparação com conteúdos gerados por IA e modelos muito grandes.

Ali Vosoughi, Ayoub Shahnazari, Yufeng Xi, Zeliang Zhang, Griffin Hess, Chenliang Xu, Niaz Abdolrahim2026-03-11🤖 cs.AI

On the mechanical creation of mathematical concepts

O artigo propõe um modelo de resolução de problemas matemáticos como um ciclo de atualização de crenças, distinguindo entre conceitos implícitos e explícitos, e argumenta que a criação de conceitos explícitos é o passo fundamental da descoberta matemática, uma capacidade que os sistemas de IA atuais ainda não possuem.

Asvin G2026-03-11🤖 cs.AI

QSpark: Towards Reliable Qiskit Code Generation

O artigo apresenta o QSpark, um modelo de linguagem fine-tuned com técnicas de RL (ORPO e GRPO) que supera as bases gerais na geração de código Qiskit resiliente, alcançando 56,29% de precisão em tarefas humanas, embora ainda enfrente desafios em problemas avançados.

Kiana Kheiri, Aamna Aamir, Andriy Miranskyy + 1 more2026-03-11🤖 cs.AI

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

O artigo apresenta a Latent Policy Steering (LPS), uma abordagem que aprimora políticas visuomotoras em cenários com poucos dados ao pré-treinar um Modelo de Mundo usando fluxo óptico como representação de ação agnóstica ao corpo, permitindo aproveitar dados de múltiplas efetuações e, subsequentemente, selecionar as melhores ações para o robô-alvo, resultando em melhorias significativas de desempenho tanto em simulação quanto no mundo real.

Yiqi Wang, Mrinal Verghese, Jeff Schneider2026-03-11🤖 cs.AI

MMGraphRAG: Bridging Vision and Language with Interpretable Multimodal Knowledge Graphs

O artigo apresenta o MMGraphRAG, um método inovador que integra gráficos de cena visuais a grafos de conhecimento textuais através da técnica SpecLink e do conjunto de dados CMEL, superando as limitações atuais dos sistemas GraphRAG ao permitir raciocínio multimodal interpretável e alcançar desempenho superior em tarefas complexas.

Xueyao Wan, Hang Yu2026-03-11🤖 cs.AI

Debiasing International Attitudes: LLM Agents for Simulating US-China Perception Changes

Este estudo apresenta um framework baseado em agentes de LLM para simular a evolução das atitudes dos cidadãos dos EUA em relação à China entre 2005 e 2025, demonstrando que a introdução de um agente "advogado do diabo" é a estratégia mais eficaz para mitigar vieses de mídia e promover opiniões mais alinhadas com a cognição humana, ao mesmo tempo que revela vieses inerentes dependentes da origem geográfica dos modelos.

Nicholas Sukiennik, Yichuan Xu, Yuqing Kan, Jinghua Piao, Yuwei Yan, Chen Gao, Yong Li2026-03-11🤖 cs.AI

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

O artigo propõe o método SFDA-PFT, uma abordagem leve de adaptação de domínio sem fonte que utiliza tradução de características no espaço latente para personalizar modelos de reconhecimento de expressões faciais usando apenas dados de alvo neutros, superando as limitações de métodos existentes e evitando a geração instável de imagens.

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric Granger2026-03-11🤖 cs.AI

AI Blob! LLM-Driven Recontextualization of Italian Television Archives

O artigo apresenta o "AI Blob!", um sistema experimental que utiliza modelos de linguagem e tecnologias semânticas para catalogar, recuperar e recontextualizar automaticamente arquivos de televisão italiana, gerando montagens narrativas que emulam a ironia e a coesão temática do programa original "Blob".

Roberto Balestri2026-03-11💬 cs.CL

← Anterior Próximo →