cs.AI artigos | Gist.Science

Reasoning Models Struggle to Control their Chains of Thought

O artigo introduz a suite de avaliação CoT-Control e demonstra que os modelos de raciocínio atuais possuem uma capacidade significativamente baixa de controlar seus pensamentos internos (CoT) em comparação com suas respostas finais, o que oferece uma cautela otimista sobre a viabilidade da monitorização de CoT, embora o mecanismo subjacente permaneça pouco compreendido.

Chen Yueh-Han, Robert McCarthy, Bruce W. Lee, He He, Ian Kivlichan, Bowen Baker, Micah Carroll, Tomek Korbak2026-03-09🤖 cs.AI

The Rise of AI in Weather and Climate Information and its Impact on Global Inequality

O artigo alerta que a rápida adoção da IA na ciência climática, embora prometa avanços, corre o risco de ampliar a desigualdade global ao concentrar infraestrutura e dados no Norte Global, exigindo uma mudança de paradigma para uma abordagem centrada em dados, infraestrutura digital pública e co-produção de conhecimento para garantir equidade e resiliência sistêmica.

Amirpasha Mozaffari, Amanda Duarte, Lina Teckentrup, Stefano Materia, Gina E. C. Charnley, Lluis Palma, Eulalia Baulenas Serra, Dragana Bojovic, Paula Checchia, Aude Carreric, Francisco Doblas-Reyes2026-03-09🤖 cs.AI

Cultural Perspectives and Expectations for Generative AI: A Global Survey Approach

Este artigo apresenta os resultados de uma pesquisa global que analisa as atitudes e crenças sobre como a Inteligência Artificial Generativa deve representar culturas, propondo definições de cultura extraídas das próprias comunidades e recomendando abordagens participativas e um quadro de sensibilidade para lidar com limites culturais.

Erin van Liemt, Renee Shelby, Andrew Smart, Sinchana Kumbale, Richard Zhang, Neha Dixit, Qazi Mamunur Rashid, Jamila Smith-Loud2026-03-09🤖 cs.AI

LTLGuard: Formalizing LTL Specifications with Compact Language Models and Lightweight Symbolic Reasoning

O artigo apresenta o LTLGuard, uma ferramenta modular que combina geração com restrições e verificação formal leve para permitir que modelos de linguagem compactos (4B–14B parâmetros) traduzam requisitos informais em especificações de LTL corretas e consistentes, superando as limitações de modelos menores em lógica temporal.

Medina Andresel, Cristinel Mateis, Dejan Nickovic, Spyridon Kounoupidis, Panagiotis Katsaros, Stavros Tripakis2026-03-09🤖 cs.AI

Revisiting the (Sub)Optimality of Best-of-N for Inference-Time Alignment

Este artigo demonstra que, ao analisar a taxa de vitória em vez da recompensa esperada, a amostragem Best-of-N (BoN) é estatisticamente ótima para alinhamento em tempo de inferência e propõe uma variante prática que elimina o "reward hacking" mantendo essa otimalidade.

Ved Sriraman, Adam Block2026-03-09🤖 cs.AI

TML-Bench: Benchmark for Data Science Agents on Tabular ML Tasks

Este artigo apresenta o TML-Bench, um novo benchmark para avaliar agentes de ciência de dados autônomos em tarefas de aprendizado de máquina tabular baseadas em competições do Kaggle, demonstrando que o modelo MiniMax-M2.1 obteve o melhor desempenho agregado entre os 10 modelos de linguagem de código aberto testados sob diferentes limites de tempo.

Mykola Pinchuk2026-03-09🤖 cs.AI

Bridging Domains through Subspace-Aware Model Merging

O artigo propõe o método SCORE, que resolve conflitos de subespaço entre modelos treinados em domínios distintos ao projetá-los em uma base ortogonal compartilhada, melhorando significativamente a generalização de domínio em tarefas de fusão de modelos.

Levy Chaves, Chao Zhou, Rebekka Burkholz, Eduardo Valle, Sandra Avila2026-03-09🤖 cs.AI

Depth Charge: Jailbreak Large Language Models from Deep Safety Attention Heads

O artigo propõe o SAHA, um novo framework de jailbreak que explora vulnerabilidades em cabeças de atenção profundas de modelos de linguagem abertos, utilizando uma estratégia de seleção baseada em impacto de ablação e perturbação sensível a limites para superar defesas existentes com maior taxa de sucesso.

Jinman Wu, Yi Xie, Shiqian Zhao, Xiaofeng Chen2026-03-09🤖 cs.AI

Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models

Este artigo propõe a Hipótese de Segurança Desentrelaçada (DSH), demonstrando que os mecanismos de segurança em Grandes Modelos de Linguagem operam em subespaços geométricos distintos para "saber" e "agir", o que permite a criação de ataques de evasão eficazes que separam o reconhecimento de conteúdo nocivo da recusa em respondê-lo.

Jinman Wu, Yi Xie, Shen Lin, Shiqian Zhao, Xiaofeng Chen2026-03-09🤖 cs.AI

PVminerLLM: Structured Extraction of Patient Voice from Patient-Generated Text using Large Language Models

O artigo apresenta o PVminer, um benchmark, e o PVminerLLM, um modelo de linguagem supervisionado que supera as abordagens baseadas em prompts na extração estruturada de "voz do paciente" a partir de textos gerados por eles, permitindo a análise escalável de fatores não clínicos que influenciam os resultados de saúde.

Samah Fodeh, Linhai Ma, Ganesh Puthiaraju, Srivani Talakokkul, Afshan Khan, Ashley Hagaman, Sarah Lowe, Aimee Roundtree2026-03-09🤖 cs.AI

Balancing Domestic and Global Perspectives: Evaluating Dual-Calibration and LLM-Generated Nudges for Diverse News Recommendation

Este estudo avalia um framework de "nudge" personalizado para diversidade em recomendações de notícias, demonstrando que um algoritmo de calibração dupla eficazmente amplia a exposição e o consumo de notícias domésticas e globais, enquanto a apresentação baseada em LLM tem impacto variável, sugerindo que a exposição longitudinal pode alterar os hábitos de leitura dos usuários em direção a um equilíbrio entre esses temas.

Ruixuan Sun, Matthew Zent, Minzhu Zhao, Thanmayee Boyapati, Xinyi Li, Joseph A. Konstan2026-03-09🤖 cs.AI

Visual Words Meet BM25: Sparse Auto-Encoder Visual Word Scoring for Image Retrieval

O artigo apresenta o BM25-V, um método de recuperação de imagens que aplica a pontuação Okapi BM25 a ativações esparsas de "palavras visuais" derivadas de um Autoencoder Esparsos (SAE) em features de Vision Transformers, oferecendo uma abordagem eficiente, interpretável e de alta precisão que rivaliza com métodos densos ao utilizar um índice invertido para selecionar candidatos e um reordenamento posterior.

Donghoon Han, Eunhwan Park, Seunghyeon Seo2026-03-09🤖 cs.AI

Proof-of-Guardrail in AI Agents and What (Not) to Trust from It

Este artigo propõe o "Proof-of-Guardrail", um sistema que utiliza Ambientes de Execução Confiáveis (TEE) para fornecer provas criptográficas verificáveis de que as respostas de agentes de IA foram processadas por guardrails de segurança específicos, garantindo a integridade da execução sem revelar o agente proprietário, embora alerte para riscos persistentes de desvio de segurança por desenvolvedores mal-intencionados.

Xisen Jin, Michael Duan, Qin Lin, Aaron Chan, Zhenglun Chen, Junyi Du, Xiang Ren2026-03-09🤖 cs.AI

StreamWise: Serving Multi-Modal Generation in Real-Time at Scale

O artigo apresenta o StreamWise, um sistema de serviço adaptativo e modular que viabiliza a geração em tempo real de podcasts multimodais em escala, otimizando o uso de hardware heterogêneo e gerenciando dinamicamente a qualidade e os recursos para equilibrar latência, custo e fidelidade.

Haoran Qiu, Gohar Irfan Chaudhry, Chaojie Zhang, Íñigo Goiri, Esha Choukse, Rodrigo Fonseca, Ricardo Bianchini2026-03-09🤖 cs.AI

Ambiguity Collapse by LLMs: A Taxonomy of Epistemic Risks

Este artigo introduz o conceito de "colapso de ambiguidade" em modelos de linguagem, apresentando uma taxonomia dos riscos epistêmicos que surgem quando esses sistemas impõem resoluções únicas a termos ambíguos, e propõe princípios de mitigação para preservar a negociação humana de significados.

Shira Gur-Arieh, Angelina Wang, Sina Fazelpour2026-03-09🤖 cs.AI

Margin and Consistency Supervision for Calibrated and Robust Vision Models

O artigo apresenta o MaCS (Margin and Consistency Supervision), um framework de regularização simples e agnóstico à arquitetura que, ao combinar uma penalidade de margem no espaço de logits com um regularizador de consistência, melhora significativamente a calibração e a robustez de modelos de visão computacional sem comprometer a precisão ou exigir alterações estruturais.

Salim Khazem2026-03-09🤖 cs.AI

Lexara: A User-Centered Toolkit for Evaluating Large Language Models for Conversational Visual Analytics

O artigo apresenta o Lexara, um kit de ferramentas centrado no usuário que facilita a avaliação de Modelos de Linguagem Grande para Análise Visual Conversacional, oferecendo casos de teste realistas, métricas interpretáveis para qualidade visual e linguística, e uma interface interativa que dispensa conhecimentos de programação.

Srishti Palani, Vidya Setlur2026-03-09🤖 cs.AI

Evaluating LLM Alignment With Human Trust Models

Este trabalho apresenta uma análise de caixa branca do modelo EleutherAI/gpt-j-6B que demonstra, por meio de comparação de similaridade de cosseno no espaço de ativação, que suas representações internas de confiança alinham-se mais fortemente com o modelo socio-cognitivo de Castelfranchi do que com outras teorias humanas estabelecidas.

Anushka Debnath, Stephen Cranefield, Bastin Tony Roy Savarimuthu, Emiliano Lorini2026-03-09🤖 cs.AI

Remote Sensing Image Classification Using Deep Ensemble Learning

Este artigo propõe um modelo de ensemble que combina quatro fusões independentes de Redes Neurais Convolucionais (CNNs) e Vision Transformers (ViTs) para superar limitações de arquiteturas individuais, alcançando alta precisão na classificação de imagens de sensoriamento remoto com uso eficiente de recursos computacionais.

Niful Islam, Md. Rayhan Ahmed, Nur Mohammad Fahad, Salekul Islam, A. K. M. Muzahidul Islam, Saddam Mukta, Swakkhar Shatabda2026-03-09🤖 cs.AI

Evolving Medical Imaging Agents via Experience-driven Self-skill Discovery

O artigo apresenta o MACRO, um agente médico autônomo que evolui dinamicamente ao descobrir e sintetizar novas ferramentas compostas a partir de experiências passadas, superando a rigidez dos sistemas estáticos e melhorando a precisão e a generalização na interpretação de imagens médicas.

Lin Fan, Pengyu Dai, Zhipeng Deng, Haolin Wang, Xun Gong, Yefeng Zheng, Yafei Ou2026-03-09🤖 cs.AI

← Anterior Próximo →