cs.AI artigos | Gist.Science

Off-Trajectory Reasoning: Can LLMs Collaborate on Reasoning Trajectory?

Este artigo investiga a capacidade de modelos de linguagem de raciocínio colaborarem em trajetórias compartilhadas, revelando que modelos mais fortes são frequentemente mais frágeis a distrações e incapazes de superar suas limitações inatas ao seguir orientações de outros, além de destacar como estratégias de pós-treinamento influenciam essas falhas.

Aochong Oliver Li, Tanya Goyal2026-03-04🤖 cs.AI

Mitigating Over-Refusal in Aligned Large Language Models via Inference-Time Activation Energy

Este trabalho apresenta a "Energy Landscape Steering" (ELS), uma abordagem livre de ajuste fino que utiliza um modelo externo baseado em energia para orientar as ativações internas de modelos de linguagem durante a inferência, mitigando eficazmente a recusa excessiva a solicitações benignas sem comprometer a segurança.

Eric Hanchen Jiang, Weixuan Ou, Run Liu + 8 more2026-03-04📊 stat

Reducing Belief Deviation in Reinforcement Learning for Active Reasoning

O artigo propõe o método $\mathbf{T^3}$ , que detecta e truncar trajetórias de treinamento com desvio de crença excessivo em agentes de raciocínio ativo de LLMs, melhorando a estabilidade do treinamento, o desempenho e a eficiência de custos ao preservar créditos para ações informativas.

Deyu Zou, Yongqiang Chen, Jianxiang Wang + 5 more2026-03-04🤖 cs.AI

Self-Aug: Query and Entropy Adaptive Decoding for Large Vision-Language Models

Este artigo apresenta o "Self-Aug", uma estratégia de decodificação sem treinamento para Modelos Visuais-Linguísticos de Grande Escala que combina uma estratégia de prompt de auto-aumento dependente da consulta e um algoritmo de limiar adaptativo baseado em entropia para mitigar alucinações e melhorar a consistência factual.

Eun Woo Im, Muhammad Kashif Ali, Vivek Gupta2026-03-04🤖 cs.AI

Every Language Model Has a Forgery-Resistant Signature

Este trabalho demonstra que as saídas de todos os modelos de linguagem possuem uma assinatura de forgery-resistente baseada em restrições geométricas naturais (uma elipse de alta dimensão), permitindo a identificação da fonte do modelo e a verificação de autenticidade sem acesso aos seus pesos ou entradas.

Matthew Finlayson, Xiang Ren, Swabha Swayamdipta2026-03-04🤖 cs.AI

xLLM Technical Report

O artigo apresenta o xLLM, um framework de inferência de LLMs de alto desempenho e escala empresarial que utiliza uma arquitetura desacoplada de serviço e motor com agendamento inteligente, gerenciamento global de KV Cache e otimizações de execução para maximizar a eficiência e o throughput em diversos aceleradores de IA.

Tongxuan Liu, Tao Peng, Peijun Yang + 50 more2026-03-04🤖 cs.AI

Inpainting the Red Planet: Diffusion Models for the Reconstruction of Martian Environments in Virtual Reality

Este trabalho propõe o uso de um modelo de difusão incondicional treinado em dados do HiRISE para reconstruir com maior precisão e coerência geométrica as áreas faltantes de mapas de altura de Marte, superando significativamente as técnicas tradicionais de interpolação e preenchimento de vazios.

Giuseppe Lorenzo Catalano, Agata Marta Soccini2026-03-04🤖 cs.AI

WebDevJudge: Evaluating (M)LLMs as Critiques for Web Development Quality

O artigo apresenta o WebDevJudge, um benchmark sistemático para avaliar o desempenho de modelos de linguagem (LLMs e MLLMs) como juízes na qualidade do desenvolvimento web, revelando uma lacuna significativa entre esses modelos e especialistas humanos devido a limitações fundamentais na avaliação de tarefas complexas e interativas.

Chunyang Li, Yilun Zheng, Xinting Huang + 5 more2026-03-04🤖 cs.AI

VeriStruct: AI-assisted Automated Verification of Data-Structure Modules in Verus

O artigo apresenta o VeriStruct, um novo quadro de trabalho que estende a verificação automatizada assistida por IA para módulos de estruturas de dados complexos em Verus, utilizando um planejador para gerar especificações e um mecanismo de reparo para corrigir erros de sintaxe, alcançando uma taxa de sucesso de 99,2% na verificação de funções em módulos Rust.

Chuyue Sun, Yican Sun, Daneshvar Amrollahi + 5 more2026-03-04🤖 cs.AI

CASR-Net: An Image Processing-focused Deep Learning-based Coronary Artery Segmentation and Refinement Network for X-ray Coronary Angiogram

O artigo apresenta o CASR-Net, uma rede de aprendizado profundo de três estágios que combina pré-processamento avançado, um codificador DenseNet121 e um decodificador Self-ONN para realizar a segmentação e refinamento precisos de artérias coronárias em angiogramas, superando modelos existentes e oferecendo uma ferramenta robusta para auxiliar no diagnóstico clínico.

Alvee Hassan, Rusab Sarmun, Muhammad E. H. Chowdhury + 4 more2026-03-04🤖 cs.AI

Adversarial Spatio-Temporal Attention Networks for Epileptic Seizure Forecasting

O artigo apresenta o STAN, uma rede de atenção espaciotemporal adversarial que alcança desempenho de ponta na previsão de crises epilépticas ao modelar dinamicamente a conectividade cerebral e as variações temporais, permitindo detecção precoce e confiável com baixa taxa de falsos alarmes e eficiência computacional para implantação em tempo real.

Zan Li, Kyongmin Yeo, Wesley Gifford + 3 more2026-03-04🤖 cs.AI

Are We Asking the Right Questions? On Ambiguity in Natural Language Queries for Tabular Data Analysis

Este artigo propõe uma nova estrutura que reinterpreta a ambiguidade em consultas de linguagem natural para análise de dados tabulares como um recurso de interação cooperativa entre usuário e sistema, distinguindo consultas cooperativas de não cooperativas para orientar o design e a avaliação mais precisos de interfaces futuras.

Daniel Gomm, Cornelius Wolff, Madelon Hulsebos2026-03-04💬 cs.CL

Echoing: Identity Failures when LLM Agents Talk to Each Other

O artigo investiga o fenômeno de "eco" em interações entre agentes de LLM, onde estes abandonam seus papéis para espelhar parceiros, resultando em altas taxas de falha que persistem mesmo em modelos avançados, mas que podem ser mitigadas por meio de um protocolo de resposta estruturada.

Sarath Shekkizhar, Romain Cosentino, Adam Earle + 1 more2026-03-04🤖 cs.AI

From Passive to Persuasive: Steering Emotional Nuance in Human-AI Negotiation

Este artigo demonstra que a engenharia de ativação direcionada, utilizando vetores de expressão emocional derivados de pares de texto contrastivos, permite ajustar o modelo LLaMA 3.1-8B para exibir nuances emocionais mais humanas e envolventes em negociações, superando as limitações das técnicas de alinhamento convencionais.

Niranjan Chebrolu, Gerard Christopher Yeo, Kokil Jaidka2026-03-04💬 cs.CL

FAST: Topology-Aware Frequency-Domain Distribution Matching for Coreset Selection

O artigo propõe o FAST, um novo framework de seleção de coreset livre de redes neurais profundas que utiliza correspondência de distribuição no domínio da frequência baseada em teoria de grafos e uma distância de função característica aprimorada, superando os métodos existentes em precisão, eficiência energética e velocidade.

Jin Cui, Boran Zhao, Jiajun Xu + 3 more2026-03-04📊 stat

WARP: Weight Teleportation for Attack-Resilient Unlearning Protocols

O artigo apresenta o WARP, um protocolo de defesa plug-and-play que utiliza simetrias de redes neurais para teleportar pesos e mitigar riscos de privacidade em algoritmos de desaprendizado aproximado, reduzindo significativamente o sucesso de ataques de inferência e reconstrução sem comprometer a precisão do modelo.

Mohammad M Maheri, Xavier Cadet, Peter Chin + 1 more2026-03-04🤖 cs.AI

Q-BERT4Rec: Quantized Semantic-ID Representation Learning for Multimodal Recommendation

O artigo apresenta o Q-BERT4Rec, um novo framework de recomendação sequencial multimodal que supera as limitações dos métodos baseados em IDs discretos ao unificar a injeção de semântica multimodal, a quantização vetorial residual e estratégias de pré-treinamento com máscaras múltiplas para gerar representações de itens mais interpretáveis e generalizáveis.

Haofeng Huang, Ling Gai2026-03-04🤖 cs.AI

ALARM: Automated MLLM-Based Anomaly Detection in Complex-EnviRonment Monitoring with Uncertainty Quantification

Este artigo apresenta o ALARM, um framework baseado em MLLM para detecção de anomalias visuais em ambientes complexos que integra quantificação de incerteza e técnicas de garantia de qualidade para alcançar decisões robustas e confiáveis em diversos domínios.

Congjing Zhang, Feng Lin, Xinyi Zhao + 5 more2026-03-04🤖 cs.AI

Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing

Este estudo apresenta a primeira avaliação abrangente de agentes de IA contra profissionais de cibersegurança em um ambiente empresarial real, demonstrando que o novo framework ARTEMIS superou a maioria dos participantes humanos na descoberta de vulnerabilidades com maior eficiência de custos, embora ainda enfrente desafios relacionados a falsos positivos e tarefas baseadas em interface gráfica.

Justin W. Lin, Eliot Krzysztof Jones, Donovan Julian Jasper + 10 more2026-03-04🤖 cs.AI

CORE: Concept-Oriented Reinforcement for Bridging the Definition-Application Gap in Mathematical Reasoning

O artigo apresenta o CORE, um framework de aprendizado por reforço que utiliza sinais de supervisão conceitual explícita para superar a lacuna entre a definição e a aplicação em raciocínio matemático, permitindo que modelos de linguagem aprendam a aplicar conceitos genuinamente em vez de apenas reutilizar padrões.

Zijun Gao, Zhikun Xu, Xiao Ye + 1 more2026-03-04🤖 cs.AI

← Anterior Próximo →