cs.AI artigos | Gist.Science

Death of the Novel(ty): Beyond n-Gram Novelty as a Metric for Textual Creativity

Este estudo demonstra que a novidade baseada em n-gramas é uma métrica insuficiente para avaliar a criatividade textual, pois ignora a adequação pragmática e falha em capturar a percepção de criatividade de escritores humanos, sugerindo que modelos de linguagem de ponta (LLMs) são mais eficazes ao julgar a criatividade quando atuam como avaliadores do que ao depender de métricas estatísticas tradicionais.

Arkadiy Saakyan, Najoung Kim, Smaranda Muresan + 1 more2026-03-04💬 cs.CL

MedLA: A Logic-Driven Multi-Agent Framework for Complex Medical Reasoning with Large Language Models

O artigo apresenta o MedLA, um framework multiagente baseado em LLMs que utiliza árvores de raciocínio lógico explícitas e discussões guiadas por grafos para detectar inconsistências e alcançar consenso, superando métodos existentes em tarefas complexas de raciocínio médico.

Siqi Ma, Jiajie Huang, Fan Zhang + 5 more2026-03-04🤖 cs.AI

Fine-Tuning Diffusion Models via Intermediate Distribution Shaping

Este artigo propõe o P-GRAFT, um método que otimiza o ajuste fino de modelos de difusão ao moldar distribuições em níveis de ruído intermediários para melhorar a maximização de recompensas e corrigir erros de aprendizado sem recompensas explícitas, demonstrando ganhos significativos em benchmarks de geração de imagens e moléculas.

Gautham Govind Anil, Shaan Ul Haque, Nithish Kannen + 3 more2026-03-04🤖 cs.AI

LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning

O artigo apresenta o LaDiR, um novo framework de raciocínio que aprimora os Grandes Modelos de Linguagem ao unificar representações latentes contínuas com modelos de difusão latente, permitindo a geração paralela e a refinamento iterativo holístico de trajetórias de raciocínio, o que resulta em maior precisão, diversidade e interpretabilidade em tarefas matemáticas e de planejamento.

Haoqiang Kang, Yizhe Zhang, Nikki Lijing Kuang + 4 more2026-03-04💬 cs.CL

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

O artigo apresenta o D2E, um framework que valida a pré-treinagem em dados de desktop (como jogos) como uma abordagem escalável e eficaz para transferir habilidades sensoriomotoras para robótica física, alcançando desempenho superior a modelos maiores com apenas 1 bilhão de parâmetros.

Suhwan Choi, Jaeyoon Jung, Haebin Seong + 7 more2026-03-04🤖 cs.AI

Off-Trajectory Reasoning: Can LLMs Collaborate on Reasoning Trajectory?

Este artigo investiga a capacidade de modelos de linguagem de raciocínio colaborarem em trajetórias compartilhadas, revelando que modelos mais fortes são frequentemente mais frágeis a distrações e incapazes de superar suas limitações inatas ao seguir orientações de outros, além de destacar como estratégias de pós-treinamento influenciam essas falhas.

Aochong Oliver Li, Tanya Goyal2026-03-04🤖 cs.AI

Mitigating Over-Refusal in Aligned Large Language Models via Inference-Time Activation Energy

Este trabalho apresenta a "Energy Landscape Steering" (ELS), uma abordagem livre de ajuste fino que utiliza um modelo externo baseado em energia para orientar as ativações internas de modelos de linguagem durante a inferência, mitigando eficazmente a recusa excessiva a solicitações benignas sem comprometer a segurança.

Eric Hanchen Jiang, Weixuan Ou, Run Liu + 8 more2026-03-04📊 stat

Reducing Belief Deviation in Reinforcement Learning for Active Reasoning

O artigo propõe o método $\mathbf{T^3}$ , que detecta e truncar trajetórias de treinamento com desvio de crença excessivo em agentes de raciocínio ativo de LLMs, melhorando a estabilidade do treinamento, o desempenho e a eficiência de custos ao preservar créditos para ações informativas.

Deyu Zou, Yongqiang Chen, Jianxiang Wang + 5 more2026-03-04🤖 cs.AI

Self-Aug: Query and Entropy Adaptive Decoding for Large Vision-Language Models

Este artigo apresenta o "Self-Aug", uma estratégia de decodificação sem treinamento para Modelos Visuais-Linguísticos de Grande Escala que combina uma estratégia de prompt de auto-aumento dependente da consulta e um algoritmo de limiar adaptativo baseado em entropia para mitigar alucinações e melhorar a consistência factual.

Eun Woo Im, Muhammad Kashif Ali, Vivek Gupta2026-03-04🤖 cs.AI

Every Language Model Has a Forgery-Resistant Signature

Este trabalho demonstra que as saídas de todos os modelos de linguagem possuem uma assinatura de forgery-resistente baseada em restrições geométricas naturais (uma elipse de alta dimensão), permitindo a identificação da fonte do modelo e a verificação de autenticidade sem acesso aos seus pesos ou entradas.

Matthew Finlayson, Xiang Ren, Swabha Swayamdipta2026-03-04🤖 cs.AI

xLLM Technical Report

O artigo apresenta o xLLM, um framework de inferência de LLMs de alto desempenho e escala empresarial que utiliza uma arquitetura desacoplada de serviço e motor com agendamento inteligente, gerenciamento global de KV Cache e otimizações de execução para maximizar a eficiência e o throughput em diversos aceleradores de IA.

Tongxuan Liu, Tao Peng, Peijun Yang + 50 more2026-03-04🤖 cs.AI

Inpainting the Red Planet: Diffusion Models for the Reconstruction of Martian Environments in Virtual Reality

Este trabalho propõe o uso de um modelo de difusão incondicional treinado em dados do HiRISE para reconstruir com maior precisão e coerência geométrica as áreas faltantes de mapas de altura de Marte, superando significativamente as técnicas tradicionais de interpolação e preenchimento de vazios.

Giuseppe Lorenzo Catalano, Agata Marta Soccini2026-03-04🤖 cs.AI

WebDevJudge: Evaluating (M)LLMs as Critiques for Web Development Quality

O artigo apresenta o WebDevJudge, um benchmark sistemático para avaliar o desempenho de modelos de linguagem (LLMs e MLLMs) como juízes na qualidade do desenvolvimento web, revelando uma lacuna significativa entre esses modelos e especialistas humanos devido a limitações fundamentais na avaliação de tarefas complexas e interativas.

Chunyang Li, Yilun Zheng, Xinting Huang + 5 more2026-03-04🤖 cs.AI

VeriStruct: AI-assisted Automated Verification of Data-Structure Modules in Verus

O artigo apresenta o VeriStruct, um novo quadro de trabalho que estende a verificação automatizada assistida por IA para módulos de estruturas de dados complexos em Verus, utilizando um planejador para gerar especificações e um mecanismo de reparo para corrigir erros de sintaxe, alcançando uma taxa de sucesso de 99,2% na verificação de funções em módulos Rust.

Chuyue Sun, Yican Sun, Daneshvar Amrollahi + 5 more2026-03-04🤖 cs.AI

CASR-Net: An Image Processing-focused Deep Learning-based Coronary Artery Segmentation and Refinement Network for X-ray Coronary Angiogram

O artigo apresenta o CASR-Net, uma rede de aprendizado profundo de três estágios que combina pré-processamento avançado, um codificador DenseNet121 e um decodificador Self-ONN para realizar a segmentação e refinamento precisos de artérias coronárias em angiogramas, superando modelos existentes e oferecendo uma ferramenta robusta para auxiliar no diagnóstico clínico.

Alvee Hassan, Rusab Sarmun, Muhammad E. H. Chowdhury + 4 more2026-03-04🤖 cs.AI

Adversarial Spatio-Temporal Attention Networks for Epileptic Seizure Forecasting

O artigo apresenta o STAN, uma rede de atenção espaciotemporal adversarial que alcança desempenho de ponta na previsão de crises epilépticas ao modelar dinamicamente a conectividade cerebral e as variações temporais, permitindo detecção precoce e confiável com baixa taxa de falsos alarmes e eficiência computacional para implantação em tempo real.

Zan Li, Kyongmin Yeo, Wesley Gifford + 3 more2026-03-04🤖 cs.AI

Are We Asking the Right Questions? On Ambiguity in Natural Language Queries for Tabular Data Analysis

Este artigo propõe uma nova estrutura que reinterpreta a ambiguidade em consultas de linguagem natural para análise de dados tabulares como um recurso de interação cooperativa entre usuário e sistema, distinguindo consultas cooperativas de não cooperativas para orientar o design e a avaliação mais precisos de interfaces futuras.

Daniel Gomm, Cornelius Wolff, Madelon Hulsebos2026-03-04💬 cs.CL

Echoing: Identity Failures when LLM Agents Talk to Each Other

O artigo investiga o fenômeno de "eco" em interações entre agentes de LLM, onde estes abandonam seus papéis para espelhar parceiros, resultando em altas taxas de falha que persistem mesmo em modelos avançados, mas que podem ser mitigadas por meio de um protocolo de resposta estruturada.

Sarath Shekkizhar, Romain Cosentino, Adam Earle + 1 more2026-03-04🤖 cs.AI

From Passive to Persuasive: Steering Emotional Nuance in Human-AI Negotiation

Este artigo demonstra que a engenharia de ativação direcionada, utilizando vetores de expressão emocional derivados de pares de texto contrastivos, permite ajustar o modelo LLaMA 3.1-8B para exibir nuances emocionais mais humanas e envolventes em negociações, superando as limitações das técnicas de alinhamento convencionais.

Niranjan Chebrolu, Gerard Christopher Yeo, Kokil Jaidka2026-03-04💬 cs.CL

FAST: Topology-Aware Frequency-Domain Distribution Matching for Coreset Selection

O artigo propõe o FAST, um novo framework de seleção de coreset livre de redes neurais profundas que utiliza correspondência de distribuição no domínio da frequência baseada em teoria de grafos e uma distância de função característica aprimorada, superando os métodos existentes em precisão, eficiência energética e velocidade.

Jin Cui, Boran Zhao, Jiajun Xu + 3 more2026-03-04📊 stat

← Anterior Próximo →