cs.AI artigos | Gist.Science

A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature

Este trabalho apresenta um sistema multiagente baseado em modelos de linguagem grandes multimodais (MLLM) que supera significativamente o estado da arte na extração automática e robusta de informações químicas complexas de gráficos e textos da literatura, facilitando a construção de bancos de dados estruturados para impulsionar a pesquisa química orientada por IA.

Yufan Chen, Ching Ting Leung, Bowen Yu, Jianwei Sun, Yong Huang, Linyan Li, Hao Chen, Hanyu Gao2026-03-09🤖 cs.AI

MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing

O artigo propõe o método MAP, uma técnica de decodificação sem treinamento que mitiga alucinações em Modelos de Linguagem e Visão Grandes ao interpretar os estados ocultos como mapas semânticos 2D e aplicar operações de atenção em nível de mapa para melhorar a consistência factual.

Chenxi Li, Yichen Guo, Benfang Qian, Jinhao You, Kai Tang, Yaosong Du, Zonghao Zhang, Xiande Huang2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

O artigo apresenta o VLMQ, um framework de quantização pós-treinamento (PTQ) projetado especificamente para modelos visão-linguagem (VLMs) que, ao identificar e mitigar a super-representação visual e a lacuna entre modalidades por meio da priorização seletiva de tokens salientes, alcança desempenho superior ao estado da arte, especialmente em configurações de baixa precisão.

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

SGDFuse: SAM-Guided Diffusion Model for High-Fidelity Infrared and Visible Image Fusion

O artigo apresenta o SGDFuse, um modelo de difusão condicional guiado pelo Segment Anything Model (SAM) que utiliza máscaras semânticas como priores explícitos para realizar a fusão de imagens infravermelhas e visíveis com alta fidelidade, preservando alvos-chave e melhorando o desempenho em tarefas visuais subsequentes.

Xiaoyang Zhang, jinjiang Li, Guodong Fan, Yakun Ju, Linwei Fan, Jun Liu, Alex C. Kot2026-03-09🤖 cs.AI

Handling Infinite Domain Parameters in Planning Through Best-First Search with Delayed Partial Expansions

Este artigo propõe um algoritmo de busca heurística de melhor primeiro com expansões parciais adiadas para tratar explicitamente parâmetros de controle de domínio infinito como pontos de decisão em esquemas de planejamento sistemático, demonstrando ser uma alternativa competitiva às abordagens existentes.

Ángel Aso-Mollar, Diego Aineto, Enrico Scala + 1 more2026-03-09⚡ eess

Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check

Este artigo apresenta o método "Answer-Then-Check" e o conjunto de dados ReSA, que alinham modelos de linguagem para raciocinar sobre respostas e avaliar sua segurança antes de responder, resultando em maior robustez contra ataques de jailbreak, menor taxa de recusa indevida e manutenção das capacidades gerais de raciocínio.

Chentao Cao, Xiaojun Xu, Bo Han, Hang Li2026-03-09🤖 cs.AI

Better Late Than Never: Meta-Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation

Este artigo apresenta uma meta-avaliação abrangente de métricas de latência para tradução simultânea de fala para texto, identificando vieses estruturais existentes e propondo novas métricas (YAAL e LongYAAL) juntamente com uma ferramenta de resegmentação (SoftSegmenter) para permitir avaliações mais precisas e confiáveis, todas implementadas no toolkit OmniSTEval.

Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar2026-03-09🤖 cs.AI

LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

O artigo apresenta o LikePhys, um método livre de treinamento que avalia a compreensão de física intuitiva em modelos de difusão de vídeo utilizando uma métrica de preferência de plausibilidade, demonstrando forte alinhamento com preferências humanas e revelando que, apesar das dificuldades em dinâmicas complexas, a compreensão física melhora com o aumento da capacidade do modelo e das configurações de inferência.

Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini2026-03-09🤖 cs.AI

Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation

O artigo apresenta o Phys2Real, um pipeline de aprendizado por reforço que combina estimativas de parâmetros físicos inferidas por modelos de visão e linguagem com adaptação online baseada em incerteza para superar os desafios de transferência simulação-realidade em tarefas de manipulação robótica.

Maggie Wang, Stephen Tian, Aiden Swann, Ola Shorinwa, Jiajun Wu, Mac Schwager2026-03-09🤖 cs.AI

CanvasMAR: Improving Masked Autoregressive Video Prediction With Canvas

O artigo apresenta o CanvasMAR, um modelo autoregressivo inovador para previsão de vídeo que utiliza uma "tela" global desfocada e um currículo de amostragem do fácil ao difícil para gerar vídeos de alta fidelidade com menos etapas de amostragem, superando métodos anteriores e rivalizando com abordagens baseadas em difusão.

Zian Li, Muhan Zhang2026-03-09🤖 cs.AI

Just-In-Time Objectives: A General Approach for Specialized AI Interactions

Este artigo apresenta uma abordagem de "objetivos just-in-time" que infere e otimiza automaticamente as intenções do usuário em tempo real, permitindo que modelos de linguagem generem ferramentas e respostas especializadas que superam significativamente os resultados padrão de LLMs.

Michelle S. Lam, Omar Shaikh, Hallie Xu, Alice Guo, Diyi Yang, Jeffrey Heer, James A. Landay, Michael S. Bernstein2026-03-09🤖 cs.AI

Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views

O artigo apresenta o 3DThinker, um framework inovador que permite a modelos de linguagem e visão raciocinar sobre relações espaciais 3D a partir de vistas limitadas, alinhando latentes 3D gerados durante o raciocínio com modelos fundacionais sem a necessidade de dados 3D explicitamente rotulados.

Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Xiang An, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang2026-03-09🤖 cs.AI

Automated Coding of Communication Data Using ChatGPT: Consistency Across Subgroups

Este estudo demonstra que o ChatGPT classifica dados de comunicação de forma consistente entre diferentes grupos demográficos, como gênero e raça, com desempenho comparável ao de avaliadores humanos, validando sua utilidade para avaliações em larga escala.

Jiangang Hao, Wenju Cui, Patrick Kyllonen, Emily Kerzabi2026-03-09🤖 cs.AI

Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People

Este artigo apresenta o método "Collaborative Battleship" e estratégias de inferência Monte Carlo inspiradas no Design Experimental Bayesiano para aprimorar agentes de IA, permitindo que modelos menores superem tanto humanos quanto modelos de ponta em tarefas de busca de informação estratégica com custos drasticamente reduzidos.

Gabriel Grand, Valerio Pepe, Jacob Andreas, Joshua B. Tenenbaum2026-03-09🤖 cs.AI

REx86: A Local Large Language Model for Assisting in x86 Assembly Reverse Engineering

O artigo apresenta o REx86, um modelo de linguagem local de código aberto baseado no Qwen2.5-Coder-7B e afinado com um conjunto de dados específico, que demonstra melhorias significativas na compreensão e no comentário de código assembly x86 para engenharia reversa, oferecendo uma solução segura e eficiente para ambientes restritos.

Darrin Lea, James Ghawaly, Golden Richard + 2 more2026-03-09🤖 cs.AI

LA-MARRVEL: A Knowledge-Grounded, Language-Aware LLM Framework for Clinically Robust Rare Disease Gene Prioritization

O artigo apresenta o LA-MARRVEL, um framework baseado em LLMs que utiliza prompts estruturados e ricos em fenótipos para melhorar significativamente a priorização de genes em doenças raras, oferecendo explicações auditáveis e alinhadas às diretrizes ACMG sem alterar os fluxos de trabalho diagnósticos estabelecidos.

Jaeyeon Lee, Lin Yao, Hyun-Hwan Jeong, Zhandong Liu2026-03-09🤖 cs.AI

The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models

Este artigo propõe um novo quadro de avaliação e a métrica CRT para analisar a "iconicidade multimodal" em modelos de difusão, distinguindo entre o reconhecimento de referências culturais e sua realização (replicação ou reinterpretação), demonstrando que o comportamento desses modelos em contextos culturalmente icônicos depende de fatores como frequência de dados, unicidade textual e popularidade, indo além da simples reprodução de imagens.

Maria-Teresa De Rosa Palmini, Eva Cetinic2026-03-09🤖 cs.AI

Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function

O artigo apresenta o SQDF, um novo método de ajuste fino para modelos de difusão que utiliza um gradiente de política reparametrizado baseado na função Soft Q para mitigar a superotimização de recompensas, preservando a diversidade e a naturalidade das amostras geradas.

Hyeongyu Kang, Jaewoo Lee, Woocheol Shin, Kiyoung Om, Jinkyoo Park2026-03-09🤖 cs.AI

XR-DT: Extended Reality-Enhanced Digital Twin for Safe Motion Planning via Human-Aware Model Predictive Path Integral Control

Este artigo apresenta o XR-DT, um quadro de Gêmeo Digital aprimorado por Realidade Estendida que integra um controlador de planejamento de trajetória HA-MPPI com um modelo de previsão humana baseado em Transformer (ATLAS) para garantir navegação segura, eficiente e interpretável de robôs móveis em ambientes compartilhados com humanos.

Tianyi Wang, Jiseop Byeon, Ahmad Yehia, Yiming Xu, Jihyung Park, Tianyi Zeng, Sikai Chen, Ziran Wang, Junfeng Jiao, Christian Claudel2026-03-09🤖 cs.AI

Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

Este trabalho propõe um método que utiliza a família de divergências $\alpha$ para aproximar uma distribuição-alvo filtrada, permitindo controlar o compromisso entre precisão e diversidade em modelos de linguagem e alcançando desempenho superior em provas de teoremas ao superar as limitações de perda de diversidade típicas do Aprendizado por Reforço.

Germán Kruszewski, Pierre Erbacher, Jos Rozen, Marc Dymetman2026-03-09🤖 cs.AI

← Anterior Próximo →