cs.AI artigos | Gist.Science

Facial Expression Recognition Using Residual Masking Network

Este artigo propõe uma Rede de Mascaramento Residual que combina redes residuais profundas com uma arquitetura do tipo Unet e um mecanismo de atenção para aprimorar o reconhecimento de expressões faciais, alcançando desempenho superior nos conjuntos de dados FER2013 e VEMO.

Luan Pham, The Huynh Vu, Tuan Anh Tran2026-03-09🤖 cs.AI

XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

Este artigo apresenta uma abordagem sistemática de IA explicável (XAI) que transforma rastros de execução brutos de agentes de codificação em explicações estruturadas e acionáveis, demonstrando por meio de um estudo com usuários que essa metodologia acelera a identificação de falhas e aumenta a precisão das correções em comparação com explicações ad-hoc e rastros brutos.

Arun Joshi2026-03-09🤖 cs.AI

Energy-Driven Adaptive Visual Token Pruning for Efficient Vision-Language Models

O artigo apresenta o E-AdaPrune, um framework de poda adaptativa de tokens visuais para Modelos Visão-Linguagem que, ao determinar o orçamento de tokens com base no espectro de valores singulares das características visuais, preserva a energia espectral para alocar mais recursos a cenas densas em informação e menos a redundantes, melhorando o desempenho sem adicionar parâmetros aprendíveis.

Jialuo He, Huangxun Chen2026-03-09🤖 cs.AI

Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models

Este artigo desenvolve modelos interpretáveis que integram traços psicológicos individuais e contextos situacionais inferidos a partir de dados de mídia social para prever o bem-estar, demonstrando que abordagens baseadas em teoria psicológica oferecem desempenho competitivo e maior transparência em comparação com embeddings de modelos de linguagem.

Nikita Soni, August Håkan Nilsson, Syeda Mahwish, Vasudha Varadarajan, H. Andrew Schwartz, Ryan L. Boyd2026-03-09🤖 cs.AI

Domain-Adaptive Model Merging across Disconnected Modes

O artigo apresenta o DMM, um framework de fusão de modelos livre de dados que combina técnicas de fusão estável para modelos similares e refinamento guiado por dados sintéticos para integrar modelos divergentes, alcançando desempenho superior em cenários de aprendizado entre domínios.

Junming Liu, Yusen Zhang, Rongchao Zhang, Wenkai Zhu, Tian Wu2026-03-09🤖 cs.AI

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

O artigo apresenta o "Skeleton-to-Image Encoding" (S2I), uma nova representação que transforma sequências de esqueletos 3D em dados semelhantes a imagens, permitindo pela primeira vez o uso de modelos de visão pré-treinados em larga escala para aprendizado de representação auto-supervisionado e unificado de dados esqueléticos heterogêneos.

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

O artigo apresenta o ProCap, um novo framework que reformula a legendagem de mudanças ao modelar dinamicamente o procedimento de transformação entre imagens, utilizando um codificador treinado em quadros-chave e consultas aprendíveis para gerar descrições textuais que explicam não apenas o que mudou, mas também como ocorreu.

Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen2026-03-09🤖 cs.AI

An Interactive Multi-Agent System for Evaluation of New Product Concepts

Este estudo propõe um sistema multiagente baseado em modelos de linguagem (LLM) que automatiza a avaliação de conceitos de novos produtos através de oito agentes virtuais especializados, demonstrando, em um estudo de caso, que suas classificações são consistentes com o julgamento de especialistas humanos.

Bin Xuan, Ruo Ai, Hakyeon Lee2026-03-09🤖 cs.AI

Technical Report: Automated Optical Inspection of Surgical Instruments

Este relatório técnico descreve o desenvolvimento de um sistema de Inspeção Óptica Automatizada (AOI) baseado em arquiteturas de aprendizado profundo (YOLOv8, ResNet-152 e EfficientNet-b4) para detectar defeitos em instrumentos cirúrgicos fabricados no Paquistão, utilizando um conjunto de dados de 4.414 imagens e parcerias industriais para garantir a segurança do paciente e a qualidade do produto.

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

TADPO: Reinforcement Learning Goes Off-road

O artigo apresenta o TADPO, uma nova formulação de gradiente de política que combina trajetórias off-policy e on-policy para permitir a navegação em alta velocidade em terrenos off-road complexos, marcando a primeira implementação bem-sucedida de políticas baseadas em aprendizado por reforço em um veículo off-road em escala real com transferência zero-shot de simulação para a realidade.

Zhouchonghao Wu, Raymond Song, Vedant Mundheda, Luis E. Navarro-Serment, Christof Schoenborn, Jeff Schneider2026-03-09🤖 cs.AI

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

O artigo apresenta o MM-ISTS, um framework multimodal que utiliza modelos de linguagem grandes (LLMs) de visão e texto para aprimorar a previsão de séries temporais amostradas irregularmente, integrando dados temporais, visuais e textuais por meio de um mecanismo de codificação em duas etapas e um módulo de alinhamento adaptativo para capturar padrões temporais complexos e contexto semântico.

Zhi Lei, Chenxi Liu, Hao Miao, Wanghui Qiu, Bin Yang, Chenjuan Guo2026-03-09🤖 cs.AI

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

Este artigo identifica e mitiga a "cegueira linguística" em modelos Visão-Linguagem-Ação (VLA), onde políticas robóticas ignoram instruções contraditórias em favor de pistas visuais, propondo o método IGAR, uma técnica de recalibração de atenção sem treinamento que restaura a fidelidade às instruções sem modificar a arquitetura do modelo.

Ninghao Zhang, Bin Zhu, Shijie Zhou, Jingjing Chen2026-03-09🤖 cs.AI

Demystifying KAN for Vision Tasks: The RepKAN Approach

O artigo apresenta o RepKAN, uma nova arquitetura que combina a eficiência das CNNs com o poder de representação não linear dos KANs para criar um modelo de classificação de imagens de sensoriamento remoto que é ao mesmo tempo de alto desempenho e fisicamente interpretável.

Minjong Cheon2026-03-09🤖 cs.AI

MASFactory: A Graph-centric Framework for Orchestrating LLM-Based Multi-Agent Systems with Vibe Graphing

O artigo apresenta o MASFactory, um framework centrado em grafos para orquestrar sistemas multiagentes baseados em LLM, que introduz a "Vibe Graphing" para converter intenções em linguagem natural em fluxos de trabalho executáveis, além de oferecer componentes reutilizáveis, integração de contexto e visualização, validados em sete benchmarks públicos.

Yang Liu, Jinxuan Cai, Yishen Li, Qi Meng, Zedi Liu, Xin Li, Chen Qian, Chuan Shi, Cheng Yang2026-03-09🤖 cs.AI

Sensitivity-Aware Retrieval-Augmented Intent Clarification

Este artigo propõe um framework de três etapas para desenvolver um agente conversacional de esclarecimento de intenções aumentado por recuperação que atue como mediador e guardião de coleções de dados sensíveis, definindo modelos de ataque, projetando defesas específicas e avaliando o equilíbrio entre proteção e utilidade do sistema.

Maik Larooij2026-03-09🤖 cs.AI

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

Este estudo investiga as falhas de Modelos Visuais-Linguísticos (VLMs) em cenários de condução autónoma, identificando que, embora alguns conceitos visuais sejam linearmente codificados, outros dependem de estruturas espaciais implícitas, e que as falhas podem ser classificadas como perceptivas (ausência de codificação linear) ou cognitivas (falha no alinhamento semântico), sendo a capacidade de distinção linear degradada rapidamente com o aumento da distância do objeto.

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

O artigo apresenta o TempoSyncDiff, um framework de difusão latente baseado em distilação que utiliza um modelo professor-aluno e regularização temporal para gerar cabeças falantes acionadas por áudio com alta fidelidade, estabilidade temporal e baixa latência, viabilizando sua implementação em dispositivos de borda.

Soumya Mazumdar, Vineet Kumar Rakesh2026-03-09🤖 cs.AI

Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation

O artigo apresenta o PyPDDLEngine, um motor de simulação PDDL que permite que modelos de linguagem atuem como agentes de planejamento interativos, demonstrando que, embora essa abordagem agênica ofereça uma vantagem modesta de 3 pontos percentuais em relação ao planejamento direto de LLMs em problemas de Blocksworld, ela não supera os métodos simbólicos clássicos e revela limitações na capacidade de autoavaliação do agente sem feedback externo.

Kai Göbel, Pierrick Lorang, Patrik Zips, Tobias Glück2026-03-09🤖 cs.AI

Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

Este estudo avalia a eficácia de modelos de linguagem de grande porte (LLMs) na correção automática de redações alemãs de nível A da Áustria com base em rubricas, concluindo que, embora os modelos consigam aplicar os critérios, sua baixa concordância com avaliadores humanos (32,8% nas notas finais) os torna inadequados para uso em ambientes reais de avaliação.

Jonas Kubesch, Lena Huber, Clemens Havas2026-03-09🤖 cs.AI

Aggregative Semantics for Quantitative Bipolar Argumentation Frameworks

Este artigo apresenta uma nova família de semânticas graduais, denominadas "semânticas agregativas", para Quadros de Argumentação Bipolar Quantitativos (QBAF), que calculam a aceitabilidade de argumentos em três etapas distintas agregando separadamente atacantes e apoiadores, oferecendo assim maior parametrização e interpretabilidade em comparação com abordagens anteriores.

Yann Munro, Isabelle Bloch, Marie-Jeanne Lesot2026-03-09🤖 cs.AI

← Anterior Próximo →