cs.AI artigos | Gist.Science

Energy-Driven Adaptive Visual Token Pruning for Efficient Vision-Language Models

O artigo apresenta o E-AdaPrune, um framework de poda adaptativa de tokens visuais para Modelos Visão-Linguagem que, ao determinar o orçamento de tokens com base no espectro de valores singulares das características visuais, preserva a energia espectral para alocar mais recursos a cenas densas em informação e menos a redundantes, melhorando o desempenho sem adicionar parâmetros aprendíveis.

Jialuo He, Huangxun Chen2026-03-09🤖 cs.AI

Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models

Este artigo desenvolve modelos interpretáveis que integram traços psicológicos individuais e contextos situacionais inferidos a partir de dados de mídia social para prever o bem-estar, demonstrando que abordagens baseadas em teoria psicológica oferecem desempenho competitivo e maior transparência em comparação com embeddings de modelos de linguagem.

Nikita Soni, August Håkan Nilsson, Syeda Mahwish, Vasudha Varadarajan, H. Andrew Schwartz, Ryan L. Boyd2026-03-09🤖 cs.AI

Domain-Adaptive Model Merging across Disconnected Modes

O artigo apresenta o DMM, um framework de fusão de modelos livre de dados que combina técnicas de fusão estável para modelos similares e refinamento guiado por dados sintéticos para integrar modelos divergentes, alcançando desempenho superior em cenários de aprendizado entre domínios.

Junming Liu, Yusen Zhang, Rongchao Zhang, Wenkai Zhu, Tian Wu2026-03-09🤖 cs.AI

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

O artigo apresenta o "Skeleton-to-Image Encoding" (S2I), uma nova representação que transforma sequências de esqueletos 3D em dados semelhantes a imagens, permitindo pela primeira vez o uso de modelos de visão pré-treinados em larga escala para aprendizado de representação auto-supervisionado e unificado de dados esqueléticos heterogêneos.

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

O artigo apresenta o ProCap, um novo framework que reformula a legendagem de mudanças ao modelar dinamicamente o procedimento de transformação entre imagens, utilizando um codificador treinado em quadros-chave e consultas aprendíveis para gerar descrições textuais que explicam não apenas o que mudou, mas também como ocorreu.

Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen2026-03-09🤖 cs.AI

An Interactive Multi-Agent System for Evaluation of New Product Concepts

Este estudo propõe um sistema multiagente baseado em modelos de linguagem (LLM) que automatiza a avaliação de conceitos de novos produtos através de oito agentes virtuais especializados, demonstrando, em um estudo de caso, que suas classificações são consistentes com o julgamento de especialistas humanos.

Bin Xuan, Ruo Ai, Hakyeon Lee2026-03-09🤖 cs.AI

Technical Report: Automated Optical Inspection of Surgical Instruments

Este relatório técnico descreve o desenvolvimento de um sistema de Inspeção Óptica Automatizada (AOI) baseado em arquiteturas de aprendizado profundo (YOLOv8, ResNet-152 e EfficientNet-b4) para detectar defeitos em instrumentos cirúrgicos fabricados no Paquistão, utilizando um conjunto de dados de 4.414 imagens e parcerias industriais para garantir a segurança do paciente e a qualidade do produto.

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

TADPO: Reinforcement Learning Goes Off-road

O artigo apresenta o TADPO, uma nova formulação de gradiente de política que combina trajetórias off-policy e on-policy para permitir a navegação em alta velocidade em terrenos off-road complexos, marcando a primeira implementação bem-sucedida de políticas baseadas em aprendizado por reforço em um veículo off-road em escala real com transferência zero-shot de simulação para a realidade.

Zhouchonghao Wu, Raymond Song, Vedant Mundheda, Luis E. Navarro-Serment, Christof Schoenborn, Jeff Schneider2026-03-09🤖 cs.AI

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

O artigo apresenta o MM-ISTS, um framework multimodal que utiliza modelos de linguagem grandes (LLMs) de visão e texto para aprimorar a previsão de séries temporais amostradas irregularmente, integrando dados temporais, visuais e textuais por meio de um mecanismo de codificação em duas etapas e um módulo de alinhamento adaptativo para capturar padrões temporais complexos e contexto semântico.

Zhi Lei, Chenxi Liu, Hao Miao, Wanghui Qiu, Bin Yang, Chenjuan Guo2026-03-09🤖 cs.AI

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

Este artigo identifica e mitiga a "cegueira linguística" em modelos Visão-Linguagem-Ação (VLA), onde políticas robóticas ignoram instruções contraditórias em favor de pistas visuais, propondo o método IGAR, uma técnica de recalibração de atenção sem treinamento que restaura a fidelidade às instruções sem modificar a arquitetura do modelo.

Ninghao Zhang, Bin Zhu, Shijie Zhou, Jingjing Chen2026-03-09🤖 cs.AI

Demystifying KAN for Vision Tasks: The RepKAN Approach

O artigo apresenta o RepKAN, uma nova arquitetura que combina a eficiência das CNNs com o poder de representação não linear dos KANs para criar um modelo de classificação de imagens de sensoriamento remoto que é ao mesmo tempo de alto desempenho e fisicamente interpretável.

Minjong Cheon2026-03-09🤖 cs.AI

MASFactory: A Graph-centric Framework for Orchestrating LLM-Based Multi-Agent Systems with Vibe Graphing

O artigo apresenta o MASFactory, um framework centrado em grafos para orquestrar sistemas multiagentes baseados em LLM, que introduz a "Vibe Graphing" para converter intenções em linguagem natural em fluxos de trabalho executáveis, além de oferecer componentes reutilizáveis, integração de contexto e visualização, validados em sete benchmarks públicos.

Yang Liu, Jinxuan Cai, Yishen Li, Qi Meng, Zedi Liu, Xin Li, Chen Qian, Chuan Shi, Cheng Yang2026-03-09🤖 cs.AI

Sensitivity-Aware Retrieval-Augmented Intent Clarification

Este artigo propõe um framework de três etapas para desenvolver um agente conversacional de esclarecimento de intenções aumentado por recuperação que atue como mediador e guardião de coleções de dados sensíveis, definindo modelos de ataque, projetando defesas específicas e avaliando o equilíbrio entre proteção e utilidade do sistema.

Maik Larooij2026-03-09🤖 cs.AI

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

Este estudo investiga as falhas de Modelos Visuais-Linguísticos (VLMs) em cenários de condução autónoma, identificando que, embora alguns conceitos visuais sejam linearmente codificados, outros dependem de estruturas espaciais implícitas, e que as falhas podem ser classificadas como perceptivas (ausência de codificação linear) ou cognitivas (falha no alinhamento semântico), sendo a capacidade de distinção linear degradada rapidamente com o aumento da distância do objeto.

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

O artigo apresenta o TempoSyncDiff, um framework de difusão latente baseado em distilação que utiliza um modelo professor-aluno e regularização temporal para gerar cabeças falantes acionadas por áudio com alta fidelidade, estabilidade temporal e baixa latência, viabilizando sua implementação em dispositivos de borda.

Soumya Mazumdar, Vineet Kumar Rakesh2026-03-09🤖 cs.AI

Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation

O artigo apresenta o PyPDDLEngine, um motor de simulação PDDL que permite que modelos de linguagem atuem como agentes de planejamento interativos, demonstrando que, embora essa abordagem agênica ofereça uma vantagem modesta de 3 pontos percentuais em relação ao planejamento direto de LLMs em problemas de Blocksworld, ela não supera os métodos simbólicos clássicos e revela limitações na capacidade de autoavaliação do agente sem feedback externo.

Kai Göbel, Pierrick Lorang, Patrik Zips, Tobias Glück2026-03-09🤖 cs.AI

Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

Este estudo avalia a eficácia de modelos de linguagem de grande porte (LLMs) na correção automática de redações alemãs de nível A da Áustria com base em rubricas, concluindo que, embora os modelos consigam aplicar os critérios, sua baixa concordância com avaliadores humanos (32,8% nas notas finais) os torna inadequados para uso em ambientes reais de avaliação.

Jonas Kubesch, Lena Huber, Clemens Havas2026-03-09🤖 cs.AI

Aggregative Semantics for Quantitative Bipolar Argumentation Frameworks

Este artigo apresenta uma nova família de semânticas graduais, denominadas "semânticas agregativas", para Quadros de Argumentação Bipolar Quantitativos (QBAF), que calculam a aceitabilidade de argumentos em três etapas distintas agregando separadamente atacantes e apoiadores, oferecendo assim maior parametrização e interpretabilidade em comparação com abordagens anteriores.

Yann Munro, Isabelle Bloch, Marie-Jeanne Lesot2026-03-09🤖 cs.AI

Text-Driven Emotionally Continuous Talking Face Generation

O artigo propõe a nova tarefa de Geração de Rosto Falante Emocionalmente Contínuo (EC-TFG) e apresenta o modelo TIE-TFG, que utiliza modelagem de flutuação emocional temporalmente intensiva para sintetizar vídeos realistas onde as expressões faciais mudam continuamente em sincronia com variações emocionais descritas no texto.

Hao Yang, Yanyan Zhao, Tian Zheng, Hongbo Zhang, Bichen Wang, Di Wu, Xing Fu, Xuda Zhi, Yongbo Huang, Hao He2026-03-09🤖 cs.AI

Lifelong Embodied Navigation Learning

O artigo apresenta o Uni-Walker, um framework de aprendizado contínuo para agentes de navegação corporificada que supera o esquecimento catastrófico ao decoplar o conhecimento em componentes compartilhados e específicos por meio de DE-LoRA, estratégias de herança de conhecimento e mecanismos de raciocínio específicos para tarefas.

Xudong Wang, Jiahua Dong, Baichen Liu, Qi Lyu, Lianqing Liu, Zhi Han2026-03-09🤖 cs.AI

← Anterior Próximo →