MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

O artigo apresenta o MM-ISTS, um framework multimodal que utiliza modelos de linguagem grandes (LLMs) de visão e texto para aprimorar a previsão de séries temporais amostradas irregularmente, integrando dados temporais, visuais e textuais por meio de um mecanismo de codificação em duas etapas e um módulo de alinhamento adaptativo para capturar padrões temporais complexos e contexto semântico.

Zhi Lei, Chenxi Liu, Hao Miao, Wanghui Qiu, Bin Yang, Chenjuan Guo2026-03-09🤖 cs.AI

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

Este artigo identifica e mitiga a "cegueira linguística" em modelos Visão-Linguagem-Ação (VLA), onde políticas robóticas ignoram instruções contraditórias em favor de pistas visuais, propondo o método IGAR, uma técnica de recalibração de atenção sem treinamento que restaura a fidelidade às instruções sem modificar a arquitetura do modelo.

Ninghao Zhang, Bin Zhu, Shijie Zhou, Jingjing Chen2026-03-09🤖 cs.AI

MASFactory: A Graph-centric Framework for Orchestrating LLM-Based Multi-Agent Systems with Vibe Graphing

O artigo apresenta o MASFactory, um framework centrado em grafos para orquestrar sistemas multiagentes baseados em LLM, que introduz a "Vibe Graphing" para converter intenções em linguagem natural em fluxos de trabalho executáveis, além de oferecer componentes reutilizáveis, integração de contexto e visualização, validados em sete benchmarks públicos.

Yang Liu, Jinxuan Cai, Yishen Li, Qi Meng, Zedi Liu, Xin Li, Chen Qian, Chuan Shi, Cheng Yang2026-03-09🤖 cs.AI

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

Este estudo investiga as falhas de Modelos Visuais-Linguísticos (VLMs) em cenários de condução autónoma, identificando que, embora alguns conceitos visuais sejam linearmente codificados, outros dependem de estruturas espaciais implícitas, e que as falhas podem ser classificadas como perceptivas (ausência de codificação linear) ou cognitivas (falha no alinhamento semântico), sendo a capacidade de distinção linear degradada rapidamente com o aumento da distância do objeto.

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation

O artigo apresenta o PyPDDLEngine, um motor de simulação PDDL que permite que modelos de linguagem atuem como agentes de planejamento interativos, demonstrando que, embora essa abordagem agênica ofereça uma vantagem modesta de 3 pontos percentuais em relação ao planejamento direto de LLMs em problemas de Blocksworld, ela não supera os métodos simbólicos clássicos e revela limitações na capacidade de autoavaliação do agente sem feedback externo.

Kai Göbel, Pierrick Lorang, Patrik Zips, Tobias Glück2026-03-09🤖 cs.AI

Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

Este estudo avalia a eficácia de modelos de linguagem de grande porte (LLMs) na correção automática de redações alemãs de nível A da Áustria com base em rubricas, concluindo que, embora os modelos consigam aplicar os critérios, sua baixa concordância com avaliadores humanos (32,8% nas notas finais) os torna inadequados para uso em ambientes reais de avaliação.

Jonas Kubesch, Lena Huber, Clemens Havas2026-03-09🤖 cs.AI

Aggregative Semantics for Quantitative Bipolar Argumentation Frameworks

Este artigo apresenta uma nova família de semânticas graduais, denominadas "semânticas agregativas", para Quadros de Argumentação Bipolar Quantitativos (QBAF), que calculam a aceitabilidade de argumentos em três etapas distintas agregando separadamente atacantes e apoiadores, oferecendo assim maior parametrização e interpretabilidade em comparação com abordagens anteriores.

Yann Munro, Isabelle Bloch, Marie-Jeanne Lesot2026-03-09🤖 cs.AI

Text-Driven Emotionally Continuous Talking Face Generation

O artigo propõe a nova tarefa de Geração de Rosto Falante Emocionalmente Contínuo (EC-TFG) e apresenta o modelo TIE-TFG, que utiliza modelagem de flutuação emocional temporalmente intensiva para sintetizar vídeos realistas onde as expressões faciais mudam continuamente em sincronia com variações emocionais descritas no texto.

Hao Yang, Yanyan Zhao, Tian Zheng, Hongbo Zhang, Bichen Wang, Di Wu, Xing Fu, Xuda Zhi, Yongbo Huang, Hao He2026-03-09🤖 cs.AI

Partial Policy Gradients for RL in LLMs

O artigo propõe uma abordagem de Gradientes de Política Parciais para Aprendizado por Reforço em LLMs, que otimiza subconjuntos de recompensas futuras para modelar diferentes classes de políticas (como planejamento completo, gananciosa ou com horizonte limitado), demonstrando empiricamente que diferentes políticas se destacam em diferentes problemas de alinhamento conversacional.

Puneet Mathur, Branislav Kveton, Subhojyoti Mukherjee, Viet Dac Lai2026-03-09🤖 cs.AI

Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

O artigo apresenta o Place-it-R1, um framework end-to-end que aproveita o raciocínio de Cadeia de Pensamento (CoT) de Modelos de Linguagem Multimodais (MLLMs) para orquestrar a inserção de objetos em vídeos, garantindo coerência física e causalidade ambiental através de um ciclo fechado de raciocínio e refinamento.

Bohai Gu, Taiyi Wu, Dazhao Du, Jian Liu, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo2026-03-09🤖 cs.AI