cs.AI artigos | Gist.Science

Technical Report: Automated Optical Inspection of Surgical Instruments

Este relatório técnico descreve o desenvolvimento de um sistema de Inspeção Óptica Automatizada (AOI) baseado em arquiteturas de aprendizado profundo (YOLOv8, ResNet-152 e EfficientNet-b4) para detectar defeitos em instrumentos cirúrgicos fabricados no Paquistão, utilizando um conjunto de dados de 4.414 imagens e parcerias industriais para garantir a segurança do paciente e a qualidade do produto.

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

TADPO: Reinforcement Learning Goes Off-road

O artigo apresenta o TADPO, uma nova formulação de gradiente de política que combina trajetórias off-policy e on-policy para permitir a navegação em alta velocidade em terrenos off-road complexos, marcando a primeira implementação bem-sucedida de políticas baseadas em aprendizado por reforço em um veículo off-road em escala real com transferência zero-shot de simulação para a realidade.

Zhouchonghao Wu, Raymond Song, Vedant Mundheda, Luis E. Navarro-Serment, Christof Schoenborn, Jeff Schneider2026-03-09🤖 cs.AI

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

O artigo apresenta o MM-ISTS, um framework multimodal que utiliza modelos de linguagem grandes (LLMs) de visão e texto para aprimorar a previsão de séries temporais amostradas irregularmente, integrando dados temporais, visuais e textuais por meio de um mecanismo de codificação em duas etapas e um módulo de alinhamento adaptativo para capturar padrões temporais complexos e contexto semântico.

Zhi Lei, Chenxi Liu, Hao Miao, Wanghui Qiu, Bin Yang, Chenjuan Guo2026-03-09🤖 cs.AI

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

Este artigo identifica e mitiga a "cegueira linguística" em modelos Visão-Linguagem-Ação (VLA), onde políticas robóticas ignoram instruções contraditórias em favor de pistas visuais, propondo o método IGAR, uma técnica de recalibração de atenção sem treinamento que restaura a fidelidade às instruções sem modificar a arquitetura do modelo.

Ninghao Zhang, Bin Zhu, Shijie Zhou, Jingjing Chen2026-03-09🤖 cs.AI

Demystifying KAN for Vision Tasks: The RepKAN Approach

O artigo apresenta o RepKAN, uma nova arquitetura que combina a eficiência das CNNs com o poder de representação não linear dos KANs para criar um modelo de classificação de imagens de sensoriamento remoto que é ao mesmo tempo de alto desempenho e fisicamente interpretável.

Minjong Cheon2026-03-09🤖 cs.AI

MASFactory: A Graph-centric Framework for Orchestrating LLM-Based Multi-Agent Systems with Vibe Graphing

O artigo apresenta o MASFactory, um framework centrado em grafos para orquestrar sistemas multiagentes baseados em LLM, que introduz a "Vibe Graphing" para converter intenções em linguagem natural em fluxos de trabalho executáveis, além de oferecer componentes reutilizáveis, integração de contexto e visualização, validados em sete benchmarks públicos.

Yang Liu, Jinxuan Cai, Yishen Li, Qi Meng, Zedi Liu, Xin Li, Chen Qian, Chuan Shi, Cheng Yang2026-03-09🤖 cs.AI

Sensitivity-Aware Retrieval-Augmented Intent Clarification

Este artigo propõe um framework de três etapas para desenvolver um agente conversacional de esclarecimento de intenções aumentado por recuperação que atue como mediador e guardião de coleções de dados sensíveis, definindo modelos de ataque, projetando defesas específicas e avaliando o equilíbrio entre proteção e utilidade do sistema.

Maik Larooij2026-03-09🤖 cs.AI

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

Este estudo investiga as falhas de Modelos Visuais-Linguísticos (VLMs) em cenários de condução autónoma, identificando que, embora alguns conceitos visuais sejam linearmente codificados, outros dependem de estruturas espaciais implícitas, e que as falhas podem ser classificadas como perceptivas (ausência de codificação linear) ou cognitivas (falha no alinhamento semântico), sendo a capacidade de distinção linear degradada rapidamente com o aumento da distância do objeto.

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

O artigo apresenta o TempoSyncDiff, um framework de difusão latente baseado em distilação que utiliza um modelo professor-aluno e regularização temporal para gerar cabeças falantes acionadas por áudio com alta fidelidade, estabilidade temporal e baixa latência, viabilizando sua implementação em dispositivos de borda.

Soumya Mazumdar, Vineet Kumar Rakesh2026-03-09🤖 cs.AI

Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation

O artigo apresenta o PyPDDLEngine, um motor de simulação PDDL que permite que modelos de linguagem atuem como agentes de planejamento interativos, demonstrando que, embora essa abordagem agênica ofereça uma vantagem modesta de 3 pontos percentuais em relação ao planejamento direto de LLMs em problemas de Blocksworld, ela não supera os métodos simbólicos clássicos e revela limitações na capacidade de autoavaliação do agente sem feedback externo.

Kai Göbel, Pierrick Lorang, Patrik Zips, Tobias Glück2026-03-09🤖 cs.AI

Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

Este estudo avalia a eficácia de modelos de linguagem de grande porte (LLMs) na correção automática de redações alemãs de nível A da Áustria com base em rubricas, concluindo que, embora os modelos consigam aplicar os critérios, sua baixa concordância com avaliadores humanos (32,8% nas notas finais) os torna inadequados para uso em ambientes reais de avaliação.

Jonas Kubesch, Lena Huber, Clemens Havas2026-03-09🤖 cs.AI

Aggregative Semantics for Quantitative Bipolar Argumentation Frameworks

Este artigo apresenta uma nova família de semânticas graduais, denominadas "semânticas agregativas", para Quadros de Argumentação Bipolar Quantitativos (QBAF), que calculam a aceitabilidade de argumentos em três etapas distintas agregando separadamente atacantes e apoiadores, oferecendo assim maior parametrização e interpretabilidade em comparação com abordagens anteriores.

Yann Munro, Isabelle Bloch, Marie-Jeanne Lesot2026-03-09🤖 cs.AI

Text-Driven Emotionally Continuous Talking Face Generation

O artigo propõe a nova tarefa de Geração de Rosto Falante Emocionalmente Contínuo (EC-TFG) e apresenta o modelo TIE-TFG, que utiliza modelagem de flutuação emocional temporalmente intensiva para sintetizar vídeos realistas onde as expressões faciais mudam continuamente em sincronia com variações emocionais descritas no texto.

Hao Yang, Yanyan Zhao, Tian Zheng, Hongbo Zhang, Bichen Wang, Di Wu, Xing Fu, Xuda Zhi, Yongbo Huang, Hao He2026-03-09🤖 cs.AI

Lifelong Embodied Navigation Learning

O artigo apresenta o Uni-Walker, um framework de aprendizado contínuo para agentes de navegação corporificada que supera o esquecimento catastrófico ao decoplar o conhecimento em componentes compartilhados e específicos por meio de DE-LoRA, estratégias de herança de conhecimento e mecanismos de raciocínio específicos para tarefas.

Xudong Wang, Jiahua Dong, Baichen Liu, Qi Lyu, Lianqing Liu, Zhi Han2026-03-09🤖 cs.AI

StreamVoiceAnon+: Emotion-Preserving Streaming Speaker Anonymization via Frame-Level Acoustic Distillation

O artigo apresenta o StreamVoiceAnon+, uma abordagem de anonimização de fala em streaming que preserva a emoção através de ajuste fino supervisionado e destilação de nível de quadro, alcançando melhorias significativas na preservação emocional sem adicionar latência à inferência.

Nikita Kuzmin, Kong Aik Lee, Eng Siong Chng2026-03-09🤖 cs.AI

Offline Materials Optimization with CliqueFlowmer

Este trabalho apresenta o CliqueFlowmer, um modelo de otimização baseado em aprendizado offline que combina transformadores, fluxos de geração e otimização baseada em cliques para descobrir materiais com propriedades superiores, superando os métodos generativos tradicionais.

Jakub Grudzien Kuba, Benjamin Kurt Miller, Sergey Levine, Pieter Abbeel2026-03-09🤖 cs.AI

Experiences Build Characters: The Linguistic Origins and Functional Impact of LLM Personality

Este estudo demonstra que a exposição contínua a textos específicos de domínio molda a personalidade das LLMs, revelando uma vantagem na supressão de traços sociais para o raciocínio complexo e estabelecendo uma ligação causal entre características linguísticas dos dados de treinamento e o desempenho do modelo.

Xi Wang, Mengdie Zhuang, Jiqun Liu2026-03-09🤖 cs.AI

Making Implicit Premises Explicit in Logical Understanding of Enthymemes

Este artigo propõe um pipeline que integra modelos de linguagem grandes e um raciocinador neuro-simbólico para transformar argumentos implícitos (entimemas) em fórmulas lógicas, gerar premissas ocultas e verificar a validade do raciocínio, preenchendo assim a lacuna entre métodos de processamento de linguagem natural e abordagens baseadas em lógica.

Xuyao Feng, Anthony Hunter2026-03-09🤖 cs.AI

A Hazard-Informed Data Pipeline for Robotics Physical Safety

Este relatório apresenta uma estrutura de segurança física para robótica que integra engenharia de riscos clássica, simulação de gêmeos digitais e geração de dados sintéticos para alinhar a declaração de ativos e a enumeração de vulnerabilidades ao treinamento de modelos de aprendizado de máquina.

Alexei Odinokov, Rostislav Yavorskiy2026-03-09🤖 cs.AI

A Causal Graph Approach to Oppositional Narrative Analysis

Este trabalho propõe uma abordagem baseada em grafos causais para analisar narrativas opositivas, superando métodos tradicionais ao modelar interações entre entidades e extrair subgrafos causais mínimos para classificação, resultando em desempenho superior.

Diego Revilla, Martin Fernandez-de-Retana, Lingfeng Chen, Aritz Bilbao-Jayo, Miguel Fernandez-de-Retana2026-03-09🤖 cs.AI

← Anterior Próximo →