cs artigos | Gist.Science

$\Delta$ VLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation

O artigo apresenta o $\Delta$ VLA, um modelo de Visão-Linguagem-Ação que supera as abordagens preditivas tradicionais ao gerar ações baseadas na variação do conhecimento do mundo em relação a um prior explícito, utilizando um extrator de prior, quantização latente e atenção condicional para alcançar desempenho superior e maior eficiência em tarefas robóticas.

Yijie Zhu, Jie He, Rui Shao, Kaishen Yuan, Tao Tan, Xiaochen Yuan, Zitong Yu2026-03-10💻 cs

Diffusion-Based Data Augmentation for Image Recognition: A Systematic Analysis and Evaluation

Este trabalho apresenta o UniDiffDA, um quadro analítico unificado que decompõe métodos de aumento de dados baseados em difusão em três componentes principais, permitindo uma avaliação sistemática e justa de suas estratégias em tarefas de classificação com poucos dados, além de oferecer insights práticos e garantir reprodutibilidade através da reimplantação de todos os métodos em uma base de código comum.

Zekun Li, Yinghuan Shi, Yang Gao, Dong Xu2026-03-10💻 cs

M $^3$ -ACE: Rectifying Visual Perception in Multimodal Math Reasoning via Multi-Agentic Context Engineering

O artigo apresenta o M³-ACE, um framework de engenharia de contexto multiagente que aprimora o raciocínio matemático multimodal ao corrigir falhas de percepção visual através da colaboração dinâmica entre agentes e ferramentas especializadas, estabelecendo novos recordes de desempenho em benchmarks como o MathVision.

Peijin Xie, Zhen Xu, Bingquan Liu, Baoxun Wang2026-03-10💻 cs

Designing Value-Based Platforms: Architectural Strategies Derived from the Digital Markets Act

Este artigo investiga as implicações técnicas do Digital Markets Act (DMA) e propõe oito estratégias de arquitetura e 15 táticas para projetar plataformas digitais que incorporem valores humanos abstratos, como equidade e escolha do usuário, promovendo a justiça e a contestabilidade nesses ecossistemas.

Fabian Stiehle, Markus Funke, Patricia Lago, Ingo Weber2026-03-10💻 cs

This Looks Distinctly Like That: Grounding Interpretable Recognition in Stiefel Geometry against Neural Collapse

O artigo propõe o framework Adaptive Manifold Prototypes (AMP), que utiliza otimização riemanniana na variedade de Stiefel para representar protótipos de classe como bases ortonormais, mitigando o colapso de protótipos e melhorando simultaneamente a precisão de classificação e a fidelidade causal em tarefas de reconhecimento fino.

Junhao Jia, Jiaqi Wang, Yunyou Liu, Haodong Jing, Yueyi Wu, Xian Wu, Yefeng Zheng2026-03-10💻 cs

The biased interaction game: Its dynamics and application in modelling social systems

Este artigo apresenta o "jogo de interação enviesada" como uma ferramenta para modelar sistemas sociais sob escassez e racionalidade limitada, demonstrando como o viés gera hierarquia, cooperação e comportamentos não lineares, além de aplicar o modelo para comparar filosofias de redistribuição de riqueza como o estado de bem-estar social e a renda básica universal.

Phil Mercy, Martin Neil2026-03-10💻 cs

Perception-Aware Communication-Free Multi-UAV Coordination in the Wild

Este artigo apresenta um método de coordenação multi-UAV sem comunicação que utiliza sensores LiDAR a bordo para navegação segura e autônoma em ambientes complexos e sem GNSS, como florestas, validando sua eficácia através de simulações e experimentos em campo.

Manuel Boldrer, Michal Kamler, Afzal Ahmad, Martin Saska2026-03-10💻 cs

Structure from Rank: Rank-Order Coding as a Bridge from Sequence to Structure

Este artigo propõe um modelo de rede neural baseado em codificação por ordem de rank, inspirado no pathway STG-LIFG-PMC, que demonstra como essa codificação permite a compressão eficiente de sequências, a detecção de novidades globais e a generalização proto-sintática, servindo como uma ponte entre a entrada acústica e a representação hierárquica de estruturas gramaticais.

Xiaodan Chen, Alexandre Pitti, Mathias Quoy, Nancy Chen2026-03-10💻 cs

MoMaStage: Skill-State Graph Guided Planning and Closed-Loop Execution for Long-Horizon Indoor Mobile Manipulation

O MoMaStage é um framework de visão e linguagem estruturado que utiliza um grafo de estado-habilidade e execução em malha fechada para permitir que robôs móveis manipuladores executem tarefas de longo alcance em ambientes internos com maior consistência lógica, adaptabilidade e sucesso, eliminando a necessidade de mapeamento explícito do ambiente.

Chenxu Li, Zixuan Chen, Yetao Li, Jiapeng Xu, Hongyu Ding, Jieqi Shi, Jing Huo, Yang Gao2026-03-10💻 cs

Rectified flow-based prediction of post-treatment brain MRI from pre-radiotherapy priors for patients with glioma

Este estudo apresenta um modelo de fluxo retificado que gera previsões realistas de ressonância magnética cerebral pós-tratamento para pacientes com glioma, utilizando dados pré-terapêuticos e mapas de dose de radioterapia para permitir simulações contrafactuais e otimização do planejamento terapêutico com alta fidelidade e velocidade de inferência.

Selena Huisman, Nordin Belkacemi, Vera Keil, Joost Verhoeff, Szabolcs David2026-03-10💻 cs

Real-Time Drone Detection in Event Cameras via Per-Pixel Frequency Analysis

O artigo propõe o método DDHF, que utiliza a Transformada de Fourier Discreta Não Uniforme (NDFT) para analisar a frequência temporal por pixel em câmeras de eventos, permitindo a detecção e localização em tempo real de drones com maior precisão e menor latência do que abordagens baseadas em deep learning como o YOLO.

Michael Bezick, Majid Sahin2026-03-10💻 cs

AULLM++: Structural Reasoning with Large Language Models for Micro-Expression Recognition

O artigo apresenta o AULLM++, um framework baseado em Modelos de Linguagem Grande (LLMs) que supera as limitações de métodos anteriores na detecção de Unidades de Ação (AU) de microexpressões ao integrar evidências visuais multigranulares e modelagem estrutural de relações entre AUs para alcançar desempenho superior e melhor generalização.

Zhishu Liu, Kaishen Yuan, Bo Zhao, Hui Ma, Zitong Yu2026-03-10💻 cs

A Hierarchical Error-Corrective Graph Framework for Autonomous Agents with LLM-Based Action Generation

O artigo propõe o Framework Gráfico Hierárquico de Correção de Erros (HECG), uma arquitetura inovadora para agentes autônomos com geração de ações baseada em LLMs que integra Transferência de Estratégia Multidimensional (MDTS), Classificação Matricial de Erros (EMC) e Recuperação de Gráfico Causal-Contextual (CCGR) para otimizar a seleção de estratégias, diagnosticar falhas com precisão e melhorar a execução em tarefas complexas e dinâmicas.

Cong Cao, Jingyao Zhang, Kun Tong2026-03-10💻 cs

StructBiHOI: Structured Articulation Modeling for Long--Horizon Bimanual Hand--Object Interaction Generation

O artigo apresenta o StructBiHOI, um framework inovador que utiliza modelagem de articulação estruturada com um denoiser baseado em Mamba para gerar interações bimanuais mão-objeto de longo horizonte, superando desafios de estabilidade temporal e coordenação complexa ao separar o planejamento de juntas de longo prazo do refinamento de poses em nível de quadro.

Zhi Wang, Liu Liu, Ruonan Liu, Dan Guo, Meng Wang2026-03-10💻 cs

Trust Nothing: RTOS Security without Run-Time Software TCB (Extended Version)

Este artigo apresenta uma nova arquitetura de capacidades implementada em FPGA que permite a criação de um sistema operacional de tempo real seguro sem TCB de software em tempo de execução, isolando completamente subsistemas e periféricos não confiáveis sem exigir alterações de hardware.

Eric Ackermann, Sven Bugiel2026-03-10💻 cs

SPIRAL: A Closed-Loop Framework for Self-Improving Action World Models via Reflective Planning Agents

O artigo apresenta o SPIRAL, um framework de malha fechada que utiliza agentes de planejamento e reflexão iterativa para aprimorar a geração de vídeos de longo prazo condicionados a ações semânticas, superando as limitações de consistência temporal e alinhamento semântico dos modelos existentes.

Yu Yang, Yue Liao, Jianbiao Mei, Baisen Wang, Xuemeng Yang, Licheng Wen, Jiangning Zhang, Xiangtai Li, Hanlin Chen, Botian Shi, Yong Liu, Shuicheng Yan, Gim Hee Lee2026-03-10💻 cs

Scalable On-the-fly Transcoding for Adaptive Streaming of Dynamic Point Clouds

Este trabalho apresenta e avalia um sistema de streaming de nuvens de pontos dinâmicas que utiliza transcodificação sob demanda, demonstrando empiricamente que o uso de cache e transcodificação especulativa reduz significativamente a carga de processamento e melhora a experiência do usuário, permitindo a escalabilidade para um maior número de clientes simultâneos.

Michael Rudolph, Matthias De Fré, Finn Schnier, Tim Wauter, Amr Rizk2026-03-10💻 cs

Human-Aware Robot Behaviour in Self-Driving Labs

Este artigo apresenta um método de percepção baseado em IA com previsão hierárquica de intenções humanas que permite aos robôs em laboratórios autônomos antecipar e interagir proativamente com pesquisadores humanos, superando as limitações dos sistemas atuais de detecção de obstruções e otimizando a coordenação em ambientes compartilhados.

Satheeshkumar Veeramani, Anna Kisil, Abigail Bentley, Hatem Fakhruldeen, Gabriella Pizzuto, Andrew I. Cooper2026-03-10💻 cs

Client-Cooperative Split Learning

O artigo apresenta o CliCooper, um framework de Aprendizado Dividido (Split Learning) cooperativo multi-cliente que protege a privacidade dos dados e garante a integridade e a proveniência do modelo em ambientes parcialmente confiáveis, utilizando técnicas de privacidade diferencial e marcação d'água dinâmica.

Haiyu Deng, Yanna Jiang, Guangsheng Yu, Qin Wang, Xu Wang, Wei Ni, Shiping Chen, Ren Ping Liu2026-03-10💻 cs

Tactile Recognition of Both Shapes and Materials with Automatic Feature Optimization-Enabled Meta Learning

Este artigo propõe o framework AFOP-ML, uma rede prototípica com otimização automática de recursos que utiliza aprendizado meta para realizar o reconhecimento tátil de formas e materiais com alta precisão em cenários de poucos exemplos, superando métodos existentes e demonstrando robustez frente a perturbações e classes não vistas.

Hongliang Zhao, Wenhui Yang, Yang Chen, Zhuorui Wang, Baiheng Liu, Longhui Qin2026-03-10💻 cs

← Anterior Próximo →

cs

Δ\DeltaΔVLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation