cs artigos | Gist.Science

GarmentPainter: Efficient 3D Garment Texture Synthesis with Character-Guided Diffusion Model

O artigo apresenta o GarmentPainter, um framework eficiente que utiliza um modelo de difusão guiado por características do personagem e mapas de posição UV para sintetizar texturas de roupas 3D de alta fidelidade e consistentes, superando métodos existentes sem exigir alinhamento espacial rígido ou modificações na arquitetura do modelo.

Jinbo Wu, Xiaobo Gao, Xing Liu, Chen Zhao, Jialun Liu2026-03-10💻 cs

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Este trabalho reformula o reconhecimento de emoções ambíguas como um problema de raciocínio distribucional em Modelos de Linguagem e Áudio Grandes (LALMs), introduzindo um framework com objetivos alinhados a distribuições perceptivas humanas e supervisão estruturada de cadeia de pensamento que demonstra melhorias consistentes em tarefas de previsão de emoções ambíguas.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting Dang2026-03-10💻 cs

A General Lie-Group Framework for Continuum Soft Robot Modeling

Este artigo apresenta uma nova estrutura unificada baseada em grupos de Lie e na teoria de hastes de Cosserat para modelar robôs macios contínuos, superando limitações de métodos existentes ao oferecer expressões analíticas unificadas para cinemática, estática e dinâmica, além de suportar estruturas complexas e garantir eficiência computacional para simulação e controle em tempo real.

Lingxiao Xun, Benoît Rosa, Jérôme Szewczyk, Brahim Tamadazte2026-03-10💻 cs

Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

Este estudo utiliza métodos de aprendizado profundo avançados e imagens ultra-widefield para avaliar a qualidade de imagem, detectar retinopatia diabética referível e edema macular diabético, demonstrando o alto desempenho de modelos como Vision Transformers e a eficácia da fusão de características e representações no domínio da frequência.

Pablo Jimenez-Lizcano, Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Guillermo González de Rivera, Ruben Vera-Rodriguez, Julian Fierrez2026-03-10💻 cs

Why Learn What Physics Already Knows? Realizing Agile mmWave-based Human Pose Estimation via Physics-Guided Preprocessing

Este artigo propõe uma abordagem de estimativa de pose humana baseada em ondas milimétricas que substitui módulos de pré-processamento puramente orientados a dados por princípios físicos explícitos, resultando em um modelo significativamente mais leve e eficiente que mantém a precisão competitiva e permite a execução em tempo real em dispositivos de baixo custo como o Raspberry Pi.

Shuntian Zheng, Jiaqi Li, Minzhe Ni, Xiaoman Lu, Yu Guan2026-03-10💻 cs

SiMO: Single-Modality-Operable Multimodal Collaborative Perception

O artigo apresenta o SiMO, um método inovador de percepção colaborativa multimodal que, através da fusão adaptativa LAMMA e de uma estratégia de treinamento específica, resolve problemas de incompatibilidade semântica e competição entre modalidades, garantindo desempenho robusto mesmo quando sensores críticos como o LiDAR falham.

Jiageng Wen, Shengjie Zhao, Bing Li, Jiafeng Huang, Kenan Ye, Hao Deng2026-03-10💻 cs

Topologically Stable Hough Transform

Este artigo propõe uma reformulação topologicamente estável da Transformada de Hough para detecção de linhas em nuvens de pontos, substituindo o esquema de votação discretizado por uma função de pontuação contínua cujas características persistentes, identificadas via homologia persistente, geram um conjunto de linhas candidatas calculadas eficientemente por um novo algoritmo.

Stefan Huber, Kristóf Huszár, Michael Kerber, Martin Uray2026-03-10💻 cs

Coupling Europe's Capacity Markets

Este artigo propõe um novo conceito de mercado de capacidade europeu acoplado, baseado na lógica do acoplamento de fluxos, que demonstra reduzir os custos do sistema e garantir a fiabilidade ao otimizar a utilização da capacidade disponível entre zonas vizinhas respeitando as restrições da rede.

Kamal Adekola, Laurens de Vries, Kenneth Bruninx2026-03-10💻 cs

DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving

O artigo propõe o DynamicVGGT, um framework unificado de feed-forward que estende a percepção 3D estática para a reconstrução dinâmica 4D em direção autônoma, utilizando atenção temporal consciente do movimento e um cabeçalho de Gaussian Splatting 3D para modelar e otimizar o movimento de pontos com alta precisão.

Zhuolin He, Jing Li, Guanghao Li, Xiaolei Chen, Jiacheng Tang, Siyang Zhang, Zhounan Jin, Feipeng Cai, Bin Li, Jian Pu, Jia Cai, Xiangyang Xue2026-03-10💻 cs

WaDi: Weight Direction-aware Distillation for One-step Image Synthesis

O artigo apresenta o WaDi, um novo framework de destilação para síntese de imagem em um único passo que, baseado na descoberta de que as mudanças na direção dos pesos são mais críticas que as de norma, utiliza o adaptador LoRaD para alcançar desempenho de ponta com apenas 10% dos parâmetros treináveis.

Lei Wang, Yang Cheng, Senmao Li, Ge Wu, Yaxing Wang, Jian Yang2026-03-10💻 cs

Seed2Scale: A Self-Evolving Data Engine for Embodied AI via Small to Large Model Synergy and Multimodal Evaluation

O artigo apresenta o Seed2Scale, um motor de dados autoevolutivo que supera limitações na geração de dados para IA corporificada ao combinar a coleta de demonstrações por modelos leves, a avaliação de qualidade por modelos grandes e o aprendizado do modelo-alvo, resultando em um aumento significativo de desempenho e estabilidade durante iterações escaláveis.

Cong Tai, Zhaoyu Zheng, Haixu Long, Hansheng Wu, Zhengbin Long, Haodong Xiang, Rong Shi, Zhuo Cui, Shizhuang Zhang, Gang Qiu, He Wang, Ruifeng Li, Biao Liu, Zhenzhe Sun, Tao Shen2026-03-10💻 cs

FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use

O artigo apresenta o FinToolBench, o primeiro benchmark executável do mundo real projetado para avaliar agentes de IA no uso de ferramentas financeiras, oferecendo um ecossistema com 760 ferramentas executáveis e um novo framework de avaliação que prioriza a precisão, a conformidade regulatória e a estabilidade em cenários financeiros de alto risco.

Jiaxuan Lu, Kong Wang, Yemin Wang, Qingmei Tang, Hongwei Zeng, Xiang Chen, Jiahao Pi, Shujian Deng, Lingzhi Chen, Yi Fu, Kehua Yang, Xiao Sun2026-03-10💻 cs

Event-based Motion & Appearance Fusion for 6D Object Pose Tracking

Este trabalho propõe um método de aprendizado livre para o rastreamento de pose 6D de objetos que funde fluxo óptico baseado em eventos para propagação de pose com uma correção baseada em templates, superando as limitações de câmeras RGB-D em cenários dinâmicos de alta velocidade.

Zhichao Li, Chiara Bartolozzi, Lorenzo Natale, Arren Glover2026-03-10💻 cs

SAIL: Test-Time Scaling for In-Context Imitation Learning with VLM

O artigo apresenta o SAIL, um quadro de aprendizado por imitação que utiliza busca em árvore Monte Carlo e modelos de linguagem visual para refinar iterativamente trajetórias de robôs durante o teste, demonstrando que aumentar a capacidade de computação no momento da execução melhora significativamente as taxas de sucesso em tarefas de manipulação complexas.

Makoto Sato, Yusuke Iwasawa, Yujin Tang, So Kuroki2026-03-10💻 cs

Prototype-Guided Concept Erasure in Diffusion Models

O artigo "Prototype-Guided Concept Erasure in Diffusion Models" propõe um método que utiliza protótipos derivados da geometria de incorporação latente para identificar e condicionar negativamente representações internas, permitindo a eliminação confiável de conceitos amplos e complexos em modelos de difusão sem comprometer a qualidade da imagem gerada.

Yuze Cai, Jiahao Lu, Hongxiang Shi, Yichao Zhou, Hong Lu2026-03-10💻 cs

Less is More: Robust Zero-Communication 3D Pursuit-Evasion via Representational Parsimony

Este artigo demonstra que a simplificação das representações observacionais e a implementação de um mecanismo de atribuição de crédito local (CGCA) permitem uma coordenação robusta e sem comunicação em cenários de perseguição-evasão 3D, superando abordagens dependentes de comunicação em termos de sucesso e resiliência a atrasos e ruídos.

Jialin Ying, Zhihao Li, Zicheng Dong, Guohua Wu, Yihuan Liao2026-03-10💻 cs

OSCAR: Occupancy-based Shape Completion via Acoustic Neural Implicit Representations

O artigo propõe o OSCAR, um método baseado em representações implícitas neurais que realiza a reconstrução completa da anatomia vertebral a partir de imagens de ultrassom parciais sem necessidade de rótulos anatómicos, superando os desafios de sombreamento acústico e obtendo uma melhoria de 80% no desempenho em comparação com os métodos mais avançados.

Magdalena Wysocki, Kadir Burak Buldu, Miruna-Alexandra Gafencu, Mohammad Farid Azampour, Nassir Navab2026-03-10💻 cs

A Blockchain-based Traceability System for AI-Driven Engine Blade Inspection

Este artigo apresenta o BladeChain, um sistema baseado em blockchain que garante a rastreabilidade imutável e auditável das inspeções de pás de motores de aeronaves, integrando agendamento automatizado, proveniência de modelos de IA e registros criptográficos em uma rede de múltiplas partes interessadas para eliminar falhas manuais e prevenir adulterações.

Mahmoud Hafez, Eman Ouda, Mohammed A. Mohammed Eltoum, Khaled Salah, Yusra Abdulrahman2026-03-10💻 cs

Novel Semantic Prompting for Zero-Shot Action Recognition

O artigo apresenta o SP-CLIP, um framework leve que aprimora o reconhecimento de ações zero-shot ao utilizar prompts semânticos estruturados em múltiplos níveis de abstração para alinhar representações de vídeo com descrições textuais ricas, sem a necessidade de modificar os codificadores visuais ou aprender parâmetros adicionais.

Salman Iqbal, Waheed Rehman2026-03-10💻 cs

Deconstructing Multimodal Mathematical Reasoning: Towards a Unified Perception-Alignment-Reasoning Paradigm

Este artigo propõe um paradigma unificado de percepção-alinhamento-raciocínio para o Raciocínio Matemático Multimodal, sistematizando as abordagens atuais através de quatro questões fundamentais e destacando os desafios e direções futuras para superar as limitações na interpretação de diagramas, alinhamento de símbolos e verificação de passos intermediários.

Tianyu Yang, Sihong Wu, Yilun Zhao, Zhenwen Liang, Lisen Dai, Chen Zhao, Minhao Cheng, Arman Cohan, Xiangliang Zhang2026-03-10💻 cs

← Anterior Próximo →