cs artigos | Gist.Science

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

O WISER é um framework de recuperação de imagens composta zero-shot sem treinamento que supera os métodos existentes ao unificar as abordagens Texto-para-Imagem e Imagem-para-Imagem em um pipeline de "busca mais ampla, pensamento mais profundo e fusão adaptativa", utilizando verificação de confiança e auto-reflexão estruturada para refinar dinamicamente os resultados.

Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang2026-03-10💻 cs

PackUV: Packed Gaussian UV Maps for 4D Volumetric Video

O artigo apresenta o PackUV, um novo método de representação volumétrica 4D que mapeia atributos gaussianos em mapas UV estruturados para compatibilidade com codecs de vídeo padrão, introduzindo também o método de ajuste PackUV-GS e o conjunto de dados PackUV-2B para superar limitações de consistência temporal e escalabilidade em sequências longas.

Aashish Rai, Angela Xing, Anushka Agarwal, Xiaoyan Cong, Zekun Li, Tao Lu, Aayush Prakash, Srinath Sridhar2026-03-10💻 cs

On Sample-Efficient Generalized Planning via Learned Transition Models

Este trabalho propõe formular o planejamento generalizado como um problema de aprendizado de modelos de transição explícitos, demonstrando que prever estados intermediários em vez de ações diretas resulta em maior generalização fora da distribuição e eficiência amostral com modelos menores do que as abordagens baseadas em Transformers que predizem sequências de ações diretamente.

Nitin Gupta, Vishal Pallagani, John A. Aydin, Biplav Srivastava2026-03-10💻 cs

Annotation-Free Visual Reasoning for High-Resolution Large Multimodal Models via Reinforcement Learning

O artigo apresenta o HART, um quadro de aprendizado por reforço que permite que Modelos Multimodais de Grande Escala realizem raciocínio visual em alta resolução sem anotações humanas, otimizando a localização de regiões-chave e melhorando o desempenho em diversas tarefas complexas.

Jiacheng Yang, Anqi Chen, Yunkai Dang, Qi Fan, Cong Wang, Wenbin Li, Feng Miao, Yang Gao2026-03-10💻 cs

PEPA: a Persistently Autonomous Embodied Agent with Personalities

O artigo apresenta o PEPA, uma arquitetura cognitiva de três camadas que utiliza traços de personalidade para permitir que agentes corporificados gerem objetivos internos e operem de forma autônoma e persistente em ambientes dinâmicos, validado experimentalmente em um robô quadrúpede real.

Kaige Liu, Yang Li, Lijun Zhu, Weinan Zhang2026-03-10💻 cs

Self-Attention And Beyond the Infinite: Towards Linear Transformers with Infinite Self-Attention

O artigo apresenta o Infinito Self-Attention (InfSA), uma reformulação espectral que modela a atenção como um processo de difusão em grafos de tokens para superar o custo quadrático do softmax, introduzindo a variante Linear-InfSA que alcança complexidade linear, permite processamento de imagens de ultra-alta resolução (até 9216x9216) e supera os Transformers convencionais em precisão e eficiência energética no ImageNet.

Giorgio Roffo, Luke Palmer2026-03-10💻 cs

WildActor: Unconstrained Identity-Preserving Video Generation

O artigo apresenta o WildActor, um framework de geração de vídeos humanos que preserva a identidade corporal em condições desafiadoras de movimento e viewpoint, apoiado pelo novo conjunto de dados em larga escala Actor-18M e validado pelo benchmark Actor-Bench.

Qin Guo, Tianyu Yang, Xuanhua He, Fei Shen, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Dan Xu2026-03-10💻 cs

Position: Evaluation of Visual Processing Should Be Human-Centered, Not Metric-Centered

Este artigo de posicionamento defende que a avaliação de sistemas modernos de processamento visual deve abandonar a primazia de métricas objetivas de qualidade de imagem em favor de uma abordagem centrada no ser humano, contextual e detalhada, para evitar que a divergência entre resultados métricos e percepção humana restrinja a inovação e desvie o progresso da pesquisa.

Jinfan Hu, Fanghua Yu, Zhiyuan You, Xiang Yin, Hongyu An, Xinqi Lin, Chao Dong, Jinjin Gu2026-03-10💻 cs

Sustainable Care: Designing Technologies That Support Children's Long-Term Engagement with Social Issues

Este workshop propõe a "cuidado sustentável" como uma lente de design para criar tecnologias que apoiem o engajamento de longo prazo das crianças em questões sociais, evitando a angústia e o esgotamento causados por abordagens atuais focadas no medo.

JaeWon Kim, Aayushi Dangol, Rotem Landesman, Alexis Hiniker, McKenna F. Parnes2026-03-10💻 cs

DeAR: Fine-Grained VLM Adaptation by Decomposing Attention Head Roles

O artigo apresenta o DeAR, um framework que adapta modelos de visão e linguagem de forma granular decompondo os papéis dos cabeçalhos de atenção e utilizando uma máscara baseada em funções para equilibrar a adaptação a tarefas específicas com a preservação da generalização zero-shot.

Yiming Ma, Hongkun Yang, Lionel Z. Wang, Bin Chen, Weizhi Xian, Jianzhi Teng2026-03-10💻 cs

Digital Twin-Based Cooling System Optimization for Data Center

Este artigo apresenta um gêmeo digital validado da infraestrutura de refrigeração do supercomputador Frontier que, ao empregar uma estrutura de otimização em camadas, demonstra que a co-otimização do fluxo e da temperatura de suprimento pode reduzir o consumo energético em até 30,1%, superando significativamente as estratégias de otimização convencionais.

Shrenik Jadhav, Zheng Liu2026-03-10💻 cs

Extended Empirical Validation of the Explainability Solution Space

Este relatório técnico valida estendida e empiricamente a Espaço de Soluções de Explicabilidade (ESS) através de uma avaliação transversal que, além da previsão de rotatividade de funcionários, incorpora um sistema heterogêneo de alocação de recursos urbanos inteligentes, demonstrando a generalidade e adaptabilidade do framework a diferentes domínios, perfis de risco e configurações de partes interessadas.

Antoni Mestre, Manoli Albert, Miriam Gil, Vicente Pelechano2026-03-10💻 cs

Energy Efficient Traffic Scheduling For Optical LEO Satellite Downlinks

Este trabalho propõe e avalia esquemas estáticos e adaptativos, incluindo algoritmos heurísticos e aprendizado por reforço, para otimizar o agendamento de tráfego em enlaces ópticos de satélites LEO, equilibrando a eficiência energética e a taxa de entrega de dados diante de interrupções climáticas.

Ethan Fettes, Pablo G. Madoery, Halim Yanikomeroglu, Gunes Karabulut Kurt, Abhishek Naik, Stéphane Martel2026-03-10💻 cs

HarmonyCell: Automating Single-Cell Perturbation Modeling under Semantic and Distribution Shifts

O artigo apresenta o HarmonyCell, um framework de agente autônomo que resolve as heterogeneidades semântica e estatística em estudos de perturbação de células únicas, unificando metadados via LLM e otimizando arquiteturas de modelos com busca em árvore Monte Carlo para superar deslocamentos de distribuição sem necessidade de engenharia específica por conjunto de dados.

Wenxuan Huang, Mingyu Tsoi, Yanhao Huang, Xinjie Mao, Xue Xia, Hao Wu, Jiaqi Wei, Yuejin Yang, Lang Yu, Cheng Tan, Xiang Zhang, Zhangyang Gao, Siqi Sun2026-03-10💻 cs

LLM-assisted Semantic Option Discovery for Facilitating Adaptive Deep Reinforcement Learning

Este artigo apresenta um novo quadro de aprendizado por reforço profundo assistido por modelos de linguagem (LLM) que mapeia instruções em linguagem natural para regras executáveis e anotações semânticas, melhorando a eficiência de dados, a conformidade com restrições e a transferabilidade entre tarefas em ambientes complexos.

Chang Yao, Jinghui Qin, Kebing Jin, Hankz Hankui Zhuo2026-03-10💻 cs

MSP-ReID: Hairstyle-Robust Cloth-Changing Person Re-Identification

O artigo propõe o framework MSP, que utiliza aumento orientado a penteados, apagamento aleatório preservando roupas e atenção baseada em parsing para mitigar a dependência de características voláteis de cabelo e melhorar a reidentificação de pessoas que mudam de roupa.

Xiangyang He, Lin Wan2026-03-10💻 cs

DINOv3 Visual Representations for Blueberry Perception Toward Robotic Harvesting

Este trabalho avalia o modelo de visão DINOv3 como base para tarefas de percepção em robótica de colheita de mirtilos, concluindo que, embora seja eficaz para segmentação graças às suas representações estáveis, seu desempenho em detecção é limitado pela variação de escala e pela dificuldade em modelar aglomerados, sugerindo que ele deve ser utilizado como uma base semântica complementar a modelos espaciais especializados.

Rui-Feng Wang, Daniel Petti, Yue Chen, Changying Li2026-03-10💻 cs

Event-Driven Safe and Resilient Control of Automated and Human-Driven Vehicles under EU-FDI Attacks

Este artigo propõe um quadro de controle seguro e resiliente baseado em eventos (EDSR) que integra funções de barreira e Lyapunov com estimação de dados para garantir manobras de mudança de faixa seguras e estáveis para veículos automatizados em tráfego misto, mesmo sob ataques de injeção de dados falsos exponencialmente ilimitados.

Yi Zhang, Yichao Wang, Wei Xiao, Mohamadamin Rajabinezhad, Shan Zuo2026-03-10💻 cs

Generalized Per-Agent Advantage Estimation for Multi-Agent Policy Optimization

Este artigo propõe o Generalized Per-Agent Advantage Estimator (GPAE), um novo framework de aprendizado por reforço multiagente que melhora a eficiência amostral e a coordenação ao estimar vantagens por agente via operadores de iteração de valor e amostragem por importância truncada dupla, eliminando a necessidade de estimativa direta da função Q.

Seongmin Kim, Giseung Park, Woojun Kim, Jiwon Jeon, Seungyul Han, Youngchul Sung2026-03-10💻 cs

Agentified Assessment of Logical Reasoning Agents

Os autores apresentam um framework de avaliação baseado em agentes para testar raciocínio lógico, demonstrando sua eficácia ao benchmarkar um agente de auto-formalização no conjunto de dados FOLIO, onde ele superou uma linha de base de cadeia de pensamento com 86,70% de precisão.

Zhiyu Ni, Yifeng Xiao, Zheng Liang2026-03-10💻 cs

← Anterior Próximo →