cs artigos | Gist.Science

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

O artigo apresenta o InternVL-U, um modelo unificado multimodal leve de 4 bilhões de parâmetros que democratiza capacidades de compreensão, raciocínio, geração e edição, superando modelos maiores como o BAGEL (14B) em tarefas de geração e edição graças a uma arquitetura modular e um pipeline de dados focado em raciocínio.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

O artigo apresenta o DISPLAY, um framework inovador para geração de vídeos de interação humano-objeto que utiliza coordenadas esparsas de pulsos e caixas delimitadoras de objetos para garantir controle intuitivo e consistência física, aprimorado por mecanismos de atenção focados no objeto e uma estratégia de treinamento auxiliar multi-tarefa.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Robust Cooperative Localization in Featureless Environments: A Comparative Study of DCL, StCL, CCL, CI, and Standard-CL

Este artigo apresenta um estudo comparativo de cinco abordagens de localização cooperativa em ambientes sem características, revelando que, embora métodos como StCL e Standard-CL ofereçam alta precisão, eles sofrem de inconsistência, enquanto a Interseção de Covariância (CI) se destaca como a solução mais equilibrada, combinando consistência robusta com precisão competitiva.

Nivand Khosravi, Meysam Basiri, Rodrigo Ventura2026-03-11💻 cs

Overview of the TREC 2025 Retrieval Augmented Generation (RAG) Track

O segundo track de Geração Aumentada por Recuperação (RAG) do TREC 2025 avança a pesquisa em sistemas que integram recuperação e geração para atender a necessidades informacionais complexas, introduzindo consultas narrativas longas e um quadro de avaliação multifacetado para fomentar a criação de sistemas confiáveis e contextualmente conscientes.

Shivani Upadhyay, Nandan Thakur, Ronak Pradeep, Nick Craswell, Daniel Campos, Jimmy Lin2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

O artigo apresenta o CourtSI, o primeiro grande conjunto de dados e benchmark para avaliar a inteligência espacial de modelos de linguagem e visão em cenários esportivos, demonstrando que o ajuste fino com esses dados supera significativamente as lacunas de desempenho atuais e melhora a capacidade de raciocínio espacial e geração de comentários em esportes de rede.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

The 802.11 MAC protocol leads to inefficient equilibria

Este artigo demonstra, por meio de modelagem teórica e simulação, que o protocolo MAC 802.11 DCF pode levar nós não cooperativos a equilíbrios de Nash ineficientes, mas propõe que um protocolo ideal que desacople a alocação do canal das estratégias de transmissão pode resultar em equilíbrios com maior throughput para todos os nós.

Godfrey Tan, John Guttag2026-03-11💻 cs

Role Classification of Hosts within Enterprise Networks Based on Connection Patterns

Este artigo define o problema de classificação de funções em redes empresariais e apresenta dois algoritmos práticos que agrupam hosts com base em padrões de conexão, demonstrando sua eficácia em reduzir drasticamente a complexidade de gerenciamento e refletir a estrutura lógica da rede.

Godfrey Tan, Massimiliano Poletto, John Guttag, Frans Kaashoek2026-03-11💻 cs

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

O artigo apresenta o WikiCLIP, um framework contrastivo eficiente que supera métodos generativos em reconhecimento visual de entidades de domínio aberto ao utilizar embeddings de modelos de linguagem com um adaptador guiado por visão e um mecanismo de síntese de negativos difíceis, alcançando ganhos significativos de desempenho e reduzindo a latência de inferência em até 100 vezes.

Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He2026-03-11💻 cs

On the Structural Failure of Chamfer Distance in 3D Shape Optimization

Este artigo demonstra que a otimização direta da distância de Chamfer em formas 3D falha estruturalmente devido a um colapso de gradientes local, e propõe que a introdução de acoplamento não local, como deformação de base compartilhada ou um prior MPM diferenciável, é necessária para suprimir esse colapso e melhorar significativamente os resultados.

Chang-Yong Song, David Hyde2026-03-11💻 cs

How to Write to SSDs

Este artigo demonstra que a adoção de escritas fora do local (out-of-place) é essencial para maximizar o desempenho e a vida útil de SSDs em sistemas de banco de dados, propondo otimizações que reduzem significativamente a amplificação de escrita e melhoram a taxa de transferência em benchmarks OLTP.

Bohyun Lee, Tobias Ziegler, Viktor Leis2026-03-11💻 cs

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

Este artigo propõe um método de recuperação de movimento baseado em ângulos articulares que transforma características locais em pseudo-imagens e utiliza interação tardia token-patch para superar as limitações de métodos globais, alcançando resultados superiores e maior interpretabilidade nas tarefas de recuperação texto-movimento.

Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao2026-03-11💻 cs

Unsupervised Domain Adaptation with Target-Only Margin Disparity Discrepancy

Este artigo propõe um novo framework de adaptação de domínio não supervisionada baseado na Discrepância de Desigualdade de Margem (MDD) para melhorar a segmentação do fígado em imagens de CBCT intervencionista, utilizando dados anotados de TC e dados não anotados de CBCT para superar a escassez de anotações específicas desse modo de imagem.

Gauthier Miralles, Loïc Le Folgoc, Vincent Jugnon, Pietro Gori2026-03-11💻 cs

A Voronoi Cell Formulation for Principled Token Pruning in Late-Interaction Retrieval Models

Este artigo propõe uma abordagem fundamentada na geometria do espaço de hipersféricas para o descarte de tokens em modelos de recuperação de interação tardia, formulando o problema como uma estimativa de células de Voronoi para reduzir o armazenamento do índice sem comprometer a qualidade da recuperação.

Yash Kankanampati, Yuxuan Zong, Nadi Tomeh, Benjamin Piwowarksi, Joseph Le Roux2026-03-11💻 cs

Leveraging whole slide difficulty in Multiple Instance Learning to improve prostate cancer grading

Este artigo propõe e valida o uso da "Dificuldade da Lâmina Inteira" (WSD), baseada em discordâncias entre patologistas, para melhorar o desempenho do Aprendizado de Múltiplas Instâncias na classificação e graduação do câncer de próstata, especialmente nos casos de maior gravidade.

Marie Arrivat, Rémy Peyret, Elsa Angelini, Pietro Gori2026-03-11💻 cs

Kinodynamic Motion Retargeting for Humanoid Locomotion via Multi-Contact Whole-Body Trajectory Optimization

O artigo apresenta o KDMR, uma nova estrutura de retransmissão de movimento cinodinâmico que formula a locomoção humanoides como um problema de otimização de trajetória corporal completa com múltiplos contatos, superando as limitações de métodos puramente cinemáticos ao garantir consistência física e melhorar o treinamento de políticas de controle.

Xiaoyu Zhang, Steven Haener, Varun Madabushi, Maegan Tucker2026-03-11💻 cs

Tetris is Hard with Just One Piece Type

Este artigo demonstra que o problema de determinar a viabilidade de limpar ou sobreviver no Tetris com uma única peça tetromino (exceto a peça O) é NP-difícil sob o sistema de rotação padrão, refutando uma conjectura antiga, enquanto estabelece que o problema se torna polinomial para peças do tipo dominó e para peças $1 \times k$ em condições específicas de tabuleiro.

MIT Hardness Group, Josh Brunner, Erik D. Demaine, Della Hendrickson, Jeffery Li2026-03-11💻 cs

ReCoSplat: Autoregressive Feed-Forward Gaussian Splatting Using Render-and-Compare

O artigo apresenta o ReCoSplat, um modelo feed-forward autoregressivo para síntese de novas visões online que utiliza um módulo Render-and-Compare para compensar erros de pose e uma estratégia híbrida de compressão de cache para permitir a reconstrução eficiente de sequências longas, alcançando desempenho state-of-the-art em diversos cenários.

Freeman Cheng, Botao Ye, Xueting Li, Junqi You, Fangneng Zhan, Ming-Hsuan Yang2026-03-11💻 cs

TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation

O artigo apresenta o TiPToP, um sistema modular de planejamento de manipulação robótica que combina modelos de visão pré-treinados com um planejador de tarefas e movimentos para executar tarefas complexas a partir de imagens e instruções em linguagem natural sem necessidade de dados de treinamento específicos do robô, demonstrando desempenho superior ou equivalente a modelos de ação visão-linguagem treinados com milhares de horas de demonstrações.

William Shen, Nishanth Kumar, Sahit Chintalapudi, Jie Wang, Christopher Watson, Edward Hu, Jing Cao, Dinesh Jayaraman, Leslie Pack Kaelbling, Tomás Lozano-Pérez2026-03-11💻 cs

d-DNNF Modulo Theories: A General Framework for Polytime SMT Queries

Este artigo apresenta um novo quadro geral que estende a compilação de conhecimento em d-DNNF para o nível de SMT, permitindo consultas polinomiais em qualquer teoria através da combinação de fórmulas SMT com lemas teóricos pré-computados antes da compilação proposicional.

Gabriele Masina, Emanuale Civini, Massimo Michelutti, Giuseppe Spallitta, Roberto Sebastiani2026-03-11💻 cs

Agent based decision making for Integrated Air Defense system

Este artigo apresenta um modelo de ponta para sistemas integrados de defesa aérea que utiliza agentes baseados na arquitetura BDI e raciocínio de planos de metanível para automatizar decisões de comando e controle, como detecção, avaliação de ameaças e alocação de armas, sem necessidade de intervenção manual.

Sumanta Kumar Das, Sumant Mukherjee2026-03-10💻 cs

← Anterior Próximo →