Image Captioning via Compact Bidirectional Architecture

Este artigo apresenta um modelo Transformer bidirecional compacto para legendagem de imagens que integra fluxos de esquerda para direita e de direita para esquerda em uma única arquitetura executável em paralelo, alcançando resultados state-of-the-art no conjunto de dados MSCOCO ao aproveitar o contexto bidirecional e técnicas de ensemble.

Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng WangWed, 11 Ma💬 cs.CL

TIMotion: Temporal and Interactive Framework for Efficient Human-Human Motion Generation

O artigo apresenta o TIMotion, um framework eficiente e eficaz para geração de movimentos humanos interativos que supera as limitações dos métodos existentes ao empregar injeção interativa causal, varredura de papéis evolutivos e amplificação de padrões localizados para modelar com precisão as dinâmicas temporais e de interação entre duas pessoas.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Ke Fan, Jiafu Wu, Zhucun Xue, Yong LiuWed, 11 Ma💻 cs

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Este artigo propõe um quadro unificado que modela a quantização e a esparsificação como ruído aditivo e introduz uma transformada de dequantização por dedução para estabelecer um caminho de gradiente explícito, permitindo o treinamento estável e robusto de redes neurais em precisões arbitrárias e níveis de esparsidade, incluindo regimes sub-bit e A1W1.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew HowardWed, 11 Ma🤖 cs.AI

DRUPI: Dataset Reduction Using Privileged Information

O artigo apresenta o DRUPI, um método de condensação de dados que melhora o desempenho de modelos ao sintetizar informações privilegiadas (como rótulos de características ou atenção) junto com o conjunto de dados reduzido, oferecendo supervisão auxiliar que supera as abordagens tradicionais baseadas apenas em pares de dados e rótulos.

Shaobo Wang, Youxin Jiang, Tianle Niu, Yantai Yang, Ruiji Zhang, Shuhao Hu, Shuaiyu Zhang, Chenghao Sun, Weiya Li, Conghui He, Xuming Hu, Linfeng ZhangWed, 11 Ma🤖 cs.AI

Unsupervised Representation Learning from Sparse Transformation Analysis

Este artigo propõe um método de aprendizado de representação não supervisionado que fatora transformações de variáveis latentes em componentes esparsos, decompondo um modelo de fluxo de probabilidade em campos vetoriais rotacionais e potenciais para gerar representações disjuntas que alcançam resultados de ponta em verossimilhança de dados e erros de equivariância aproximada.

Yue Song, Thomas Anderson Keller, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

Image Compression Using Novel View Synthesis Priors

Este artigo propõe uma técnica de compressão de imagens baseada em modelos que utiliza síntese de novas vistas e otimização por descida de gradiente para permitir o feedback visual em tempo real no controle de veículos operados remotamente subaquáticos, superando as limitações de largura de banda da comunicação acústica.

Luyuan Peng, Mandar Chitre, Hari Vishnu, Yuen Min Too, Bharath Kalyan, Rajat Mishra, Soo Pieng TanWed, 11 Ma⚡ eess

ARSGaussian: 3D Gaussian Splatting with LiDAR for Aerial Remote Sensing Novel View Synthesis

O artigo apresenta o ARSGaussian, um método inovador de síntese de novas vistas para sensoriamento remoto aéreo que integra nuvens de pontos LiDAR e perdas de consistência geométrica ao 3D Gaussian Splatting para corrigir erros de geometria e melhorar a qualidade visual, além de lançar o conjunto de dados AIR-LONGYAN para apoiar pesquisas nessa área.

Yiling Yao, Bing Zhang, Wenjuan Zhang, Lianru Gao, Dailiang Peng, Bocheng Li, Yaning Wang, Bowen WangWed, 11 Ma💻 cs

CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph

O artigo apresenta o CuriousBot, um sistema que utiliza um grafo de objetos relacionais 3D para superar as limitações da exploração móvel baseada apenas em percepção, permitindo que robôs interajam ativamente com o ambiente em espaços complexos e superando métodos que dependem exclusivamente de modelos de linguagem e visão.

Yixuan Wang, Leonor Fermoselle, Tarik Kelestemur, Jiuguang Wang, Yunzhu LiWed, 11 Ma🤖 cs.LG

A Survey on Wi-Fi Sensing Generalizability: Taxonomy, Techniques, Datasets, and Future Research Prospects

Este artigo de revisão oferece uma análise abrangente e estruturada de mais de 200 trabalhos sobre generalização em sensoriamento Wi-Fi, apresentando uma taxonomia de técnicas, um resumo de conjuntos de dados públicos e direções futuras para superar os desafios de adaptação a novos usuários, dispositivos e ambientes.

Fei Wang, Tingting Zhang, Wei Xi, Han Ding, Ge Wang, Di Zhang, Yuanhao Cui, Fan Liu, Jinsong Han, Jie Xu, Tony Xiao HanWed, 11 Ma💻 cs

Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach

Este artigo apresenta o BR-Gen, um novo dataset de grande escala com 150.000 imagens localmente falsificadas e o modelo NFA-ViT, que utiliza amplificação de ruído para detectar e propagar traços de falsificações sutis em todo o contexto da imagem, superando os métodos existentes em precisão e generalização.

Lvpan Cai, Haowei Wang, Jiayi Ji, Yanshu Zhoumen, Shen Chen, Taiping Yao, Xiaoshuai SunWed, 11 Ma💻 cs

M4-SAR: A Multi-Resolution, Multi-Polarization, Multi-Scene, Multi-Source Dataset and Benchmark for optical-SAR Object Detection

Este artigo apresenta o M4-SAR, um novo dataset abrangente e padronizado para detecção de objetos por fusão óptica-SAR, acompanhado de um toolkit de benchmark e do framework E2E-OSDet, demonstrando que a combinação desses dados melhora significativamente a precisão da detecção em ambientes complexos.

Chao Wang, Wei Lu, Xiang Li, Jian Yang, Lei LuoWed, 11 Ma💻 cs

MARRS: Masked Autoregressive Unit-based Reaction Synthesis

O artigo apresenta o MARRS, um novo framework que utiliza representações contínuas e um modelo autoregressivo baseado em unidades corporais distintas para sintetizar reações humanas coordenadas e de alta qualidade, superando as limitações de perda de informação e complexidade computacional dos métodos anteriores baseados em quantização vetorial.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Jiafu Wu, Qingdong He, Yong LiuWed, 11 Ma💻 cs

SpikeSMOKE: Spiking Neural Networks for Monocular 3D Object Detection with Cross-Scale Gated Coding

O artigo apresenta o SpikeSMOKE, uma arquitetura de redes neurais de pulso (SNN) para detecção de objetos 3D monoculares que introduz um mecanismo de codificação de portão cruzado (CSGC) e blocos residuais leves para superar a perda de informação das SNNs, resultando em maior precisão e consumo energético drasticamente reduzido em comparação com métodos tradicionais.

Xuemei Chen, Huamin Wang, Jing Peng, Hangchi Shen, Shukai Duan, Shiping Wen, Tingwen HuangWed, 11 Ma💻 cs

Improving Large Vision-Language Models' Understanding for Flow Field Data

O artigo apresenta o FieldLVLM, um novo framework que aprimora a compreensão de modelos de linguagem-visão grandes sobre dados de campos científicos, como escoamentos, por meio de uma estratégia de geração de linguagem orientada a características físicas e um ajuste de modelo multimodal com compressão de dados, superando métodos existentes em benchmarks especializados.

Xiaomei Zhang, Hanyu Zheng, Xiangyu Zhu, Jinghuan Wei, Junhong Zou, Zhen Lei, Zhaoxiang ZhangWed, 11 Ma💻 cs