cs artigos | Gist.Science

VirtueBench: Evaluating Trustworthiness under Uncertainty in Long Video Understanding

O artigo apresenta o VirtueBench, um novo benchmark projetado para avaliar a confiabilidade de Modelos Visão-Linguagem em vídeos longos ao distinguir entre casos respondíveis e não respondíveis, revelando que a maioria dos modelos atuais tende a adivinhar em vez de recusar respostas honestamente sob incerteza.

Xueqing Yu, Bohan Li, Yan Li, Zhenheng Yang2026-03-10💻 cs

Physics-Guided VLM Priors for All-Cloud Removal

O artigo apresenta o PhyVLM-CR, uma abordagem inovadora que integra as capacidades semânticas de um Modelo Visão-Linguagem (VLM) a um modelo de restauração física para realizar a remoção unificada e de alta fidelidade de nuvens finas e espessas em imagens de sensoriamento remoto, eliminando a necessidade de decisões explícitas sobre o tipo de nuvem e garantindo resultados coerentes e livres de alucinações.

Liying Xu, Huifang Li, Huanfeng Shen2026-03-10💻 cs

Retinex Meets Language: A Physics-Semantics-Guided Underwater Image Enhancement Network

Este artigo apresenta o PSG-UIENet, uma rede de aprimoramento de imagens subaquáticas que integra correção de iluminação baseada em Retinex com orientações semânticas de linguagem, acompanhada pela criação do primeiro conjunto de dados multimodais (LUIQD-TD) e de uma função de perda específica para garantir consistência semântica entre texto e imagem.

Shixuan Xu, Yabo Liu, Junyu Dong, Xinghui Dong2026-03-10💻 cs

Aligning What EEG Can See: Structural Representations for Brain-Vision Matching

Este trabalho propõe uma nova estratégia de seleção de camadas visíveis para EEG e um framework de fusão hierarquicamente complementar que alinham sinais cerebrais com representações visuais intermediárias, alcançando desempenho state-of-the-art na decodificação visual zero-shot ao mitigar o desajuste de informações entre modalidades.

Jingyi Tang, Shuai Jiang, Fei Su, Zhicheng Zhao2026-03-10💻 cs

Multi-TAP: Multi-criteria Target Adaptive Persona Modeling for Cross-Domain Recommendation

O artigo propõe o Multi-TAP, um modelo de recomendação cruzada que supera métodos existentes ao capturar a heterogeneidade intra-domínio através de personas semânticas adaptativas e transferir seletivamente conhecimento entre domínios, resultando em desempenho superior em conjuntos de dados reais.

Daehee Kang, Yeon-Chang Lee2026-03-10💻 cs

mAVE: A Watermark for Joint Audio-Visual Generation Models

O artigo apresenta o mAVE, um novo framework de marca d'água projetado nativamente para modelos de geração áudio-visual conjunta que, ao criptograficamente vincular os latentes de áudio e vídeo, elimina a vulnerabilidade de ataques de troca e protege a reputação e os direitos autorais dos fornecedores com integridade de ligação superior a 99%.

Luyang Si, Leyi Pan, Lijie Wen2026-03-10💻 cs

Exploring the Reasoning Depth of Small Language Models in Software Architecture: A Multidimensional Evaluation Framework Towards Software Engineering 2.0

Este estudo estabelece um quadro de avaliação multidimensional para modelos de linguagem pequenos (SLMs) na arquitetura de software, revelando que modelos acima de 3B parâmetros possuem capacidades robustas em zero-shot, enquanto os menores beneficiam-se mais do ajuste fino, e que a alta diversidade semântica em modelos prontos muitas vezes indica alucinação em vez de exploração produtiva.

Ha Vo, Nhut Tran, Khang Vo, Phat T. Tran-Truong, Son Ha2026-03-10💻 cs

Facial Expression Generation Aligned with Human Preference for Natural Dyadic Interaction

Este artigo propõe um método de geração de expressões faciais para interação diádica natural que alinha as respostas do ouvinte às preferências humanas, utilizando um modelo de visão-linguagem-ação e aprendizado por reforço com feedback humano para garantir a adequação emocional e contextual.

Xu Chen, Rui Gao, Xinjie Zhang, Haoyu Zhang, Che Sun, Zhi Gao, Yuwei Wu, Yunde Jia2026-03-10💻 cs

Randomise Alone, Reach as a Team

Este artigo investiga jogos em grafos concorrentes com n jogadores cooperativos que utilizam randomização distribuída (sem fonte de aleatoriedade compartilhada), demonstrando que estratégias sem memória são suficientes para o problema de limiar (NP-difícil e em $\exists\mathbb{R}$ ) e que o problema de quase-certeza é NP-completo, além de propor a lógica IRATL e um solver prático para essas questões.

Léonard Brice, Thomas A. Henzinger, Alipasha Montaseri, Ali Shafiee, K. S. Thejaswini2026-03-10💻 cs

ACLM: ADMM-Based Distributed Model Predictive Control for Collaborative Loco-Manipulation

Este artigo propõe um framework de controle preditivo baseado em modelo distribuído (DMPC) utilizando o método ADMM para permitir o transporte colaborativo de cargas pesadas por equipes de robôs quadrúpedes com manipuladores, decompondo o problema global em subproblemas paralelos que garantem escalabilidade, desempenho em tempo real e robustez em ambientes complexos.

Ziyi Zhou, Pengyuan Shu, Ruize Cao, Yuntian Zhao, Ye Zhao2026-03-10💻 cs

Towards Scalable Probabilistic Human Motion Prediction with Gaussian Processes for Safe Human-Robot Collaboration

Este artigo propõe um framework escalável de Processos Gaussianos Variacionais para previsão probabilística de movimento humano em colaboração homem-robô, que alcança alta precisão com incertezas bem calibradas e um número reduzido de parâmetros, permitindo implementação em tempo real.

Jinger Chong, Xiaotong Zhang, Kamal Youcef-Toumi2026-03-10💻 cs

NuNext: Reframing Nucleus Detection as Next-Point Detection

O artigo NuNext reformula a detecção de núcleos em histopatologia como uma tarefa de previsão do próximo ponto, utilizando um modelo de linguagem multimodal grande com treinamento em duas etapas (supervisão suave e ajuste fino por reforço) para gerar diretamente os centróides dos núcleos e superar os desequilíbrios e complexidades das abordagens existentes.

Zhongyi Shui, Honglin Li, Xiaozhong Ji, Ye Zhang, Zijiang Yang, Chenglu Zhu, Yuxuan Sun, Kai Yao, Conghui He, Cheng Tan2026-03-10💻 cs

Grounding Machine Creativity in Game Design Knowledge Representations: Empirical Probing of LLM-Based Executable Synthesis of Goal Playable Patterns under Structural Constraints

Este artigo investiga a capacidade de modelos de linguagem grandes (LLMs) de sintetizar código C# executável no Unity, partindo de Padrões Jogáveis de Objetivo (GPCs), demonstrando que, embora os modelos possam gerar código, a síntese escalável é limitada principalmente por falhas de "grounding" estrutural e de projeto ao tentar atender simultaneamente às restrições sintéticas do motor e ao significado semântico dos padrões de jogo.

Hugh Xuechen Liu, Kıvanç Tatar2026-03-10💻 cs

AutoUE: Automated Generation of 3D Games in Unreal Engine via Multi-Agent Systems

O artigo apresenta o AutoUE, um sistema multiagente inovador que automatiza a geração integral de jogos 3D no Unreal Engine, integrando recuperação de modelos, criação de cenas, síntese de código e testes automatizados para superar desafios como alucinações de ferramentas e garantir a robustez do resultado final.

Lei Yin, Wentao Cheng, Zhida Qin, Tianyu Huang, Yidong Li, Gangyi Ding2026-03-10💻 cs

Efficient Personalized Reranking with Semi-Autoregressive Generation and Online Knowledge Distillation

O artigo propõe o framework PSAD, que combina geração semi-autoregressiva, conhecimento de um modelo professor e uma Rede de Perfil de Usuário para superar os desafios de latência e interação usuário-item no reranking personalizado, superando os métodos atuais em desempenho e eficiência.

Kai Cheng, Hao Wang, Wei Guo, Weiwen Liu, Yong Liu, Yawen Li, Enhong Chen2026-03-10💻 cs

Vision Language Models Cannot Reason About Physical Transformation

O artigo apresenta o ConservationBench, um benchmark que revela que os Modelos de Linguagem e Visão (VLMs) atuais falham sistematicamente ao raciocinar sobre transformações físicas e não conseguem manter representações invariantes de propriedades físicas em cenas dinâmicas, dependendo excessivamente de priores textuais em vez de compreensão visual genuína.

Dezhi Luo, Yijiang Li, Maijunxian Wang, Tianwei Zhao, Bingyang Wang, Siheng Wang, Pinyuan Feng, Pooyan Rahmanzadehgervi, Ziqiao Ma, Hokin Deng2026-03-10💻 cs

Learning From Failures: Efficient Reinforcement Learning Control with Episodic Memory

O artigo propõe a técnica FEMA (Failure Episodic Memory Alert), que utiliza uma memória episódica para armazenar e recuperar experiências de falhas, evitando que robôs caiam repetidamente em estados instáveis e melhorando significativamente a eficiência amostral e a exploração de trajetórias de longo prazo em tarefas de aprendizado por reforço.

Chenyang Miao2026-03-10💻 cs

Efficient Chest X-ray Representation Learning via Semantic-Partitioned Contrastive Learning

O artigo apresenta a S-PCL, um framework de aprendizado auto-supervisionado eficiente para radiografias de tórax que, ao particionar semanticamente os tokens de imagem sem depender de aumentos agressivos ou decodificadores auxiliares, alcança desempenho competitivo com menor custo computacional em diversos benchmarks médicos.

Wangyu Feng, Shawn Young, Lijian Xu2026-03-10💻 cs

aCAPTCHA: Verifying That an Entity Is a Capable Agent via Asymmetric Hardness

O artigo apresenta o aCAPTCHA, um protocolo de verificação de segurança que utiliza a assimetria de dificuldade temporal entre a cognição humana e o processamento de IA para distinguir e admitir apenas agentes autônomos capazes através de um jogo de verificação baseado em compreensão de linguagem natural sob restrições de tempo.

Zuyao Xu, Xiang Li, Fubin Wu, Yuqi Qiu, Lu Sun, FaSheng Miao2026-03-10💻 cs

TIQA: Human-Aligned Text Quality Assessment in Generated Images

O artigo apresenta o TIQA, uma nova tarefa e conjunto de dados para avaliação da qualidade de texto em imagens geradas, juntamente com o método leve ANTIQA, que supera métricas existentes ao alinhar-se melhor aos julgamentos humanos e demonstrar valor prático na filtragem e reclassificação de gerações de modelos de texto-para-imagem.

Kirill Koltsov, Aleksandr Gushchin, Dmitriy Vatolin, Anastasia Antsiferova2026-03-10💻 cs

← Anterior Próximo →