cs artigos | Gist.Science

S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation

O artigo apresenta o S2DiT, um modelo Transformer de Difusão em "sanduíche" otimizado para geração de vídeo em streaming de alta fidelidade em dispositivos móveis, que combina mecanismos de atenção híbrida e eficiente com um framework de destilação para alcançar desempenho comparável a modelos de servidor com mais de 10 FPS em iPhones.

Lin Zhao, Yushu Wu, Aleksei Lebedev, Dishani Lahiri, Meng Dong, Arpit Sahni, Michael Vasilkovsky, Hao Chen, Ju Hu, Aliaksandr Siarohin, Sergey Tulyakov, Yanzhi Wang, Anil Kag, Yanyu Li2026-03-10💻 cs

Equal-Pay Contracts

Este trabalho investiga o design de contratos de pagamento igualitário para equipes de agentes, estabelecendo algoritmos de aproximação eficientes e limites de dureza para diversas funções de recompensa, demonstrando que tais restrições de equidade resolvem problemas abertos no design de contratos não restritos e geram um custo de equidade (price of equality) de $\Theta(\log n/ \log \log n)$ .

Michal Feldman, Yoav Gal-Tzur, Tomasz Ponitka, Maya Schlesinger2026-03-10💻 cs

ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

O artigo apresenta o ReViP, um novo framework para modelos Visão-Linguagem-Ação que mitiga o problema de "falsa conclusão" através do reequilíbrio entre visão e propriocepção, utilizando pistas visuais conscientes do progresso do task para melhorar a robustez e o desempenho em tarefas de manipulação robótica.

Zhuohao Li, Yinghao Li, Jian-Jian Jiang, Lang Zhou, Tianyu Zhang, Jiadong Yin, Mu Lin, Yi-Kin Wei, Wei-Shi Zheng2026-03-10💻 cs

ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving

Este artigo apresenta o ScenePilot-Bench, um benchmark e conjunto de dados em grande escala baseado em 3.847 horas de vídeos de direção, projetado para avaliar e impulsionar o desempenho de modelos de visão e linguagem em cenários de direção autônoma através de uma avaliação abrangente de compreensão de cena, percepção espacial e planejamento de movimento.

Yujin Wang, Yutong Zheng, Wenxian Fan, Tianyi Wang, Hongqing Chu, Li Zhang, Bingzhao Gao, Daxin Tian, Jianqiang Wang, Hong Chen2026-03-10💻 cs

Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering

Este artigo apresenta o método QSTar, uma abordagem inovadora para Resposta a Perguntas Audiovisuais (AVQA) que supera as limitações dos métodos existentes ao integrar ativamente as informações da pergunta e as características de frequência do áudio em todo o processo de raciocínio, resultando em desempenho superior em diversos benchmarks.

Kun Li, Michael Ying Yang, Sami Sebastian Brandt2026-03-10💻 cs

Dynamic framework for edge-connectivity maintenance of simple graphs

Este artigo apresenta um framework dinâmico para manter a conectividade por arestas $k$ em grafos simples não direcionados, utilizando certificados esparsos de Nagamochi-Ibaraki e árvores Link-Cut para inserções em tempo amortizado $O(k \log n)$ e um cálculo de fluxo máximo para restaurar a conectividade após deleções em tempo $O(k^{3/2} n^{3/2})$ , garantindo que o grafo permaneça com $O(kn)$ arestas.

Blazej Wrobel2026-03-10💻 cs

BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics

Este artigo apresenta o BioAgent Bench, uma suite de avaliação e conjunto de dados que mede o desempenho e a robustez de agentes de IA em tarefas de bioinformática, revelando que, embora modelos de ponta consigam executar pipelines complexos, eles falham sob perturbações controladas e que modelos de pesos abertos são preferíveis em cenários que exigem privacidade de dados.

Dionizije Fa, Marko Čuljak, Bruno Pandža, Mateo Čupic2026-03-10💻 cs

Real-Time Aligned Reward Model beyond Semantics

Este trabalho apresenta o R2M, um novo framework leve de RLHF que supera as limitações da otimização excessiva de recompensas ao alinhar o modelo de recompensa com as mudanças de distribuição da política em tempo real, utilizando estados ocultos da política em vez de depender apenas de informações semânticas superficiais.

Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuefeng Xiao, Hongyan Xie, Li Huaqiu, Songshi Liang, Zhongxiang Dai, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang2026-03-10💻 cs

Impact of LLMs news Sentiment Analysis on Stock Price Movement Prediction

Este estudo avalia o impacto da análise de sentimentos de notícias baseada em LLMs (DeBERTa, RoBERTa e FinBERT) na previsão de movimentos de preços de ações, demonstrando que o DeBERTa individualmente atinge 75% de precisão, um ensemble dos três modelos chega a 80% e que as características de sentimento oferecem benefícios modestos a diversos modelos de previsão.

Walid Siala (SnT, University of Luxembourg, Luxembourg), Ahmed Khanfir (RIADI, ENSI, University of Manouba, Tunisia, SnT, University of Luxembourg, Luxembourg), Mike Papadakis (SnT, University of Luxembourg, Luxembourg)2026-03-10💻 cs

From Performers to Creators: Understanding Retired Women's Perceptions of Technology-Enhanced Dance Performance

Este artigo investiga como abordagens de design sensíveis à idade, utilizando tecnologias interativas e geração de vídeo por IA, permitem que mulheres chinesas aposentadas superem barreiras técnicas e transitem de meras espectadoras para co-criadoras empoderadas de suas performances de dança.

Danlin Zheng, Xiaoying Wei, Chao Liu, Quanyu Zhang, Jingling Zhang, Shihui Guo, Mingming Fan2026-03-10💻 cs

Cognitive-Flexible Control via Latent Model Reorganization with Predictive Safety Guarantees

Este artigo propõe um quadro de controle cognitivo flexível que utiliza um modelo estocástico profundo de espaço de estados (CF-DeepSSSM) para reorganizar representações latentes online com garantias de segurança, assegurando estabilidade e recuperação de desempenho em sistemas ciber-físicos não estacionários.

Thanana Nuchkrua, Sudchai Boonto2026-03-10💻 cs

Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

O artigo apresenta o Green-VLA, um modelo de Visão-Linguagem-Ação em cinco estágios que combina pré-treinamento multimodal, adaptação específica para diferentes robôs e alinhamento por aprendizado por reforço para permitir que um único agente generalize com segurança e eficiência em tarefas de longo prazo em diversos corpos robóticos, incluindo o humanoide Green.

I. Apanasevich, M. Artemyev, R. Babakyan, P. Fedotova, D. Grankin, E. Kupryashin, A. Misailidi, D. Nerus, A. Nutalapati, G. Sidorov, I. Efremov, M. Gerasyov, D. Pikurov, Y. Senchenko, S. Davidenko, D. Kulikov, M. Sultankin, K. Askarbek, O. Shamanin, D. Statovoy, E. Zalyaev, I. Zorin, A. Letkin, E. Rusakov, A. Silchenko, V. Vorobyov, S. Sobolnikov, A. Postnikov2026-03-10💻 cs

Vulnerability-Amplifying Interaction Loops: a systematic failure mode in AI chatbot mental-health interactions

O estudo apresenta o framework SIM-VAIL, que identifica e quantifica os "Vulnerability-Amplifying Interaction Loops" (VAILs), um modo de falha sistemática em que respostas de chatbots de IA, embora aparentemente de apoio, acumulam-se ao longo de múltiplas interações para amplificar vulnerabilidades psiquiátricas específicas em diversos perfis de usuários.

Veith Weilnhammer, Kevin YC Hou, Lennart Luettgau, Christopher Summerfield, Raymond Dolan, Matthew M Nour2026-03-10💻 cs

AgenticLab: A Real-World Robot Agent Platform that Can See, Think, and Act

O artigo apresenta o AgenticLab, uma plataforma e benchmark de código aberto para agentes robóticos que utilizam modelos de linguagem-visão, projetado para avaliar e identificar falhas na execução de tarefas de manipulação em ambientes reais e não estruturados, superando as limitações das avaliações baseadas apenas em simulação ou testes estáticos.

Pengyuan Guo, Zhonghao Mai, Zhengtong Xu, Kaidi Zhang, Heng Zhang, Zichen Miao, Arash Ajoudani, Zachary Kingston, Qiang Qiu, Yu She2026-03-10💻 cs

Six Times to Spare: Characterizing GPU-Accelerated 5G LDPC Decoding for Edge-RSU Communications

Este artigo demonstra que a offload para GPU em plataformas de borda heterogêneas aumenta significativamente o throughput e reduz a latência da decodificação LDPC para comunicações veiculares 5G, garantindo a margem de computação necessária para atender aos rigorosos requisitos de tempo e confiabilidade das unidades de borda (RSU).

Ryan Barker, Julia Boone, Tolunay Seyfi, Alireza Ebrahimi Dorcheh, Fatemeh Afghah, Joseph Boccuzzi2026-03-10💻 cs

Extracting Recurring Vulnerabilities from Black-Box LLM-Generated Software

Este artigo apresenta o FSTab, uma abordagem de ataque em caixa preta que identifica e avalia a persistência de vulnerabilidades recorrentes em softwares gerados por LLMs, demonstrando que modelos de ponta como GPT-5.2 e Claude-4.5 Opus reproduzem falhas previsíveis com alta taxa de sucesso mesmo em domínios não vistos durante o treinamento.

Tomer Kordonsky, Maayan Yamin, Noam Benzimra, Amit LeVi, Avi Mendelson2026-03-10💻 cs

LMMRec: LLM-driven Motivation-aware Multimodal Recommendation

O artigo apresenta o LMMRec, um framework agnóstico ao modelo que utiliza grandes modelos de linguagem e aprendizado contrastivo para extrair e alinhar motivações semânticas de texto e interações, melhorando significativamente a precisão de sistemas de recomendação multimodal.

Yicheng Di, Zhanjie Zhang, Yun Wang, Jinren Liu, Jiaqi Yan, Jiyu Wei, Xiangyu Chen, Yuan Liu2026-03-10💻 cs

Assessing Problem-Solving in HR Contexts: A Comparison Between Game-Based and Self-Report Measures

Este estudo demonstra que não há convergência significativa entre as medidas de resolução de problemas baseadas em jogos e as autorrelatadas, sugerindo que essas abordagens fornecem informações complementares e que a integração de ambos os métodos é essencial para uma avaliação mais completa no contexto de recursos humanos.

Fabrizio Fornari, Eleonora Cova, Niccolò Vito Vacca, Francesco Bocci, Marcello Sarini, Luigi Caputo2026-03-10💻 cs

Conditional Diffusion Guidance under Hard Constraint: A Stochastic Analysis Approach

Este artigo propõe um novo quadro de orientação para difusão condicional sob restrições rígidas, fundamentado na transformada h de Doob e em identidades de martingale, que permite estimar correções de deriva sem modificar a rede de pontuação pré-treinada e oferece garantias teóricas não assintóticas para a satisfação de eventos com probabilidade unitária.

Zhengyi Guo, Wenpin Tang, Renyuan Xu2026-03-10💻 cs

Beyond Judgment: Exploring Large Language Models as Non-Judgmental Support for Maternal Mental Health

Este estudo de métodos mistos revela que as mães recorrem aos Grandes Modelos de Linguagem como recursos de apoio emocional não julgadores para aliviar a culpa e obter tranquilização sobre decisões de cuidado, embora a maioria ainda valorize o calor humano, destacando o papel do contexto social na adoção dessas tecnologias.

Shayla Sharmin, Sadia Afrin Ratna2026-03-10💻 cs

← Anterior Próximo →