cs.AI artigos | Gist.Science

Survival Meets Classification: A Novel Framework for Early Risk Prediction Models of Chronic Diseases

Este artigo apresenta um novo framework que integra análise de sobrevivência e técnicas de classificação para prever o risco de cinco doenças crônicas comuns usando dados de prontuários eletrônicos, demonstrando desempenho superior ou comparável aos modelos de ponta e validação clínica das explicações geradas.

Shaheer Ahmad Khan, Muhammad Usamah Shahid, Muddassar Farooq2026-03-13🤖 cs.LG

See, Symbolize, Act: Grounding VLMs with Spatial Representations for Better Gameplay

O artigo demonstra que a incorporação de representações simbólicas melhora o desempenho de Modelos Visuais-Linguísticos em jogos interativos, mas apenas quando a extração desses símbolos a partir da percepção visual é precisa, revelando que a qualidade da percepção é o principal gargalo para agentes baseados nesses modelos.

Ashish Baghel, Paras Chopra2026-03-13🤖 cs.AI

Taming OpenClaw: Security Analysis and Mitigation of Autonomous LLM Agent Threats

Este artigo apresenta uma análise de segurança abrangente do agente autônomo OpenClaw, introduzindo um framework de cinco camadas para identificar ameaças complexas ao longo de seu ciclo de vida e propondo estratégias de defesa holísticas para mitigar riscos sistêmicos que as soluções pontuais atuais não conseguem abordar.

Xinhao Deng, Yixiang Zhang, Jiaqing Wu, Jiaqi Bai, Sibo Yi, Zhuoheng Zou, Yue Xiao, Rennai Qiu, Jianan Ma, Jialuo Chen, Xiaohu Du, Xiaofang Yang, Shiwen Cui, Changhua Meng, Weiqiang Wang, Jiaxing Song, Ke Xu, Qi Li2026-03-13🤖 cs.AI

The Density of Cross-Persistence Diagrams and Its Applications

Este trabalho apresenta o primeiro estudo sistemático sobre a densidade de diagramas de persistência cruzada, estabelecendo suas bases teóricas e propondo um novo framework de aprendizado de máquina que supera técnicas existentes na previsão de densidade e na distinção de nuvens de pontos, revelando inclusive que a introdução de ruído pode melhorar a capacidade de discriminação em Análise Topológica de Dados.

Alexander Mironenko, Evgeny. Burnaev, Serguei Barannikov2026-03-13🤖 cs.AI

MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models

O artigo apresenta o MedPruner, um framework de poda hierárquica de tokens sem treinamento e agnóstico ao modelo, que elimina redundâncias espaciais e temporais em dados médicos 3D através de filtragem interfatias e seleção dinâmica de núcleos de informação, permitindo que modelos de linguagem visual médica mantenham ou superem seu desempenho original com menos de 5% dos tokens visuais originais.

Shengyuan Liu, Zanting Ye, Yunrui Lin, Chen Hu, Wanting Geng, Xu Han, Bulat Ibragimov, Yefeng Zheng, Yixuan Yuan2026-03-13🤖 cs.AI

VisDoT : Enhancing Visual Reasoning through Human-Like Interpretation Grounding and Decomposition of Thought

O artigo apresenta o VisDoT, um framework que aprimora o raciocínio visual em modelos de linguagem e visão ao alinhar a percepção gráfica humana com a lógica por meio de um processo de decomposição do pensamento, alcançando resultados state-of-the-art em benchmarks de interpretação de gráficos.

Eunsoo Lee, Jeongwoo Lee, Minki Hong, Jangho Choi, Jihie Kim2026-03-13🤖 cs.AI

Tokenization Allows Multimodal Large Language Models to Understand, Generate and Edit Architectural Floor Plans

O artigo apresenta o HouseMind, um modelo de linguagem grande multimodal que utiliza tokens discretos de instâncias de cômodos para unificar a compreensão, geração e edição de plantas baixas arquitetônicas, permitindo a criação de layouts coerentes e controláveis a partir de instruções textuais.

Sizhong Qin, Ramon Elias Weber, Xinzheng Lu2026-03-13🤖 cs.AI

IDRL: An Individual-Aware Multimodal Depression-Related Representation Learning Framework for Depression Diagnosis

O artigo propõe o IDRL, um framework de aprendizado de representação multimodal que melhora o diagnóstico de depressão ao dissecar as características em espaços comuns e específicos para alinhar modalidades e eliminar ruídos, enquanto utiliza um módulo de fusão consciente do indivíduo para adaptar dinamicamente a integração de sinais conforme as necessidades específicas de cada paciente.

Chongxiao Wang, Junjie Liang, Peng Cao, Jinzhu Yang, Osmar R. Zaiane2026-03-13🤖 cs.AI

Stable Spike: Dual Consistency Optimization via Bitwise AND Operations for Spiking Neural Networks

Este artigo apresenta o "Stable Spike", um método que otimiza a consistência dual em Redes Neurais de Spiking (SNNs) por meio de operações de "AND" bitwise para isolar um esqueleto de spiking estável, reduzindo inconsistências e melhorando significativamente a precisão e a generalização em tarefas de reconhecimento neuromórfico sob baixa latência.

Yongqi Ding, Kunshan Yang, Linze Li, Yiyang Zhang, Mengmeng Jing, Lin Zuo2026-03-13🤖 cs.AI

From Control to Foresight: Simulation as a New Paradigm for Human-Agent Collaboration

Este artigo propõe o paradigma de "simulação no ciclo" para a colaboração humano-agente, argumentando que a exploração de trajetórias futuras simuladas supera as limitações das interações reativas atuais ao fornecer aos usuários a capacidade de antecipar consequências e tomar decisões informadas.

Gaole He, Brian Y. Lim2026-03-13💬 cs.CL

LLMs can construct powerful representations and streamline sample-efficient supervised learning

Este artigo propõe um pipeline agêntico que utiliza LLMs para sintetizar rubricas programáticas que transformam dados clínicos heterogêneos em formatos padronizados, permitindo um aprendizado supervisionado eficiente em amostras que supera modelos tradicionais e fundações clínicas em diversas tarefas.

Ilker Demirel, Larry Shi, Zeshan Hussain, David Sontag2026-03-13🤖 cs.AI

Entropy-Preserving Reinforcement Learning

Este artigo propõe métodos de aprendizado por reforço que preservam a entropia, como REPO e ADAPO, para evitar a redução prematura da diversidade de exploração em algoritmos de gradiente de política, resultando em modelos mais performáticos e adaptáveis.

Aleksei Petrenko, Ben Lipkin, Kevin Chen, Erik Wijmans, Marco Cusumano-Towner, Raja Giryes, Philipp Krähenbühl2026-03-13🤖 cs.LG

Causal Prosody Mediation for Text-to-Speech:Counterfactual Training of Duration, Pitch, and Energy in FastSpeech2

Este artigo propõe um novo framework de mediação causal para síntese de fala (TTS) que, ao integrar condicionamento de emoção e objetivos de treinamento contrafactual na arquitetura FastSpeech2, consegue desentrelaçar o prosódia emocional do conteúdo linguístico, resultando em uma síntese de fala mais expressiva, controlável e com maior precisão na transferência de emoções entre falantes.

Suvendu Sekhar Mohanty2026-03-13🤖 cs.AI

SemBench: A Universal Semantic Framework for LLM Evaluation

O artigo apresenta o SemBench, um framework universal e eficiente que gera automaticamente benchmarks sintéticos para avaliar a compreensão semântica de Grandes Modelos de Linguagem em múltiplos idiomas, utilizando apenas definições de dicionário e codificadores de frases para superar as limitações de recursos e custo dos métodos tradicionais.

Mikel Zubillaga, Naiara Perez, Oscar Sainz, German Rigau2026-03-13💬 cs.CL

Explicit Logic Channel for Validation and Enhancement of MLLMs on Zero-Shot Tasks

Este artigo propõe um "Canal de Lógica Explícito" que, operando em paralelo com modelos multimodais de grande escala (MLLMs) de caixa preta, utiliza raciocínio lógico e inferência probabilística para validar, selecionar e aprimorar o desempenho desses modelos em tarefas zero-shot sem necessidade de anotações de referência, aumentando assim sua confiabilidade e explicabilidade.

Mei Chee Leong, Ying Gu, Hui Li Tan, Liyuan Li, Nancy Chen2026-03-13🤖 cs.AI

STAIRS-Former: Spatio-Temporal Attention with Interleaved Recursive Structure Transformer for Offline Multi-task Multi-agent Reinforcement Learning

O artigo apresenta o STAIRS-Former, uma nova arquitetura baseada em transformadores com hierarquias espaciais e temporais e um mecanismo de *dropout* de tokens, que supera os métodos anteriores em aprendizado por reforço multiagente offline multi-tarefa ao capturar dependências temporais de longo prazo e coordenar agentes com populações variáveis, alcançando desempenho superior em diversos benchmarks.

Jiwon Jeon, Myungsik Cho, Youngchul Sung2026-03-13🤖 cs.AI

OSCBench: Benchmarking Object State Change in Text-to-Video Generation

O artigo apresenta o OSCBench, um novo benchmark baseado em dados culinários para avaliar a capacidade de modelos de geração de vídeo a partir de texto em realizar mudanças de estado de objetos especificadas no prompt, revelando que, apesar dos avanços na qualidade visual e alinhamento semântico, os modelos atuais ainda lutam para gerar transformações de objetos precisas e consistentes, especialmente em cenários novos e composicionais.

Xianjing Han, Bin Zhu, Shiqi Hu, Franklin Mingzhe Li, Patrick Carrington, Roger Zimmermann, Jingjing Chen2026-03-13💬 cs.CL

Scaling Laws for Educational AI Agents

Este artigo propõe a "Lei de Escala de Agentes", um framework que demonstra que a capacidade de agentes educacionais de IA escala de forma previsível com a riqueza estrutural de seus perfis definidos em JSON (AgentProfile), em vez de depender exclusivamente do tamanho do modelo subjacente, como evidenciado pela plataforma EduClaw e seus mais de 330 perfis de agentes.

Mengsong Wu, Hao Hao, Shuzhen Bi, Keqian Li, Wentao Liu, Siyu Song, Hongbo Zhao, Aimin Zhou2026-03-13🤖 cs.AI

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

Este artigo apresenta um novo conjunto de dados e demonstra que a atividade muscular facial e cervical, captada por eletromiografia de superfície (sEMG), permite decodificar com precisão estados afetivos como a frustração tanto na fala vocalizada quanto na silenciosa, validando o potencial dessa tecnologia para interfaces de fala silenciosa conscientes das emoções.

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. Schuller2026-03-13⚡ eess

When OpenClaw Meets Hospital: Toward an Agentic Operating System for Dynamic Clinical Workflows

Este trabalho propõe uma arquitetura de Sistema Operacional Agente para hospitais, baseada no framework OpenClaw, que integra um ambiente de execução restrito, interações centradas em documentos, memória indexada por páginas e uma biblioteca de habilidades médicas para permitir a automação segura e auditável de fluxos de trabalho clínicos dinâmicos.

Wenxian Yang, Hanzheng Qiu, Bangqun Zhang, Chengquan Li, Zhiyong Huang, Xiaobin Feng, Rongshan Yu, Jiahong Dong2026-03-13🤖 cs.AI

← Anterior Próximo →