cs.AI artigos | Gist.Science

UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking

O artigo apresenta o UIS-Digger, um novo framework de agentes multiagentes, e o benchmark UIS-QA para abordar o desafio crítico da busca por informações não indexadas, demonstrando que interações proativas com fontes não capturadas por motores de busca superam sistemas baseados em LLMs avançados nesse domínio.

Chang Liu, Chuqiao Kuang, Tianyi Zhuang, Yuxin Cheng, Huichi Zhou, Xiaoguang Li, Lifeng Shang2026-03-10💻 cs

SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

O artigo apresenta o SaiVLA-0, uma arquitetura de Visão-Linguagem-Ação inspirada na neurociência que utiliza uma estrutura tripartida (Cérebro-Ponte-Cerebelo) para criar um sistema modular e consciente de computação, capaz de reduzir o tempo de treinamento e aumentar significativamente a taxa de sucesso em tarefas robóticas.

Xiang Shi, Wenlong Huang, Menglin Zou, Xinhai Sun2026-03-10🤖 cs.LG

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

O artigo apresenta o FoleyFlow, um modelo que gera áudio sincronizado com vídeos utilizando alinhamento multimodal baseado em mascaramento e um fluxo condicional dinâmico para garantir coerência semântica e rítmica, superando os métodos existentes em benchmarks padrão.

Shentong Mo, Yibing Song2026-03-10🤖 cs.LG

DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding

O artigo apresenta o DARC, um método de inferência sem re-treinamento que aborda a heterogeneidade nas preferências humanas ao reformular a seleção de respostas como uma decisão sensível ao risco e robusta distribucionalmente, reduzindo assim o risco de cauda e a discordância sem comprometer a qualidade média.

Mingxi Zou, Jiaxiang Chen, Junfan Li, Langzhang Liang, Qifan Wang, Xu Yinghui, Zenglin Xu2026-03-10🤖 cs.LG

Gradually Excavating External Knowledge for Implicit Complex Question Answering

Este trabalho propõe um framework de escavação gradual de conhecimento externo que permite a modelos de linguagem de tamanho médio (cerca de 10B de parâmetros) resolverem perguntas complexas e implícitas de domínio aberto com alta precisão (78,17% no StrategyQA), superando o estado da arte ao iterativamente adquirir informações externas e realizar raciocínio lógico dinâmico.

Chang Liu, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Edmund Y. Lam, Ngai Wong2026-03-10💬 cs.CL

An explainable hybrid deep learning-enabled intelligent fault detection and diagnosis approach for automotive software systems validation

Este artigo propõe uma abordagem híbrida de aprendizado profundo (1dCNN-GRU) com técnicas de IA explicável para detecção e diagnóstico de falhas em sistemas de software automotivo, visando superar a falta de interpretabilidade dos modelos de caixa-preta e facilitar a análise de causa raiz durante a validação em tempo real.

Mohammad Abboush, Ehab Ghannoum, Andreas Rausch2026-03-10💻 cs

Evidence-Driven Reasoning for Industrial Maintenance Using Heterogeneous Data

O artigo apresenta o "Condition Insight Agent", um framework de suporte à decisão que integra dados heterogêneos de manutenção industrial por meio de raciocínio baseado em evidências e verificação estruturada, permitindo explicações fundamentadas e ações orientadas que preservam a supervisão humana mesmo diante de dados incompletos.

Fearghal O'Donncha, Nianjun Zhou, Natalia Martinez, James T Rayfield, Fenno F. Heath III, Abigail Langbridge, Roman Vaculin2026-03-10💻 cs

Evolution Strategy-Based Calibration for Low-Bit Quantization of Speech Models

O artigo apresenta o ESC, um método de calibração baseado em Estratégias Evolutivas que supera os desafios específicos de sinais de áudio para permitir a quantização quase sem perdas em modelos de fala de 4 e 8 bits, superando as técnicas padrão desenvolvidas para visão e NLP.

Lucas Rakotoarivony2026-03-10💻 cs

Is continuous CoT better suited for multi-lingual reasoning?

O estudo demonstra que o raciocínio em cadeia contínuo (Continuous Chain-of-Thought) supera o raciocínio explícito em idiomas de baixa recursos, oferecendo maior robustez em cenários zero-shot e uma compressão de eficiência de 29 a 50 vezes, graças à invariância linguística inerente às representações latentes contínuas.

Ali Hamza Bashir, Behzad Shomali, Markus Frey, Mehdi Ali, Rafet Sifa, David Berghaus2026-03-10🤖 cs.LG

Privacy-Preserving End-to-End Full-Duplex Speech Dialogue Models

Este artigo demonstra que os estados ocultos de modelos de diálogo de voz full-duplex end-to-end, como SALM-Duplex e Moshi, vazam significativamente a identidade do falante, e propõe duas abordagens de anonimização em streaming que mitigam eficazmente esse risco, com uma delas elevando a taxa de erro de igualdade (EER) para níveis próximos do acaso aleatório enquanto mantém baixa latência.

Nikita Kuzmin, Tao Zhong, Jiajun Deng, Yingke Zhu, Tristan Tsoi, Tianxiang Cao, Simon Lui, Kong Aik Lee, Eng Siong Chng2026-03-10💻 cs

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

O artigo apresenta o TildeOpen LLM, um modelo de linguagem aberto de 30 bilhões de parâmetros treinado com aprendizado curricular e técnicas de reamostragem para promover a equidade linguística e superar modelos existentes em 34 línguas europeias, especialmente nas línguas bálticas, fino-úgricas e eslavas, sem exigir aumento no tamanho do modelo ou no volume de treinamento.

Toms Bergmanis, Martins Kronis, Ingus J\=anis Pretkalninš, D\=avis Nicmanis, Jelizaveta Jelinska, Roberts Rozis, Rinalds V\=iksna, M\=arcis Pinnis2026-03-10💬 cs.CL

MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

O artigo apresenta o MM-TS, um método que melhora o aprendizado contrastivo multimodal com dados de cauda longa ao introduzir agendamentos dinâmicos de temperatura e margem que adaptam as forças de atração e repulsão com base na distribuição local das amostras, unificando as abordagens InfoNCE e de margem máxima para alcançar resultados state-of-the-art em diversos conjuntos de dados de imagem e vídeo.

Siarhei Sheludzko, Dhimitrios Duka, Bernt Schiele, Hilde Kuehne, Anna Kukleva2026-03-10💻 cs

Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

O artigo critica a dependência atual de métricas de erro pontual para avaliar modelos fundacionais tabulares em regressão, propondo a adoção de regras de pontuação adequadas, como o CRPS, para avaliar previsões probabilísticas e incentivando o ajuste fino desses modelos para otimizar diferentes distribuições.

Jonas Landsgesell, Pascal Knoll2026-03-10🤖 cs.LG

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

Este estudo propõe duas estratégias de fusão multimodal, RGIF e RGMAF, que combinam registro espacial e mecanismos de atenção ponderados por confiabilidade para superar as limitações de sensores heterogêneos e melhorar significativamente a detecção de veículos aéreos não tripulados (UAVs) em ambientes complexos.

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs

Revisiting Gradient Staleness: Evaluating Distance Metrics for Asynchronous Federated Learning Aggregation

Este artigo estende o método de agregação adaptativa AsyncFedED ao explorar métricas de distância alternativas para medir o atraso dos gradientes em aprendizado federado assíncrono, demonstrando que certas métricas melhoram a robustez, a eficiência e a estabilidade do treinamento em cenários heterogêneos com dados não-IID.

Patrick Wilhelm, Odej Kao2026-03-10🤖 cs.LG

SplitAgent: A Privacy-Preserving Distributed Architecture for Enterprise-Cloud Agent Collaboration

O artigo apresenta o SplitAgent, uma arquitetura distribuída inovadora que permite a colaboração entre agentes de privacidade locais e agentes de raciocínio na nuvem por meio de sanitização dinâmica sensível ao contexto, garantindo proteção de dados e alta precisão em tarefas empresariais sem comprometer informações confidenciais.

Jianshu She2026-03-10💻 cs

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Este trabalho reformula o reconhecimento de emoções ambíguas como um problema de raciocínio distribucional em Modelos de Linguagem e Áudio Grandes (LALMs), introduzindo um framework com objetivos alinhados a distribuições perceptivas humanas e supervisão estruturada de cadeia de pensamento que demonstra melhorias consistentes em tarefas de previsão de emoções ambíguas.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting Dang2026-03-10💻 cs

The Struggle Between Continuation and Refusal: A Mechanistic Analysis of the Continuation-Triggered Jailbreak in LLMs

Este artigo investiga o fenômeno de jailbreak acionado por continuação em modelos de linguagem grandes, revelando através de análise mecanicista que o sucesso desses ataques resulta de uma competição intrínseca entre o impulso do modelo para continuar o texto e suas defesas de segurança, além de identificar diferenças no comportamento das cabeças de atenção críticas para a segurança em diferentes arquiteturas.

Yonghong Deng, Zhen Yang, Ping Jian, Xinyue Zhang, Zhongbin Guo, Chengzhi Li2026-03-10🤖 cs.LG

Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

Este estudo utiliza métodos de aprendizado profundo avançados e imagens ultra-widefield para avaliar a qualidade de imagem, detectar retinopatia diabética referível e edema macular diabético, demonstrando o alto desempenho de modelos como Vision Transformers e a eficácia da fusão de características e representações no domínio da frequência.

Pablo Jimenez-Lizcano, Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Guillermo González de Rivera, Ruben Vera-Rodriguez, Julian Fierrez2026-03-10💻 cs

Fibration Policy Optimization

Este artigo apresenta o Fibration Policy Optimization (FiberPO), um novo quadro teórico e prático que unifica o controle de estabilidade em múltiplas escalas para modelos de linguagem grandes, combinando uma reformulação exata de objetivos de confiança com uma estrutura algébrica de fibrados para otimizar a eficiência e a estabilidade do treinamento em sistemas heterogêneos.

Chang Li, Tshihao Tsu, Yaren Zhang, Chao Xue, Xiaodong He2026-03-10🤖 cs.LG

← Anterior Próximo →