Seeing the Context: Rich Visual Context-Aware Speech Recognition via Multimodal Reasoning

Este artigo apresenta o VASR, um modelo de reconhecimento de fala que utiliza raciocínio multimodal e uma cadeia de pensamento áudio-visual (AV-CoT) para integrar e analisar o contexto visual rico (como cenas e texto na tela) além dos movimentos labiais, superando a dependência excessiva de uma única modalidade e alcançando desempenho state-of-the-art em reconhecimento de fala contextualizado.

Wenjie Tian, Mingchen Shao, Bingshen Mu, Xuelong Geng, Chengyou Wang, Yujie Liao, Zhixian Zhao, Ziyu Zhang, Jingbin Hu, Mengqi Wei, Lei Xie2026-03-10💻 cs

How to Steal Reasoning Without Reasoning Traces

O artigo apresenta modelos de "inversão de traços" que, ao reconstruírem raciocínios detalhados a partir apenas de respostas e resumos de modelos de linguagem grandes (LLMs) que ocultam seus processos de pensamento, demonstram que é possível "roubar" capacidades de raciocínio e melhorar significativamente o desempenho de modelos estudantes ao serem ajustados com esses traços sintéticos.

Tingwei Zhang, John X. Morris, Vitaly Shmatikov2026-03-10💻 cs

LLM-FK: Multi-Agent LLM Reasoning for Foreign Key Detection in Large-Scale Complex Databases

O artigo apresenta o LLM-FK, um framework multi-agente totalmente automatizado que supera as limitações dos métodos heurísticos e de soluções LLM ingênuas para detecção de chaves estrangeiras em grandes bancos de dados complexos, alcançando alta precisão e escalabilidade através de uma arquitetura coordenada de quatro agentes especializados.

Zijian Tang, Ying Zhang, Sibo Cai, Ruoxuan Wang2026-03-10💻 cs

Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

Este estudo empírico demonstra que, sob diversas restrições de implantação, quatro modelos de linguagem de grande porte (LLMs) apresentam altas taxas de alucinação de citações bibliográficas, com taxas de existência verificável inferiores a 47,5%, o que reforça a necessidade imperativa de validação pós-geração antes de seu uso em síntese de evidências de engenharia de software.

Chen Zhao, Yuan Tang, Yitian Qian2026-03-10💻 cs

Virtual Try-On for Cultural Clothing: A Benchmarking Study

Este artigo apresenta o BD-VITON, um novo conjunto de dados focado em vestuário cultural bengali (como sarees, panjabis e salwar kameez) para superar as limitações de generalização dos sistemas atuais de "virtual try-on" em relação a roupas não ocidentais, além de estabelecer e avaliar baselines robustas para modelos como StableViton, HR-VITON e VITON-HD nesse contexto.

Muhammad Tausif Ul Islam, Shahir Awlad, Sameen Yeaser Adib, Md. Atiqur Rahman, Sabbir Ahmed, Md. Hasanul Kabir2026-03-10💻 cs

TopRank-Based Delivery Rate Optimization for Coded Caching under Non-Uniform Demands

Este artigo propõe uma nova abordagem para a otimização de taxas de entrega em cache codificado sob demandas não uniformes, que utiliza um método de classificação baseado em contagens de solicitações e agrupamento de arquivos — inspirado em sistemas de recomendação e bandits multi-arma — para superar métodos anteriores, especialmente em cenários com poucos usuários, capacidade de cache limitada ou ruído nas observações de popularidade.

Mohammadsaber Bahadori, Seyed Pooya Shariatpanahi, Behnam Bahrak2026-03-10💻 cs

MAviS: A Multimodal Conversational Assistant For Avian Species

O artigo apresenta o MAviS, um assistente conversacional multimodal especializado em aves, composto pelo conjunto de dados MAviS-Dataset, pelo modelo MAviS-Chat e pelo benchmark MAviS-Bench, que juntos superam os modelos de base existentes ao oferecer compreensão detalhada e respostas precisas para mais de 1.000 espécies de aves, integrando áudio, visão e texto para aplicações em conservação da biodiversidade.

Yevheniia Kryklyvets, Mohammed Irfan Kurpath, Sahal Shaji Mullappilly, Jinxing Zhou, Fahad Shabzan Khan, Rao Anwer, Salman Khan, Hisham Cholakkal2026-03-10💻 cs

Tursio for Credit Unions: Powering Structured Data Search with Automated Context Graph

O artigo apresenta o Tursio, uma plataforma de busca de banco de dados segura e local que permite a usuários de cooperativas de crédito consultarem sistemas complexos usando linguagem natural, inferindo automaticamente um grafo de conhecimento semântico e gerando planos de consulta precisos e conformes por meio da integração de Modelos de Linguagem de Grande Escala (LLMs).

Shivani Tripathi, Ravi Shetye, Shi Qiao, Alekh Jindal2026-03-10💻 cs

Seeing the Reasoning: How LLM Rationales Influence User Trust and Decision-Making in Factual Verification Tasks

Este estudo demonstra que, em tarefas de verificação factual, a precisão e o enquadramento de certeza das justificativas de modelos de linguagem influenciam significativamente a confiança e a adoção de decisões pelos usuários, enquanto o formato de apresentação tem impacto menor, revelando que justificativas mal projetadas podem tanto apoiar quanto descalibrar a confiança.

Xin Sun, Shu Wei, Jos A Bosch, Isao Echizen, Saku Sugawara, Abdallah El Ali2026-03-10💻 cs