cs.CL artigos | Gist.Science

Query-focused and Memory-aware Reranker for Long Context Processing

Este artigo propõe um reranker leve e eficiente baseado em atenção que utiliza pontuações de relevância contínuas para superar os métodos atuais no processamento de contextos longos e benchmarks de memória, alcançando resultados state-of-the-art com modelos de pequeno porte.

Yuqing Li, Jiangnan Li, Mo Yu, Guoxuan Ding, Zheng Lin, Weiping Wang, Jie Zhou2026-03-11💬 cs.CL

Missing-by-Design: Certifiable Modality Deletion for Revocable Multimodal Sentiment Analysis

O artigo apresenta o "Missing-by-Design" (MBD), um framework unificado para análise de sentimentos multimodal que permite a revogação certificada de modalidades específicas de dados, garantindo conformidade com a privacidade e autonomia do usuário sem a necessidade de retreinamento completo do modelo.

Rong Fu, Ziming Wang, Chunlei Meng, Jiaxuan Lu, Jiekai Wu, Kangan Qian, Hao Zhang, Simon Fong2026-03-11🤖 cs.LG

AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

O artigo apresenta o AuditBench, um benchmark de auditoria de alinhamento composto por 56 modelos de linguagem com comportamentos ocultos implantados, que revela a eficácia variável de diferentes técnicas de auditoria e destaca uma lacuna entre o desempenho de ferramentas autônomas e agentes investigativos.

Abhay Sheshadri, Aidan Ewart, Kai Fronsdal, Isha Gupta, Samuel R. Bowman, Sara Price, Samuel Marks, Rowan Wang2026-03-11💬 cs.CL

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

O artigo apresenta o SkillCraft, um benchmark projetado para avaliar a capacidade de agentes LLM de abstrair e reutilizar composições de ferramentas como "habilidades" persistentes, demonstrando que essa competência não apenas melhora significativamente a eficiência (reduzindo o uso de tokens em até 80%), mas também se correlaciona fortemente com o sucesso em tarefas complexas.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye Teh2026-03-11💬 cs.CL

PonderLM-3: Adaptive Token-Wise Pondering with Differentiable Masking

O artigo apresenta o PonderLM-3, um framework de pré-treinamento que permite a alocação adaptativa e diferenciável de computação extra por token durante a inferência, otimizando o desempenho e reduzindo o custo computacional em comparação com métodos anteriores.

He Li, Feichen Song, Boyi Zeng, Shixiang Song, Zhiqin John Xu, Ziwei He, Zhouhan Lin2026-03-11💬 cs.CL

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

Este estudo empírico mapeia as interações entre diferentes classes de modelos de linguagem e estratégias de engenharia de prompts na geração de código Verilog, identificando padrões de desempenho e generalização através de um design experimental controlado.

Luca Collini, Andrew Hennesee, Patrick Yubeaton, Siddharth Garg, Ramesh Karri2026-03-11💻 cs

Self-hosted Lecture-to-Quiz: Local LLM MCQ Generation with Deterministic Quality Control

Este artigo apresenta um pipeline autônomo e sem dependência de APIs externas que converte PDFs de aulas em bancos de questões de múltipla escolha usando modelos de linguagem locais, garantindo qualidade através de verificações determinísticas e promovendo privacidade, responsabilidade e sustentabilidade ambiental no contexto educacional.

Seine A. Shintani2026-03-11💻 cs

Fish Audio S2 Technical Report

O artigo apresenta o Fish Audio S2, um sistema de texto-para-fala de código aberto que oferece geração multi-falante e multi-turno com controle por instruções em linguagem natural, destacando-se por uma receita de treinamento escalável e um motor de inferência otimizado para streaming com baixa latência.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han2026-03-11🤖 cs.AI

MASEval: Extending Multi-Agent Evaluation from Models to Systems

O artigo apresenta o MASEval, uma biblioteca independente de frameworks que preenche a lacuna de avaliação ao tratar sistemas de agentes LLM completos como unidade de análise, demonstrando que a escolha do framework impacta o desempenho tanto quanto a escolha do modelo.

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin Gubri2026-03-11🤖 cs.AI

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

Este artigo demonstra que os recursos aprendidos por Autoencoders Esparsos (SAEs) em modelos Gemma capturam significados abstratos independentes da ortografia, provando que a invariância de script no digrafismo sérvio supera até mesmo a variação de paráfrases, sugerindo que tais representações transcendem a tokenização superficial.

Sripad Karne2026-03-11💬 cs.CL

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

O artigo apresenta o MultiGraSCCo, um benchmark multilíngue de anonimização em dez idiomas com mais de 2.500 anotações de identificadores pessoais, criado por meio de tradução neural para superar a escassez de dados reais e facilitar o desenvolvimento e validação de sistemas de proteção de privacidade em saúde.

Ibrahim Baroud, Christoph Otto, Vera Czehmann, Christine Hovhannisyan, Lisa Raithel, Sebastian Möller, Roland Roller2026-03-11💬 cs.CL

From Word2Vec to Transformers: Text-Derived Composition Embeddings for Filtering Combinatorial Electrocatalysts

Este artigo avalia uma estratégia de triagem sem rótulos que utiliza embeddings de texto derivados de Word2Vec e Transformers para filtrar candidatos a eletrocatalisadores em espaços composicionais vastos, demonstrando que o modelo Word2Vec leve, baseado em combinações lineares de elementos, frequentemente alcança a maior redução de candidatos mantendo desempenho próximo ao ótimo medido.

Lei Zhang, Markus Stricker2026-03-11🔬 cond-mat.mtrl-sci

ConFu: Contemplate the Future for Better Speculative Sampling

O artigo apresenta o ConFu, um novo framework de decodificação especulativa que permite aos modelos de rascunho antecipar a direção futura da geração por meio de tokens de contemplação e prompts suaves, resultando em taxas de aceitação e velocidade de geração superiores às do EAGLE-3.

Zongyue Qin, Raghavv Goel, Mukul Gagrani, Risheek Garrepalli, Mingu Lee, Yizhou Sun2026-03-11💬 cs.CL

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

O artigo apresenta o SciTaRC, um benchmark de perguntas sobre dados tabulares científicos que exige raciocínio linguístico e computação complexa, demonstrando que os modelos de IA atuais falham significativamente devido a um "gargalo de execução" que afeta tanto a compreensão inicial quanto a precisão nos cálculos.

Hexuan Wang, Yaxuan Ren, Srikar Bommireddypalli, Shuxian Chen, Adarsh Prabhudesai, Rongkun Zhou, Elina Baral, Philipp Koehn2026-03-11💬 cs.CL

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

O artigo apresenta o PathoScribe, um framework unificado baseado em modelos de linguagem (LLM) que transforma arquivos de patologia estáticos em uma biblioteca viva e inteligente, permitindo recuperação semântica, construção automatizada de coortes e raciocínio clínico com alta precisão, conforme demonstrado em uma avaliação com 70.000 relatórios cirúrgicos.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan Niazi2026-03-11🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

O artigo apresenta o VoxEmo, um benchmark abrangente para avaliar Modelos de Linguagem de Áudio em Reconhecimento de Emoções, oferecendo um toolkit padronizado e protocolos de avaliação que capturam a ambiguidade inerente às emoções humanas e demonstram que, embora os modelos zero-shot tenham menor precisão em rótulos rígidos, eles se alinham melhor com as distribuições subjetivas humanas.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas Hain2026-03-11🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

O artigo apresenta o BiCLIP, um framework simples e eficiente que adapta modelos de linguagem e visão a domínios especializados aplicando uma transformação geométrica canônica baseada em poucos exemplos, alcançando resultados state-of-the-art em diversos benchmarks.

Pranav Mantini, Shishir K. Shah2026-03-11🤖 cs.AI

A Consensus-Driven Multi-LLM Pipeline for Missing-Person Investigations

O artigo apresenta o Guardian, um sistema de pipeline multi-LLM que utiliza modelos especializados, um mecanismo de consenso e ajuste fino QLoRA para extrair e processar informações de forma auditável e coordenada, visando otimizar as investigações de pessoas desaparecidas nas primeiras 72 horas críticas.

Joshua Castillo, Ravi Mukkamala2026-03-11🤖 cs.AI

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

O artigo apresenta um framework automatizado para análise temática de dados clínicos qualitativos que combina refinamento iterativo de codificação com rastreamento completo de proveniência, demonstrando superioridade em qualidade e alinhamento com especialistas em comparação a abordagens existentes.

Seungjun Yi, Joakim Nguyen, Huimin Xu, Terence Lim, Joseph Skrovan, Mehak Beri, Hitakshi Modi, Andrew Well, Carlos M. Mery, Yan Zhang, Mia K. Markey, Ying Ding2026-03-11💬 cs.CL

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning

Este artigo apresenta um framework de autoconsistência consciente da confiança que analisa uma única trajetória de raciocínio para decidir adaptativamente entre métodos de caminho único ou múltiplo, mantendo a precisão enquanto reduz o custo computacional em até 80%.

Juming Xiong, Kevin Guo, Congning Ni, Chao Yan, Katherine Brown, Avinash Baidya, Xiang Gao, Bradley Marlin, Zhijun Yin2026-03-11💬 cs.CL

← Anterior Próximo →