cs.CL artigos | Gist.Science

TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

O artigo apresenta o TikZilla, um conjunto de modelos de linguagem de pequeno porte treinados com o novo dataset de alta qualidade DaTikZ-V4 e um pipeline de aprendizado por reforço que utiliza recompensas semânticas baseadas em imagens, superando modelos proprietários maiores na geração de gráficos científicos em TikZ a partir de descrições textuais.

Christian Greisinger, Steffen Eger2026-03-04💬 cs.CL

TAO-Attack: Toward Advanced Optimization-Based Jailbreak Attacks for Large Language Models

Este trabalho propõe o TAO-Attack, um novo método de jailbreak baseado em otimização que utiliza uma função de perda em duas etapas e uma estratégia de otimização de tokens com prioridade de direção para superar as limitações dos métodos atuais, alcançando taxas de sucesso superiores e até 100% em diversos cenários com grandes modelos de linguagem.

Zhi Xu, Jiaqi Li, Xiaotong Zhang + 2 more2026-03-04💬 cs.CL

Compact Prompting in Instruction-tuned LLMs for Joint Argumentative Component Detection

Este artigo propõe uma abordagem inovadora para a detecção de componentes argumentativos que reformula a tarefa como geração de linguagem utilizando prompts compactos em modelos de linguagem instruídos, superando os sistemas existentes e eliminando a necessidade de pré-segmentação.

Sofiane Elguendouze, Erwan Hain, Elena Cabrio + 1 more2026-03-04💬 cs.CL

Interpreting Speaker Characteristics in the Dimensions of Self-Supervised Speech Features

Este artigo demonstra que, ao aplicar PCA em representações de fala auto-supervisionadas do WavLM, é possível identificar dimensões individuais que codificam características específicas do falante (como tom, gênero e intensidade), permitindo o controle direto dessas propriedades em aplicações de síntese de voz.

Kyle Janse van Rensburg, Benjamin van Niekerk, Herman Kamper2026-03-04⚡ eess

Evaluating Performance Drift from Model Switching in Multi-Turn LLM Systems

Este artigo introduz um benchmark de matriz de troca que revela que a alternância de modelos em sistemas LLM de múltiplas voltas gera uma deriva de desempenho significativa e previsível devido a incompatibilidades de contexto, estabelecendo a robustez na troca como uma dimensão crítica de confiabilidade operacional que requer monitoramento específico.

Raad Khraishi, Iman Zafar, Katie Myles + 1 more2026-03-04💬 cs.CL

UniSkill: A Dataset for Matching University Curricula to Professional Competencies

O artigo apresenta o "UniSkill", um novo conjunto de dados anotados e sintéticos que mapeia cursos universitários para competências profissionais da taxonomia ESCO, demonstrando a viabilidade dessa correspondência através de modelos de linguagem que atingiram 87% de F1-score.

Nurlan Musazade, Joszef Mezei, Mike Zhang2026-03-04💬 cs.CL

APRES: An Agentic Paper Revision and Evaluation System

O artigo apresenta o APRES, um sistema baseado em modelos de linguagem que revisa automaticamente textos científicos para melhorar sua qualidade e impacto previsto em citações, sem alterar o conteúdo central, atuando como uma ferramenta de apoio aos autores antes da submissão e complementando, em vez de substituir, a revisão humana.

Bingchen Zhao, Jenny Zhang, Chenxi Whitehouse + 8 more2026-03-04💬 cs.CL

Type-Aware Retrieval-Augmented Generation with Dependency Closure for Solver-Executable Industrial Optimization Modeling

Este artigo propõe um método de Geração Aumentada por Recuperação (RAG) consciente de tipos e fechamento de dependências, que constrói uma base de conhecimento estruturada para traduzir requisitos em linguagem natural em modelos de otimização industrial executáveis, superando as limitações de falhas de compilação e alucinações estruturais observadas em abordagens convencionais.

Y. Zhong, R. Huang, M. Wang + 4 more2026-03-04💬 cs.CL

MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

Este trabalho propõe o MoD-DPO, uma estrutura de otimização de preferência que mitiga alucinações cruzadas em modelos de linguagem omni-modais ao impor regularização específica por modalidade e penalizar a dependência excessiva de priores textuais, resultando em maior precisão perceptiva e robustez.

Ashutosh Chaubey, Jiacheng Pang, Mohammad Soleymani2026-03-04💬 cs.CL

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

O artigo apresenta o BeyondSWE, um novo benchmark abrangente que revela lacunas significativas na capacidade dos agentes de código atuais para lidar com tarefas além de correções de bugs em repositórios únicos, além de introduzir o framework SearchSWE para investigar os efeitos da busca externa, demonstrando que tal augmentação resulta em ganhos inconsistentes e destaca a dificuldade de emular fluxos de trabalho de desenvolvimento que intercalam busca e raciocínio.

Guoxin Chen, Fanzhe Meng, Jiale Zhao + 12 more2026-03-04💬 cs.CL

ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

O artigo apresenta o ACE-Brain-0, uma inteligência fundacional geral que utiliza a inteligência espacial como uma estrutura universal para unificar veículos autônomos, robótica e drones em um único modelo multimodal, empregando o paradigma "Scaffold-Specialize-Reconcile" e o GRPO para alcançar desempenho de ponta em 24 benchmarks.

Ziyang Gong, Zehang Luo, Anke Tang + 21 more2026-03-04💬 cs.CL

Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use

O artigo apresenta o MOSAIC, um framework de pós-treinamento que alinha modelos de linguagem agentes para o uso seguro de ferramentas em múltiplos passos, estruturando a inferência em um ciclo de planejamento, verificação e ação ou recusa, e utilizando aprendizado por reforço baseado em preferências para reduzir significativamente comportamentos nocivos e vazamentos de privacidade sem comprometer o desempenho em tarefas benignas.

Aradhye Agarwal, Gurdit Siyan, Yash Pandya + 3 more2026-03-04💬 cs.CL

Understanding and Mitigating Dataset Corruption in LLM Steering

Este estudo demonstra que, embora o direcionamento contrastivo em LLMs seja robusto a uma quantidade moderada de corrupção de dados, efeitos maliciosos podem ocorrer com frações significativas de dados alterados, mas que podem ser mitigados substituindo o cálculo de média padrão por um estimador de média robusto.

Cullen Anderson, Narmeen Oozeer, Foad Namjoo + 3 more2026-03-04💬 cs.CL

Density-Guided Response Optimization: Community-Grounded Alignment via Implicit Acceptance Signals

O artigo apresenta a Otimização de Resposta Guiada por Densidade (DGRO), um método que alinha modelos de linguagem às normas de comunidades diversas explorando a estrutura geométrica de aceitação implícita em seus dados, eliminando a necessidade de supervisão explícita de preferências.

Patrick Gerard, Svitlana Volkova2026-03-04💬 cs.CL

Using Learning Progressions to Guide AI Feedback for Science Learning

Este estudo demonstra que um pipeline de geração de rubricas baseado em progressões de aprendizagem pode produzir feedback de IA para explicações científicas de estudantes do ensino médio com qualidade comparável àquela obtida com rubricas elaboradas por especialistas humanos.

Xin Xia, Nejla Yuruk, Yun Wang + 1 more2026-03-04💬 cs.CL

Factuality Challenges in the Era of Large Language Models

Este artigo examina os desafios de facticidade e os riscos de desinformação apresentados pelos Grandes Modelos de Linguagem (LLMs), propondo soluções tecnológicas, regulatórias e educacionais para mitigar a disseminação de conteúdo enganoso na era da IA generativa.

Isabelle Augenstein, Timothy Baldwin, Meeyoung Cha + 15 more2026-03-03💬 cs.CL

Using ChatGPT for Data Science Analyses

Este artigo avalia o potencial do ChatGPT como copiloto quantitativo em fluxos de trabalho de ciência de dados, demonstrando suas capacidades em exploração, visualização e modelagem supervisionada e não supervisionada, ao mesmo tempo em que destaca a necessidade de considerar cuidadosamente suas limitações.

Ozan Evkaya, Miguel de Carvalho2026-03-03📊 stat

Large Language Model Agent in Financial Trading: A Survey

Esta pesquisa oferece uma revisão abrangente sobre o uso de agentes de modelos de linguagem grandes (LLMs) em negociações financeiras, analisando suas arquiteturas, dados de entrada, desempenho em testes retrospectivos e os desafios atuais, com o objetivo de mapear o estado da arte e orientar futuras direções de pesquisa.

Han Ding, Yinheng Li, Junhao Wang + 3 more2026-03-03💬 cs.CL

Scaling Knowledge Graph Construction through Synthetic Data Generation and Distillation

O artigo apresenta o SynthKG, um pipeline de síntese de dados que gera pares documento-grafo de alta qualidade para treinar modelos menores via destilação (Distill-SynthKG), superando métodos baseados em LLMs maiores na construção de grafos de conhecimento e melhorando significativamente tarefas de recuperação e resposta a perguntas.

Prafulla Kumar Choubey, Xin Su, Man Luo + 9 more2026-03-03💬 cs.CL

Polynomial, trigonometric, and tropical activations

Este artigo demonstra que funções de ativação baseadas em bases ortonormais, como polinômios de Hermite, trigonometria e tropicalização, podem ser utilizadas com sucesso no treinamento de modelos profundos sem mecanismos de clamping, resolvendo problemas de explosão e desaparecimento de gradientes e permitindo aproximações eficientes para ajuste fino.

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

← Anterior Próximo →