Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs
Este trabalho revela que, à medida que o desvio de distribuição (OOD) aumenta, as representações internas dos Grandes Modelos de Linguagem tornam-se progressivamente mais esparsas, um mecanismo adaptativo que os autores exploram para desenvolver uma estratégia de aprendizado em contexto (SG-ICL) que melhora significativamente o desempenho em tarefas complexas.