OSCAR: Online Soft Compression And Reranking
O OSCAR é um método inovador de compressão online e reclassificação dependente da consulta que reduz significativamente o custo computacional e acelera a inferência em pipelines de RAG, mantendo a precisão de modelos de linguagem de grande porte sem sobrecarga de armazenamento.