OSCAR: Online Soft Compression And Reranking
Le papier présente OSCAR, une méthode innovante de compression douce en ligne et de reranking qui réduit considérablement la charge computationnelle des pipelines RAG tout en préservant leur précision, offrant ainsi une accélération de 2 à 5 fois sans perte de performance pour les modèles de langage de 1 à 24 milliards de paramètres.