InfoFlow KV: Information-Flow-Aware KV Recomputation for Long Context
Der vorgestellte Ansatz „InfoFlow KV" überwindet die Engpässe bei der Inferenz für lange Kontexte in RAG-Systemen, indem er die selektive KV-Neuberechnung als Informationsflussproblem formuliert und mithilfe eines Aufmerksamkeits-Norm-Signals sowie einer kontextsensitiven Chunk-Neuordnung effizient die für die Generierung relevanten Token identifiziert.