HEXGEN-FLOW: Optimizing LLM Inference Request Scheduling for Agentic Text-to-SQL
Dit paper introduceert HEXGEN-FLOW, een kader voor het optimaliseren van de planning en uitvoering van multi-stap agentic Text-to-SQL-workflows op heterogene GPU-clusters, wat aanzienlijke verbeteringen oplevert in doorvoersnelheid en vermindering van latentie ten opzichte van bestaande frameworks.