AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications
Dit artikel introduceert AMA-Bench, een nieuw beoordelingskader voor het langetermijngeheugen van LLM-agents in realistische omgevingen, en presenteert AMA-Agent, een verbeterd systeem dat door middel van een causaliteitsgraf en tool-geaugmenteerde ophaalfuncties aanzienlijk beter scoort dan bestaande benchmarks.