MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants
이 논문은 대규모 언어 모델 (LLM) 이 정적 텍스트에서 인터랙티브 HTML 애플리케이션 (MiniApp) 생성으로 전환됨에 따라 기존 벤치마크의 한계를 극복하기 위해, 실제 데이터로 구축된 'MiniAppBench'와 인간 판단과 높은 일치도를 보이는 에이전트 평가 프레임워크 'MiniAppEval'을 제안하고 현재 모델의 한계를 규명합니다.