Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models
Dit paper introduceert Think-as-You-See (TaYS), een unificerend raamwerk voor Large Vision-Language Models dat echte gelijktijdige redenering mogelijk maakt door video-informatie en denkprocessen parallel te verwerken, wat leidt tot betere prestaties en lagere latentie in vergelijking met bestaande batch- en interleaved-benaderingen.