CodePercept: Code-Grounded Visual STEM Perception for MLLMs
Die Arbeit „CodePercept" identifiziert die Wahrnehmungsfähigkeit als den entscheidenden Engpass für MLLMs im visuellen STEM-Reasoning und schlägt einen Paradigmenwechsel vor, bei dem ausführbarer Code als präzises Wahrnehmungsmedium dient, was durch die Einführung des 1-Millionen-Einträge-Datensatzes ICC-1M und des Evaluierungsbenchmarks STEM2Code-Eval untermauert wird.