WAFFLE: Finetuning Multi-Modal Models for Automated Front-End Development

L'article présente Waffle, une nouvelle stratégie d'affinement de modèles multimodaux qui améliore la génération de code HTML à partir de designs d'interface utilisateur en utilisant un mécanisme d'attention conscient de la structure et un apprentissage contrastif, surpassant ainsi les méthodes actuelles sur les benchmarks WebSight-Test et Design2Code.

Shanchao Liang, Nan Jiang, Shangshu Qian + 1 more2026-03-04💬 cs.CL

Cycle-Consistent Multi-Graph Matching for Self-Supervised Annotation of C.Elegans

Cet article présente une méthode d'apprentissage non supervisé basée sur la cohérence cyclique et l'optimisation bayésienne pour la correspondance de graphes multiples, permettant d'atteindre la précision des approches supervisées dans l'annotation sémantique des cellules de *C. elegans* et de construire le premier atlas cellulaire non supervisé de cet organisme.

Christoph Karg, Sebastian Stricker, Lisa Hutschenreiter + 2 more2026-03-04💻 cs

HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models

Cet article présente HSSBench, un benchmark multilingue de plus de 13 000 échantillons conçu pour évaluer et stimuler les capacités de raisonnement interdisciplinaire des modèles de langage multimodaux dans le domaine des sciences humaines et sociales, comblant ainsi une lacune majeure des évaluations actuelles axées sur les STEM.

Zhaolu Kang, Junhao Gong, Jiaxu Yan + 15 more2026-03-04🤖 cs.AI

Frame Guidance: Training-Free Guidance for Frame-Level Control in Video Diffusion Models

Ce papier présente Frame Guidance, une méthode d'entraînement gratuit qui permet un contrôle précis au niveau des images dans la génération de vidéos par diffusion en utilisant des signaux tels que des images clés ou des croquis, tout en optimisant l'utilisation de la mémoire et en assurant une cohérence globale sans nécessiter de fine-tuning.

Sangwon Jang, Taekyung Ki, Jaehyeong Jo + 4 more2026-03-04🤖 cs.AI