STAvatar: Soft Binding and Temporal Density Control for Monocular 3D Head Avatars Reconstruction

Il paper presenta STAvatar, un metodo innovativo per la ricostruzione di avatar 3D del viso a partire da video monoculare che supera i limiti delle tecniche esistenti grazie a un legame morbido adattivo basato su UV e a una strategia di controllo temporale della densità, ottenendo risultati all'avanguardia nella cattura di dettagli fini e di regioni spesso occluse.

Jiankuo Zhao, Xiangyu Zhu, Zidu Wang + 1 more2026-03-06💻 cs

PowerCLIP: Powerset Alignment for Contrastive Pre-Training

Il paper presenta PowerCLIP, un nuovo framework di pre-addestramento contrastivo che supera i limiti delle allineamenti token-patch tradizionali introducendo un'efficiente allineamento di insiemi di poteri tramite aggregatori non lineari per catturare la semantica composizionale su più regioni, ottenendo prestazioni superiori nelle attività di classificazione e recupero zero-shot.

Masaki Kawamura, Nakamasa Inoue, Rintaro Yanagi + 2 more2026-03-06💻 cs

Revolutionizing Mixed Precision Quantization: Towards Training-free Automatic Proxy Discovery via Large Language Models

Questo articolo presenta TAP, un innovativo framework di scoperta automatica e senza addestramento per i proxy nella quantizzazione a precisione mista, che sfrutta i grandi modelli linguistici e strategie evolutive guidate da un controller DPO per ottenere prestazioni all'avanguardia senza richiedere intervento umano o ottimizzazione differenziabile.

Haidong Kang, Jun Du, Lihong Lin2026-03-06💻 cs

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

Il paper presenta EmboTeam, un nuovo framework per la collaborazione tra robot eterogenei che integra il ragionamento dei modelli linguistici di grandi dimensioni con la pianificazione classica PDDL e alberi comportamentali reattivi, dimostrando su un nuovo benchmark (MACE-THOR) un significativo miglioramento del successo nei compiti complessi rispetto alle soluzioni esistenti.

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

Questo studio valuta la capacità dei modelli fondazionali di riconoscere i momenti cruciali nelle partite di calcio, rivelando che le prestazioni attuali sono vicine al caso a causa della loro dipendenza da una singola modalità e della scarsa capacità di sintesi multimodale, sottolineando la necessità di architetture modulari e procedure di training complementari.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs