CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

Il paper presenta CogBlender, un framework che permette un intervento continuo e multidimensionale sulle proprietà cognitive (come valenza, arousal, dominanza e memorabilità) nella generazione di immagini da testo, colmando il divario tra contenuto semantico e intento psicologico attraverso l'interpolazione di campi di velocità tra ancoraggi cognitivi definiti.

Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan CaoWed, 11 Ma💻 cs

Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking

Il paper presenta MDTrack, un nuovo framework per il tracciamento multimodale che supera i limiti delle strategie di fusione uniformi adottando una fusione adattiva basata su esperti dedicati per ciascuna modalità e una propagazione temporale decoupled tramite due modelli di spazio di stato separati, ottenendo così prestazioni all'avanguardia su cinque benchmark.

Shilei Wang, Pujian Lai, Dong Gao, Jifeng Ning, Gong ChengWed, 11 Ma💻 cs

ToolRosetta: Bridging Open-Source Repositories and Large Language Model Agents through Automated Tool Standardization

Il paper presenta ToolRosetta, un framework unificato che automatizza la conversione di repository di codice open-source in strumenti MCP compatibili per agenti LLM, riducendo lo sforzo umano e migliorando le prestazioni dei task attraverso un'ispezione di sicurezza integrata.

Shimin Di, Xujie Yuan, Hanghui Guo, Chaoqian Ouyang, Zhangze Chen, Ling Yue, Libin Zheng, Jia Zhu, Shaowu Pan, Jian Yin, Min-Ling Zhang, Yong RuiWed, 11 Ma💻 cs

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

Il paper introduce SPR, un framework visione-linguaggio-azione che migliora la robustezza della manipolazione robotica attraverso un ciclo continuo di osservazione, pianificazione e riavvio basato sul monitoraggio esplicito del progresso del compito, ottenendo risultati superiori rispetto agli stati dell'arte su benchmark complessi.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun ChangWed, 11 Ma💻 cs

IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework

Il paper presenta IntroSVG, un framework che migliora la generazione di grafica vettoriale (SVG) da testo integrando un ciclo chiuso di generazione e critica basato su feedback visivo, che utilizza tecniche di affinamento supervisionato e ottimizzazione delle preferenze per produrre risultati di alta qualità con strutture complesse e allineamento semantico superiore.

Feiyu Wang, Jiayuan Yang, Zhiyuan Zhao, Da Zhang, Bingyu Li, Peng Liu, Junyu GaoWed, 11 Ma💻 cs

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

Il paper presenta OddGridBench, un benchmark controllato che rivela la scarsa sensibilità delle Multimodal Large Language Models alle discrepanze visive fini, e propone OddGrid-GRPO, un framework di apprendimento per rinforzo che ne migliora significativamente la capacità di discriminazione attraverso l'uso di apprendimento curricolare e ricompense consapevoli della distanza spaziale.

Tengjin Weng, Wenhao Jiang, Jingyi Wang, Ming Li, Lin Ma, Zhong MingWed, 11 Ma💻 cs

Dynamic Precision Math Engine for Linear Algebra and Trigonometry Acceleration on Xtensa LX6 Microcontrollers

Questo articolo presenta un motore di calcolo matematico a precisione dinamica per microcontrollori Xtensa LX6 come l'ESP32, che combina un'aritmetica in punto fisso, un modulo CORDIC e una moltiplicazione di matrici ottimizzata per ottenere accelerazioni fino a 24,7 volte rispetto alle librerie standard, permettendo un cambio di precisione in tempo reale senza ricompilazione.

Elian Alfonso Lopez PreciadoWed, 11 Ma💻 cs

ProvAgent: Threat Detection Based on Identity-Behavior Binding and Multi-Agent Collaborative Attack Investigation

ProvAgent è un framework innovativo che supera i limiti della collaborazione uomo-modello nella rilevazione delle minacce APT, integrando screening iniziale, profilazione basata su coerenza identità-comportamento e indagine autonoma tramite agenti multipli per ricostruire processi di attacco complessi con alta precisione e costi ridotti.

Wenhao Yan, Ning An, Linxu Li, Bingsheng Bi, Bo Jiang, Zhigang Lu, Baoxu Liu, Junrong Liu, Cong DongWed, 11 Ma💻 cs

Evidential Perfusion Physics-Informed Neural Networks with Residual Uncertainty Quantification

Il documento presenta EPPINN, un nuovo framework che integra l'apprendimento evidenziale con le reti neurali informate dalla fisica per stimare i parametri di perfusione cerebrale nella risonanza magnetica per ictus ischemico acuto, permettendo una quantificazione dell'incertezza e migliorando sia l'accuratezza che l'affidabilità rispetto ai metodi esistenti.

Junhyeok Lee, Minseo Choi, Han Jang, Young Hun Jeon, Heeseong Eum, Joon Jang, Chul-Ho Sohn, Kyu Sung ChoiWed, 11 Ma💻 cs

SinGeo: Unlock Single Model's Potential for Robust Cross-View Geo-Localization

Il paper presenta SinGeo, un framework innovativo che utilizza un'architettura di apprendimento discriminativo duale e una strategia di curriculum learning per abilitare un singolo modello a raggiungere una geo-localizzazione cross-view robusta e state-of-the-art su diverse condizioni di campo visivo, superando i limiti delle metodologie esistenti.

Yang Chen, Xieyuanli Chen, Junxiang Li, Jie Tang, Tao WuWed, 11 Ma💻 cs