Graph Recognition via Subgraph Prediction
Il paper presenta GraSP, un metodo unificato e trasferibile per il riconoscimento di grafi visivi basato sulla predizione di sottografi, che supera i limiti delle soluzioni specifiche per singolo compito.
5865 articoli
Il paper presenta GraSP, un metodo unificato e trasferibile per il riconoscimento di grafi visivi basato sulla predizione di sottografi, che supera i limiti delle soluzioni specifiche per singolo compito.
MLV-Edit è un framework di editing video senza addestramento basato sul flusso ottico che, attraverso una strategia di divisione e conquista potenziata da due moduli chiave per la coerenza temporale, risolve le sfide computazionali e di stabilità nell'editing di video della durata di minuti.
Il paper presenta VideoTemp-o3, un framework unificato di pensiero agenziale che armonizza l'individuazione temporale e la comprensione video, risolvendo le inefficienze dei metodi attuali attraverso un meccanismo di mascheramento unificato, ricompense dedicate per il reinforcement learning e un nuovo benchmark per la valutazione su video lunghi.
Il paper presenta WristMIR, un framework di recupero di radiografie del polso pediatriche che sfrutta report radiologici strutturati e localizzazione specifica delle ossa per migliorare l'accuratezza diagnostica e la rilevanza clinica attraverso un processo di recupero a due stadi, superando le prestazioni dei modelli di base senza richiedere annotazioni manuali delle immagini.
Questo studio presenta il Garbage Dataset (GD), un benchmark pubblico di 12.259 immagini multi-classe per la segregazione automatizzata dei rifiuti, che dimostra come il modello EfficientNetV2S raggiunga il 95,13% di accuratezza pur evidenziando sfide critiche come lo sbilanciamento delle classi, la complessità dello sfondo e i compromessi ambientali nella selezione del modello.
Il paper propone EO-VAE, un autoencoder variazionale multi-sensore che utilizza iperreti dinamiche per codificare e ricostruire combinazioni flessibili di canali spettrali in un unico modello, superando le prestazioni dei tokenizers esistenti e fornendo una solida base per la generazione latente di dati di osservazione terrestre.
Il documento presenta MedXIAOHE, un modello fondazionale medico visivo-linguistico che, grazie a un framework di pre-addestramento continuo orientato alle entità e a tecniche di apprendimento per rinforzo, raggiunge prestazioni all'avanguardia nel ragionamento diagnostico e nella generazione di report clinici affidabili, superando i sistemi multimodali chiusi esistenti.
Il paper presenta UniTAF, un framework modulare che unifica i modelli Text-to-Speech e Audio-to-Face per abilitare il trasferimento interno delle caratteristiche e migliorare la coerenza tra audio ed espressioni facciali, validando la fattibilità del riutilizzo delle rappresentazioni intermedie per la progettazione congiunta di voce ed espressioni.
Il paper presenta CRAFT-LoRA, un metodo che migliora la personalizzazione della generazione di immagini bilanciando fedeltà al contenuto e coerenza stilistica attraverso un adattamento a basso rango vincolato, un'aggregazione selettiva degli adapter guidata dal prompt e uno schema di guida senza classifier addestrato, ottenendo risultati ad alta fedeltà senza necessità di riaddestramento aggiuntivo.
Il paper introduce CFE-Bench, un benchmark multimodale basato su esami universitari reali che valuta le capacità di ragionamento dei modelli linguistici in oltre 20 ambiti STEM, rivelando che, nonostante le buone prestazioni complessive, i modelli avanzati faticano a mantenere stati intermedi corretti durante soluzioni complesse e mostrano un'efficienza di passaggio inferiore rispetto alle soluzioni degli istruttori.
Il paper introduce TraqPoint, un innovativo framework di apprendimento per rinforzo che riformula il rilevamento di punti chiave come un problema decisionale sequenziale per ottimizzare direttamente la qualità delle tracce su sequenze di immagini, superando i limiti dei metodi basati su coppie di immagini.
Il paper propone Concept Distillation Sampling (CDS), un innovativo framework unificato e senza addestramento che supera i limiti linguistici dei metodi precedenti permettendo l'editing multi-concetto e la composizione di adattatori LoRA mantenendo la fedeltà dell'identità e i dettagli visivi complessi.
Il paper presenta Uni-Animator, un nuovo framework basato su Diffusion Transformer che unifica la colorizzazione di schizzi sia per immagini che per video, risolvendo le sfide della precisione cromatica, della conservazione dei dettagli fisici e della coerenza temporale attraverso innovazioni come l'embedding di patch di riferimento, il rinforzo dei dettagli fisici e una codifica RoPE dinamica basata sugli schizzi.
Il paper presenta MedMAP, un framework di pre-addestramento modale-agnostico per modelli visione-linguaggio che, sfruttando il nuovo dataset MedMoM-MRI3D, supera le prestazioni degli stati dell'arte nel rilevamento di anomalie multi-organo in risonanza magnetica 3D.
Il paper presenta APPO, un algoritmo di ottimizzazione della politica guidato dall'attenzione che migliora la capacità di percezione fine-granularità nei modelli di ragionamento video tramite ricompense dense a livello di token, dimostrando che potenziare la percezione è più efficace dell'aumento delle capacità di ragionamento puro.
Questo articolo presenta un approccio innovativo che combina modelli di intelligenza generativa come SAM2, Florence2 e ChatGPT con un'ontologia specializzata per segmentare e etichettare trattati storici sulla costruzione navale del XVI e XVII secolo, superando le sfide legate alla scarsità di dati di addestramento e alla specializzazione del dominio per migliorare la curatela e l'accessibilità di documenti storici preziosi.
Questo articolo presenta Lilium, un nuovo metodo evolutivo automatizzato che migliora l'accuratezza e la robustezza della sovrapposizione cranio-facciale forense modellando esplicitamente la variabilità dei tessuti molli tramite un algoritmo di evoluzione differenziale e vincoli di plausibilità anatomica.
Il paper presenta GLIDE-Reg, un metodo di registrazione deformabile che combina ottimizzata co-occorrenza di caratteristiche fondazionali e manuali per superare i limiti di robustezza e generalizzabilità delle tecniche attuali, ottenendo prestazioni superiori su diverse coorti di imaging polmonare.
Il paper propone IDER, un nuovo approccio basato sulla proprietà di idempotenza che, integrando una distillazione dell'idempotenza con i metodi di replay esistenti, risolve il problema della dimenticanza catastrofica migliorando al contempo l'accuratezza e l'affidabilità delle previsioni nell'apprendimento continuo.
Il paper presenta BornoViT, un modello Vision Transformer leggero ed efficiente con soli 0,65 milioni di parametri, che classifica con successo i caratteri e le cifre scritti a mano in bengalese raggiungendo un'accuratezza del 95,77% sul dataset BanglaLekha e del 91,51% su un dataset autonomo, offrendo una soluzione ottimizzata per ambienti con risorse limitate.