cs articoli | Gist.Science

DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation

Il paper introduce DivCon, un approccio "dividi e conquista" che migliora il ragionamento numerico e spaziale nella generazione di immagini da testo suddividendo il processo in sottocompiti gestibili, permettendo anche a modelli linguistici leggeri di ottenere risultati superiori rispetto ai metodi precedenti su benchmark complessi.

Yuhao Jia, Wenhan Tan2026-03-10💻 cs

Deepfake Generation and Detection: A Benchmark and Survey

Questa rassegna offre una panoramica completa e un benchmark delle tecnologie all'avanguardia per la generazione e il rilevamento dei deepfake, coprendo definizioni, dataset, metriche e le principali sottocategorie come lo scambio e la ricreazione facciale, l'editing degli attributi e la rilevazione di falsificazioni.

Gan Pei, Jiangning Zhang, Menghan Hu, Zhenyu Zhang, Chengjie Wang, Yunsheng Wu, Guangtao Zhai, Jian Yang, Dacheng Tao2026-03-10💻 cs

Weighted Reservoir Sampling With Replacement from Data Streams

Questo lavoro presenta un nuovo metodo di campionamento casuale con sostituzione per flussi di dati ponderati, che genera in un'unica passata un campione rappresentativo senza richiedere post-elaborazione, dimostrando formalmente la sua correttezza ed efficienza rispetto agli approcci esistenti.

Adriano Meligrana, Adriano Fazzone2026-03-10💻 cs

Goldilocks Test Sets for Face Verification

Gli autori propongono tre nuovi set di test ad alta qualità, denominati Hadrian, Eclipse e ND-Twins, per valutare le debolezze degli algoritmi di riconoscimento facciale su variazioni di attributi e somiglianze tra individui, superando la necessità di degradare artificialmente le immagini per aumentare la difficoltà di valutazione.

Haiyu Wu, Sicong Tian, Aman Bhatta, Jacob Gutierrez, Grace Bezold, Genesis Argueta, Karl Ricanek Jr., Michael C. King, Kevin W. Bowyer2026-03-10💻 cs

RDM: Recurrent Diffusion Model for Human Motion Generation

Il paper presenta RDM, un nuovo modello ricorrente di diffusione che utilizza flussi di normalizzazione per generare sequenze di movimento umano lunghe e coerenti con il testo, riducendo significativamente i costi computazionali evitando la completa denoising dei frame precedenti.

Mirgahney Mohamed, Harry Jake Cunningham, Marc P. Deisenroth, Lourdes Agapito2026-03-10💻 cs

Influence-Based Reward Modulation for Implicit Communication in Human-Robot Interaction

Questo articolo presenta un metodo basato sull'Entropia di Trasferimento per modulare l'influenza reciproca tra agenti in interazioni uomo-robot, dimostrando come tale approccio favorisca implicitamente la comunicazione, la collaborazione o l'indipendenza sociale senza richiedere modelli espliciti delle intenzioni umane.

Haoyang Jiang, Elizabeth A. Croft, Michael G. Burke2026-03-10💻 cs

On Polynomial-Time Decidability of k-Negations Fragments of First-Order Theories

Questo lavoro presenta un framework generico che garantisce la decidibilità in tempo polinomiale per frammenti di teorie del primo ordine con un numero fisso di negazioni, dimostrando applicabilità a varianti dell'aritmetica di Presburger e dell'aritmetica reale lineare debole, in contrasto con la complessità NP-hard di frammenti più ristretti dell'aritmetica di Presburger completa.

Christoph Haase, Alessio Mansutti, Amaury Pouly2026-03-10💻 cs

MORCoRA: Multi-Objective Refactoring Recommendation Considering Review Availability

Il paper presenta MORCoRA, una tecnica di ricerca multi-obiettivo che raccomanda sequenze di refactoring per migliorare la qualità del codice e preservarne la semantica, tenendo conto simultaneamente della disponibilità e dell'esperienza dei revisori necessari per approvarle.

Lei Chen, Shinpei Hayashi2026-03-10💻 cs

A 1.6-fJ/Spike Subthreshold Analog Spiking Neuron in 28 nm CMOS

Questo lavoro presenta un neurone analogico spiking LIF a bassissimo consumo (1,6 fJ/spike) realizzato in tecnologia CMOS a 28 nm, che dimostra la fattibilità di un sistema neuromorfico efficiente dal punto di vista energetico in grado di raggiungere un'accuratezza dell'82,5% sul dataset MNIST.

Marwan Besrour, Takwa Omrani, Jacob Lavoie, Gabriel Martin-Hardy, Esmaeil Ranjbar Koleibi, Jeremy Menard, Konin Koua, Philippe Marcoux, Mounir Boukadoum, Rejean Fontaine2026-03-10💻 cs

Life Histories of Taboo Knowledge Artifacts

Questo studio misto analizza come gli articoli Wikipedia su argomenti tabù, nonostante i conflitti e la censura, riescano a svilupparsi e sostenersi grazie a leadership resilienti, organizzazioni impegnate e forme emergenti di governance.

Kaylea Champion, Benjamin Mako Hill2026-03-10💻 cs

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis

Questo articolo presenta il MLVAS, un sistema multimodale che combina analisi video e audio per estrarre segmenti clinici rilevanti e generare metriche oggettive al fine di assistere nella diagnosi della paralisi delle corde vocali.

Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Juan Liu, Faya Liang, Ming Li2026-03-10💻 cs

The Future of Software Testing: AI-Powered Test Case Generation and Validation

Questo articolo esplora come l'intelligenza artificiale trasformi il testing del software automatizzando la generazione e la validazione dei casi di test, migliorando così efficienza, copertura e affidabilità delle release, pur affrontando le sfide legate alla qualità dei dati e alla necessità di un equilibrio tra automazione e supervisione umana.

Mohammad Baqar, Rajat Khanda2026-03-10💻 cs

Safe Navigation of Bipedal Robots via Koopman Operator-Based Model Predictive Control

Questo lavoro propone un quadro di navigazione sicura per robot bipedi che combina un policy di locomozione addestrata con apprendimento per rinforzo e un controllore predittivo basato sull'operatore di Koopman, permettendo di gestire efficacemente la non linearità dinamica e migliorare sicurezza e successo in ambienti densi.

Jeonghwan Kim, Yunhai Han, Harish Ravichandar, Sehoon Ha2026-03-10💻 cs

InterMind: Doctor-Patient-Family Interactive Depression Assessment Empowered by Large Language Models

Il paper presenta InterMind, un sistema basato su modelli linguistici di grandi dimensioni che integra il coinvolgimento di pazienti, medici e famiglie, nonché tecniche di generazione aumentata da recupero e catena di pensiero, per migliorare l'accuratezza, l'efficienza e l'interpretabilità della valutazione della depressione.

Zhiyuan Zhou, Jilong Liu, Sanwang Wang, Shijie Hao, Yanrong Guo, Richang Hong2026-03-10💻 cs

Improving Visual Object Tracking through Visual Prompting

Il paper presenta PiVOT, un nuovo meccanismo di prompting visivo che sfrutta il modello fondazionale CLIP per generare e raffinare dinamicamente prompt online, migliorando le prestazioni del tracciamento generico di oggetti sopprimendo efficacemente gli oggetti distraenti.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin2026-03-10💻 cs

Diagnosing and Repairing Distributed Routing Configurations Using Selective Symbolic Simulation

Il paper presenta S^2Sim, un sistema innovativo che utilizza la simulazione simbolica selettiva per diagnosticare e riparare automaticamente errori nelle configurazioni di routing distribuito, identificando varianti conformi agli intenti e suggerendo le relative correzioni con prestazioni elevate su reti di diverse dimensioni.

Rulan Yang, Gao Han, Hanyang Shao, Xiaoqiang Zheng, Xing Fang, Ziyi Wang, Lizhao You, Ruiting Zhou, Linghe Kong, Ennan Zhai, Qiao Xiang, Jiwu Shu2026-03-10💻 cs

Pose Prior Learner: Unsupervised Categorical Prior Learning for Pose Estimation

Il paper presenta il Pose Prior Learner (PPL), un metodo non supervisionato che apprende un prior categorico generale per la stima della posa di oggetti tramite una memoria gerarchica di pose prototipiche, migliorando l'accuratezza e la robustezza agli occlusi senza richiedere annotazioni umane.

Ziyu Wang, Shuangpeng Han, Mengmi Zhang2026-03-10💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

Il paper presenta ExpGest, un nuovo framework basato su modelli di diffusione che genera gesti espressivi a corpo intero sincronizzando informazioni audio e testuali, superando i limiti dei metodi esistenti grazie a un classificatore di emozioni del rumore e a una migliore generalizzazione semantica.

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei Liu2026-03-10💻 cs

Optimal Mediation Mechanism in Bilateral Trade

Questo studio analizza la progettazione di meccanismi di mediazione che massimizzano i ricavi in un contesto di scambio bilaterale con valutazioni interdipendenti, dimostrando un'impossibilità trilemmatica tra compatibilità agli incentivi, obbedienza e informatività, e caratterizzando le soluzioni ottimali sotto specifiche condizioni di rilassamento che rivelano strutture a soglia con effetti distinti sul mercato.

Zhikang Fan, Weiran Shen, Shaojie Tang, Yao Wang2026-03-10💻 cs

I/O complexity and pebble games with partial computations

Questo lavoro propone una variante del gioco dei sassolini che consente calcoli parziali per modellare grafi aciclici diretti con gradi di ingresso arbitrari, dimostrando che la ricerca di una strategia ottimale è NP-completa anche in casi semplici e presentando algoritmi di approssimazione per casi speciali.

Aleksandros Sobczyk2026-03-10💻 cs

← Precedente Successivo →