Trustworthy AI-Driven Dynamic Hybrid RIS: Joint Optimization and Reward Poisoning-Resilient Control in Cognitive MISO Networks

Questo lavoro propone un sistema di superficie intelligente riconfigurabile (RIS) ibrido e dinamico per reti cognitive MISO, ottimizzato tramite apprendimento per rinforzo profondo (SAC) e dotato di un meccanismo di difesa contro l'avvelenamento delle ricompense, che garantisce un miglior compromesso tra throughput ed efficienza energetica e una maggiore resilienza agli attacchi rispetto alle soluzioni esistenti.

Deemah H. Tashman, Soumaya Cherkaoui

Pubblicato 2026-04-03
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di essere in una stanza affollata (la rete wireless) dove c'è un ospite VIP che parla forte (l'utente principale, o PU) e un gruppo di amici che vogliono chiacchierare tra loro senza disturbare il VIP (gli utenti secondari, o SU). Il problema è che il VIP è molto sensibile: se gli amici parlano troppo forte, lo disturbano. Inoltre, gli amici sono in un angolo buio e non si sentono bene tra loro.

Ecco come questo articolo risolve il problema, spiegato come una storia:

1. Il "Muro Magico" Intelligente (RIS)

Per far sì che gli amici si sentano senza urlare, abbiamo installato un muro speciale (chiamato RIS o Superficie Intelligente Riconfigurabile) fatto di migliaia di piccoli specchi.

  • Il vecchio muro (Passivo): Funziona come un normale specchio. Riflette la voce degli amici per farla arrivare meglio, ma non la amplifica. È economico e non consuma batteria, ma se la stanza è molto rumorosa o lontana, la voce arriva ancora debole.
  • Il muro potente (Attivo): Questo muro ha un microfono e un amplificatore incorporati. Non solo riflette la voce, ma la amplifica per farla arrivare forte e chiara. Il problema? Consuma molta energia e costa caro.
  • Il nostro muro "Ibrido Dinamico": Questo è il cuore della nostra invenzione. È un muro che cambia forma in tempo reale.
    • Se ha poca energia (la batteria è scarica), agisce come un semplice specchio (modo passivo) per risparmiare.
    • Se ha raccolto abbastanza energia (magari da un raggio di sole o da un segnale radio dedicato), si "sveglia" e usa l'amplificatore (modo attivo) per rendere la voce fortissima.
    • L'analogia: Immagina un ciclista che ha una batteria. Se la batteria è piena, usa la pedalata assistita (attivo) per andare veloce. Se la batteria è bassa, smette di usare l'assistenza e pedala a mano (passivo) per non fermarsi del tutto. Il nostro muro fa esattamente questo: decide istante per istante se "spingere forte" o "risparmiare".

2. Il "Cervello" che Impara (Intelligenza Artificiale)

Chi decide quando usare la pedalata assistita e quando no? Non un umano, ma un Cervello Artificiale (chiamato DRL o Apprendimento per Rinforzo Profondo).

  • Questo cervello osserva la stanza: quanto rumore c'è? Quanto è lontana la batteria? Quanto sta parlando il VIP?
  • Impara per tentativi ed errori (come un bambino che impara a camminare): se fa una scelta che funziona, riceve un "premio" (punti). Se sbaglia, riceve una "sanzione".
  • Il nostro cervello usa un metodo speciale chiamato SAC (Soft Actor-Critic), che è come un allenatore molto paziente che incoraggia l'atleta a esplorare nuove strategie senza aver paura di sbagliare, trovando la soluzione migliore in modo molto veloce e stabile.

3. Il "Veleno" e l'Antidoto (Sicurezza)

C'è un problema: un cattivo (un hacker) potrebbe cercare di ingannare il cervello artificiale.

  • L'attacco: Immagina che il cattivo vada nella stanza e sussurra al cervello: "Ehi, hai fatto un ottimo lavoro!" quando in realtà hai fatto un disastro, oppure "Hai fatto un disastro!" quando invece hai fatto un capolavoro. Questo si chiama avvelenamento della ricompensa. Il cervello, confuso, impara a fare le cose sbagliate e la comunicazione crolla.
  • La difesa: Il nostro articolo propone un filtro intelligente. È come un guardiano alla porta che controlla le "lodi" o le "critiche" che arrivano al cervello.
    • Se il guardiano sente una lode esagerata e strana (fuori dalla norma statistica), la butta via e dice: "Falsa allerta, non dire nulla al cervello".
    • Se la lode è normale, la lascia passare.
    • Il risultato: Anche se il cattivo cerca di ingannare il sistema, il guardiano filtra le bugie e il cervello continua a imparare correttamente e a proteggere la comunicazione.

In sintesi, cosa abbiamo scoperto?

  1. Il muro che cambia è il migliore: Un muro che sa quando amplificare e quando risparmiare energia funziona meglio di un muro che è sempre spento o sempre acceso. Risparmia energia e mantiene la connessione veloce.
  2. Il cervello è intelligente: Il nostro metodo di apprendimento (SAC) è più veloce e affidabile di altri metodi esistenti.
  3. Siamo sicuri: Anche se qualcuno prova a "avvelenare" il sistema con messaggi falsi, il nostro filtro protegge il cervello, garantendo che la rete continui a funzionare bene.

Conclusione:
Questo lavoro ci porta un passo più vicino a un futuro (il 6G) in cui le reti wireless sono intelligenti, consumano poca energia (come i dispositivi IoT) e sono sicure anche se qualcuno cerca di sabotarle. È come avere un muro magico che si adatta da solo alle condizioni della stanza e sa difendersi dai bugiardi.