Articoli fondamentali | Gist.Science

Observation of a new particle in the search for the Standard Model Higgs boson with the ATLAS detector at the LHC

Il documento presenta l'osservazione, con una significatività statistica di 5.9 deviazioni standard, di una nuova particella neutra con massa di 126,0 GeV, compatibile con il bosone di Higgs del Modello Standard, ottenuta dall'analisi combinata dei dati raccolti dal rivelatore ATLAS al Large Hadron Collider nel 2011 e nel 2012.

The ATLAS Collaboration2012-07-31⚛️ hep-ex

Observation of a new boson at a mass of 125 GeV with the CMS experiment at the LHC

L'esperimento CMS al LHC ha osservato, con una significatività statistica di 5.0 deviazioni standard, un nuovo bosone con una massa di circa 125 GeV, prodotto nelle collisioni protone-protone e rilevato principalmente attraverso i canali di decadimento in due fotoni e in due bosoni Z.

The CMS Collaboration2012-07-31⚛️ hep-ex

Observation of Gravitational Waves from a Binary Black Hole Merger

Il 14 settembre 2015, i rivelatori LIGO hanno osservato per la prima volta direttamente le onde gravitazionali generate dalla fusione di un sistema binario di buchi neri, confermando le previsioni della relatività generale e dimostrando l'esistenza di tali sistemi stellari.

The LIGO Scientific Collaboration, the Virgo Collaboration2016-02-11⚛️ gr-qc

First M87 Event Horizon Telescope Results. I. The Shadow of the Supermassive Black Hole

Il primo articolo sui risultati dell'Event Horizon Telescope presenta l'immagine diretta dell'ombra del buco nero supermassiccio al centro della galassia M87, ottenuta tramite interferometria a lunghissima base a 1,3 mm, che conferma le previsioni della relatività generale e permette di stimarne la massa in circa 6,5 miliardi di masse solari.

The Event Horizon Telescope Collaboration2019-06-26🔭 astro-ph.GA

Attention Is All You Need

Il paper introduce il Transformer, una nuova architettura di rete basata esclusivamente sui meccanismi di attenzione che elimina ricorrenze e convoluzioni, ottenendo risultati superiori nelle traduzioni macchina e una maggiore efficienza computazionale rispetto ai modelli precedenti.

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin2017-06-12💬 cs.CL

Deep Residual Learning for Image Recognition

Questo paper introduce un framework di apprendimento residuo che facilita l'addestramento di reti neurali estremamente profonde, ottenendo risultati record nel 2015 su ImageNet e COCO grazie alla capacità di migliorare l'accuratezza all'aumentare della profondità del modello.

Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun2015-12-10👁️ cs.CV

Generative Adversarial Networks

Gli autori propongono un nuovo framework basato su un processo avversariale in cui una rete generativa e una discriminativa vengono addestrate simultaneamente per modellare la distribuzione dei dati senza ricorrere a catene di Markov o inferenza approssimata.

Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio2014-06-10📊 stat.ML

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Il paper introduce BERT, un nuovo modello di rappresentazione linguistica basato su trasformatori bidirezionali pre-addestrati su testo non etichettato che, grazie alla semplice sintonizzazione fine con un solo strato aggiuntivo, raggiunge risultati all'avanguardia in undici compiti di elaborazione del linguaggio naturale.

Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova2018-10-11💬 cs.CL

Denoising Diffusion Probabilistic Models

Questo paper presenta modelli di diffusione probabilistica per la sintesi di immagini di alta qualità, ottenendo risultati all'avanguardia su CIFAR10 e LSUN grazie a un legame innovativo con il denoising score matching e un approccio di decompressione progressiva.

Jonathan Ho, Ajay Jain, Pieter Abbeel2020-06-19🤖 cs.LG

Adam: A Method for Stochastic Optimization

Il paper introduce Adam, un algoritmo efficiente e facile da implementare per l'ottimizzazione stocastica basato su stime adattive dei momenti di ordine inferiore, che combina i vantaggi di AdaGrad e RMSProp per gestire efficacemente problemi con gradienti rumorosi o sparsi e grandi quantità di dati.

Diederik P. Kingma, Jimmy Ba2014-12-22🤖 cs.LG

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

Il paper introduce la Batch Normalization, una tecnica che accelera l'addestramento delle reti neurali profonde riducendo lo spostamento interno della covariata attraverso la normalizzazione degli input di ogni layer, permettendo l'uso di tassi di apprendimento più elevati, migliorando la regolarizzazione e raggiungendo risultati di classificazione su ImageNet superiori a quelli umani.

Sergey Ioffe, Christian Szegedy2015-02-11🤖 cs.LG

Auto-Encoding Variational Bayes

Questo articolo introduce un algoritmo di inferenza variazionale stocastica basato su un ricalcolo del limite inferiore che, sfruttando un modello di riconoscimento e metodi di discesa del gradiente stocastico, permette un'apprendimento efficiente su grandi dataset e in presenza di variabili latenti continue con distribuzioni posteriori intrattabili.

Diederik P Kingma, Max Welling2013-12-20📊 stat.ML

Scaling Laws for Neural Language Models

Il paper stabilisce leggi empiriche secondo cui le prestazioni dei modelli linguistici seguono una legge di potenza rispetto a dimensioni del modello, dataset e calcolo, dimostrando che l'allocazione ottimale delle risorse computazionali prevede l'addestramento di modelli molto grandi su dataset relativamente piccoli e l'arresto dell'addestramento ben prima della convergenza.

Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei2020-01-23🤖 cs.LG

Improving neural networks by preventing co-adaptation of feature detectors

Il paper dimostra che l'uso della tecnica di "dropout", che consiste nell'omettere casualmente metà dei rilevatori di caratteristiche durante l'addestramento, riduce drasticamente l'overfitting prevenendo le co-adattazioni complesse e migliorando significativamente le prestazioni su compiti di riconoscimento vocale e di oggetti.

Geoffrey E. Hinton, Nitish Srivastava, Alex Krizhevsky, Ilya Sutskever, Ruslan R. Salakhutdinov2012-07-03💻 cs.NE

Efficient Estimation of Word Representations in Vector Space

Gli autori propongono due nuove architetture di modelli per generare rappresentazioni vettoriali continue delle parole da grandi dataset, ottenendo miglioramenti significativi in termini di accuratezza e costi computazionali rispetto alle tecniche precedenti.

Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean2013-01-16💬 cs.CL