
Matrice di Confusione
Una matrice di confusione è uno strumento di machine learning per valutare le prestazioni dei modelli di classificazione, dettagliando veri/falsi positivi e neg...
Il recall misura la capacità di un modello di identificare correttamente le istanze positive, essenziale in applicazioni come il rilevamento delle frodi, la diagnosi medica e l’automazione AI.
Cos’è il Recall nel Machine Learning?
Nel campo del machine learning, in particolare nei problemi di classificazione, valutare le prestazioni di un modello è fondamentale. Una delle metriche chiave utilizzate per valutare la capacità di un modello di identificare correttamente le istanze positive è il recall. Questa metrica è essenziale negli scenari in cui la mancata identificazione di un’istanza positiva (falsi negativi) può avere conseguenze importanti. In questa guida approfondita esploreremo cos’è il recall, come viene usato nel machine learning, forniremo esempi dettagliati e casi d’uso, e illustreremo la sua importanza nell’AI, nell’automazione AI e nei chatbot.
Il recall, noto anche come sensibilità o tasso di veri positivi, è una metrica che quantifica la proporzione di istanze positive effettive che sono state correttamente identificate dal modello di machine learning. Misura la completezza di un modello nel recuperare tutte le istanze rilevanti dal dataset.
Matematicamente, il recall è definito come:
Recall = Veri Positivi / (Veri Positivi + Falsi Negativi)
Dove:
Il recall è una delle diverse metriche di classificazione utilizzate per valutare le prestazioni dei modelli, soprattutto nei problemi di classificazione binaria. Si concentra sulla capacità del modello di identificare tutte le istanze positive ed è particolarmente importante quando il costo di perdere un positivo è elevato.
Il recall è strettamente correlato ad altre metriche di classificazione, come la precisione e l’accuratezza. Comprendere come il recall interagisce con queste metriche è essenziale per una valutazione completa delle prestazioni di un modello.
Per comprendere appieno il concetto di recall, è importante conoscere la matrice di confusione, uno strumento che fornisce una suddivisione dettagliata delle prestazioni di un modello.
La matrice di confusione è una tabella che riassume le prestazioni di un modello di classificazione mostrando i conteggi di veri positivi, falsi positivi, veri negativi e falsi negativi. Si presenta così:
Predetto Positivo | Predetto Negativo |
---|---|
Reale Positivo | Vero Positivo (TP) |
Reale Negativo | Falso Positivo (FP) |
La matrice di confusione permette di vedere non solo quante previsioni sono corrette, ma anche quali tipi di errori sono stati commessi, come falsi positivi e falsi negativi.
Dalla matrice di confusione, il recall si calcola come:
Recall = TP / (TP + FN)
Questa formula rappresenta la proporzione di positivi reali che sono stati identificati correttamente.
La classificazione binaria consiste nel categorizzare le istanze in una delle due classi: positiva o negativa. Il recall è particolarmente rilevante in tali problemi, soprattutto quando si lavora con dataset sbilanciati.
Un dataset sbilanciato è quello in cui il numero di istanze per ciascuna classe non è approssimativamente uguale. Ad esempio, nel rilevamento delle frodi, il numero di transazioni fraudolente (classe positiva) è molto inferiore rispetto a quello delle transazioni legittime (classe negativa). In questi casi, l’accuratezza del modello può essere fuorviante, poiché un modello può ottenere un’alta accuratezza semplicemente prevedendo sempre la classe maggioritaria.
Consideriamo un dataset di 10.000 transazioni finanziarie:
Supponiamo che un modello di machine learning preveda:
Calcolo del recall:
Recall = TP / (TP + FN)
Recall = 70 / (70 + 30)
Recall = 70 / 100
Recall = 0,7
Il recall è del 70%, ovvero il modello ha rilevato il 70% delle transazioni fraudolente. Nel rilevamento delle frodi, perdere transazioni fraudolente (falsi negativi) può essere costoso, quindi si desidera un recall elevato.
La precisione misura la proporzione di identificazioni positive che erano effettivamente corrette. Risponde alla domanda: “Su tutte le istanze previste come positive, quante erano davvero positive?”
Formula della precisione:
Precisione = TP / (TP + FP)
Esiste spesso un compromesso tra precisione e recall:
Bilanciare precisione e recall dipende dalle esigenze specifiche dell’applicazione.
Nel filtraggio delle email spam:
Il bilanciamento ottimale dipende dall’importanza di evitare lo spam nella casella di posta o di non perdere email legittime.
Nel rilevamento delle malattie, la mancata identificazione di un caso positivo (il paziente ha la malattia ma non viene riconosciuto) può avere gravi conseguenze.
Identificazione di attività fraudolente nelle transazioni finanziarie.
Rilevamento di intrusioni o accessi non autorizzati.
Nei chatbot alimentati da AI, capire e rispondere correttamente alle intenzioni degli utenti è cruciale.
Identificare difetti o malfunzionamenti nei prodotti.
Supponiamo di avere un dataset per un problema di classificazione binaria, come la previsione dell’abbandono dei clienti:
Dopo aver applicato un modello di machine learning, otteniamo la seguente matrice di confusione:
Predetto Abbandono | Predetto Non Abbandono |
---|---|
Abbandono Reale | TP = 160 |
Non Abbandono Reale | FP = 50 |
Calcolo del recall:
Recall = TP / (TP + FN)
Recall = 160 / (160 + 40)
Recall = 160 / 200
Recall = 0,8
Il recall è dell'80%, il che indica che il modello ha identificato correttamente l'80% dei clienti che abbandoneranno.
Per aumentare il recall, considera le seguenti strategie:
Comprendere il recall da una prospettiva matematica offre insight più approfonditi.
Il recall può essere visto in termini di probabilità condizionale:
Recall = P(Predetto Positivo | Reale Positivo)
Rappresenta la probabilità che il modello predica positivo dato che la classe reale è positiva.
Un recall elevato implica un basso tasso di errore di Tipo II, cioè pochi falsi negativi.
Il recall è il True Positive Rate (TPR) utilizzato nella curva ROC (Receiver Operating Characteristic), che rappresenta il TPR in funzione del tasso di falsi positivi (FPR).
Nel campo del machine learning, il concetto di “recall” svolge un ruolo cruciale nella valutazione dell’efficacia dei modelli, in particolare nei compiti di classificazione. Ecco un riepilogo di alcuni articoli di ricerca rilevanti che esplorano vari aspetti del recall nel machine learning:
Show, Recall, and Tell: Image Captioning with Recall Mechanism (Pubblicato: 2021-03-12)
Questo articolo introduce un nuovo meccanismo di recall volto a migliorare la generazione di didascalie per immagini imitando la cognizione umana. Il meccanismo proposto comprende tre componenti: una unità di recall per recuperare le parole rilevanti, una guida semantica per fornire un contesto e slot di parole richiamate per integrare questi termini nelle didascalie. Lo studio utilizza uno switch soft ispirato da tecniche di riassunto testuale per bilanciare le probabilità di generazione delle parole. L’approccio migliora significativamente i punteggi BLEU-4, CIDEr e SPICE sul dataset MSCOCO, superando altri metodi all’avanguardia. I risultati evidenziano il potenziale dei meccanismi di recall nel migliorare la precisione descrittiva nella generazione di didascalie. Leggi l’articolo qui.
Online Learning with Bounded Recall (Pubblicato: 2024-05-31)
Questa ricerca indaga il concetto di bounded recall nell’apprendimento online, uno scenario in cui le decisioni di un algoritmo si basano su una memoria limitata delle ricompense passate. Gli autori dimostrano che gli algoritmi tradizionali no-regret basati sulla media falliscono in presenza di bounded recall, producendo un regret costante per ogni iterazione. Propongono un algoritmo stazionario con bounded recall che raggiunge un regret per iterazione di $\Theta(1/\sqrt{M})$, presentando un limite inferiore stretto. Lo studio evidenzia che algoritmi efficaci di bounded recall devono considerare la sequenza delle perdite passate, in contrasto con gli scenari di perfect recall. Leggi l’articolo qui.
Recall, Robustness, and Lexicographic Evaluation (Pubblicato: 2024-03-08)
Questo lavoro critica l’uso del recall nella valutazione dei ranking, proponendo un quadro valutativo più formale. Gli autori introducono il concetto di “recall-orientation”, collegandolo all’equità nei sistemi di ranking. Propongono un metodo di valutazione lessicografico, “lexirecall”, che dimostra maggiore sensibilità e stabilità rispetto alle metriche recall tradizionali. Attraverso analisi empiriche su diversi compiti di raccomandazione e recupero, lo studio valida il maggiore potere discriminativo di lexirecall, suggerendone l’idoneità per valutazioni di ranking più raffinate. Leggi l’articolo qui.
Il recall, noto anche come sensibilità o tasso di veri positivi, quantifica la proporzione di istanze positive reali che un modello di machine learning identifica correttamente. Si calcola come Veri Positivi diviso per la somma di Veri Positivi e Falsi Negativi.
Il recall è cruciale quando la mancata identificazione di istanze positive (falsi negativi) può avere conseguenze significative, come nel rilevamento delle frodi, nella diagnosi medica o nei sistemi di sicurezza. Un alto recall assicura che la maggior parte dei casi positivi venga identificata.
Il recall misura quante istanze positive reali vengono correttamente identificate, mentre la precisione misura quante delle predizioni positive sono effettivamente corrette. Spesso esiste un compromesso tra le due metriche, a seconda delle esigenze dell'applicazione.
Puoi migliorare il recall raccogliendo più dati per la classe positiva, utilizzando tecniche di ricampionamento o di aumento dei dati, regolando le soglie di classificazione, applicando l'apprendimento sensibile ai costi e ottimizzando gli iperparametri del modello.
Il recall è particolarmente importante nella diagnosi medica, nel rilevamento delle frodi, nei sistemi di sicurezza, nei chatbot per il servizio clienti e nel rilevamento dei guasti nella produzione—ovunque la mancata identificazione di casi positivi sia costosa o pericolosa.
Inizia a creare soluzioni e chatbot potenziati dall'AI che sfruttano metriche chiave del machine learning come il recall per una migliore automazione e insight.
Una matrice di confusione è uno strumento di machine learning per valutare le prestazioni dei modelli di classificazione, dettagliando veri/falsi positivi e neg...
L'Errore Assoluto Medio (MAE) è una metrica fondamentale nel machine learning per valutare i modelli di regressione. Misura la grandezza media degli errori nell...
Scopri l'importanza dell'accuratezza e della stabilità dei modelli AI nel machine learning. Scopri come queste metriche influenzano applicazioni come il rilevam...