Recall i maskinlæring

Recall måler en modells evne til å korrekt identifisere positive tilfeller, essensielt i applikasjoner som svindeldeteksjon, medisinsk diagnose og AI-automatisering.

Hva er Recall i maskinlæring?

Innen maskinlæring, spesielt i klassifiseringsproblemer, er evaluering av modellens ytelse avgjørende. Et av de viktigste målene for å vurdere en modells evne til å korrekt identifisere positive tilfeller er Recall. Dette målet er sentralt i scenarier der det å gå glipp av et positivt tilfelle (falske negative) kan få store konsekvenser. Denne omfattende guiden forklarer hva recall er, hvordan det brukes i maskinlæring, gir detaljerte eksempler og bruksområder, og forklarer betydningen i AI, AI-automatisering og chatboter.

Forståelse av Recall

Definisjon av Recall

Recall, også kjent som sensitivitet eller sann positiv rate, er et mål som kvantifiserer andelen av faktiske positive tilfeller som ble korrekt identifisert av maskinlæringsmodellen. Det måler hvor fullstendig modellen klarer å hente ut alle relevante tilfeller fra datasettet.

Matematisk er recall definert som:

Recall = Sann Positive / (Sann Positive + Falske Negative)

Hvor:

  • Sann Positive (TP): Antall positive tilfeller korrekt klassifisert av modellen.
  • Falske Negative (FN): Antall positive tilfeller som modellen feilaktig klassifiserte som negative.

Rollen til Recall i klassifiseringsmetrikker

Recall er en av flere klassifiseringsmetrikker som brukes for å evaluere modellers ytelse, spesielt i binære klassifiseringsproblemer. Det fokuserer på modellens evne til å identifisere alle positive tilfeller og er spesielt viktig når kostnaden ved å overse et positivt tilfelle er høy.

Recall er nært knyttet til andre klassifiseringsmetrikker, som presisjon og nøyaktighet. Å forstå hvordan recall samspiller med disse målene er essensielt for en helhetlig evaluering av modellens ytelse.

Forvirringsmatrisen forklart

For å forstå konseptet recall fullt ut, er det viktig å kjenne til forvirringsmatrisen, et verktøy som gir en detaljert oversikt over en modells ytelse.

Struktur på forvirringsmatrisen

Forvirringsmatrisen er en tabell som oppsummerer ytelsen til en klassifiseringsmodell ved å vise antallet sanne positive, falske positive, sanne negative og falske negative. Den ser slik ut:

Predikert positivPredikert negativ
Faktisk positivSann positiv (TP)
Faktisk negativFalsk positiv (FP)
  • Sann positiv (TP): Korrekt predikerte positive tilfeller.
  • Falsk positiv (FP): Feilaktig predikerte positive tilfeller (Type I-feil).
  • Falsk negativ (FN): Feilaktig predikerte negative tilfeller (Type II-feil).
  • Sann negativ (TN): Korrekt predikerte negative tilfeller.

Forvirringsmatrisen gir oss innsikt i ikke bare hvor mange prediksjoner som var riktige, men også hvilke typer feil som ble gjort, slik som falske positive og falske negative.

Beregning av Recall ved bruk av forvirringsmatrisen

Fra forvirringsmatrisen beregnes recall som:

Recall = TP / (TP + FN)

Denne formelen viser andelen av faktiske positive som ble korrekt identifisert.

Recall i binær klassifisering

Binær klassifisering innebærer å kategorisere tilfeller i én av to klasser: positiv eller negativ. Recall er spesielt viktig i slike problemer, spesielt når man har ubalanserte datasett.

Ubalanserte datasett

Et ubalansert datasett er et hvor antallet tilfeller i hver klasse ikke er tilnærmet likt. For eksempel, i svindeldeteksjon, er antallet svindeltransaksjoner (positiv klasse) mye lavere enn legitime transaksjoner (negativ klasse). I slike tilfeller kan modellnøyaktighet være misvisende fordi en modell kan oppnå høy nøyaktighet ved å bare predikere majoritetsklassen.

Eksempel: Svindeldeteksjon

Tenk deg et datasett med 10 000 finansielle transaksjoner:

  • Faktiske svindeltransaksjoner (positiv klasse): 100
  • Faktiske legitime transaksjoner (negativ klasse): 9 900

La oss si at en maskinlæringsmodell predikerer:

  • Predikerte svindeltransaksjoner:
    • Sann positive (TP): 70 (korrekt predikert svindel)
    • Falske positive (FP): 10 (legitime transaksjoner feilaktig predikert som svindel)
  • Predikerte legitime transaksjoner:
    • Sanne negative (TN): 9 890 (korrekt predikert legitime)
    • Falske negative (FN): 30 (svindeltransaksjoner predikert som legitime)

Beregning av recall:

Recall = TP / (TP + FN)
Recall = 70 / (70 + 30)
Recall = 70 / 100
Recall = 0,7

Recall er 70 %, noe som betyr at modellen oppdaget 70 % av svindeltransaksjonene. I svindeldeteksjon kan det å overse svindeltransaksjoner (falske negative) være kostbart, så høy recall er ønskelig.

Presisjon vs. Recall

Forståelse av presisjon

Presisjon måler andelen av de positive identifikasjonene som faktisk var korrekte. Det svarer på spørsmålet: “Av alle tilfeller predikert som positive, hvor mange var faktisk positive?”

Formel for presisjon:

Presisjon = TP / (TP + FP)
  • Sann positive (TP): Korrekt predikerte positive tilfeller.
  • Falske positive (FP): Negative tilfeller feilaktig predikert som positive.

Avveiningen mellom presisjon og recall

Det er ofte en avveining mellom presisjon og recall:

  • Høy recall, lav presisjon: Modellen identifiserer de fleste positive tilfeller (få falske negative), men markerer også mange negative tilfeller som positive (mange falske positive).
  • Høy presisjon, lav recall: Modellen identifiserer positive tilfeller korrekt med få falske positive, men overser mange faktiske positive tilfeller (mange falske negative).

Balansering av presisjon og recall avhenger av applikasjonens spesifikke behov.

Eksempel: E-postspamfiltrering

Ved filtrering av e-postspam:

  • Høy recall: Fanger opp det meste av spam, men kan feilaktig merke legitime e-poster som spam (falske positive).
  • Høy presisjon: Minimerer feilmerking av legitime e-poster, men kan slippe inn spam i innboksen (falske negative).

Den optimale balansen avhenger av om det er viktigst å unngå spam i innboksen eller å sikre at ingen legitime e-poster går tapt.

Bruksområder der recall er kritisk

1. Medisinsk diagnose

Ved påvisning av sykdommer kan det å overse et positivt tilfelle (pasienten har sykdommen, men blir ikke identifisert) få alvorlige konsekvenser.

  • Mål: Maksimere recall for å sikre at alle potensielle tilfeller identifiseres.
  • Eksempel: Kreftscreening der en oversett diagnose kan forsinke behandling.

2. Svindeldeteksjon

Identifisering av svindelaktiviteter i finansielle transaksjoner.

  • Mål: Maksimere recall for å oppdage så mange svindeltransaksjoner som mulig.
  • Vurdering: Falske positive (legitime transaksjoner flagget som svindel) er upraktiske, men mindre kostbare enn å overse svindel.

3. Sikkerhetssystemer

Oppdage inntrenging eller uautorisert tilgang.

  • Mål: Sikre høy recall for å fange opp alle sikkerhetsbrudd.
  • Tilnærming: Akseptere noen falske alarmer for å unngå å overse reelle trusler.

4. Chatboter og AI-automatisering

I AI-drevne chatboter er det avgjørende å forstå og svare riktig på brukerintensjoner.

  • Mål: Høy recall for å gjenkjenne flest mulig brukerhenvendelser.
  • Bruksområde: Kundeservice-chatboter som må forstå ulike måter brukere kan be om hjelp på.

5. Feildeteksjon i produksjon

Identifisere defekter eller feil i produkter.

  • Mål: Maksimere recall for å forhindre at defekte varer når kundene.
  • Innvirkning: Høy recall sikrer kvalitetskontroll og kundetilfredshet.

Beregning av Recall: Et eksempel

Anta at vi har et datasett for et binært klassifiseringsproblem, f.eks. å predikere kundeavgang:

  • Totalt antall kunder: 1 000
  • Faktisk avgang (positiv klasse): 200 kunder
  • Faktisk ikke-avgang (negativ klasse): 800 kunder

Etter å ha brukt en maskinlæringsmodell får vi følgende forvirringsmatrise:

Predikert avgangPredikert ikke avgang
Faktisk avgangTP = 160
Faktisk ikke avgangFP = 50

Beregning av recall:

Recall = TP / (TP + FN)
Recall = 160 / (160 + 40)
Recall = 160 / 200
Recall = 0,8

Recall er 80 %, noe som indikerer at modellen korrekt identifiserte 80 % av kundene som kom til å forlate.

Forbedring av recall i maskinlæringsmodeller

For å forbedre recall, vurder følgende strategier:

Databaserte metoder

  • Samle inn mer data: Spesielt for den positive klassen slik at modellen lærer bedre.
  • Resampling-teknikker: Bruk metoder som SMOTE (Synthetic Minority Over-sampling Technique) for å balansere datasettet.
  • Datautvidelse: Lag ekstra syntetiske data for minoritetsklassen.

Algoritmebaserte metoder

  • Juster klassifiseringsterskelen: Senk terskelen for å klassifisere flere tilfeller som positive.
  • Bruk kostnadssensitiv læring: Gi høyere straff for falske negative i tapsfunksjonen.
  • Ensemblemetoder: Kombiner flere modeller for å forbedre total ytelse.

Feature engineering

  • Lag nye features: Som bedre fanger opp egenskaper for den positive klassen.
  • Feature selection: Fokuser på de mest relevante egenskapene for positiv klasse.

Modellvalg og hyperparameter-tuning

  • Velg passende algoritmer: Noen algoritmer håndterer ubalanserte data bedre (f.eks. Random Forest, XGBoost).
  • Tune hyperparametere: Optimaliser parametere spesielt for å forbedre recall.

Matematisk tolkning av recall

Å forstå recall fra et matematisk perspektiv gir dypere innsikt.

Bayesiansk tolkning

Recall kan sees på som en betinget sannsynlighet:

Recall = P(Predikert positiv | Faktisk positiv)

Dette representerer sannsynligheten for at modellen predikerer positivt gitt at den faktiske klassen er positiv.

Forhold til Type II-feil

  • Type II-feilrate (β): Sannsynligheten for en falsk negativ.
  • Recall: Lik (1 – Type II-feilrate).

Høy recall innebærer lav Type II-feilrate, altså færre falske negative.

Tilknytning til ROC-kurven

Recall er sann positiv rate (TPR) brukt i Receiver Operating Characteristic (ROC)-kurven, som viser TPR mot falsk positiv rate (FPR).

  • ROC-kurve: Visualiserer avveiningen mellom recall (sensitivitet) og utfall (1 – spesifisitet).
  • AUC (Area Under the Curve): Representerer modellens evne til å skille mellom positive og negative klasser.

Forskning på recall i maskinlæring

Innen maskinlæring spiller konseptet “recall” en avgjørende rolle i evaluering av modellers effektivitet, spesielt i klassifiseringsoppgaver. Her er en oppsummering av relevante forskningsartikler som utforsker ulike aspekter ved recall i maskinlæring:

  1. Show, Recall, and Tell: Image Captioning with Recall Mechanism (Publisert: 2021-03-12)
    Denne artikkelen introduserer en ny recall-mekanisme for å forbedre bildebeskrivelser ved å etterligne menneskelig kognisjon. Mekanismen består av tre komponenter: en recall-enhet for å hente relevante ord, en semantisk veileder for å generere kontekstuell veiledning, og slots for tilbakekalte ord for å integrere disse i beskrivelsene. Studien benytter en soft switch inspirert av tekstoppsummering for å balansere sannsynligheten for ordgenerering. Tilnærmingen forbedrer BLEU-4, CIDEr og SPICE-score på MSCOCO-datasettet betydelig, og overgår andre ledende metoder. Resultatene understreker potensialet til recall-mekanismer for å forbedre beskrivelsesnøyaktighet i bildebeskrivelser. Les artikkelen her.

  2. Online Learning with Bounded Recall (Publisert: 2024-05-31)
    Denne forskningen undersøker konseptet begrenset recall i online-læring, et scenario der en algoritmes beslutninger er basert på begrenset minne om tidligere gevinster. Forfatterne viser at tradisjonelle mean-baserte no-regret-algoritmer feiler under begrenset recall, og resulterer i konstant anger per runde. De foreslår en stasjonær algoritme med begrenset recall som oppnår en anger per runde på $\Theta(1/\sqrt{M})$, og presenterer en stram nedre grense. Studien fremhever at effektive bounded-recall-algoritmer må ta hensyn til rekkefølgen av tidligere tap, i motsetning til settinger med perfekt recall. Les artikkelen her.

  3. Recall, Robustness, and Lexicographic Evaluation (Publisert: 2024-03-08)
    Denne artikkelen kritiserer bruken av recall i rangeringsevalueringer, og argumenterer for et mer formelt evalueringsrammeverk. Forfatterne introduserer konseptet “recall-orientering”, og knytter det til rettferdighet i rangeringssystemer. De foreslår en leksikografisk evalueringsmetode, “lexirecall”, som viser høyere sensitivitet og stabilitet sammenlignet med tradisjonelle recall-metrikker. Gjennom empirisk analyse på flere anbefalings- og gjenfinningstester, validerer studien lexirecalls forbedrede diskrimineringsevne, og antyder dens egnethet for mer nyanserte rangeringsvurderinger. Les artikkelen her.

Vanlige spørsmål

Hva er recall i maskinlæring?

Recall, også kjent som sensitivitet eller sann positiv rate, kvantifiserer andelen av faktiske positive tilfeller som en maskinlæringsmodell korrekt identifiserer. Det beregnes som Sann Positive delt på summen av Sann Positive og Falske Negative.

Hvorfor er recall viktig i klassifiseringsproblemer?

Recall er avgjørende når det å gå glipp av positive tilfeller (falske negative) kan få alvorlige konsekvenser, som ved svindeldeteksjon, medisinsk diagnose eller sikkerhetssystemer. Høy recall sikrer at de fleste positive tilfeller blir identifisert.

Hvordan skiller recall seg fra presisjon?

Recall måler hvor mange faktiske positive som blir korrekt identifisert, mens presisjon måler hvor mange av de predikerte positive som faktisk er korrekte. Det er ofte en avveining mellom de to, avhengig av applikasjonens behov.

Hvordan kan jeg forbedre recall i min maskinlæringsmodell?

Du kan forbedre recall ved å samle inn mer data for den positive klassen, bruke resampling- eller datautvidelsesteknikker, justere klassifiseringsterskler, bruke kostnadssensitiv læring og tune modellens hyperparametere.

Hvilke bruksområder er recall kritisk for?

Recall er spesielt viktig i medisinsk diagnose, svindeldeteksjon, sikkerhetssystemer, chatboter for kundeservice og feildeteksjon i produksjon—alle situasjoner der det å overse positive tilfeller er kostbart eller farlig.

Prøv FlowHunt for AI-løsninger

Begynn å bygge AI-drevne løsninger og chatboter som utnytter sentrale maskinlæringsmetrikker som recall for bedre automatisering og innsikt.

Lær mer

Forsterkende læring fra menneskelig tilbakemelding (RLHF)
Forsterkende læring fra menneskelig tilbakemelding (RLHF)

Forsterkende læring fra menneskelig tilbakemelding (RLHF)

Forsterkende læring fra menneskelig tilbakemelding (RLHF) er en maskinlæringsteknikk som integrerer menneskelig innspill for å styre treningsprosessen til forst...

2 min lesing
AI Reinforcement Learning +4
Gjennomsnittlig absolutt feil (MAE)
Gjennomsnittlig absolutt feil (MAE)

Gjennomsnittlig absolutt feil (MAE)

Gjennomsnittlig absolutt feil (MAE) er en grunnleggende metrikk i maskinlæring for evaluering av regresjonsmodeller. Den måler den gjennomsnittlige størrelsen p...

5 min lesing
MAE Regression +3
Treningsfeil
Treningsfeil

Treningsfeil

Treningsfeil i AI og maskinlæring er avviket mellom en modells predikerte og faktiske utganger under trening. Det er en nøkkelindikator for å evaluere modellens...

7 min lesing
AI Machine Learning +3