Logistisk regression

Logistic Regression Machine Learning Binary Classification Statistics

Logistisk regression är en statistisk och maskininlärningsmetod som används för att förutsäga binära utfall från data. Den uppskattar sannolikheten för att en händelse ska inträffa baserat på en eller flera oberoende variabler. Den huvudsakliga utfallsvariabeln i logistisk regression är binär eller dikotom, vilket innebär att den har två möjliga utfall såsom framgång/misslyckande, ja/nej eller 0/1.

Logistisk funktion

Kärnan i logistisk regression är den logistiska funktionen, även kallad sigmoidfunktionen. Denna funktion översätter predicerade värden till sannolikheter mellan 0 och 1, vilket gör den lämplig för binära klassificeringsuppgifter. Formeln för den logistiska funktionen uttrycks som:

P(y=1|x) = 1 / (1 + e^-(β₀ + β₁x₁ + … + βₙxₙ))

Här är (β₀, β₁, …, βₙ) koefficienterna som lärs in från data, och (x₁, …, xₙ) är de oberoende variablerna.

Typer av logistisk regression

  1. Binär logistisk regression
    Den vanligaste typen där den beroende variabeln endast har två möjliga utfall.
    Exempel: Förutsäga om ett e-postmeddelande är spam (1) eller inte spam (0).

  2. Multinomial logistisk regression
    Används när den beroende variabeln har tre eller fler oordnade kategorier.
    Exempel: Förutsäga filmgenre såsom action, komedi eller drama.

  3. Ordinal logistisk regression
    Tillämplig när den beroende variabeln har ordnade kategorier.
    Exempel: Kundnöjdhetsbetyg (dålig, medel, bra, utmärkt).

Viktiga begrepp

  • Odds och logodds:
    Logistisk regression modellerar logodds för att den beroende händelsen ska inträffa. Odds representerar förhållandet mellan sannolikheten för att en händelse inträffar och att den inte inträffar. Logodds är den naturliga logaritmen av odds.

  • Odds-kvot:
    Det är det exponentierade värdet av koefficienten i den logistiska regressionen, vilket kvantifierar förändringen i odds vid en enhetsförändring i prediktorvariabeln, med alla andra variabler konstanta.

Antaganden för logistisk regression

  1. Binärt utfall: Den beroende variabeln ska vara binär.
  2. Oberoende fel: Observationerna ska vara oberoende av varandra.
  3. Ingen multikollinearitet: De oberoende variablerna ska inte vara för högt korrelerade.
  4. Linjär relation med logodds: Förhållandet mellan de oberoende variablerna och logodds för den beroende variabeln är linjärt.
  5. Stort urval: Logistisk regression kräver ett stort urval för att uppskatta parametrar korrekt.

Användningsområden och tillämpningar

  • Hälso- och sjukvård: Förutsäga sannolikheten för att en patient har en sjukdom baserat på diagnostiska indikatorer.
  • Finans: Kreditbedömning för att avgöra sannolikheten att en låntagare inte kan betala tillbaka ett lån.
  • Marknadsföring: Förutsäga kundbortfall, dvs. om en kund kommer att byta till en annan leverantör.
  • Bedrägeridetektion: Identifiera bedrägliga transaktioner genom att analysera transaktionsmönster.

Fördelar och nackdelar

Fördelar

  • Tolkbarhet: Koefficienterna har en tydlig tolkning som odds-kvoter, vilket gör modellen lätt att förstå.
  • Effektivitet: Kräver mindre beräkningsresurser jämfört med andra modeller, vilket möjliggör snabb implementering.
  • Mångsidighet: Kan hantera binära, multinomiala och ordnade responsvariabler, vilket gör den tillämplig inom flera områden.

Nackdelar

  • Antar linearitet: Antar ett linjärt samband mellan de oberoende variablerna och logodds, vilket inte alltid behöver gälla.
  • Känslig för extremvärden: Logistisk regression kan påverkas av extremvärden, vilket kan snedvrida resultaten.
  • Ej lämpad för kontinuerligt utfall: Den är inte tillämplig för att förutsäga kontinuerliga utfall, vilket begränsar användningen i vissa fall.

Logistisk regression inom AI och maskininlärning

Inom AI är logistisk regression ett grundläggande verktyg för binära klassificeringsproblem. Den fungerar som en baslinjemodell på grund av sin enkelhet och effektivitet. I AI-drivna tillämpningar som chattbottar kan logistisk regression användas för intent-klassificering, det vill säga att avgöra om en användares fråga handlar om till exempel support, försäljning eller allmänna förfrågningar.

Logistisk regression är också viktig inom AI-automation, särskilt vid övervakad inlärning där modellen lär sig från märkta data för att förutsäga utfall för nya, okända data. Den används ofta tillsammans med andra tekniker för att förbehandla data, exempelvis för att omvandla kategoriska variabler till binär form via one-hot encoding för mer komplexa modeller som neurala nätverk.

Logistisk regression: En omfattande översikt

Logistisk regression är en grundläggande statistisk metod för binär klassificering och har bred tillämpning inom exempelvis bedrägeridetektion, medicinsk diagnostik och rekommendationssystem. Nedan följer några viktiga vetenskapliga artiklar som ger en djupare förståelse av logistisk regression:

ArtikeltitelFörfattarePubliceradSammanfattningLänk
Logistic Regression as Soft Perceptron LearningRaul Rojas2017-08-24Diskuterar sambandet mellan logistisk regression och perceptron-inlärningsalgoritmen. Visar att logistisk inlärning i grunden är en ”mjuk” variant av perceptron-inlärning och ger insikter i de underliggande mekanismerna för logistisk regressionsalgoritmer.Läs mer
Online Efficient Secure Logistic Regression based on Function Secret SharingJing Liu, Jamie Cui, Cen Chen2023-09-18Tar upp integritetsfrågor vid träning av logistiska regressionsmodeller med data från olika parter. Introducerar ett integritetsskyddande protokoll baserat på Function Secret Sharing (FSS) för logistisk regression, utformat för att vara effektivt under online-träningsfasen, vilket är avgörande vid hantering av storskalig data.Läs mer
A Theoretical Analysis of Logistic Regression and Bayesian ClassifiersRoman V. Kirin2021-08-08Utforskar de grundläggande skillnaderna mellan logistisk regression och Bayesianska klassificerare, särskilt gällande exponentiella och icke-exponentiella fördelningar. Diskuterar de förutsättningar där de predicerade sannolikheterna från båda modellerna är omöjliga att särskilja.Läs mer

Vanliga frågor

Vad används logistisk regression till?

Logistisk regression används för att förutsäga binära utfall, såsom om ett e-postmeddelande är spam eller inte, för att avgöra om en sjukdom föreligger, kreditbedömning och bedrägeridetektion.

Vilka är de viktigaste antagandena för logistisk regression?

Viktiga antaganden inkluderar en binär beroende variabel, oberoende fel, ingen multikollinearitet mellan prediktorer, en linjär relation med logaritmerade odds samt ett stort urval.

Vilka är fördelarna med logistisk regression?

Fördelar är bland annat att koefficienterna kan tolkas som odds-kvoter, hög beräkningshastighet och mångsidighet vid hantering av binära, multinomiala och ordnade responsvariabler.

Vilka är begränsningarna med logistisk regression?

Begränsningar är bland annat antagandet om linearitet med logaritmerade odds, känslighet för extremvärden och att den inte lämpar sig för att förutsäga kontinuerliga utfall.

Redo att bygga din egen AI?

Smarta chattbottar och AI-verktyg under ett och samma tak. Koppla samman intuitiva block för att omvandla dina idéer till automatiserade Flows.

Lär dig mer

Loggförlust

Loggförlust

Loggförlust, eller logaritmisk/korsentropiförlust, är ett nyckelmått för att utvärdera prestandan hos maskininlärningsmodeller—särskilt för binär klassificering...

4 min läsning
Log Loss Machine Learning +3
Linjär regression

Linjär regression

Linjär regression är en grundläggande analytisk teknik inom statistik och maskininlärning, som modellerar sambandet mellan beroende och oberoende variabler. Kän...

4 min läsning
Statistics Machine Learning +3
Random Forest-regression

Random Forest-regression

Random Forest-regression är en kraftfull maskininlärningsalgoritm som används för prediktiv analys. Den konstruerar flera beslutsxadträd och medelvärdesxadberäk...

3 min läsning
Machine Learning Regression +3