Loggförlust
Loggförlust, eller logaritmisk/korsentropiförlust, är ett nyckelmått för att utvärdera prestandan hos maskininlärningsmodeller—särskilt för binär klassificering...
Logistisk regression förutsäger binära utfall med hjälp av den logistiska funktionen, med tillämpningar inom hälso- och sjukvård, finans, marknadsföring och AI.
Logistisk regression är en statistisk och maskininlärningsmetod som används för att förutsäga binära utfall från data. Den uppskattar sannolikheten för att en händelse ska inträffa baserat på en eller flera oberoende variabler. Den huvudsakliga utfallsvariabeln i logistisk regression är binär eller dikotom, vilket innebär att den har två möjliga utfall såsom framgång/misslyckande, ja/nej eller 0/1.
Kärnan i logistisk regression är den logistiska funktionen, även kallad sigmoidfunktionen. Denna funktion översätter predicerade värden till sannolikheter mellan 0 och 1, vilket gör den lämplig för binära klassificeringsuppgifter. Formeln för den logistiska funktionen uttrycks som:
P(y=1|x) = 1 / (1 + e^-(β₀ + β₁x₁ + … + βₙxₙ))
Här är (β₀, β₁, …, βₙ) koefficienterna som lärs in från data, och (x₁, …, xₙ) är de oberoende variablerna.
Binär logistisk regression
Den vanligaste typen där den beroende variabeln endast har två möjliga utfall.
Exempel: Förutsäga om ett e-postmeddelande är spam (1) eller inte spam (0).
Multinomial logistisk regression
Används när den beroende variabeln har tre eller fler oordnade kategorier.
Exempel: Förutsäga filmgenre såsom action, komedi eller drama.
Ordinal logistisk regression
Tillämplig när den beroende variabeln har ordnade kategorier.
Exempel: Kundnöjdhetsbetyg (dålig, medel, bra, utmärkt).
Odds och logodds:
Logistisk regression modellerar logodds för att den beroende händelsen ska inträffa. Odds representerar förhållandet mellan sannolikheten för att en händelse inträffar och att den inte inträffar. Logodds är den naturliga logaritmen av odds.
Odds-kvot:
Det är det exponentierade värdet av koefficienten i den logistiska regressionen, vilket kvantifierar förändringen i odds vid en enhetsförändring i prediktorvariabeln, med alla andra variabler konstanta.
Inom AI är logistisk regression ett grundläggande verktyg för binära klassificeringsproblem. Den fungerar som en baslinjemodell på grund av sin enkelhet och effektivitet. I AI-drivna tillämpningar som chattbottar kan logistisk regression användas för intent-klassificering, det vill säga att avgöra om en användares fråga handlar om till exempel support, försäljning eller allmänna förfrågningar.
Logistisk regression är också viktig inom AI-automation, särskilt vid övervakad inlärning där modellen lär sig från märkta data för att förutsäga utfall för nya, okända data. Den används ofta tillsammans med andra tekniker för att förbehandla data, exempelvis för att omvandla kategoriska variabler till binär form via one-hot encoding för mer komplexa modeller som neurala nätverk.
Logistisk regression är en grundläggande statistisk metod för binär klassificering och har bred tillämpning inom exempelvis bedrägeridetektion, medicinsk diagnostik och rekommendationssystem. Nedan följer några viktiga vetenskapliga artiklar som ger en djupare förståelse av logistisk regression:
Artikeltitel | Författare | Publicerad | Sammanfattning | Länk |
---|---|---|---|---|
Logistic Regression as Soft Perceptron Learning | Raul Rojas | 2017-08-24 | Diskuterar sambandet mellan logistisk regression och perceptron-inlärningsalgoritmen. Visar att logistisk inlärning i grunden är en ”mjuk” variant av perceptron-inlärning och ger insikter i de underliggande mekanismerna för logistisk regressionsalgoritmer. | Läs mer |
Online Efficient Secure Logistic Regression based on Function Secret Sharing | Jing Liu, Jamie Cui, Cen Chen | 2023-09-18 | Tar upp integritetsfrågor vid träning av logistiska regressionsmodeller med data från olika parter. Introducerar ett integritetsskyddande protokoll baserat på Function Secret Sharing (FSS) för logistisk regression, utformat för att vara effektivt under online-träningsfasen, vilket är avgörande vid hantering av storskalig data. | Läs mer |
A Theoretical Analysis of Logistic Regression and Bayesian Classifiers | Roman V. Kirin | 2021-08-08 | Utforskar de grundläggande skillnaderna mellan logistisk regression och Bayesianska klassificerare, särskilt gällande exponentiella och icke-exponentiella fördelningar. Diskuterar de förutsättningar där de predicerade sannolikheterna från båda modellerna är omöjliga att särskilja. | Läs mer |
Logistisk regression används för att förutsäga binära utfall, såsom om ett e-postmeddelande är spam eller inte, för att avgöra om en sjukdom föreligger, kreditbedömning och bedrägeridetektion.
Viktiga antaganden inkluderar en binär beroende variabel, oberoende fel, ingen multikollinearitet mellan prediktorer, en linjär relation med logaritmerade odds samt ett stort urval.
Fördelar är bland annat att koefficienterna kan tolkas som odds-kvoter, hög beräkningshastighet och mångsidighet vid hantering av binära, multinomiala och ordnade responsvariabler.
Begränsningar är bland annat antagandet om linearitet med logaritmerade odds, känslighet för extremvärden och att den inte lämpar sig för att förutsäga kontinuerliga utfall.
Smarta chattbottar och AI-verktyg under ett och samma tak. Koppla samman intuitiva block för att omvandla dina idéer till automatiserade Flows.
Loggförlust, eller logaritmisk/korsentropiförlust, är ett nyckelmått för att utvärdera prestandan hos maskininlärningsmodeller—särskilt för binär klassificering...
Linjär regression är en grundläggande analytisk teknik inom statistik och maskininlärning, som modellerar sambandet mellan beroende och oberoende variabler. Kän...
Random Forest-regression är en kraftfull maskininlärningsalgoritm som används för prediktiv analys. Den konstruerar flera beslutsxadträd och medelvärdesxadberäk...