Logaritminen tappio
Logaritminen tappio eli log loss (tai ristiinentropiatappio) on keskeinen mittari koneoppimismallien suorituskyvyn arviointiin – erityisesti binääriluokitteluss...
Logistinen regressio ennustaa binaarisia lopputuloksia logistisen funktion avulla, ja sitä sovelletaan terveydenhuollossa, rahoituksessa, markkinoinnissa ja tekoälyssä.
Logistinen regressio on tilastollinen ja koneoppimisen menetelmä, jota käytetään binaaristen lopputulosten ennustamiseen datasta. Se arvioi todennäköisyyden, että jokin tapahtuma tapahtuu yhden tai useamman selittävän muuttujan perusteella. Logistisen regression päätulosmuuttuja on binaarinen tai dikotominen, eli sillä on kaksi mahdollista arvoa, kuten onnistuminen/epäonnistuminen, kyllä/ei tai 0/1.
Logistisen regression ytimessä on logistinen funktio, joka tunnetaan myös sigmoidifunktiona. Tämä funktio muuntaa ennustetut arvot todennäköisyyksiksi välillä 0 ja 1, mikä tekee siitä sopivan binaarisiin luokitusongelmiin. Logistisen funktion kaava on:
P(y=1|x) = 1 / (1 + e^-(β₀ + β₁x₁ + … + βₙxₙ))
Tässä (β₀, β₁, …, βₙ) ovat datasta opitut kertoimet ja (x₁, …, xₙ) ovat selittäviä muuttujia.
Binaarinen logistinen regressio
Yleisin tyyppi, jossa riippuvalla muuttujalla on vain kaksi mahdollista arvoa.
Esimerkki: Ennustetaan onko sähköposti roskapostia (1) vai ei (0).
Multinominen logistinen regressio
Käytetään, kun riippuvalla muuttujalla on kolme tai useampia järjestämättömiä luokkia.
Esimerkki: Ennustetaan elokuvan genreä, kuten toiminta, komedia tai draama.
Ordinalinen logistinen regressio
Soveltuu, kun riippuvalla muuttujalla on järjestyksellisiä luokkia.
Esimerkki: Asiakastyytyväisyysarviot (huono, kohtalainen, hyvä, erinomainen).
Oddsit ja logaritmiset oddsit:
Logistinen regressio mallintaa riippuvan tapahtuman logaritmisten oddsien esiintymistä. Oddsit kuvaavat tapahtuman todennäköisyyden suhdetta siihen ettei se tapahdu. Logaritmiset oddsit ovat oddsien luonnollinen logaritmi.
Odds-suhde:
Se on logistisen regression kertoimen eksponenttimuoto, joka kuvaa oddsien muutosta, kun ennustajamuuttuja kasvaa yhdellä yksiköllä muiden muuttujien pysyessä vakiona.
Tekoälyssä logistinen regressio on keskeinen työkalu binaarisiin luokitusongelmiin. Sitä käytetään usein lähtötason mallina sen yksinkertaisuuden ja tehokkuuden vuoksi. Tekoälypohjaisissa sovelluksissa, kuten chatboteissa, logistista regressiota voidaan käyttää esimerkiksi aikomusten luokitteluun, jolloin päätellään kuuluuko käyttäjän kysely tiettyyn kategoriaan kuten tuki, myynti tai yleiset tiedustelut.
Logistisella regressiolla on merkittävä rooli myös tekoälyautomaatiossa, erityisesti valvotuissa oppimistehtävissä, joissa malli oppii merkittyjen tietojen perusteella ennustamaan uusia, aiemmin näkemättömiä tapauksia. Sitä käytetään usein yhdessä muiden tekniikoiden kanssa datan esikäsittelyssä, esimerkiksi muuntamalla kategoriset ominaisuudet binaarimuotoon one-hot-koodauksen avulla monimutkaisempia malleja, kuten neuroverkkoja, varten.
Logistinen regressio on perustavanlaatuinen tilastollinen menetelmä binaariluokitteluun, jolla on laaja käyttö eri aloilla, kuten petosten tunnistuksessa, lääketieteellisessä diagnostiikassa ja suositusjärjestelmissä. Alla on joitakin keskeisiä tieteellisiä julkaisuja, jotka tarjoavat syvällistä ymmärrystä logistisesta regressiosta:
Julkaisun nimi | Kirjoittajat | Julkaisuvuosi | Yhteenveto | Linkki |
---|---|---|---|---|
Logistic Regression as Soft Perceptron Learning | Raul Rojas | 2017-08-24 | Käsittelee logistisen regression ja perceptron-oppimisalgoritmin välistä yhteyttä. Korostaa, että logistinen oppiminen on periaatteessa perceptron-oppimisen “pehmeä” muunnelma, tarjoten näkemyksiä logistisen regression algoritmin toimintamekaniikasta. | Lue lisää |
Online Efficient Secure Logistic Regression based on Function Secret Sharing | Jing Liu, Jamie Cui, Cen Chen | 2023-09-18 | Käsittelee yksityisyydensuojaan liittyviä huolia logistisen regression mallien opettamisessa eri osapuolten tietoja hyödyntäen. Esittelee toiminnalliseen salaisuuden jakamiseen (FSS) perustuvan yksityisyyttä suojaavan protokollan logistiseen regressioon, joka on suunniteltu tehokkaaksi erityisesti verkkoaikaisen opetusvaiheen osalta, mikä on tärkeää suurille aineistoille. | Lue lisää |
A Theoretical Analysis of Logistic Regression and Bayesian Classifiers | Roman V. Kirin | 2021-08-08 | Tutkii logistisen regression ja bayesilaisten luokittelijoiden peruseroja etenkin eksponenttijakaumien ja ei-eksponenttijakaumien suhteen. Käsittelee olosuhteita, joissa molempien mallien tuottamat todennäköisyydet ovat erottamattomia. | Lue lisää |
Logistista regressiota käytetään binaaristen lopputulosten ennustamiseen, kuten sen arviointiin onko sähköposti roskapostia vai ei, sairauden toteamiseen, luottopistemääritykseen ja petosten tunnistamiseen.
Keskeisiä oletuksia ovat binaarinen riippuva muuttuja, virheiden riippumattomuus, ei multikollineaarisuutta selittävien muuttujien välillä, lineaarinen suhde logaritmisten oddsien kanssa ja suuri otoskoko.
Etuja ovat kertoimien tulkittavuus odds-suhteina, laskennallinen tehokkuus sekä monipuolisuus käsitellä binaarisia, multinomisia ja ordinaalisia vasteita.
Rajoituksiin kuuluvat oletus lineaarisuudesta logaritmisten oddsien kanssa, herkkyys poikkeaville havainnoille ja soveltumattomuus jatkuvien lopputulosten ennustamiseen.
Älykkäät chatbotit ja tekoälytyökalut saman katon alla. Yhdistä intuitiivisia lohkoja muuttaaksesi ideasi automatisoiduiksi Floweiksi.
Logaritminen tappio eli log loss (tai ristiinentropiatappio) on keskeinen mittari koneoppimismallien suorituskyvyn arviointiin – erityisesti binääriluokitteluss...
Lineaarinen regressio on tilastotieteen ja koneoppimisen keskeinen analyysimenetelmä, joka mallintaa riippuvien ja riippumattomien muuttujien välistä suhdetta. ...
Satunnaismetsäregressio on tehokas koneoppimisalgoritmi, jota käytetään ennakoivassa analytiikassa. Se rakentaa useita päätöspuita ja keskiarvoistaa niiden tulo...