
NLTK
Natural Language Toolkit (NLTK) on kattava kokoelma Python-kirjastoja ja ohjelmia symboliseen ja tilastolliseen luonnollisen kielen käsittelyyn (NLP). Laajasti ...
BERT on Googlen läpimurto NLP-malli, joka käyttää kaksisuuntaisia Transformereita mahdollistaakseen koneiden kontekstuaalisen kielen ymmärryksen, ja se toimii kehittyneiden tekoälysovellusten moottorina.
BERT, eli Bidirectional Encoder Representations from Transformers, on avoimen lähdekoodin koneoppimisen kehys luonnollisen kielen käsittelyyn (NLP). Googlen AI Language -tutkijoiden kehittämä ja vuonna 2018 julkaistu BERT on vienyt NLP:tä merkittävästi eteenpäin mahdollistamalla koneiden kielen ymmärtämisen ihmismäisemmin.
BERT auttaa tietokoneita tulkitsemaan monitulkintaista tai kontekstiin sidottua kieltä tekstissä huomioimalla ympäröivät sanat lauseessa – sekä ennen että jälkeen kohdesanan. Tämä kaksisuuntainen lähestymistapa antaa BERTille mahdollisuuden ymmärtää kielen vivahteet kattavasti, tehden siitä erittäin tehokkaan moniin NLP-tehtäviin.
Ennen BERTiä useimmat kielimallit käsittelivät tekstiä yksisuuntaisesti (vasemmalta oikealle tai oikealta vasemmalle), mikä rajoitti niiden kykyä ymmärtää kontekstia.
Aiemmat mallit kuten Word2Vec ja GloVe loivat kontekstivapaita sanaupotuksia, joissa jokaisella sanalla oli yksi vektori riippumatta kontekstista. Tämä aiheutti ongelmia monitulkintaisille sanoille (esim. “pankki” rahalaitoksena vs. joenpankki).
Vuonna 2017 julkaistiin Transformer-arkkitehtuuri artikkelissa “Attention Is All You Need”. Transformers on syväoppimismalli, joka hyödyntää itsehuomiota (self-attention), mahdollistaen syötteen eri osien merkityksen dynaamisen punnitsemisen.
Transformers mullisti NLP:n käsittelemällä kaikki lauseen sanat samanaikaisesti ja mahdollisti laajamittaisen koulutuksen.
Googlen tutkijat rakensivat Transformer-arkkitehtuurin päälle kehittäen BERTin, joka esiteltiin vuonna 2018 artikkelissa “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”. BERTin innovaatio oli kaksisuuntainen koulutus, jossa huomioidaan sekä vasen että oikea konteksti.
BERT esikoulutettiin koko englanninkielisellä Wikipedialla (2,5 miljardia sanaa) ja BookCorpusilla (800 miljoonaa sanaa), jolloin se oppi syvällisesti kielen rakenteita, syntaksia ja semantiikkaa.
BERT koostuu Transformer-arkkitehtuurin encoder-pinoista (käyttää vain encoderia, ei decoderia). Siinä on useita kerroksia (12 tai 24 Transformer-lohkoa), joissa on itsehuomio- ja syötteensyöttöneuroverkot.
BERT käyttää WordPiece-tokenisointia, joka pilkkoo sanat osasanoihin harvinaisten tai tuntemattomien sanojen käsittelemiseksi.
Jokainen syötetoken muodostuu kolmen upotuksen summasta:
Nämä auttavat BERTiä ymmärtämään sekä rakennetta että merkitystä.
Itsehuomio mahdollistaa BERTin punnita kunkin tokenin merkitystä suhteessa kaikkiin muihin sekvenssin tokeneihin, tunnistaen riippuvuudet etäisyydestä riippumatta.
Esimerkiksi lauseessa “Pankki nosti korkotasoaan” itsehuomio auttaa BERTiä yhdistämään “pankki” ja “korkotaso”, ymmärtäen “pankin” rahalaitoksena.
BERTin kaksisuuntainen koulutus mahdollistaa kontekstin hyödyntämisen molemmista suunnista. Tämä toteutetaan kahdella koulutustavoitteella:
MLM:ssä BERT valitsee satunnaisesti 15 % tokeneista mahdolliseen korvaamiseen:
[MASK]
-tokenillaTämä strategia rohkaisee syvempään kielen ymmärrykseen.
Esimerkki:
[MASK]
jumps over the lazy [MASK]
.”NSP auttaa BERTiä ymmärtämään lauseiden välisiä suhteita.
Esimerkkejä:
Esikoulutuksen jälkeen BERT hienosäädetään tiettyihin NLP-tehtäviin lisäämällä ulostulokerroksia. Hienosäätö vaatii vähemmän dataa ja laskentatehoa kuin mallin koulutus alusta alkaen.
BERT toimii monien NLP-tehtävien moottorina ja saavuttaa usein huipputuloksia.
BERT osaa luokitella mielipiteen vivahteikkaasti (esim. positiivinen/negatiivinen arvostelu).
BERT ymmärtää kysymyksiä ja löytää vastaukset kontekstista.
NER tunnistaa ja luokittelee keskeiset entiteetit (esim. nimet, organisaatiot, päivämäärät).
Vaikkei BERT ole suunniteltu kääntämiseen, sen syvä kielten ymmärrys auttaa käännöstehtävissä yhdistettynä muihin malleihin.
BERT voi muodostaa tiiviitä tiivistelmiä tunnistamalla keskeiset käsitteet.
BERT ennustaa peitettyjä sanoja tai sekvenssejä, auttaen tekstin luonnissa.
Vuonna 2019 Google alkoi käyttää BERTiä hakualgoritmien parantamiseen, ymmärtäen kyselyiden kontekstin ja tarkoituksen.
Esimerkki:
BERT toimii chatbotien moottorina, parantaen käyttäjän syötteen ymmärtämistä.
Erikoistuneet BERT-mallit, kuten BioBERT, käsittelevät biolääketieteellistä tekstiä.
Lakimiehet hyödyntävät BERTiä lakitekstien analysointiin ja tiivistämiseen.
Useita BERT-muunnelmia on kehitetty tehokkuuden tai alakohtaisten tarpeiden vuoksi:
BERTin kontekstuaalinen ymmärrys mahdollistaa monipuoliset tekoälysovellukset:
BERT on merkittävästi parantanut chatbotien ja tekoälyautomaation laatua.
Esimerkkejä:
BERT mahdollistaa tekoälyautomaation laajojen tekstimäärien käsittelyyn ilman ihmisen väliintuloa.
Käyttökohteita:
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
Kirjoittajat: Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
Esittelee BERTin arkkitehtuurin ja tehokkuuden useissa vertailuissa, mahdollistaen yhteisen ehdollistamisen molempiin suuntiin.
Lue lisää
Multi-Task Bidirectional Transformer Representations for Irony Detection
Kirjoittajat: Chiyu Zhang, Muhammad Abdul-Mageed
Soveltaa BERTiä ironian tunnistukseen hyödyntäen monitehtäväoppimista ja esikoulutusta alakohtaista mukautumista varten. Saavuttaa 82,4 makro-F1-tuloksen.
Lue lisää
Sketch-BERT: Learning Sketch Bidirectional Encoder Representation from Transformers by Self-supervised Learning of Sketch Gestalt
Kirjoittajat: Hangyu Lin, Yanwei Fu, Yu-Gang Jiang, Xiangyang Xue
Esittelee Sketch-BERTin luonnosten tunnistukseen ja hakuun, hyödyntäen itseohjautuvaa oppimista ja uusia upotusverkkoja.
Lue lisää
Transferring BERT Capabilities from High-Resource to Low-Resource Languages Using Vocabulary Matching
Kirjoittaja: Piotr Rybak
Ehdottaa sanaston yhdistämistä BERTin sovittamiseksi vähäresurssisiin kieliin, demokratisoiden NLP-teknologiaa.
Lue lisää
BERT (Bidirectional Encoder Representations from Transformers) on avoimen lähdekoodin koneoppimiskehys luonnollisen kielen käsittelyyn, jonka Google AI kehitti vuonna 2018. Se mahdollistaa koneiden kontekstuaalisen kielen ymmärtämisen huomioimalla sanan molemminpuolisen kontekstin Transformer-arkkitehtuurin avulla.
Toisin kuin aiemmat yksisuuntaiset mallit, BERT käsittelee tekstiä kaksisuuntaisesti, jolloin se kykenee ymmärtämään sanan koko kontekstin tarkastelemalla sekä edeltäviä että seuraavia sanoja. Tämä johtaa syvempään kielen vivahteiden ymmärrykseen ja parantaa suorituskykyä NLP-tehtävissä.
BERTiä käytetään laajasti esimerkiksi sentimenttianalyysiin, kysymys–vastausjärjestelmiin, nimettyjen entiteettien tunnistukseen, kielten kääntämiseen, tekstin tiivistämiseen, tekstin generointiin sekä tekoälychatbottien ja automaatiojärjestelmien parantamiseen.
Tunnettuja BERT-variantteja ovat muun muassa DistilBERT (kevyempi versio), TinyBERT (optimoitu nopeudelle ja koolle), RoBERTa (optimoitu esikoulutus), BioBERT (biolääketieteelliseen tekstiin) sekä alakohtaiset mallit, kuten PatentBERT ja SciBERT.
BERT esikoulutetaan Masked Language Modeling (MLM) -menetelmällä, jossa satunnaisia sanoja peitetään ja ennustetaan, sekä Next Sentence Prediction (NSP) -menetelmällä, jossa malli oppii lauseparien välisiä suhteita. Esikoulutuksen jälkeen BERT hienosäädetään tiettyihin NLP-tehtäviin lisäämällä ylimääräisiä kerroksia.
BERT on huomattavasti parantanut tekoälychatbottien ja automaatiotyökalujen kontekstin ymmärrystä, mahdollistaen tarkemmat vastaukset, paremman asiakastuen sekä kehittyneemmän asiakirjakäsittelyn minimaalisella ihmisen osallistumisella.
Älykkäät chatbotit ja tekoälytyökalut saman katon alla. Yhdistä intuitiivisia lohkoja muuttaaksesi ideasi automatisoiduiksi Floweiksi.
Natural Language Toolkit (NLTK) on kattava kokoelma Python-kirjastoja ja ohjelmia symboliseen ja tilastolliseen luonnollisen kielen käsittelyyn (NLP). Laajasti ...
AllenNLP on vankka avoimen lähdekoodin kirjasto NLP-tutkimukseen, jonka AI2 on rakentanut PyTorchin päälle. Se tarjoaa modulaarisia, laajennettavia työkaluja, e...
Bidirektionaalinen pitkän aikavälin muisti (BiLSTM) on edistynyt toistuvien neuroverkkojen (RNN) arkkitehtuuri, joka käsittelee sekventiaalista dataa sekä eteen...