
LLM:n kustannukset
Tutustu suurten kielimallien (LLM) kuten GPT-3:n ja GPT-4:n koulutus- ja käyttökustannuksiin, mukaan lukien laskenta-, energia- ja laitteistokulut, sekä selvitä...
MIT:n tutkijat paljastavat, miten ihmisten uskomukset vaikuttavat LLM:ien suorituskykyyn ja esittelevät uusia viitekehyksiä poikkeavuuksien tunnistamiseen, luoden pohjaa luotettavammille ja käyttäjäystävällisemmille AI-järjestelmille.
Viimeaikaiset kehitysaskeleet ovat mahdollistaneet MIT:n tutkijoille merkittäviä edistysaskelia suurten kielimallien (LLM) ymmärtämisessä ja hyödyntämisessä erilaisissa sovelluksissa. Nämä edistysaskeleet ovat ratkaisevia, kun LLM:t integroituvat yhä laajemmin eri aloille terveydenhuollosta tekniikkaan.
Tuore MIT:n tutkimus korostaa ihmisten uskomusten ratkaisevaa roolia LLM:ien suorituskyvyssä. Ashesh Rambachanin johtama tutkimusryhmä havaitsi, että LLM:n tehokkuuteen vaikuttaa vahvasti, kuinka hyvin se vastaa käyttäjän odotuksia. Jos linjausta ei ole, jopa erittäin kyvykkäät mallit voivat epäonnistua yllättäen todellisissa tilanteissa. Tämä linjausongelma johtaa usein joko yli- tai aliluottamukseen mallin kykyihin, mikä voi johtaa huonoihin käyttöönottopäätöksiin.
Tutkimuksessa esiteltiin “ihmisen yleistystoiminto” tämän linjauksen arvioimiseksi. Toiminto mallintaa, miten ihmiset muodostavat ja päivittävät uskomuksia LLM:n kyvyistä vuorovaikutustensa perusteella. Tutkijat havaitsivat, että ihmiset ovat hyviä yleistämään henkilön kyvyt rajallisesta vuorovaikutuksesta, mutta heillä on vaikeuksia tehdä samaa LLM:ien kanssa. Tämä osoittaa tarpeen huomioida ihmisen yleistys LLM:ien kehityksessä ja koulutuksessa niiden todellisen suorituskyvyn parantamiseksi.
MIT:n tutkijat ovat saavuttaneet myös läpimurron soveltaessaan LLM:iä poikkeavuuksien tunnistamiseen monimutkaisissa järjestelmissä. Tutkimusryhmä kehitti SigLLM-nimisen viitekehyksen, joka muuntaa aikasarjadatan tekstipohjaisiksi syötteiksi, joita LLM:t voivat käsitellä. Tällä menetelmällä LLM:t voidaan ottaa käyttöön valmiina ratkaisuina poikkeavuuksien tunnistukseen ilman laajamittaista uudelleenkoulutusta.
Vaikka LLM:t eivät ylittäneet huipputason syväoppimismalleja tässä tehtävässä, ne osoittivat lupaavia tuloksia tietyillä osa-alueilla, mikä viittaa kehitysmahdollisuuksiin tulevaisuudessa. Tutkijat pyrkivät parantamaan LLM:ien suorituskykyä poikkeavuuksien tunnistamisessa, jotta niistä tulee käyttökelpoisia työkaluja esimerkiksi tuuliturbiinien ja satelliittien ongelmien ennakointiin ja ehkäisyyn.
Nämä löydökset vaikuttavat laajasti LLM:ien käyttöönottoon ja kehitykseen. Ihmisen yleistystä koskeva tutkimus osoittaa, että kehittäjien on huomioitava, miten käyttäjät muodostavat uskomuksia mallin kyvyistä, mikä voi johtaa paremmin linjattuihin ja luotettavampiin LLM:iin. Poikkeavuuksien tunnistamista koskeva tutkimus avaa uusia mahdollisuuksia hyödyntää LLM:iä monimutkaisissa ja kriittisissä ympäristöissä, mikä voi pienentää syväoppimismallien ylläpidon kustannuksia ja asiantuntemusvaatimuksia.
Jatkossa tutkijat aikovat toteuttaa lisätutkimuksia siitä, miten ihmisten vuorovaikutus LLM:ien kanssa kehittyy ajan myötä ja miten näitä vuorovaikutuksia voidaan hyödyntää mallien parantamiseksi. Lisäksi tavoitteena on tutkia LLM:ien käyttöä muissa monimutkaisissa tehtävissä, mikä voi laajentaa niiden hyötyä eri aloilla.
Nämä edistysaskeleet merkitsevät merkittävää harppausta kohti tehokkaampia ja käyttäjäystävällisempiä LLM:iä, mahdollistaen niiden laajemman hyödyntämisen monimutkaisten ongelmien ratkaisemisessa ja päätöksenteon tukena lukuisilla aloilla.
MIT:n tutkimus osoittaa, että käyttäjän odotusten ja LLM:n kyvykkyyksien välinen linjaus on kriittistä. Linjausongelmat voivat johtaa joko yli- tai aliluottamukseen malliin, mikä vaikuttaa todellisten käyttöönottojen päätöksiin.
SigLLM on MIT:ssä kehitetty viitekehys, joka muuntaa aikasarjadatan tekstisyötteiksi LLM:ille, mahdollistaen poikkeavuuksien tunnistamisen monimutkaisissa järjestelmissä ilman laajaa uudelleenkoulutusta.
MIT:n tutkijat aikovat tutkia, miten ihmisten vuorovaikutus LLM:ien kanssa kehittyy ajan myötä ja miten näitä oivalluksia voidaan hyödyntää mallien parantamiseksi. Lisäksi tavoitteena on laajentaa LLM:ien soveltamista muihin monimutkaisiin tehtäviin.
Viktor Zeman on QualityUnitin osakas. Jopa 20 vuoden yrityksen johtamisen jälkeen hän on ensisijaisesti ohjelmistoinsinööri, joka on erikoistunut tekoälyyn, ohjelmalliseen hakukoneoptimointiin ja taustajärjestelmien kehittämiseen. Hän on osallistunut lukuisiin projekteihin, kuten LiveAgent, PostAffiliatePro, FlowHunt, UrlsLab ja moniin muihin.
Älykkäät chatbotit ja AI-työkalut saman katon alla. Yhdistä intuitiivisia lohkoja muuttaaksesi ideasi automatisoiduiksi Floweiksi.
Tutustu suurten kielimallien (LLM) kuten GPT-3:n ja GPT-4:n koulutus- ja käyttökustannuksiin, mukaan lukien laskenta-, energia- ja laitteistokulut, sekä selvitä...
Suuri kielimalli (LLM) on tekoäly, jota on koulutettu valtavilla tekstiaineistoilla ymmärtämään, tuottamaan ja käsittelemään ihmiskieltä. LLM:t hyödyntävät syvä...
Olemme testanneet ja järjestäneet viiden suositun FlowHuntissa saatavilla olevan mallin kirjoituskyvyt löytääksemme parhaan LLM:n sisällöntuotantoon.