Tekstintuotanto
Tekstintuotanto suurilla kielimalleilla (LLM) tarkoittaa koneoppimismallien kehittynyttä käyttöä ihmismäisen tekstin tuottamiseen annetuista kehotteista. Tutust...
OpenAI Whisper on avoimen lähdekoodin ASR-järjestelmä, joka muuntaa puheen tarkasti tekstiksi 99 kielellä ja tukee transkriptiota, käännöksiä sekä kielentunnistusta tekoälyautomaation tukena.
OpenAI Whisperiä voidaan pitää sekä mallina että järjestelmänä kontekstista riippuen.
Whisperin päätarkoitus on muuntaa puhe tekstiksi. Se on erityisen hyvä seuraavissa:
Whisperin ytimessä on Transformer-arkkitehtuuri, erityisesti encoder-decoder-malli. Transformerit ovat neuroverkkoja, jotka erottuvat jaksollisen datan käsittelyssä ja kontekstin ymmärtämisessä pitkillä syötteillä. Vuonna 2017 julkaistusta “Attention is All You Need” -artikkelista lähtien transformerit ovat olleet perusta monille NLP-tehtäville.
Whisperin prosessiin kuuluu:
Whisper koulutettiin valtavalla, 680 000 tunnin ohjatulla datalla, joka kerättiin verkosta. Tämä sisältää:
99 kielen kattavuuden ansiosta Whisper erottuu kyvyllään käsitellä monipuolisia kielellisiä syötteitä. Tämä monikielisyys tekee siitä sopivan maailmanlaajuisiin sovelluksiin ja kansainvälisille kohderyhmille.
Laajalla ohjatulla datalla koulutettu Whisper saavuttaa korkean tarkkuuden transkriptiotehtävissä. Kestävyys eri aksenteille, murteille ja taustamelulle tekee siitä luotettavan erilaisissa tosielämän tilanteissa.
Transkription lisäksi Whisper osaa:
Whisperin julkaisun myötä avoimena lähdekoodina kehittäjät voivat:
Integroimalla Whisperin chatbotteihin ja tekoälyavustajiin kehittäjät voivat mahdollistaa:
Whisper on toteutettu Python-kirjastona, mikä mahdollistaa sujuvan integroinnin Python-pohjaisiin projekteihin. Whisperin käyttäminen Pythonissa sisältää sopivan ympäristön asennuksen, tarvittavat riippuvuudet sekä kirjaston toimintojen hyödyntämisen äänitiedostojen transkriptioon tai käännöksiin.
Ennen Whisperin käyttöä kehitysympäristö tulee valmistella asentamalla Python, PyTorch, FFmpeg ja itse Whisper-kirjasto.
Jos Python ei ole asennettuna, lataa se virallisilta sivuilta. PyTorchin asennus onnistuu pipillä:
pip install torch
Vaihtoehtoisesti käy PyTorchin verkkosivuilla tarkistaaksesi asennusohjeet oman käyttöjärjestelmäsi ja Python-version mukaan.
Whisper tarvitsee FFmpeg:iä äänitiedostojen käsittelyyn. Asenna FFmpeg käyttöjärjestelmäsi mukaisella pakettienhallinnalla.
Ubuntu/Debian:
sudo apt update && sudo apt install ffmpeg
MacOS (Homebrew):
brew install ffmpeg
Windows (Chocolatey):
choco install ffmpeg
Asenna Whisper Python -paketti pipillä:
pip install -U openai-whisper
Asentaaksesi viimeisimmän version suoraan GitHubista:
pip install git+https://github.com/openai/whisper.git
Varmista, että kehittäjätila (Developer Mode) on käytössä:
Whisper tarjoaa useita eri kokoisia ja kyvykkäitä malleja. Mallit vaihtelevat tiny
-versiosta large
-versioon, joissa on erilainen tasapaino nopeuden ja tarkkuuden välillä.
Koko | Parametreja | Vain englanti -malli | Monikielinen malli | Tarvittava VRAM | Suhteellinen nopeus |
---|---|---|---|---|---|
tiny | 39 M | tiny.en | tiny | ~1 GB | ~32x |
base | 74 M | base.en | base | ~1 GB | ~16x |
small | 244 M | small.en | small | ~2 GB | ~6x |
medium | 769 M | medium.en | medium | ~5 GB | ~2x |
large | 1550 M | N/A | large | ~10 GB | 1x |
.en
): Optimoitu englannin transkriptioon ja tarjoavat parhaan suorituskyvyn englanninkieliselle äänelle.Ympäristön asennuksen ja tarvittavien komponenttien jälkeen Whisper on valmis käytettäväksi Python-projekteissasi.
Aloita tuomalla Whisper-kirjasto ja lataa malli:
import whisper
# Lataa haluttu malli
model = whisper.load_model("base")
Vaihda "base"
haluamaasi mallinimeen.
Whisper tarjoaa helppokäyttöisen transcribe
-funktion, joka muuntaa äänitiedoston tekstiksi.
Esimerkki: Englanninkielisen äänitiedoston transkriptio
# Transkriboi äänitiedosto
result = model.transcribe("path/to/english_audio.mp3")
# Tulosta transkriptio
print(result["text"])
model.transcribe()
: Käsittelee äänitiedoston ja palauttaa sanakirjan, joka sisältää transkription ja muuta metadataa.result["text"]
: Hakee transkription tekstin tuloksesta.Whisper osaa kääntää äänen eri kieliltä englanniksi.
Esimerkki: Espanjankielisen äänitiedoston kääntäminen englanniksi
# Transkriboi ja käännä espanjaa puhuva tiedosto englanniksi
result = model.transcribe("path/to/spanish_audio.mp3", task="translate")
# Tulosta käännetty teksti
print(result["text"])
task="translate"
: Kertoo mallille, että ääni tulee kääntää englanniksi eikä vain litteroida sellaisenaan.Vaikka Whisper osaa tunnistaa kielen automaattisesti, sen määrittäminen voi parantaa tarkkuutta ja nopeuttaa prosessia.
Esimerkki: Ranskankielisen äänen transkriptio
# Transkriboi ranskankielinen äänitiedosto määrittämällä kieli
result = model.transcribe("path/to/french_audio.wav", language="fr")
# Tulosta transkriptio
print(result["text"])
Whisper voi tunnistaa äänitiedostossa puhutun kielen detect_language
-metodilla.
Esimerkki: Kielen tunnistus
# Lataa ja esikäsittele ääni
audio = whisper.load_audio("path/to/unknown_language_audio.mp3")
audio = whisper.pad_or_trim(audio)
# Muunna log-Mel-spektrogrammiksi
mel = whisper.log_mel_spectrogram(audio).to(model.device)
# Tunnista kieli
_, probs = model.detect_language(mel)
language = max(probs, key=probs.get)
print(f"Detected language: {language}")
whisper.load_audio()
: Lataa äänitiedoston.whisper.pad_or_trim()
: Täydentää tai leikkaa äänen mallin vaatimaan pituuteen.whisper.log_mel_spectrogram()
: Muuntaa äänen mallin tarvitsemaan muotoon.model.detect_language()
: Palauttaa todennäköisyydet kullekin kielelle ja tunnistaa todennäköisimmän kielen.Saat enemmän hallintaa transkriptioprosessiin käyttämällä matalamman tason funktioita ja mukauttamalla dekoodausvaihtoehtoja.
decode
-funktion käyttödecode
-funktion avulla voit määrittää vaihtoehtoja, kuten kieli, tehtävä ja sisältyykö aikaleimoja.
Esimerkki: Mukautetut dekoodausvaihtoehdot
# Aseta dekoodausvaihtoehdot
options = whisper.DecodingOptions(language="de", without_timestamps=True)
# Dekoodaa ääni
result = whisper.decode(model, mel, options)
# Tulosta tunnistettu teksti
print(result.text)
Whisperin voi integroida transkriptoimaan mikrofonin kautta tulevaa ääntä reaaliaikaisesti.
Esimerkki: Reaaliaikaisen mikrofonisyötteen transkriptio
import whisper
import sounddevice as sd
# Lataa malli
model = whisper.load_model("base")
# Nauhoita ääntä mikrofonista
duration = 5 # sekuntia
fs = 16000 # Näytteenottotaajuus
print("Recording...")
audio = sd.rec(int(duration * fs), samplerate=fs, channels=1, dtype='float32')
sd.wait
OpenAI Whisper on OpenAI:n kehittämä kehittynyt automaattinen puheentunnistusjärjestelmä (ASR), joka on suunniteltu muuntamaan puhuttu kieli kirjoitetuksi tekstiksi syväoppimisen avulla. Se tukee 99 kieltä ja on erinomainen transkriptiossa, käännöksissä ja kielentunnistuksessa.
Whisper käyttää transformer-pohjaista encoder-decoder-arkkitehtuuria, käsittelee äänen log-Mel-spektrogrammeiksi ja tuottaa tekstin kielenmallin avulla. Se on koulutettu 680 000 tunnilla monikielistä, monitehtäväistä dataa korkean tarkkuuden ja kestävyyden saavuttamiseksi.
Whisper tukee monikielistä puheentunnistusta, puheen kääntämistä, automaattista kielentunnistusta, on kestävä aksenteille ja taustamelulle sekä tarjoaa avoimen lähdekoodin mahdollisuuden räätälöintiin ja integrointiin.
Laitteistovaatimukset riippuvat mallin koosta: pienet mallit kuten 'tiny' vaativat noin 1 GB VRAMia, kun taas suurin tarvitsee noin 10 GB. Whisper toimii nopeammin näytönohjaimilla (GPU), mutta toimii myös suorittimilla (CPU) pidemmillä käsittelyajoilla.
Kyllä, Whisper on toteutettu Python-kirjastona ja se voidaan asentaa pipillä. Sen avulla puheentunnistus, käännös ja reaaliaikaiset puhesovellukset voidaan helposti integroida Python-projekteihin.
Yleisiä käyttökohteita ovat automaattinen kokousten transkriptio, puheohjatut chatbotit, live-käännökset, esteettömyystyökalut (tekstitykset ja avustava tekniikka), puhelinkeskusten automaatio ja puheenohjausjärjestelmät.
Kyllä, vaihtoehtoja ovat muun muassa avoimen lähdekoodin moottorit kuten Mozilla DeepSpeech, Kaldi, Wav2vec sekä kaupalliset rajapinnat kuten Google Cloud Speech-to-Text, Microsoft Azure AI Speech ja AWS Transcribe.
Kyllä, OpenAI Whisper on avoimen lähdekoodin, mikä mahdollistaa kehittäjille sen mukauttamisen, hienosäädön ja integroinnin omiin tuotteisiin ja palveluihin ilman lisenssirajoituksia.
Integroi kehittyneet puheesta tekstiksi -ominaisuudet sovelluksiisi, automatisoi työnkulkuja ja paranna käyttäjäkokemusta OpenAI Whisperin ja FlowHuntin avulla.
Tekstintuotanto suurilla kielimalleilla (LLM) tarkoittaa koneoppimismallien kehittynyttä käyttöä ihmismäisen tekstin tuottamiseen annetuista kehotteista. Tutust...
Tutustu suurten kielimallien (LLM) kuten GPT-3:n ja GPT-4:n koulutus- ja käyttökustannuksiin, mukaan lukien laskenta-, energia- ja laitteistokulut, sekä selvitä...
Suuri kielimalli (LLM) on tekoäly, jota on koulutettu valtavilla tekstiaineistoilla ymmärtämään, tuottamaan ja käsittelemään ihmiskieltä. LLM:t hyödyntävät syvä...