
LLM OpenAI
FlowHunt podporuje desiatky modelov na generovanie textu, vrátane modelov od OpenAI. Tu je návod, ako používať ChatGPT vo vašich AI nástrojoch a chatbot-och....
OpenAI Whisper je open-source ASR systém, ktorý presne prevádza reč na text v 99 jazykoch, podporuje prepis, preklad a identifikáciu jazyka pre robustnú AI automatizáciu.
OpenAI Whisper možno považovať podľa kontextu za model aj systém.
Primárnou funkciou Whisper je prepis reči do textu. Vyniká v:
Jadrom Whisper je Transformer architektúra, konkrétne model typu enkodér-dekodér. Transformery sú neurónové siete, ktoré vynikajú v spracovaní sekvenčných dát a chápaní kontextu v dlhých sekvenciách. Boli predstavené v práci „Attention is All You Need“ v roku 2017 a stali sa základom mnohých NLP úloh.
Proces Whisper zahŕňa:
Whisper bol trénovaný na obrovskom datasete 680 000 hodín dát pod dohľadom zozbieraných z internetu. Tento dataset obsahuje:
So schopnosťou pokryť 99 jazykov vyniká Whisper v spracovaní rôznych jazykových vstupov. Táto multilingválna schopnosť ho robí vhodným pre globálne aplikácie a služby pre medzinárodné publikum.
Vďaka rozsiahlym trénovacím dátam dosahuje Whisper vysokú presnosť v prepisovacích úlohách. Jeho odolnosť voči rôznym akcentom, dialektom a šumom ho robí spoľahlivým v reálnych scenároch.
Okrem prepisu môže Whisper vykonávať:
Whisper je vydaný ako open-source softvér, čo umožňuje vývojárom:
Integráciou Whisper do chatbotov a AI asistentov môžu vývojári umožniť:
Whisper je implementovaný ako Python knižnica, čo umožňuje jednoduchú integráciu do Python projektov. Použitie Whisper v Pythone zahŕňa nastavenie prostredia, inštaláciu potrebných závislostí a využitie funkcií knižnice na prepis alebo preklad zvukových súborov.
Pred použitím Whisper je potrebné pripraviť vývojové prostredie inštaláciou Pythonu, PyTorch, FFmpeg a samotnej knižnice Whisper.
Ak ešte nemáte Python, stiahnite si ho z oficiálnej stránky. Na inštaláciu PyTorch použite pip:
pip install torch
Prípadne navštívte stránku PyTorch pre špecifické inštrukcie podľa vášho operačného systému a verzie Pythonu.
Whisper vyžaduje FFmpeg na spracovanie zvukových súborov. Nainštalujte FFmpeg pomocou správcu balíkov vášho operačného systému.
Ubuntu/Debian:
sudo apt update && sudo apt install ffmpeg
MacOS (Homebrew):
brew install ffmpeg
Windows (Chocolatey):
choco install ffmpeg
Nainštalujte Python balík Whisper cez pip:
pip install -U openai-whisper
Pre inštaláciu najnovšej verzie priamo z GitHub repozitára:
pip install git+https://github.com/openai/whisper.git
Uistite sa, že je povolený režim vývojára:
Whisper ponúka niekoľko modelov rôznej veľkosti a schopností. Modely sa pohybujú od tiny
po large
a každý má inú rovnováhu medzi rýchlosťou a presnosťou.
Veľkosť | Parametre | Iba anglický model | Multilingválny model | Požadovaná VRAM | Relatívna rýchlosť |
---|---|---|---|---|---|
tiny | 39 M | tiny.en | tiny | ~1 GB | ~32x |
base | 74 M | base.en | base | ~1 GB | ~16x |
small | 244 M | small.en | small | ~2 GB | ~6x |
medium | 769 M | medium.en | medium | ~5 GB | ~2x |
large | 1550 M | N/A | large | ~10 GB | 1x |
.en
): Optimalizované na anglický prepis, poskytujú lepší výkon pre anglický zvuk.Po nastavení prostredia a inštalácii potrebných komponentov môžete začať používať Whisper vo vašich Python projektoch.
Najprv importujte knižnicu Whisper a načítajte model:
import whisper
# Načítajte požadovaný model
model = whisper.load_model("base")
Nahraďte "base"
názvom modelu, ktorý vyhovuje vašej aplikácii.
Whisper poskytuje jednoduchú funkciu transcribe
na konverziu zvukových súborov na text.
Príklad: Prepis anglického zvukového súboru
# Prepis zvukového súboru
result = model.transcribe("path/to/english_audio.mp3")
# Vytlačenie prepisu
print(result["text"])
model.transcribe()
: Spracuje zvukový súbor a vráti slovník s prepisom a ďalšími metadátami.result["text"]
: Získa prepísaný text z výsledku.Whisper dokáže prekladať zvuk z rôznych jazykov do angličtiny.
Príklad: Preklad španielskeho zvuku do angličtiny
# Prepis a preklad španielskeho zvuku do angličtiny
result = model.transcribe("path/to/spanish_audio.mp3", task="translate")
# Vytlačenie prekladu
print(result["text"])
task="translate"
: Inštruuje model, aby zvuk preložil do angličtiny namiesto doslovného prepisu.Hoci Whisper vie jazyk automaticky rozpoznať, jeho špecifikácia môže zlepšiť presnosť a rýchlosť.
Príklad: Prepis francúzskeho zvuku
# Prepis francúzskeho zvuku so zadaným jazykom
result = model.transcribe("path/to/french_audio.wav", language="fr")
# Vytlačenie prepisu
print(result["text"])
Whisper dokáže určiť jazyk hovorený v zvukovom súbore pomocou metódy detect_language
.
Príklad: Detekcia jazyka
# Načítanie a predspracovanie zvuku
audio = whisper.load_audio("path/to/unknown_language_audio.mp3")
audio = whisper.pad_or_trim(audio)
# Prevod na log-Mel spektrogram
mel = whisper.log_mel_spectrogram(audio).to(model.device)
# Detekcia jazyka
_, probs = model.detect_language(mel)
language = max(probs, key=probs.get)
print(f"Detected language: {language}")
whisper.load_audio()
: Načíta zvukový súbor.whisper.pad_or_trim()
: Prispôsobí dĺžku zvuku vstupným požiadavkám modelu.whisper.log_mel_spectrogram()
: Prevedie zvuk do formátu očakávaného modelom.model.detect_language()
: Vráti pravdepodobnosti pre každý jazyk a určí najpravdepodobnejší.Pre lepšiu kontrolu nad prepisovacím procesom môžete použiť nižšie úrovňové funkcie a prispôsobiť možnosti dekódovania.
decode
Funkcia decode
umožňuje špecifikovať možnosti ako jazyk, úlohu a či zahrnúť časové značky.
Príklad: Prispôsobené možnosti dekódovania
# Nastavenie možností dekódovania
options = whisper.DecodingOptions(language="de", without_timestamps=True)
# Dekódovanie zvuku
result = whisper.decode(model, mel, options)
# Vytlačenie rozpoznaného textu
print(result.text)
Whisper môžete integrovať na prepis živého zvuku z mikrofónu.
Príklad: Prepis živého vstupu z mikrofónu
import whisper
import sounddevice as sd
# Načítanie modelu
model = whisper.load_model("base")
# Nahrávanie zvuku z mikrofónu
duration = 5 # sekúnd
fs = 16000 # vzorkovacia frekvencia
print("Nahrávam...")
audio = sd.rec(int(duration * fs), samplerate=fs, channels=1, dtype='float32')
sd.wait
OpenAI Whisper je pokročilý systém na automatické rozpoznávanie reči (ASR) vyvinutý spoločnosťou OpenAI, navrhnutý na prepis hovoreného jazyka do písaného textu pomocou hlbokého učenia. Podporuje 99 jazykov a vyniká v prepise, preklade a identifikácii jazyka.
Whisper používa architektúru enkodér-dekodér na báze transformerov, spracováva zvuk do log-Mel spektrogramov a výstupom je text prostredníctvom jazykového modelu. Bol trénovaný na 680 000 hodinách multilinguálnych a multitaskových dát pre vysokú presnosť a robustnosť.
Whisper podporuje multilingválne rozpoznávanie reči, preklad reči, automatickú identifikáciu jazyka, odolnosť voči akcentom a šumu a poskytuje open-source prístup na prispôsobenie a integráciu.
Hardvérové požiadavky závisia od veľkosti modelu: menšie modely ako 'tiny' potrebujú približne 1 GB VRAM, najväčší model asi 10 GB. Whisper funguje rýchlejšie na GPU, ale môže bežať aj na CPU s dlhším časom spracovania.
Áno, Whisper je implementovaný ako Python knižnica a dá sa nainštalovať cez pip. Umožňuje jednoduchú integráciu do Python projektov na prepis reči, preklad a aplikácie pre spracovanie hlasu v reálnom čase.
Bežné použitia zahŕňajú automatizovaný prepis stretnutí, hlasom ovládané chatboty, živý preklad, nástroje na prístupnosť (titulky a asistenčné technológie), automatizáciu call centier a systémy na hlasovú automatizáciu.
Áno, alternatívy zahŕňajú open-source enginy ako Mozilla DeepSpeech, Kaldi, Wav2vec a komerčné API ako Google Cloud Speech-to-Text, Microsoft Azure AI Speech a AWS Transcribe.
Áno, OpenAI Whisper je open-source, čo umožňuje vývojárom prispôsobiť, doladiť a integrovať ho do vlastných produktov a služieb bez licenčných obmedzení.
Integrujte pokročilé schopnosti prevodu reči na text do vašich aplikácií, automatizujte pracovné postupy a zlepšite používateľský zážitok s OpenAI Whisper a FlowHunt.
FlowHunt podporuje desiatky modelov na generovanie textu, vrátane modelov od OpenAI. Tu je návod, ako používať ChatGPT vo vašich AI nástrojoch a chatbot-och....
Veľký jazykový model (LLM) je typ umelej inteligencie trénovanej na obrovských textových dátach, aby porozumela, generovala a manipulovala s ľudským jazykom. LL...
Perplexity AI je pokročilý vyhľadávací nástroj poháňaný umelou inteligenciou a konverzačný nástroj, ktorý využíva NLP a strojové učenie na poskytovanie presných...