Büyük Dil Modeli (LLM)
Büyük Dil Modeli (LLM), insan dilini anlamak, üretmek ve üzerinde işlem yapmak için geniş metin verileriyle eğitilmiş bir yapay zeka türüdür. LLM'ler, metin üre...
OpenAI Whisper, 99 dilde konuşmayı doğru bir şekilde metne dönüştüren, transkripsiyon, çeviri ve dil tanımlama desteği sunan açık kaynaklı bir ASR sistemidir ve sağlam yapay zeka otomasyonu sağlar.
OpenAI Whisper, bağlama bağlı olarak hem bir model hem de bir sistem olarak düşünülebilir.
Whisper’ın ana işlevi, konuşmayı metin çıktısına dönüştürmektir. Şu alanlarda üstündür:
Whisper’ın temelinde Dönüştürücü (Transformer) mimarisi bulunur; özel olarak bir kodlayıcı-çözücü modelidir. Dönüştürücüler, ardışık verileri işlerken ve uzun dizilerde bağlamı kavramada uzmanlaşmış sinir ağlarıdır. 2017’de yayımlanan “Attention is All You Need” makalesiyle tanıtılan dönüştürücüler, birçok NLP görevinde temel haline gelmiştir.
Whisper’ın işlem süreci şunları içerir:
Whisper, internetten toplanan 680.000 saatlik denetimli veri üzerinde eğitildi. Bu veri şunları içerir:
99 dili kapsamasıyla Whisper, çeşitli dilsel girdileri işleme konusunda öne çıkar. Bu çok dillilik, küresel uygulamalar ve uluslararası hedef kitlelere yönelik hizmetler için uygundur.
Kapsamlı denetimli verilerle eğitilen Whisper, transkripsiyon görevlerinde yüksek doğruluk sağlar. Farklı aksan, lehçe ve arka plan gürültülerine karşı dayanıklılığı sayesinde gerçek dünyada güvenilirdir.
Transkripsiyonun ötesinde Whisper şunları da yapabilir:
Açık kaynaklı olarak yayımlanan Whisper geliştiricilere şunları sağlar:
Whisper’ı sohbet botlarına ve yapay zeka asistanlarına entegre ederek geliştiriciler şunları sağlamış olur:
Whisper, Python kütüphanesi olarak uygulanmıştır ve Python tabanlı projelere sorunsuz entegrasyon sağlar. Python’da Whisper kullanmak için uygun ortamı hazırlamak, gerekli bağımlılıkları yüklemek ve kütüphanenin fonksiyonlarını kullanarak ses dosyalarını transkript veya çeviri yapmak gerekir.
Whisper’ı kullanmadan önce geliştirme ortamınızı Python, PyTorch, FFmpeg ve Whisper kütüphanesini yükleyerek hazırlamanız gerekir.
Python yüklü değilse resmi web sitesinden indirin. PyTorch yüklemek için pip kullanın:
pip install torch
Alternatif olarak, işletim sistemi ve Python sürümünüze özel kurulum talimatları için PyTorch web sitesini ziyaret edebilirsiniz.
Whisper, ses dosyalarını işlemek için FFmpeg gerektirir. İşletim sisteminize uygun paket yöneticisiyle FFmpeg’i yükleyin.
Ubuntu/Debian:
sudo apt update && sudo apt install ffmpeg
MacOS (Homebrew ile):
brew install ffmpeg
Windows (Chocolatey ile):
choco install ffmpeg
Whisper Python paketini pip ile kurun:
pip install -U openai-whisper
En son sürümü doğrudan GitHub deposundan kurmak için:
pip install git+https://github.com/openai/whisper.git
Geliştirici Modu’nun etkin olduğundan emin olun:
Whisper, boyut ve yetenekleri farklı birkaç model sunar. Modeller tiny
‘den large
‘a kadar değişir ve her biri hız ve doğruluk arasında farklı bir denge sunar.
Boyut | Parametre | Sadece İngilizce Model | Çok Dilli Model | Gerekli VRAM | Göreli Hız |
---|---|---|---|---|---|
tiny | 39 M | tiny.en | tiny | ~1 GB | ~32x |
base | 74 M | base.en | base | ~1 GB | ~16x |
small | 244 M | small.en | small | ~2 GB | ~6x |
medium | 769 M | medium.en | medium | ~5 GB | ~2x |
large | 1550 M | Yok | large | ~10 GB | 1x |
.en
): İngilizce transkripsiyon için optimize edilmiştir, İngilizce seslerde daha iyi performans sunar.Ortamınızı hazırlayıp gerekli bileşenleri yükledikten sonra, Python projelerinizde Whisper’ı kullanmaya başlayabilirsiniz.
Önce Whisper kütüphanesini içe aktarın ve bir model yükleyin:
import whisper
# İstenen modeli yükleyin
model = whisper.load_model("base")
Uygulamanıza uygun model adını "base"
yerine yazabilirsiniz.
Whisper, ses dosyalarını metne dönüştürmek için basit bir transcribe
fonksiyonu sunar.
Örnek: İngilizce Ses Dosyası Transkripsiyonu
# Ses dosyasını transkribe et
result = model.transcribe("path/to/english_audio.mp3")
# Transkripti yazdır
print(result["text"])
model.transcribe()
: Ses dosyasını işler ve transkript ile diğer meta verileri içeren bir sözlük döndürür.result["text"]
: Sonuçtan transkribe edilen metni alır.Whisper, çeşitli dillerdeki sesleri İngilizce’ye çevirebilir.
Örnek: İspanyolca Sesi İngilizce’ye Çevirme
# İspanyolca ses dosyasını İngilizce'ye transkribe ve çevir
result = model.transcribe("path/to/spanish_audio.mp3", task="translate")
# Çevrilen metni yazdır
print(result["text"])
task="translate"
: Modelin sesi birebir transkribe etmek yerine İngilizce’ye çevirmesini sağlar.Whisper dili otomatik algılayabilse de, dili belirtmek doğruluk ve hızı artırabilir.
Örnek: Fransızca Ses Transkripsiyonu
# Fransızca ses dosyasını, dili belirterek transkribe et
result = model.transcribe("path/to/french_audio.wav", language="fr")
# Transkripti yazdır
print(result["text"])
Whisper, detect_language
yöntemi ile ses dosyasındaki dili tespit edebilir.
Örnek: Dil Algılama
# Sesi yükle ve ön işle
audio = whisper.load_audio("path/to/unknown_language_audio.mp3")
audio = whisper.pad_or_trim(audio)
# log-Mel spektrograma çevir
mel = whisper.log_mel_spectrogram(audio).to(model.device)
# Dili algıla
_, probs = model.detect_language(mel)
language = max(probs, key=probs.get)
print(f"Algılanan dil: {language}")
whisper.load_audio()
: Ses dosyasını yükler.whisper.pad_or_trim()
: Sesi modelin girdi gereksinimlerine uygun uzunluğa getirir.whisper.log_mel_spectrogram()
: Sesi modelin beklediği formata dönüştürür.model.detect_language()
: Her dil için olasılık döndürür, en olası dili belirler.Transkripsiyon süreci üzerinde daha fazla kontrol için alt seviye fonksiyonlar ve özelleştirilebilir kod çözme seçeneklerini kullanabilirsiniz.
decode
Fonksiyonunu Kullanmadecode
fonksiyonu ile dil, görev ve zaman damgası eklenip eklenmeyeceği gibi seçenekleri belirleyebilirsiniz.
Örnek: Özelleştirilmiş Kod Çözme Seçenekleri
# Kod çözme seçeneklerini ayarlayın
options = whisper.DecodingOptions(language="de", without_timestamps=True)
# Sesi kod çöz
result = whisper.decode(model, mel, options)
# Tanınan metni yazdır
print(result.text)
Whisper’ı, mikrofondan gelen canlı sesleri transkribe etmek için entegre edebilirsiniz.
Örnek: Canlı Mikrofon Girdisinin Transkripsiyonu
import whisper
import sounddevice as sd
# Modeli yükle
model = whisper.load_model("base")
# Mikrofondan ses kaydet
duration = 5 # saniye
fs = 16000 # Örnekleme hızı
print("Kayıt başlıyor...")
audio = sd.rec(int(duration * fs), samplerate=fs, channels=1, dtype='float32')
sd.wait
OpenAI Whisper, OpenAI tarafından geliştirilen gelişmiş bir otomatik konuşma tanıma (ASR) sistemidir. Derin öğrenme kullanarak konuşulan dili yazılı metne dönüştürmek için tasarlanmıştır. 99 dili destekler ve transkripsiyon, çeviri ve dil tanımlamada üstündür.
Whisper, dönüştürücü tabanlı bir kodlayıcı-çözücü mimarisi kullanır, sesleri log-Mel spektrogramlarına dönüştürür ve bir dil modeli ile metin çıktısı üretir. 680.000 saatlik çok dilli, çok görevli veri üzerinde eğitilmiştir ve yüksek doğruluk ile sağlamlık sunar.
Whisper, çok dilli konuşma tanıma, konuşma çevirisi, otomatik dil tanımlama, aksanlara ve gürültüye karşı dayanıklılık destekler ve özelleştirme ile entegrasyon için açık kaynaklı erişim sunar.
Donanım gereksinimleri model boyutuna bağlıdır: 'tiny' gibi küçük modeller yaklaşık 1 GB VRAM gerektirirken, en büyük model yaklaşık 10 GB gerektirir. Whisper GPU üzerinde daha hızlı çalışır; ancak CPU'da da daha uzun sürede çalışabilir.
Evet, Whisper bir Python kütüphanesi olarak uygulanmıştır ve pip ile kurulabilir. Konuşma transkripsiyonu, çeviri ve gerçek zamanlı ses uygulamaları için Python projelerine kolayca entegre edilebilir.
Yaygın kullanım alanları arasında otomatik toplantı transkripsiyonu, sesli sohbet botları, canlı çeviri, erişilebilirlik araçları (altyazı ve yardımcı teknolojiler), çağrı merkezi otomasyonu ve sesle kontrol edilen otomasyon sistemleri bulunur.
Evet, Mozilla DeepSpeech, Kaldi, Wav2vec gibi açık kaynaklı motorlar ve Google Cloud Speech-to-Text, Microsoft Azure AI Speech, AWS Transcribe gibi ticari API'ler alternatif olarak mevcuttur.
Evet, OpenAI Whisper açık kaynaklıdır. Geliştiriciler tarafından ürün ve hizmetlere lisans kısıtlaması olmadan özelleştirilebilir, ince ayar yapılabilir ve entegre edilebilir.
Gelişmiş konuşmadan metne özelliklerini uygulamalarınıza entegre edin, iş akışlarını otomatikleştirin ve OpenAI Whisper ve FlowHunt ile kullanıcı deneyimini artırın.
Büyük Dil Modeli (LLM), insan dilini anlamak, üretmek ve üzerinde işlem yapmak için geniş metin verileriyle eğitilmiş bir yapay zeka türüdür. LLM'ler, metin üre...
Large Language Model Meta AI (LLaMA), Meta tarafından geliştirilen son teknoloji bir doğal dil işleme modelidir. 65 milyara kadar parametreye sahip olan LLaMA, ...
Temel Bir Yapay Zeka Modeli, çok büyük veri kümeleri üzerinde eğitilmiş, geniş bir görev yelpazesine uyarlanabilen büyük ölçekli bir makine öğrenimi modelidir. ...