F-Skoru (F-Ölçütü, F1 Ölçütü)
F-Skoru, F-Ölçütü veya F1 Skoru olarak da bilinen bu istatistiksel metrik, özellikle ikili sınıflandırmada bir testin veya modelin doğruluğunu değerlendirmek iç...
BLEU skoru, makine tarafından üretilen çevirilerin kalitesini değerlendirmek için n-gramlar, kesinlik ve kısalık cezası kullanarak insan referanslarıyla karşılaştıran yaygın bir metriktir.
BLEU skoru, yani Bilingual Evaluation Understudy, makine çevirisi sistemleri tarafından üretilen metnin kalitesini değerlendirmede kritik bir metriktir. IBM tarafından 2001 yılında geliştirilen bu metrik, çeviri kalitesinin insan değerlendirmeleriyle güçlü bir korelasyon gösteren öncü bir ölçüttü. BLEU skoru, doğal dil işleme (NLP) alanında temel taş olmaya devam etmekte ve makine çeviri sistemlerini değerlendirmede yaygın olarak kullanılmaktadır.
Temelde, BLEU skoru makine tarafından oluşturulan bir çeviri ile bir veya daha fazla insan referans çevirisi arasındaki benzerliği ölçer. Makine çevirisi insan referansına ne kadar yakınsa, BLEU skoru da o kadar yüksek olur ve 0 ile 1 arasında değişir. 1’e yakın skorlar daha büyük benzerlik gösterir; ancak mükemmel skor olan 1 nadirdir ve aşırı öğrenmeyi gösterebilir, bu da istenmeyen bir durumdur.
N-gramlar, bir metin veya konuşma örneğinden ardışık ‘n’ öğeden oluşan dizilerdir ve genellikle kelimelerden oluşur. BLEU’da n-gramlar, makine çevirilerinin referans çevirilerle karşılaştırılmasında kullanılır. Örneğin, “The cat is on the mat” ifadesinde n-gramlar şunlardır:
BLEU, aday çeviri ile referans çeviriler arasındaki örtüşmeyi değerlendirmek için bu n-gramları kullanarak kesinlik hesaplar.
BLEU, kesinliği aday çeviride bulunan n-gramların, referans çevirilerde de yer almasının oranı olarak tanımlar. N-gram tekrarlarını ödüllendirmemek için BLEU “değiştirilmiş kesinlik” kullanır; bu, aday çevirideki her n-gram’ın sayısını, herhangi bir referans çevirideki maksimum tekrar sayısıyla sınırlar.
Kısalık cezası, BLEU’da çok kısa çevirileri cezalandırmak için kritik bir öneme sahiptir. Daha kısa çeviriler, belirsiz metin kısımlarını atlayarak yüksek kesinlik elde edebilir. Bu ceza, aday ve referans çevirilerinin uzunluk oranına göre hesaplanır ve çevirinin referansa göre ne çok kısa ne de çok uzun olmasını sağlar.
BLEU, farklı n-gram boyutlarındaki kesinlik puanlarını (genellikle 4-grama kadar) geometrik ortalama ile birleştirir ve bu şekilde çeviride hem yerel hem de daha geniş bağlamı yakalamak hedeflenir.
BLEU skoru matematiksel olarak şu şekilde ifade edilir:
[ \text{BLEU} = \text{BP} \times \exp\left(\sum_{n=1}^{N} w_n \log(p_n)\right) ]
Burada:
BLEU, öncelikle makine çevirisi sistemlerini değerlendirmek için kullanılır ve farklı sistemleri karşılaştırmak ve gelişmeleri takip etmek için nicel bir ölçü sağlar. Özellikle çeviri modellerinin etkinliğini test etmek için araştırma ve geliştirmede değerlidir.
Başlangıçta çeviri için geliştirilmiş olsa da, BLEU insan referansına benzer metin üretmenin amaçlandığı metin özetleme ve yeniden ifade etme gibi diğer NLP görevlerinde de kullanılabilir.
BLEU, otomasyon ve sohbet botlarında yapay zeka modelleri tarafından üretilen yanıtların kalitesini değerlendirmede de kullanılabilir ve çıktının insan yanıtlarına göre tutarlı ve bağlamsal olarak uygun olmasını sağlar.
Yaygın kullanımına rağmen BLEU’nun bazı sınırlamaları vardır:
BLEU skoru (Bilingual Evaluation Understudy), makine tarafından üretilen çevirilerin kalitesini değerlendirmek için n-gram örtüşmesi, kesinlik, kısalık cezası ve geometrik ortalama kullanarak, bir veya daha fazla insan referans çevirisiyle karşılaştıran bir metriktir.
Temel bileşenler arasında n-gramlar, değiştirilmiş kesinlik, kısalık cezası ve farklı n-gram boyutlarında kesinlik puanlarının geometrik ortalaması bulunur.
BLEU, dize benzerliğine odaklanır ve anlamsal anlamı dikkate almaz, referans çevirilerinin sayısına ve kalitesine duyarlıdır, aşırı öğrenmiş sistemler için yanıltıcı derecede yüksek puanlar verebilir ve yanlış kelime sırasını yeterince cezalandırmaz.
Akıllı Sohbet Botları ve Yapay Zeka araçları tek bir çatı altında. Fikirlerinizi otomatikleştirilmiş Akışlara dönüştürmek için sezgisel blokları bağlayın.
F-Skoru, F-Ölçütü veya F1 Skoru olarak da bilinen bu istatistiksel metrik, özellikle ikili sınıflandırmada bir testin veya modelin doğruluğunu değerlendirmek iç...
ROUGE skoru, makine tarafından oluşturulan özetlerin ve çevirilerin kalitesini insan referanslarıyla karşılaştırarak değerlendirmek için kullanılan bir dizi met...
Lexile Okuma Çerçevesi, hem bir okuyucunun yeteneğini hem de metnin karmaşıklığını aynı gelişimsel ölçek üzerinde ölçen bilimsel bir yöntemdir; okuyucuları uygu...