Denetimli öğrenme, algoritmaların tahmin veya sınıflandırma yapabilmek için etiketli veri kümelerinden öğrendiği makine öğrenmesi ve yapay zekâda temel bir yaklaşımdır. Bu paradigmada model, giriş verileriyle doğru çıkışların eşlendiği örnekler üzerinde eğitilir ve böylece aralarındaki ilişkiyi öğrenir. Model, bu etiketli veri noktalarını analiz ederek genelleyebilir ve yeni, daha önce görmediği veriler için doğru sonuçlar tahmin edebilir.
Denetimli Öğrenme Nasıl Çalışır?
Denetimli öğrenmede, her bir veri noktasının giriş özellikleri ve karşılık gelen istenen çıktının bulunduğu etiketli bir veri kümesiyle makine öğrenmesi modeli eğitilir. Süreç temel olarak şu adımları içerir:
Veri Toplama ve Hazırlama:
- Etiketli Veri: Girişlerin doğru çıktılarla eşlendiği bir veri seti toplanır. Bu etiketli veriler, eğitime temel teşkil eder.
- Özellik Çıkartımı: Modelin doğru tahminler yapmasına yardımcı olacak ilgili özellikler belirlenir ve veriden çıkarılır.
Model Seçimi:
- Problem türüne (sınıflandırma veya regresyon) ve verinin yapısına göre uygun bir denetimli öğrenme algoritması seçilir.
Modelin Eğitilmesi:
- Başlatma: Model için başlangıç parametreleri veya ağırlıkları belirlenir.
- Tahmin: Model, mevcut parametreleriyle eğitim verilerinde tahminler yapar.
- Kayıp Fonksiyonu: Modelin tahminleri ile gerçek çıktılar arasındaki farkı ölçmek için kayıp fonksiyonu (maliyet fonksiyonu olarak da bilinir) hesaplanır.
- Optimizasyon: Kayıp fonksiyonunu minimize etmek için modelin parametreleri optimizasyon algoritmaları (örneğin gradyan inişi) ile ayarlanır.
Model Değerlendirmesi:
- Modelin yeni verilerde de iyi genelleyip genellemediğini anlamak için ayrı bir doğrulama veri kümesi üzerinde performansı değerlendirilir.
- Doğruluk, kesinlik, duyarlılık ve ortalama karesel hata gibi metrikler performans değerlendirmede kullanılır.
Dağıtıma Alma:
- Model tatmin edici bir performansa ulaştığında, daha önce görülmemiş yeni verilerde tahmin yapmak için kullanılabilir.
Denetimli öğrenmenin özü, modeli eğitim sırasında doğru cevaplarla yönlendirmek ve böylece girdiler ile çıktılar arasındaki desenleri ve ilişkileri öğrenmesini sağlamaktır.
Denetimli Öğrenme Türleri
Denetimli öğrenme görevleri temel olarak ikiye ayrılır: sınıflandırma ve regresyon.
1. Sınıflandırma
Sınıflandırma algoritmaları, çıktı değişkeninin bir kategori veya sınıf olduğu durumlarda kullanılır; örneğin “spam” veya “spam değil”, “hastalık” veya “hastalık yok”, ya da görüntülerdeki nesne türleri gibi.
- Amaç: Girdi verilerini önceden tanımlanmış kategorilere atamak.
- Yaygın Sınıflandırma Algoritmaları:
- Lojistik Regresyon: İkili sınıflandırma problemleri için kullanılır, ayrık bir sonucun olasılığını modeller.
- Karar Ağaçları: Özellik değerlerine göre veriyi dallara ayırır ve her düğümde karar vererek tahmine ulaşır.
- Destek Vektör Makineleri (SVM): Özellik uzayında sınıfları ayıran en iyi hiper düzlemi bulur.
- En Yakın Komşular (KNN): Veri noktalarını, en yakın komşularının çoğunluk sınıfına göre sınıflandırır.
- Naif Bayes: Özelliklerin birbirinden bağımsız olduğu varsayımıyla Bayes teoremini kullanan olasılıksal sınıflandırıcılar.
- Rastgele Orman: Sınıflandırma doğruluğunu artıran ve aşırı öğrenmeyi kontrol eden birden fazla karar ağacının birleşimi.
Örnek Kullanım Alanları:
- E-posta Spam Tespiti: E-postaları içeriklerine göre “spam” veya “spam değil” olarak sınıflandırma.
- Görüntü Tanıma: Görüntülerdeki nesne veya kişileri tanıma.
- Tıbbi Tanı: Tıbbi test sonuçlarına göre bir hastanın belirli bir hastalığa sahip olup olmadığını tahmin etme.
2. Regresyon
Regresyon algoritmaları, çıktı değişkeninin sürekli bir değer olduğu, örneğin fiyat, sıcaklık veya hisse senedi değeri tahmini yapıldığı durumlarda kullanılır.
- Amaç: Girdi özelliklerine dayanarak gerçek veya sürekli bir çıktı tahmin etmek.
- Yaygın Regresyon Algoritmaları:
- Doğrusal Regresyon: Girdi değişkenleri ile sürekli çıktı arasındaki ilişkiyi doğrusal bir denklemle modeller.
- Polinomsal Regresyon: Doğrusal regresyonu, veriye polinom denklem uydurarak genişletir.
- Destek Vektör Regresyonu (SVR): SVM’in regresyon problemleri için uyarlanmış hâli.
- Karar Ağacı Regresyonu: Sürekli çıktıları tahmin etmek için karar ağaçları kullanır.
- Rastgele Orman Regresyonu: Birden fazla karar ağacının birleşimiyle regresyon görevlerinde kullanılır.
Örnek Kullanım Alanları:
- Ev Fiyatı Tahmini: Konum, büyüklük ve olanaklar gibi özelliklere göre mülk fiyatı tahmini.
- Satış Tahmini: Geçmiş verilere dayanarak gelecekteki satış miktarlarını öngörme.
- Hava Durumu Tahmini: Sıcaklık veya yağış miktarlarını tahmin etme.
Denetimli Öğrenmede Temel Kavramlar
- Etiketli Veri: Denetimli öğrenmenin temeli, her girişe doğru bir çıktının eşlendiği etiketli verilerdir. Etiketler, modelin öğrenmesi için gerekli gözetimi sağlar.
- Eğitim ve Test Setleri:
- Eğitim Seti: Modelin öğrenmesi için kullanılır.
- Test Seti: Modelin daha önce görmediği verilerdeki performansını değerlendirmek için kullanılır.
- Kayıp Fonksiyonu:
- Modelin tahminleri ile gerçek çıktılar arasındaki hatayı ölçen matematiksel bir fonksiyondur.
- Yaygın Kayıp Fonksiyonları:
- Ortalama Karesel Hata (MSE): Regresyon görevlerinde kullanılır.
- Çapraz Entropi Kaybı: Sınıflandırma görevlerinde kullanılır.
- Optimizasyon Algoritmaları:
- Modelin parametrelerini kayıp fonksiyonunu minimize edecek şekilde ayarlayan yöntemlerdir.
- Gradyan İnişi: Kayıp fonksiyonunun minimumunu bulmak için parametreleri yinelemeli olarak ayarlar.
- Aşırı ve Az Öğrenme:
- Aşırı Öğrenme: Model, eğitim verisini çok iyi öğrenir (gürültüler dahil) ve yeni verilerde kötü performans gösterir.
- Az Öğrenme: Model, verideki temel desenleri yakalayamayacak kadar basittir.
- Doğrulama Teknikleri:
- Çapraz Doğrulama: Veriyi alt kümelere ayırarak modelin performansını doğrular.
- Düzenlileştirme: Aşırı öğrenmeyi önlemek için Lasso veya Ridge regresyon gibi teknikler.
Denetimli Öğrenme Algoritmaları
Her biri farklı problemlere uygun benzersiz özelliklere sahip birçok algoritma denetimli öğrenmede temel rol oynar.
1. Doğrusal Regresyon
- Amacı: Girdi değişkenleri ile sürekli bir çıktı arasındaki ilişkiyi modellemek.
- Nasıl Çalışır: Gözlenen verilere doğrusal bir denklem uydurur ve tahmin edilen değerler ile gerçek değerler arasındaki farkı minimize eder.
2. Lojistik Regresyon
- Amacı: İkili sınıflandırma problemlerinde kullanılır.
- Nasıl Çalışır: Verilere lojistik fonksiyon uydurarak bir olayın olma olasılığını modeller.
3. Karar Ağaçları
- Amacı: Hem sınıflandırma hem de regresyon görevlerinde kullanılır.
- Nasıl Çalışır: Özellik değerlerine göre veriyi dallara ayırarak ağaç benzeri bir yapı oluşturur ve kararlar alır.
4. Destek Vektör Makineleri (SVM)
- Amacı: Sınıflandırma ve regresyonda yüksek boyutlu alanlarda etkilidir.
- Nasıl Çalışır: Özellik uzayında sınıfları en iyi ayıran hiper düzlemi bulur.
5. Naif Bayes
- Amacı: Özellikle büyük veri kümelerinde sınıflandırma görevleri için uygundur.
- Nasıl Çalışır: Özelliklerin birbirinden bağımsız olduğu varsayımıyla Bayes teoremini uygular.
6. En Yakın Komşular (KNN)
- Amacı: Sınıflandırma ve regresyon görevlerinde kullanılır.
- Nasıl Çalışır: K’ya en yakın veri noktalarının çoğunluk sınıfına (sınıflandırma) veya ortalama değerine (regresyon) göre tahmin yapar.
7. Sinir Ağları
- Amacı: Karmaşık doğrusal olmayan ilişkileri modellemek.
- Nasıl Çalışır: Girdi verilerini işleyen ve çıktı üreten birbirine bağlı düğümlerden (nöronlar) oluşan katmanlara sahiptir.
8. Rastgele Orman
- Amacı: Tahmin doğruluğunu artırmak ve aşırı öğrenmeyi kontrol etmek.
- Nasıl Çalışır: Birden fazla karar ağacı oluşturur ve sonuçlarını birleştirir.
Denetimli Öğrenmenin Uygulamaları ve Kullanım Alanları
Denetimli öğrenme algoritmaları çok yönlüdür ve birçok farklı alanda uygulama bulur.
1. Görüntü ve Nesne Tanıma
- Uygulama: Görüntüleri sınıflandırma veya içindeki nesneleri tespit etme.
- Örnek: Doğadaki hayvanların fotoğraflarında türlerini tespit etme veya üretimde hatalı ürünleri bulma.
2. Öngörü Analitiği
- Uygulama: Geçmiş verilere dayanarak gelecek eğilimleri öngörme.
- Örnek: Satış tahmini, hisse fiyatı tahmini, tedarik zinciri optimizasyonu.
3. Doğal Dil İşleme (NLP)
- Uygulama: İnsan dilini anlama ve üretme.
- Örnek: Duygu analizi, dil çevirisi, sohbet robotu etkileşimleri.
4. Spam Tespiti
- Uygulama: İstenmeyen e-postaları filtreleme.
- Örnek: E-postaları içeriğine göre “spam” veya “spam değil” olarak sınıflandırma.
5. Sahtekarlık Tespiti
- Uygulama: Sahtekarlık faaliyetlerini tespit etme.
- Örnek: Bankacılık veya kredi kartı işlemlerinde anormallikleri takip etme.
6. Tıbbi Teşhis
- Uygulama: Hastalık tespiti ve prognozuna yardımcı olma.
- Örnek: Hasta verilerinden kanser nüksünü tahmin etme.
7. Konuşma Tanıma
- Uygulama: Konuşulan dili metne dönüştürme.
- Örnek: Siri veya Alexa gibi sesli asistanların kullanıcı komutlarını anlaması.
8. Kişiselleştirilmiş Öneriler
- Uygulama: Kullanıcılara ürün veya içerik önerme.
- Örnek: E-ticaret sitelerinde geçmiş alışverişlere göre ürün tavsiyesi.
YZ Otomasyonu ve Sohbet Botlarında Denetimli Öğrenme
Denetimli öğrenme, YZ otomasyonu ve sohbet robotu teknolojilerinin geliştirilmesinde temel rol oynar.
1. Niyet Sınıflandırma
- Amaç: Kullanıcının amacını girdisinden belirlemek.
- Uygulama: Sohbet botları, kullanıcı sorguları ve karşılık gelen niyetlerle etiketlenmiş örnekler üzerinde eğitilmiş denetimli öğrenme modelleriyle talepleri anlar.
2. Varlık Tanıma
- Amaç: Kullanıcı girdisinden anahtar bilgileri tespit ve çıkartmak.
- Uygulama: Tarih, isim, yer veya ürün adlarını çıkararak ilgili yanıtlar sunmak.
3. Yanıt Üretimi
- Amaç: Doğru ve bağlama uygun yanıtlar oluşturmak.
- Uygulama: Konuşma verileriyle eğitilmiş modeller sayesinde sohbet botunun doğal yanıtlar üretmesi.
4. Duygu Analizi
- Amaç: Kullanıcı mesajlarının duygusal tonunu belirlemek.
- Uygulama: Kullanıcıda kızgınlık tespit edilirse yardım önerisi gibi yanıtları uyarlama.
5. Kişiselleştirme
- Amaç: Kullanıcı tercihleri ve geçmişine göre etkileşimleri özelleştirmek.
- Uygulama: Sohbet botunun kişiselleştirilmiş önerilerde bulunması veya önceki etkileşimleri hatırlaması.
Sohbet Botu Geliştirmede Örnek:
Bir müşteri hizmetleri sohbet botu, geçmiş sohbet kayıtları üzerinde denetimli öğrenmeyle eğitilir. Her konuşma, müşteri niyeti ve uygun yanıtlarla etiketlenmiştir. Sohbet botu, yaygın soruları tanımayı ve doğru yanıtlar vermeyi öğrenerek müşteri deneyimini geliştirir.
Denetimli Öğrenmede Karşılaşılan Zorluklar
Denetimli öğrenme güçlü olsa da bazı zorluklarla karşılaşır:
1. Veri Etiketleme
- Sorun: Etiketli veri elde etmek zaman alıcı ve maliyetli olabilir.
- Etkisi: Yeterli miktarda yüksek kaliteli etiketli veri olmadan model performansı düşebilir.
- Çözüm: Veri artırma teknikleri veya yarı denetimli öğrenme ile etiketsiz verilerden de faydalanmak.
2. Aşırı Öğrenme
- Sorun: Modeller eğitim verisinde iyi, ancak yeni verilerde kötü performans gösterebilir.
- Etkisi: Aşırı öğrenme modelin genellenebilirliğini azaltır.
- Çözüm: Düzenlileştirme, çapraz doğrulama ve daha basit modeller kullanmak.
3. Hesaplama Karmaşıklığı
- Sorun: Büyük veri kümelerinde karmaşık modellerin eğitimi ciddi hesaplama kaynakları gerektirir.
- Etkisi: Model ölçeklenebilirliğini sınırlar.
- Çözüm: Boyut indirgeme teknikleri veya daha verimli algoritmalar kullanmak.
4. Önyargı ve Adalet
- Sorun: Modeller, eğitim verisinde bulunan önyargıları öğrenip pekiştirebilir.
- Etkisi: Haksız veya ayrımcı sonuçlara yol açabilir.
- Çözüm: Çeşitli ve temsil niteliği yüksek eğitim verisi sağlamak ve adalet kısıtlarını entegre etmek.
Denetimli ve Denetimsiz Öğrenmenin Karşılaştırılması
Uygun yaklaşımı seçmek için denetimli ve denetimsiz öğrenme arasındaki farkı anlamak önemlidir.
Denetimli Öğrenme
Kriter | Açıklama |
---|
Veri | Etiketli veri kullanılır. |
Amaç | Girdilerden çıktılara bir eşleme öğrenmek (sonuçları tahmin etmek). |
Algoritmalar | Sınıflandırma ve regresyon algoritmaları. |
Kullanım Alanları | Spam tespiti, görüntü sınıflandırma, öngörü analitiği. |
Denetimsiz Öğrenme
Kriter | Açıklama |
---|
Veri | Etiketsiz veri kullanılır. |
Amaç | Verideki gizli desen veya yapıları keşfetmek. |
Algoritmalar | Kümeleme algoritmaları, boyut indirgeme. |
Kullanım Alanları | Müşteri segmentasyonu, anomali tespiti, keşifsel veri analizi. |
Temel Farklar:
- Etiketli vs. Etiketsiz Veri: Denetimli öğrenme etiketli veri kümelerine dayanır, denetimsiz öğrenme ise etiketsiz verilerle çalışır.
- Sonuç: Denetimli öğrenme bilinen çıktıları tahmin ederken, denetimsiz öğrenme önceden tanımlı olmadan gizli desenleri bulur.
Denetimsiz Öğrenmeye Örnek:
- Kümeleme Algoritmaları: Satın alma davranışına göre müşterileri önceden etiket olmadan gruplamak, pazar segmentasyonu için faydalıdır.
- Boyut İndirgeme: Temel Bileşen Analizi (PCA) gibi tekniklerle, yüksek boyutlu verideki değişkenliği koruyarak özellik sayısını azaltmak ve görselleştirmek.
Yarı Denetimli Öğrenme
Tanım:
Yarı denetimli öğrenme, denetimli ve denetimsiz öğrenmenin unsurlarını birleştirir. Eğitim sırasında az miktarda etiketli veriyle birlikte çok miktarda etiketsiz veri kullanılır.
Neden Yarı Denetimli Öğrenme Kullanılır?
- Maliyet Avantajı: Etiketli veri elde etmek pahalı olabileceğinden gereksinimi azaltır.
- Gelişmiş Performans: Bir miktar etiketli veri kullanılarak denetimsiz öğrenmeden daha iyi performans elde edilebilir.
Uygulamalar:
- Görüntü Sınıflandırma: Tüm görselleri etiketlemek pratik değildir, ancak bir alt kümenin etiketlenmesi model eğitimini güçlendirir.
- Doğal Dil İşleme: Sınırlı etiketli metinlerle dil modellerinin iyileştirilmesi.
- Tıbbi Görüntüleme: Az sayıda etiketli örnekle çok sayıda etiketsiz tıbbi görüntüden faydalanarak tanı modellerini geliştirme.
Temel Terimler ve Kavramlar
- Makine Öğrenmesi Modelleri: İnsan müdahalesi minimum olacak şekilde desenleri tanıyıp karar verecek şekilde eğitilen algoritmalar.
- Veri Noktaları: Özellik ve etiketleriyle birlikte eğitimde kullanılan bireysel veri birimleri.
- İstenen Çıktı: Modelin tahmin etmeyi hedeflediği doğru sonuç.
- Yapay Zekâ: Özellikle bilgisayar sistemleri tarafından insan zekâsı süreçlerinin taklit edilmesi.
- Boyut İndirgeme: Bir veri kümesindeki giriş değişkeni sayısını azaltmaya yönelik teknikler.
Denetimli Öğrenme Araştırmaları
Denetimli öğrenme, modellerin etiketli veriyle eğitildiği makine öğrenmesinin kritik bir alanıdır. Bu öğrenme biçimi; görüntü tanıma, doğal dil işleme gibi çok çeşitli uygulamalarda temeldir. Aşağıda, denetimli öğrenmenin anlaşılması ve geliştirilmesine katkı sağlayan bazı önemli makaleler yer almaktadır.
Self-supervised self-supervision by combining deep learning and probabilistic logic
- Yazarlar: Hunter Lang, Hoifung Poon
- Özet: Bu makale, makine öğrenmesinde yaygın bir sorun olan büyük ölçekte eğitim örneklerinin etiketlenmesi zorluğunu ele alır. Yazarlar, Derin Olasılıksal Mantık’ı (DPL) yeni bir yöntem olan Kendinden Gözetimli Kendi Gözetimi (S4) ile birleştirerek yeni kendinden gözetimlerin otomatik olarak öğrenilmesini sağlar. S4, başlangıçta bir “tohum” ile başlar ve yinelemeli olarak yeni gözetimler önerir; bunlar doğrudan eklenebilir veya insanlar tarafından doğrulanabilir. Çalışma, S4’ün otomatik olarak doğru gözetimler önerebildiğini ve minimum insan müdahalesiyle denetimli yöntemlere yakın sonuçlar elde edebildiğini gösterir.
- Makale Bağlantısı: Self-supervised self-supervision by combining deep learning and probabilistic logic
**Rethinking Weak Super