Veri Madenciliği• Bir kutu toplu iğne• İçine 3 boncuk düşürdünüz• Nasıl alacağız?
• Fikirler?
BBY 363, 21 Kasım 2018
Veri Madenciliği• Data – Information – Knowledge
• Veri madenciliği;• Büyük yoğunluklu veri/metinler içinden önemli/ilginç örüntüler keşfetme görevleri
• Toplu iğne örneği
BBY 363, 21 Kasım 2018
Veri Madenciliği• İlişkili olduğu alanlar;
• Bilgibilim• Makine öğrenme, bilgisayar bilimleri• Veri tabanı teknolojileri• Görselleştirme• İstatistik • …
BBY 363, 21 Kasım 2018
Neden Veri Madenciliği
BBY 363, 21 Kasım 2018
• İhtiyacım olan veriyi bulamıyorum!• İhtiyacım olan veriyi buluyorum ama elde edemiyorum!• Bulduğum veriyi anlamıyorum!• Anladığım veriyi kullanamıyorum!• …
Veri Madenciliği Araçları
BBY 363, 21 Kasım 2018
• Nooj• Weka• KNIME• Angoss Knowledge Studio• Matlab• …
Veri Madenciliği Uygulamaları
BBY 363, 21 Kasım 2018
• Bilgi erişim (information retrieval)• Bilgi çıkarımı (information extraction)• Makine çevirisi (machine translation)• Özetleme (summarization)• Metin kategorizasyonu (text categorization)
Bilgi Erişim
BBY 363, 21 Kasım 2018
• İnsanların herhangi bir paragrafın, kitabın ya da büyük yoğunluklu metnin içinden ihtiyaç duydukları herhangi bir kısma erişimlerinin sağlanabilmesi
• Nasıl yapılabilir?
Bilgi Çıkarımı
BBY 363, 21 Kasım 2018
• Büyük yoğunluklu bir metnin içinden temel anahtar unsurların (kişiler, kurumlar, konumlar, ülkeler gibi) tanımlanması, etiketlenmesi ve çıkarımı
• Bilgi çıkarımı yapılınca işlem biter mi?
• Nooj programında bir veri çıkarımı uygulaması• Elde edilen verileri anlamlandırmak için ne yapılabilir?
Makine Çevirisi
BBY 363, 21 Kasım 2018
• Bir dilden diğer dile otomatik çeviri• Algoritmalar nasıl yapılandırılabilir?
Otomatik Özetleme
BBY 363, 21 Kasım 2018
• Büyük yoğunluklu metinlerde yer alan cümle ya da paragraflar içinden,• Dilsel veya istatistiksel bazı yöntemleri kullanarak,• En önemli sözcükleri ya da cümleleri seçmeye,• Metni temsil eden anlamlı bir özet çıkarmaya dayanır
Metin Kategorizasyonu
BBY 363, 21 Kasım 2018
• Tahminleyici bir metot• Neleri tahmin edebiliriz?
• Hava nasıl olacak?• Patron kim olacak?• Eurovision’u kim kazanacak?• Golü kim atacak?
• 2 soru• Nasıl tahmin edecek?• Nasıl başarıya ulaşacak?
Gözetimli vs. GözetimsizMetin Kategorizasyonu
BBY 363, 21 Kasım 2018
GözetimliUzman gözetiminde
GözetimsizTamamen bilgisayar yardımı ile
Her ikisinin de avantaj ve dezavantajları neler olabilir?
Metin Kategorizasyonunda Kullanılan Teknik ve Algoritmalar
BBY 363, 21 Kasım 2018
• Karar ağaçları• İstatistiğe dayalı algoritmalar• Mesafeye dayalı algoritmalar• Yapay sinir ağları
Karar Ağaçları
BBY 363, 21 Kasım 2018
• Sınıflandırma için bir ağaç oluşturulur (kök)• Daha sonra her bir kayıt bu ağaca uygulanır (yaprak/düğüm)• Çıkan sonuca göre kayıtlar sınıflandırılır
• Çeşitli algoritmaları var• ID3, C4.5, CART
İstatistiğe Dayalı Algoritmalar
BBY 363, 21 Kasım 2018
• Verilerin önceden sınıflara ayrılması• Gelecekte elde edilen sonuçların tahmini
• Yani sınıfların tahmini
Mesela;Öğrenci mezun olduysa Araştırma Yöntemleri dersinden geçmiştir.
Yüksek notla geçtiyse istatistiğe dayalı algoritmaları daha kolay anlar.
Mesafeye Dayalı Algoritmalar
BBY 363, 21 Kasım 2018
• Eldeki verilerin birbirlerine olan uzaklığı veya benzerliği kullanılarak sınıflandırma yapılır
Yapay Sinir Ağları
BBY 363, 21 Kasım 2018
• Biyolojik sinir ağlarından esinlenerek geliştirilmiştir• Yapay sinir hücrelerinin birbirleriyle çeşitli şekilde bağlanmasından oluşur• Genel olarak katmanlar şeklinde düzenlenir• 3 temel katman vardır (girdi, gizli ve çıktı)
Performans Değerlendirme
BBY 363, 21 Kasım 2018
• Metodolojik değerlendirme• Test ve eğitim seti• Çapraz doğrulama
• Sayısal Değerlendirme• Başarımın sayısal ölçümü• Anma?• Duyarlık?• f değeri?• ROC eğrisi
Performans Değerlendirme
BBY 363, 21 Kasım 2018
Gerçek kategoriKategori 1 Kategori 2
Tahmin edilen kategoriKategori 1 Doğru pozitif (TP) Yanlış pozitif (FP)Kategori 2 Yanlış negatif (FN) Doğru negatif (TN)
Anma= TP / TP+FN
Duyarlılık: TP / TP+FPf= 2*anma*duyarlılık
(anma + duyarlılık)
ROC Eğrisi
Top Related