Veri Madenciliğinde amaç; toplanmış olan bilgilerin bir takım istatistik yöntemlerle incelenip
ilgili kurum ve yönetim destek sistemlerinde kullanılmak üzere
degerlendirilmesidir.Bazı anahtar kelimeler kullanılarak 4 asamalı ayrıntılı VM tanımı söyledir:
1. VM, bir süreçtir.
2. VM, karar destek araçlarının niteligini yüceltir.
3. VM, gizlenmis bilgileri bulur.
4. VM, is uzmanları için kavrayıs dagıtıcı bir sistemdir.
Veri Madenciligi Süreci
(1) Arastırma Probleminin Tanımlanması (Business Understanding)
(2) Verileri Tanıma Asaması (Data Understanding)
(3) Veri Hazırlama Asaması (Data Preperation)
(4) Modelleme Asaması (Modelling)
(5) Degerlendirme Asaması (Evaluation)
(6) Uygulama Asaması (Deployment)
Veri Madenciligi Yöntem ve Teknikleri
Bir VM modeliyle asagıdaki islemlerden bir veya birkaçı gerçeklestirilebilir:
Sınıflama (Classification) ve Regresyon (Regression) Modelleri,
Kümeleme (Clustering) Modelleri ve
Birliktelik Kuralları (Association Rules) ve Ardısık Zamanlı Örüntüler
(Sequential Patterns).
Sınıflama ve regresyon modelleri tahmin edici, kümeleme, birliktelik
kuralları ve ardısık zamanlı örüntü modelleri tanımlayıcı modellerdir.
1. Sınıflama ve Regresyon Modelleri:
En yaygın uygulanan VM tekniklerinden biri olan sınıflama, sınıfı tanımlanmıs mevcut verilerden yararlanarak sınıfı belli olmayan verilerin sınıfını tahmin etmek için kullanılan VM modelidir. Sınıflama iki adım içeren bir islemdir Birinci adımda tahmin için kullanılacak bir model olusturulmaktadır.İkinci adımda, olusturulan bu model sınıfı belli olmayan veriler üzerinde uygulanarak sınıflar tahmin edilmektedir.
Baslıca sınıflandırmateknikleri ;
Yapay Sinir Agları (Artificial Neural Networks), Genetik Algoritmalar (Genetic Algorithms),
K- En Yakın Komsu (K–Nearest Neighbour), Bellek Temelli Nedenleme (Memory Based Reasoning), Naive – Bayes, Lojistik Regresyon (Logistic Regression) ve Karar Agaçlarıdır (Decision Trees).
2. Kümeleme :
Kümeleme analizi, nesnelerin alt dizinlere gruplanmasını yapan bir islemdir. Böylece nesneler, örneklenen kitle özelliklerini iyi yansıtan etkili bir temsil gücüne sahip olmaktadır. Sınıflamanın aksine, yeniden tanımlanmıs sınıflara dayalı degildir. Kümeleme, bir denetimsiz ögrenme (unsupervised learning) yöntemidir.
3. Birliktelik Kuralları ve Ardısık Zamanlı Örüntüler :
Birliktelik kuralları ile bir iliskide yer alan niteliklerin degerleri arasındaki
bagımlılıklar, anahtarda yer almayan diger niteliklerin gruplandırılması
ile bulunur.
Birliktelik kurallarının analizi süreci market sepeti analizi olarak
da adlandırılır. Market sepeti analizinde müsteri ile ilgili veri hareketlerinden
hareketlerinden gelecekte müsterinin nasıl bir tercih yapacagına dair sonuçlar
tahmin edilmektedir.
Çok sayıda verinin depolandıgı bir veri tabanı içinde çesitli nitelikler arasında hemen fark edilmeyen birtakım iliskilerin ortaya çıkartılması stratejik kararların alınmasına yardımcı olabilir. Ancak, bu iliskilerin çok sayıda verinin içinden elde edilmesi basit bir süreç degildir. Bu
süreç birliktelik kuralı madenciligi (association rule mining) olarak adlandırılmaktadır. Veriler arasındaki iliskiler, eger-sonra ifadeleri ile asagıdaki gibi gösterilmektedir.
Eger
En yaygın birliktelik kuralı algoritmaları arasında GRI (The Generalized Rule Induction), Apriori sayılabilir.