Sektörünü ve Departmanını Seç Merve Bağrıyanık
Veri Madenciliği (Data Mining) Nedir?
Yeni CV örneklerini inceleVeri bilimi alanında uzmanlık oluşturmak için Data Scientist programını keşfet.
Veri Madenciliği Nedir?
Veri madenciliği büyük veri kümelerinde gizli, geçerli ve potansiyel olarak faydalı kalıplar arar. Veri Madenciliği, veriler arasında önceden bilinmeyen ilişkileri keşfetmekle ilgilidir. Makine öğrenimi, istatistik, yapay zeka ve veritabanı teknolojisini kullanan multidisipliner bir beceridir. Veri Madenciliği yoluyla elde edilen bilgiler pazarlama, dolandırıcılık tespiti ve bilimsel keşif vb. için kullanılır.
Veri madenciliği ayrıca bilgi keşfi, bilgi çıkarma, veri/örüntü analizi, bilgi toplama vb. olarak da adlandırılır.
Veri Türleri
Veri madenciliği aşağıdaki veri türlerinde gerçekleştirilebilir.
- İlişkisel veritabanları
- Veri ambarı
- Gelişmiş veritabanı ve bilgi havuzları
- Nesneye yönelik ve nesneye dayalı veritabanları
- İşlemsel ve konumsal veritabanları
- Heterojen ve miras veritabanları
- Multimedya ve akan veritabanı
- Metin veritabanları
- Metin madenciliği ve Web madenciliği
Veri Madenciliği Uygulama Süreci
Veri Madenciliği uygulama sürecini detaylı olarak inceleyelim.
1. İşi tanımlama (Business understanding):
Bu aşamada iş ve veri madenciliği hedefleri belirlenir.
- İlk olarak, iş ve müşteri hedeflerini anlamak gerekir. Ayrıca, müşterinin ne istediğini tanımlaman gerekir (ki çoğu kez kendilerini bile bilmezler).
- Mevcut veri madenciliği senaryosunu değerlendirilir. Değerlendirmede kaynaklar, varsayımlar, kısıtlamalar ve diğer önemli faktörler yer almalıdır.
- İş hedeflerini ve mevcut senaryoyu kullanarak veri madenciliği hedefleri tanımlanır. İyi bir veri madenciliği planı çok ayrıntılıdır ve hem şirket hem de veri madenciliği hedeflerine ulaşmak için geliştirilmelidir.
2. Veri anlama (Data understanding):
Bu aşamada, veri madenciliği hedeflerine uygun olup olmadığını kontrol etmek için veriler üzerinde uygunluk testi yapılır.
- İlk olarak, veriler mecut olan birden fazla veri kaynağından toplanır.
- Bu veri kaynakları birden fazla veritabanı, düz yapılı dosyalayıcı veya veri küpü içerebilir. Veri Entegrasyonu sürecinde ortaya çıkabilecek nesne eşleme ve şema entegrasyonu gibi sorunlar vardır. Çeşitli kaynaklardan gelen verilerin kolayca eşleşmesi pek mümkün olmadığı için oldukça karmaşık ve zor bir süreçtir. Örneğin, tablo A cust_no adlı bir varlığı içerirken, başka bir tablo B cust-id adlı bir varlık içerir.
- Bu nedenle, verilen bu nesnelerin her ikisinin de aynı değere karşılık gelip gelmediğinden emin olmak oldukça zordur. Burada, veri bütünleştirme işlemindeki hataları azaltmak için Meta veriler kullanılmalıdır.
- Daha sonraki adım, elde edilen verilerin özelliklerini aramaktır. Verileri keşfetmenin iyi bir yolu, veri madenciliği sorularını (işi anlama aşamasında karar verilir) sorgulama, raporlama ve görselleştirme araçlarını kullanarak yanıtlamaktır.
- Sorgu sonuçlarına dayanarak veri kalitesi tespit edilmelidir. Varsa eksik veriler alınmalıdır.
3. Veriyi hazırlama (Data preparation):
Bu aşamada veriler üretime hazır hale getirilir.
- Veri hazırlama süreci proje süresinin yaklaşık %90'ını tüketir.
- Farklı kaynaklardan elde edilen veriler gerekirse seçilmeli, temizlenmeli, dönüştürülmeli, biçimlendirilmeli, anonimleştirilmeli ve oluşturulmalıdır.
- Veri temizleme, gürültülü (bozuk) verileri düzelterek ve eksik değerleri doldurarak verileri "temizleme" işlemidir.
4. Modelleme (Modeling):
Bu aşamada veri modellerini belirlemek için matematiksel modeller kullanılır.
- İş hedeflerine dayanarak, hazırlanan veri seti için uygun modelleme teknikleri seçilmelidir.
- Modelin kalitesini ve geçerliliğini kontrol etmek için bir senaryo oluşturulur.
- Model hazırlanan veri kümesinde çalıştırılır.
- Sonuçlar, modelin veri madenciliği hedeflerini karşılayabildiğinden emin olmak için tüm paydaşlar tarafından değerlendirilmelidir.
5. Değerlendirme (Evaluation):
Bu aşamada belirlenen modeller iş hedeflerine göre değerlendirilir.
- Veri madenciliği modeli tarafından üretilen sonuçlar iş hedeflerine göre değerlendirilmelidir.
- İş anlayışını kazanmak yinelemeli bir süreçtir. Aslında bakılırsa, incelenirken veri madenciliği nedeniyle yeni iş gereksinimleri ortaya çıkabilir.
- Modeli uygulama aşamasında taşımak için bir devam etme veya devam etmeme kararı verilir.
6. Uygulama (Deployment):
Uygulama aşamasında, veri madenciliği keşifleri günlük iş operasyonlarına sevk edilir.
- Veri madenciliği sürecinde keşfedilen bilgi veya bilgilerin teknik olmayan paydaşlar için anlaşılması kolay olmalıdır.
- Veri madenciliği keşiflerinin sevk edilmesi, bakımı ve izlenmesi için ayrıntılı bir uygulama planı oluşturulur.
- Proje sırasında edinilen bilgiler ve temel deneyimlerle nihai bir proje raporu oluşturulur. Bu, iş politikasını geliştirmeye yardımcı olur.
Veri Madenciliği Teknikleri
1. Sınıflandırma (Classification):
Bu yöntem, veriler ve meta veriler hakkında önemli ve ilgili bilgileri almak için kullanılır. Bu veri madenciliği yöntemi, farklı sınıflardaki verileri sınıflandırmaya yardımcı olur.
2. Kümeleme (Clustering):
Kümeleme yöntemi, birbirine benzeyen verileri tanımlamak için kullanılan bir veri madenciliği tekniğidir. Bu süreç veriler arasındaki farkların ve benzerliklerin anlaşılmasına yardımcı olur.
3. Regresyon (Regression):
Regresyon yöntemi, değişkenler arasındaki ilişkiyi tanımlamak ve analiz etmek için kullanılan veri madenciliği yöntemidir. Diğer değişkenlerin varlığı göz önüne alındığında, belirli bir değişkenin olasılığını tanımlamak için kullanılır.
4. Birliktelik kuralları (Association rules):
Bu veri madenciliği tekniği, iki veya daha fazla öğe arasındaki ilişkiyi bulmaya yardımcı olur. Veri kümesinde gizli bir desen keşfeder.
5. Aykırılık analizi (Outer detection):
Bu veri madenciliği tekniği, veri kümesindeki beklenen bir kalıp veya beklenen davranışla eşleşmeyen veri öğelerinin gözlemlenmesini ifade eder. Bu teknik, izinsiz giriş, algılama, sahtekarlık veya hata algılama gibi çeşitli alanlarda kullanılabilir.
6. Zaman serisi analizi (Sequential patterns):
Bu veri madenciliği tekniği, belirli bir süre için işlem verilerindeki benzer modelleri veya eğilimleri keşfetmeye ya da tanımlamaya yardımcı olur.
7. Tahmin (Prediction):
Tahmin; trendler, sıralı kalıplar, kümeleme, sınıflandırma gibi diğer veri madenciliği tekniklerinin bir kombinasyonunu kullanır. Geçmiş olayları veya örnekleri, gelecekteki bir olayı tahmin etmek için doğru bir sırayla analiz eder.
Veri Madenciliği Araçları
Endüstride yaygın olarak kullanılan 2 popüler Veri Madenciliği aracı vardır:
- R Dili
R dili, istatistiksel hesaplama ve grafik için açık kaynaklı bir araçtır. R çok çeşitli istatistiksel, klasik istatistiksel testler, zaman serisi analizi, sınıflandırma ve grafik tekniklerine sahiptir. Etkili veri aktarma ve depolama olanağı sunar.
- Oracle Data Mining
ODM olarak bilinen Oracle Data Mining, Oracle Advanced Analytics veritabanının bir modülüdür. Bu Veri Madenciliği aracı, veri analistlerinin ayrıntılı öngörüler oluşturmasına ve tahminlerde bulunmasına olanak tanır. Müşteri davranışını tahmin etmeye yardımcı olur, müşteri profilleri geliştirir, çapraz satış fırsatlarını belirler.
Veri Madenciliğinin Faydaları:
- Veri madenciliği tekniği şirketlerin bilgiye dayalı bilgi edinmelerine yardımcı olur.
- Veri madenciliği, şirketlerin işletme ve üretimde kârlı düzenlemeler yapmalarına yardımcı olur.
- Veri madenciliği, diğer istatistiksel veri uygulamalarına kıyasla düşük maliyetli ve verimli bir çözümdür.
- Veri madenciliği karar verme sürecine yardımcı olur.
- Trendlerin ve davranışların otomatik tahmininin yanı sıra gizli kalıpların otomatik keşfini kolaylaştırır.
- Mevcut sistemlerin yanı sıra yeni sistemlerde de uygulanabilir.
- Kullanıcıların çok miktarda veriyi daha kısa sürede analiz etmelerini kolaylaştıran hızlı bir süreçtir.
Veri Madenciliğinin Dezavantajları
- Şirketlerin müşterilerinin yararlı bilgilerini para karşılığında başka şirketlere satabilme şansı vardır. Örneğin, American Express müşterilerinin kredi kartı alımlarını diğer şirketlere satmıştır.
- Birçok veri madenciliği analiz yazılımının kullanımı zordur ve üzerinde çalışmak için önceden eğitim gerektirir.
- Farklı veri madenciliği araçları, tasarımlarında kullanılan farklı algoritmalar nedeniyle farklı şekillerde çalışır. Bu nedenle, doğru veri madenciliği aracının seçimi çok zor bir iştir.
- Veri madenciliği teknikleri kesin değildir ve bu nedenle belirli koşullarda ciddi sonuçlara neden olabilir.
En iyi yeteneklerin kariyer platformu toptalent.co'ya üye ol, Türkiye'nin ve dünyanın en iyi şirketlerinin iş, staj ve kariyer fırsatlarını keşfet.