Veri Madenciliği Nedir?

Veri madenciliği, veri noktaları arasındaki düzenlilikleri ve bağlantıları belirlemek için büyük miktarda veri üzerinde çalışan nispeten büyük miktarda hesaplama gücü kullanır. İstatistiklerden, makine öğrenmesinden ve örüntü tanıma tekniklerini kullanan algoritmalar büyük veritabanlarını otomatik olarak aramak için kullanılır. Veri madenciliği, Veritabanlarında (KDD) Bilgi Keşfi olarak da bilinir.

Yapay zeka terimi gibi, veri madenciliği, çeşitli faaliyetlere uygulanabilen bir şemsiye terimdir. İş dünyasında, veri madenciliği eğilimlerin yönünü belirlemek ve geleceği tahmin etmek için en sık kullanılıyor. İnsanlara kullanabilecekleri bilgileri veren modeller ve karar destek sistemleri oluşturmak için kullanılır. Veri madenciliği, teröre karşı mücadelede önemli bir rol oynamaktadır. Sözde 9/11 saldırılarının liderini belirlemek için kullanılıyordu.

Veri madencileri, komşu modellere , k-araç kümelemeye , bekletme yöntemine , k-kat çapraz onaylama , bir -bir-çıkış yöntemi vb. Gibi isimlere sahip teknikleri kullanan istatistikçilerdir. Regresyon teknikleri, alakasız kalıpları çıkarmak için kullanılır, sadece faydalı bilgiler bırakır. Bayesian terimi, alanda daha önce görülen olasılıkları ve olasılıkları koşullu olaylara dayalı olasılıkları birleştirerek gelecekteki olayların olasılığını öngören bir çıkarım teknikleri sınıfına atıfta bulunarak sıkça görülmektedir. İstenmeyen posta filtreleme, kaotik bir kimlik avı denemesinden ve Viagra sahalarından otomatik olarak yüzeye alakalı mesajlar getiren bir veri madenciliği biçimidir.

Karar ağaçları veri dağlarını filtrelemek için kullanılır. Bir karar ağacında, tüm veriler, özelliklerine bağlı olarak verileri akışlara ayıran bir filtreyle karşılaştığı bir giriş düğümünden geçer. Örneğin, tüketici davranışları ile ilgili verilerin demografik faktörlere göre filtrelenmesi olasıdır. Veri madenciliği temel olarak fantezi grafikler ve görselleştirme teknikleri ile ilgili değildir, ancak ne bulduğunu göstermek için bunları kullanır. Sözlü olarak görsel olarak daha fazla istatistiki bilgiyi özümseyebileceğimiz bilinmektedir ve bu sunum formatı, doğru bağlamda kullanıldığında çok ikna edici ve güçlü olabilir.

Uygarlığımız gittikçe artan bir şekilde veri doygunluğa ulaştığında ve sensörler yerel ortamlarımızda topluca dağıldıkça, ilk seferde kaçırılabilecek şeyleri istemeden keşfedeceğiz. Veri madenciliği bu hataları düzeltmemize ve geçmiş verilere dayanarak yeni bilgiler keşfetmemize izin verecek ve bu da veri depolama alanımız için bize daha fazla fayda sağlayacaktır.