Bilgi veya veri keşfi olarak da bilinen istatistik veri madenciliği, bilgisayarlı bilgi toplama ve analiz etme yöntemidir. Veri madenciliği aracı, verileri alır ve tıp, bilgisayar programlama, iş tanıtımı ve robotik tasarım gibi önemli uygulamalarda kullanılabilecek kalıpları veya korelasyonları keşfetmek için bilgileri sınıflandırır. İstatistiksel veri madenciliği teknikleri, analiz oluşturmak için karmaşık matematik ve karmaşık istatistiksel işlemler kullanır.
Veri madenciliği beş önemli adımdan oluşmaktadır. İlk veri madenciliği uygulaması istatistiksel verileri toplar ve bilgileri bir depo tipi programa yerleştirir. Daha sonra depodaki veriler düzenlenir ve bir yönetim sistemi yaratır. Bir sonraki adım, yönetilen verilere erişmek için bir yol oluşturur. Ardından dördüncü adım, veri madenciliği regresyonu olarak da bilinen verileri analiz etmek için bir yazılım geliştirirken, son adım, istatistiksel verilerin pratik bir şekilde kullanılmasını veya yorumlanmasını kolaylaştırır.
Genel olarak, veri madenciliği teknikleri analitik ve işlem veri sistemlerini bütünleştirir. Analitik yazılım, açık uçlu kullanıcı sorularını kullanarak her iki veri sistemi türünde de sıralar. Açık uçlu sorular sayısız cevap verir, böylece programcılar sıralama sonuçlarını etkilemez. Programcılar, genel bir odaklanma kullanarak bilgileri kategorilere ayırmaya yardımcı olacak soru listeleri oluşturur.
Sıralama daha sonra gelişmekte olan sınıfları ve veri kümelerini, veride bulunan ilişkilendirmeleri ve ilişkilere dayalı modelleri ve eğilimleri tanımlamaya çalışır. Örneğin, Google, çevrimiçi reklam yerleştirmeye yardımcı olmak için kullanıcıların satın alma alışkanlıkları hakkında bilgi toplar. Bu alıcı verilerini sıralamak için kullanılan açık uçlu sorular, satın alma tercihlerine veya İnternet kullanıcılarının alışkanlıklarına bakmaya odaklanır.
Bilgisayar bilimciler ve programcılar, toplanan istatistiksel verilerin analizine odaklanmaktadır. Karar ağaçları, yapay sinir ağları, en yakın komşu metodu, kural indüksiyonu, veri görselleştirmesi ve genetik algoritmaların yaratılması istatistiksel olarak mayınlı verileri kullanır. Bu sınıflandırma sistemleri, analitik veri programları tarafından keşfedilen ilişkilerin yorumlanmasına yardımcı olur. İstatistiksel veri madenciliği, bir ev bilgisayarında küçük çapta yapılabilecek küçük projeler içerir, ancak çoğu veri madenciliği derneği kümeleri o kadar büyüktür ve veri madenciliği regresyonu, bir süper bilgisayar veya yüksek hızlı bilgisayar ağı gerektirecek kadar karmaşıktır.
İstatistiksel veri madenciliği, operasyonel veriler, operasyonel olmayan veriler ve meta veriler dahil olmak üzere üç genel veri türünü toplar. Bir giyim mağazasında, operasyonel veriler muhasebe, satış ve stok kontrolü gibi işletmeyi yürütmek için kullanılan temel verilerdir. İşletme ile dolaylı olarak ilgili olan operasyonel olmayan veriler, gelecekteki satışların tahminlerini ve ulusal giyim pazarı hakkında genel bilgileri içerir. Meta veri verinin kendisi ile ilgilidir. Meta verileri kullanan bir program, mağaza verilerini, alıcıların cinsiyetine veya coğrafi konumuna veya bu veriler toplandığında müşterilerin favori rengine göre sınıflandırabilir.
Bir veri madenciliği uygulaması son derece karmaşık olabilir ve istatistiksel veri madenciliği aracı yaygın pratik uygulamalara sahip olabilir. Hastalık salgınlarının incelenmesi buna bir örnektir. Bir 2000 veri madenciliği projesi, hastalık vakalarındaki artışın nedenlerini belirlemek için Ontario, Kanada'daki cryptosporidium hastalığının salgınını analiz etti. Veri madenciliğinin sonuçları, bakteri salgınını yerel su koşullarına ve uygun belediye su arıtmasının eksikliğine bağlamaya yardımcı olmuştur. "Biyolojik gözetim" olarak adlandırılan bir alan, tek bir hastalığın salgınlarını belirlemek için epidemiyolojik veri madenciliğini kullanır.
Bilgisayar programcıları ve tasarımcıları ayrıca makineler ve bilgisayar programları geliştirmek için olasılık ve istatistiksel veri analizi çalışmalarını kullanır. Google İnternet arama motoru, istatistiksel veri madenciliği kullanılarak tasarlanmıştır. Google, program güncellemeleri ve uygulamaları oluşturmak için veri madenciliğini toplamaya ve kullanmaya devam ediyor.


