Özet:
Bu çalışma, veri ambarına alınan kaynak veriler üzerinden anomali tespiti için bazı öneriler sunmaktadır. Kirli ve gürültü verilerin veri ambarına girişinin engellenmesi için bazı yapay zekâ algoritmalarının testleriyle bilgi verilmeye çalışılmıştır. Veri ambarında temiz ve sağlıklı verilerin bulunması, veri bilimi çalışmaları gibi alanlar için oldukça faydalıdır. Günümüzde yaşanan çip krizi, fiziksel makinelerde tasarrufun önemini artırmıştır. Bu bağlamda, sunulan yaklaşımın fiziksel makinelerde tasarruf sağlama potansiyeli bulunmaktadır. LSTM, Isolation Forest, Local Outlier Factor ve SVM algoritmaları test edilmiştir. LSTM algoritmasının büyük verilerde zamansal olarak dezavantajlı olabileceği düşüncesiyle Local Outlier Factor ve SVM algoritmaları da değerlendirmeye dahil edilmiştir. Isolation Forest, LSTM, Local Outlier Factor ve SVM algoritmaları arasında çalışma yapılmıştır. Ancak, algoritmaların her birinin farklı anomalileri tespit ettiği gözlemlenmiştir, bu da anomali tespiti problemlerinde "tek en iyi algoritma" yaklaşımının yetersiz olduğunu ortaya koymaktadır. Sonuç olarak, algoritmaların hibrit bir ensemble modeli olarak entegrasyonu, çeşitli algoritmaların güçlü yönlerinden faydalanarak ve zayıf yönlerini dengelerken, performansın artırılması yönünde önemli bir potansiyel taşımaktadır. Bu yaklaşımın uygulanabilirliği ve etkinliği, daha geniş veri kümeleri üzerindeki kapsamlı deneylerle doğrulanmalı ve belirli uygulama senaryolarına göre maliyet-fayda analizi ile değerlendirilmelidir.