Abstract:
Web teknolojilerinde yaşanan gelişmeler, çevrimiçi ortamda işlenmiş/işlenmemiş büyük miktarda veri birikmesine neden olmuştur. Biriken bu veri yığınları arasında kullanıcıların, ihtiyaç duyduğu bilgiye erişiminde problemler yaşanabilmektedir. Çevrimiçi ortamda, bilgiye erişimde yaşanan sorunların çözümünde, kullanıcıların gerçek zamanlı sorgulamasına ihtiyaç duymadan kullanıcının gözlemlenen geçmiş davranışlarını dikkate alarak kişileştirilmiş öğeler önermeyi amaçlayan bir filtreleme tekniği olan tavsiye sistemleri uygulanabilir. Tavsiye sistemi uygulamalarında, geleneksel yöntemlerden içerik bazlı ve işbirlikçi filtreleme yöntemleri sıklıkla kullanılmaktadır. Bununla birlikte doğrusal/doğrusal olmayan problemlerin çözümünde başarılı sonuçlar üreten ve veri kümelerinde gizli kalan bilginin keşfedilmesinde önemli bir yaklaşım olan yapay zeka teknolojilerinden makine öğrenme teknolojisi potansiyel bir çözüm tekniği olarak dikkat çekmektedir. Bu çalışmada, denetimli makine öğrenmesi tekniklerinden derin sinir ağları, geleneksel makine öğrenme algoritmaları, geleneksel tavsiye sistemi uygulamalarından içerik, işbirlikçi filtreleme teknikleri ile film/kitap derecelendirme uygulaması geliştirilmiştir. Çalışma kapsamında derin sinir ağları ile önerilen uygulamada tekrarlayan sinir ağları (recurrent neural networks - RNN) ve türevleri, ek özellik vektörlerinin yoğun kullanımı, artık ağlarla geliştirilen RS-DSINet modeli ve RNN mimarileriyle geliştirilen hibrit modeller kullanılmıştır. Geleneksel makine öğrenme algoritmalarından karar ağaçları (decision tree - DT), rastgele orman (random forest - RF), olasılıksal dereceli azalma (stochastic gradient descent - SGD), destek vektör makinesi (support vector machine - SVM), K-en yakın komşuluk (K-nearest neighbors - KNN) kullanılmıştır. Deneysel süreçte önerilen yöntemlerin analizinde MovieLens 10M, MovieLens 20M, FilmTV movies, IMDb movies extensive ve Goodbooks-10K veri kümeleri kullanılmıştır. Ampirik sonuçların değerlendirmesinde ortalama mutlak hata (mean absolute error - MAE), ortalama hata karesi (mean squared error - MSE), ortalama karekök sapması (root mean square error - RMSE) ve ortanca mutlak hata (median absolute error - MdAE) hata ölçüm metriklerinden yararlanılmıştır. MovieLens 10M veri setiyle gerçekleştirilen deneysel analizde RS-DSINet + SimpleRNN modeli 0.3663 MAE hata metriği ile başarılı sonuç üretmiştir. Tez kapsamında, deneysel sonuçlardan elde edilen bulgulardan yararlanılarak önerilen RS-DSINet derin öğrenme modeli film/kitap derecelendirme uygulamalarında tatmin edici sonuçlar ürettiği gözlemlenmiştir. RS-DSINet modeli derin sinir ağlarında yaşanan güncel sorunlardan aşırı öğrenme, eksik öğrenme, gradyan kaybolması probleminin çözümünde yeni bir bakış açısı getirebilir, mimarinin geliştirilebilir pratikte ve ekonomik yapısı dolayısıyla veri bilimcilerine fayda sağlayabilir.