Özet:
Günlük hayatın her alanında gerçekleşen dijital dönüşüm farklı problemlerin ve ihtiyaçların ortaya çıkmasına neden olmuştur. Bu dönüşüme paralel olarak artan veri çeşitliliği, verilerdeki tutarsızlık, verinin büyümesiyle verinin daha hızlı analiz edilebilmesi ihtiyaçtan ziyade bir zorunluluk haline gelmiştir. Geleneksel donanımlar ve Hadoop, Spark ve Hive gibi yazılım temelli çözümler ile büyük verilerin işlenmesi, analizi ve yönetimi sağlanmaktadır. Gelişmiş donanımların sistem kapasitesinin artırılmasına önemli katkıları vardır. Aynı şekilde, güçlü bir donanıma sahip sistemin veri tabanının tasarlanmasına ve performansına da çok büyük etkisi vardırır. GPU'ların artan veri boyutunun sorgulanmasında kullanılması büyük veriler için iyi bir alternatif olabilir. CPU yerine, çok fazla çekirdeğin ve yüksek bellek boyutu ile yüksek derecede paralelleştirme teknolojisinin kullanıldığı GPU'nun büyük veri sorgularının hızlandırılmasına olan etkileri araştırılmıştır. Bu kapsamda bellek-temelli büyük veri hesaplama yapısı olan Apache Spark ile GPU DataFrame kütüphanesi olan cuDF yapılarından yararlanılmıştır. Bu çalışmada, veri analizinde yaygın olarak kullanılan sıralama, gruplandırma ve filtreleme gibi sorguların gerçekleşme sürelerine bağlı olarak performans karşılaştırması yapılmıştır. Aynı sorgular CPU ve GPU üzerinde ayrı ayrı gerçekleştirilmiştir. Bu sorgular sonucunda, basit sorgularda Apache Spark ve GPU gerçekleşme süreleri bakımından benzer sonuçlar vermesine karşın yoğun hesaplama gerektiren birçok sorguda GPU 2x-6x arasında daha hızlı sonuç verirken, koşula dayalı filtreleme işleminde Apache Spark yaklaşık olarak 5x daha hızlı gerçekleştirmiştir.