dc.description.abstract |
Günümüzde mikro-dizilim veri setleri hastalık teşhisine önemli katkılar sağlamaktadır. Mikro-dizilim veri setlerini, makina öğrenme algoritmaları ile anlamlandırmak hasta sayısının azlığı gen sayısının fazlalığından ötürü oldukça çok zordur. Bu açıdan bakıldığında gen analizinde öznitelik seçme algoritmaları çok önemli bir işlem adımıdır. Literatürde genel olarak öznitelik seçme algoritmaları filtre, sarmal ve gömülü modeller olmak üzere 3 ana başlıkta incelenmektedir. Mikro-dizilim veri analizi için kullanılabilecek metotlar incelendiğinde; filtre modelli öznitelik seçme algoritmaları hızlı olmasına karşın her zaman istenilen başarı oranını sağlayamamaktadır, diğer taraftan sarmal modelli öznitelik seçme algoritmaları ise başarılı sonuçlar vermesine rağmen yavaş sonuçlar vermesi kullanım zorluğu yaşatmaktadır. Bahsedilen dezavantajları ortadan kaldırmak amacıyla bu tez çalışmasında filtre modelli öznitelik seçme algoritmalarının hızını, sarmal modelli öznitelik seçme algoritmalarının başarılı sonuçlarını harmanlayan hibrit bir öznitelik seçme algoritması önerilmiştir. Önerilen metodun filtre kısmında Ki-Kare, ReliefF ve F-Skor olmak üzere 3 farklı filtre modelli öznitelik seçme algoritması kullanıldı ve bu sonuçlar kombine edilerek genetik algoritmaya gönderildi. Genetik algoritma, filtrelenmiş veri setinin içinden en ideal veri setini seçmektedir. Seçilen final veri seti k-en yakın komşuluk (k-EK) sınıflandırma algoritması uygulanarak birini dışarıda bırak çapraz doğrulama (BDBÇD) ile değerlendirilmektedir. Önerilen metodun (CFR-GA) sınıflandırma başarı oranı, öznitelik seçme işlemi yapılmamış 7 sınıflandırma, 2 filtre modelli öznitelik seçme, 2 sarmal modelli öznitelik seçme ve 2 hibrit modelli öznitelik seçme algoritmaları ile kıyaslanmıştır. Deneysel sonuçlar, önerilen metodun kıyaslanan metotlara önemli ölçüde iyileştirmeler yaptığını göstermektedir. |
en_US |