Outlier (Aykırı Gözlem) Nedir?

5Zor...WSU6
4 Jan 2024
122


Bir veri analizi projesinde ana hedeflerden biri veriden tutarlı çıkarımlar yapabilmektir. Veri ön işleme aşamasında veriden sağlıklı çıkarımlar yapabilmeyi engelleyen değerlerden birisi de outlier(aykırı) değerlerdir.

Peki nedir bu outlier değer?

Verideki genel eğilimin oldukça dışına çıkan ya da diğer gözlemlerden oldukça farklı olan
gözlemlere outlier denir. Aykırı değerlere sahip veri setleri görüşünüzü bulanıklaştırır ve yapılan çıkarımların kalitesini etkiler. Bu nedenle, herhangi bir analize başlamadan önce veri setinizde varsa mutlaka tespit etmeli ve gerekli işlemler yapılmalıdır.

Diyelim ki bir mağazada satış ekibi müdürüsünüz ve aylık satış hedefi koymanız gerekiyor, satış rakamlarına baktığınızda; Ali :5000 - Hasan: 4000 - Ayşe: 3000 - Fatma: 12000 parça satış yapmış sonucuyla karşılaşıyorsunuz. Bu rakamlardan yola çıkıp bu değerlerin ortalamasını alarak 6000 satış hedefi koyarsanız sorunla karşılaşırsınız çünkü Fatma hariç kimse 6000 değerinin üzerine çıkamamış. Bu veri setinde Fatma outlier değerdir.

Yazıya devam etmeden önce her outlier değerin hata olmadığınının altını çizmek istiyorum. Bazı durumlarda, aykırı gözlemler, veri setindeki yüksek varyansın habercisidir.

Birden fazla aykırı değer türü vardır. Peki nedir bunlar?

Pointer Outlier (Nokta Aykırı Değer): Bir değerin veri setinin geri kalanından farklı olduğu durumlardır.
Örnek: Bir takımda oyuncuların boyunun ortalaması 175 cm iken bir oyuncunun 190 cm olması.
Contextual Outlier (Bağlamsal Aykırı Değer): Bir gözlemin belirli bir bağlam olarak veri setinin geri kalanından farklı olduğu durumlara denir.
Örnek: İndirim dönemlerinde satışların çok yüksek olması.
Collective Outlier (Toplu Aykırı Değer): Veri setindeki bir grup verinin kendi içinde benzer, tüm veri seti ile kıyaslandığında aykırı olarak göründüğü durumlara denir.
Örnek: Bir semtteki tüm evlerin fiyat ortalamasının 3 milyon lira civarında olup tehlikeli olan mahallede fiyatların 1 milyon lira ortalaması olmasıdır.


Aykırı değerler tespit edildikten sonraki adım, bu değerlerle ilgili yapılacak işlem olmalıdır.
Bu değerleri silebiliriz fakat veri kaybetmekten olabildiğince kaçındığımız durumlar olabilir bu yüzden bir hatadan kaynaklandığını düşünmediğimiz aykırı değerleri silmiyoruz. Bunun için outlier değerlerin veri seti üzerindeki etkisini minimize etmek için veri dönüşüm işlemlerini inceleyebiliriz.
Veri dönüşümlerinin nasıl yapıldığına örnek olarak aşağıdaki videoyu izleyebilirsiniz.


Sonuç olarak outlier değerler keşifçi veri analizi ve veri temizleme işlemleri yapılırken fark edilip belirlenmeli ve performansa etki ediyorsa uygun yöntemlerden biri ile müdahale edilmelidir.

Okuduğunuz için teşekkür ederim react ve yorumlarınızı bekliyorum. Hala öğrendiğim bir konu olduğu için hatalı veya eksik olduğum bir nokta varsa yorumlarda belirtirseniz sevinirim:).




Get fast shipping, movies & more with Amazon Prime

Start free trial

Enjoy this blog? Subscribe to raredegen

19 Comments