Çok Değişkenli Aykırı Değer Tespiti için Klasik ve Dayanıklı Mahalanobis Uzaklık Ölçütleri: Finansal Veri ile Bir Uygulama


Esen M. F. , Timor M.

Uluslararası İktisadi ve İdari İncelemeler Dergisi, ss.267-282, 2019 (Hakemli Üniversite Dergisi)

  • Basım Tarihi: 2019
  • Doi Numarası: 10.18092/ulikidince.579570
  • Dergi Adı: Uluslararası İktisadi ve İdari İncelemeler Dergisi
  • Sayfa Sayıları: ss.267-282

Özet

Çok değişkenli veri setlerinde aykırı değerlerin varlığı anakütle parametre tahminini zorlaştırmakta ve hata varyansını arttırarak kullanılan istatistiki testin gücünü azaltmaktadır. Bu durum, değişkenlerin eşit varyansa ve çok değişkenli normal dağılıma sahip olduğu varsayımlarından sapmalara sebep olmaktadır. Çok değişkenli aykırı değer tespitinde kullanılan tekniklerden biri olan Mahalanobis uzaklığı, aykırı değişkenlere karşı hassas ölçütler olan çok değişkenli ortalamalar ve kovaryans matrisine dayalı olarak hesaplanmakta; çok değişkenli veri setlerinde aykırı gözlemlerin tespitinin engellenmesi veya normal gözlemlerin aykırı gözlem olarak tespit edilmesi problemlerine karşı dayanıklı ölçütlerle de kullanılmaktadır. Bu çalışmada, çok değişkenli aykırı değer tespitinde kullanılan klasik ve dayanıklı Mahalanobis ölçütlerinin aykırı gözlem tespitlerinin karşılaştırılması amaçlanmıştır. Uygulama verisi olarak, Ocak 2013 – Aralık 2017 döneminde New York ve NASDAQ borsasında yatırımcılar tarafından gerçekleştirilen 1.239.507 adet hisse senedi alım ve satım işlemi kullanılmıştır. Aykırı işlemlerin tespitinde miktar ve hacim değişkenleri ele alınarak, her bir işlem için klasik ve dayanıklı ölçütlere dayalı uzaklık skorları hesaplanarak, söz konusu teknikler karşılaştırılmıştır. Çalışma sonucunda, klasik Mahalanobis ölçütü ve En Küçük Hacimli Elipsoid ile tespit edilemeyen maskelenmiş aykırı gözlemlerin, Hızlı Minimum Kovaryans Determinant yöntemiyle tespit edilmiş olduğu; söz konusu yöntemin finans uygulama alanında çok değişkenli veri setlerinde aykırı gözlemlerin tespiti için kullanılabilecek etkin bir veri madenciliği yöntemi olduğu sonucuna ulaşılmıştır. 

The existence of outliers in multivariate data sets contaminates the parameter estimations and reduces the power of the statistical test by increasing the variance of the errors. This situation leads to deviations from the assumptions that the variables have equal variance and multivariate normal distribution. Mahalanobis distance is one of the techniques frequently used in multivariate outliers and it is calculated on the basis of multivariate location and covariance matrix, which are sensitive measures against outliers. In addition, due to the problems such as misidentification of a normal observation as an outlier and the presence of masking of an outlier, robust measures have been used. In this study, it is aimed to compare the performance of classical and robust Mahalanobis measures. 1.239.507 stock transactions executed by investors between the periods of January 2013 - December 2017 in New York Stock Exchange and NASDAQ are used for analysis. In order to determine outlying transactions, volume and value of trade have been analysed. Mahalanobis distances based on classical and robust measures have been calculated for each transaction and the measures are compared. As a result, the masked observations which cannot be detected by classical and robust Minimum Volume Ellipsoid measures, have been detected as outlying by Fast - Minimum Covariance Determinant (Fast MCD) measure. It has been concluded that Fast MCD can be used as an efficient estimator of multivariate location and scatter in presence of masked data for multivariate datasets in financial applications.