Odległość Mahalanobisa

Odległość Mahalanobisa – odległość między dwoma punktami w wielowymiarowej przestrzeni różnicująca wkład poszczególnych składowych współrzędnych punktów oraz wykorzystująca korelacje między nimi. Znajduje ona zastosowanie w statystyce, przy wyznaczaniu podobieństwa między nieznanym wektorem losowym a wektorem ze znanego zbioru. Zdefiniowana przez Prasantę Chandrę Mahalanobisa w 1936 roku.

Definicja

Dane mamy 2 wektory losowe x = [ x 1 , x 2 , , x n ] , {\displaystyle \mathbf {x} =[x_{1},x_{2},\dots ,x_{n}],} y = [ y 1 , y 2 , , y n ] {\displaystyle \mathbf {y} =[y_{1},y_{2},\dots ,y_{n}]} w przestrzeni R n , {\displaystyle \mathbb {R} ^{n},} oraz pewną symetryczną, dodatnio określoną macierz C . {\displaystyle C.} Odległość Mahalanobisa zdefiniowana jest jako:

d m ( x , y ) := ( x y ) T C 1 ( x y ) {\displaystyle d_{m}(\mathbf {x} ,\mathbf {y} ):={\sqrt {(\mathbf {x} -\mathbf {y} )^{T}C^{-1}(\mathbf {x} -\mathbf {y} )}}}

Interpretacja

Odległość Mahalanobisa stosuje się w analizie skupień. Mając dany zbiór punktów tworzących pewną klasę, możemy wyznaczyć dla niego wektor średni μ = [ μ 1 , μ 2 , , μ n ] {\displaystyle {\boldsymbol {\mu }}=[\mu _{1},\mu _{2},\dots ,\mu _{n}]} oraz macierz kowariancji C , {\displaystyle C,} które odzwierciedlają pewien charakter tej klasy. Badając przynależność nieznanego wektora losowego x {\displaystyle \mathbf {x} } do danej klasy, mierzy się jego podobieństwo do wektora μ , {\displaystyle {\boldsymbol {\mu }},} uwzględniając przy tym informację o wariancjach poszczególnych składowych oraz korelacjach między nimi. Miarą takiego podobieństwa jest odległość Mahalanobisa, nazywana ważoną odległością euklidesową, przy czym macierzą wag jest C 1 . {\displaystyle C^{-1}.}

Rozważmy trzy przypadki różnych zbiorów danych:

Przypadek 1

Poszczególne składowe w zbiorze mają równe wariancje (można przyjąć, że są one równe 1) i nie są skorelowane. Wówczas macierz kowariancji C {\displaystyle C} jest macierzą jednostkową, a odległość Mahalanobisa jest równa odległości euklidesowej:

d m ( x , μ ) = ( x 1 μ 1 ) 2 + + ( x n μ n ) 2 = ( x μ ) I 1 ( x μ ) T {\displaystyle {\begin{aligned}d_{m}(\mathbf {x} ,{\boldsymbol {\mu }})&={\sqrt {(x_{1}-\mu _{1})^{2}+\ldots +(x_{n}-\mu _{n})^{2}}}\\&={\sqrt {(\mathbf {x} -{\boldsymbol {\mu }})\mathbb {I} ^{-1}(\mathbf {x} -{\boldsymbol {\mu }})^{T}}}\end{aligned}}}

Punkty o identycznej odległości od pewnego danego punktu centralnego tworzą na płaszczyźnie okrąg, a w przestrzeni o trzech lub więcej wymiarach odpowiednio sferę i hipersferę.

Przypadek 2

Składowe x 1 , x 2 , , x n {\displaystyle x_{1},x_{2},\dots ,x_{n}} wektora losowego x {\displaystyle \mathbf {x} } nie są skorelowane, lecz mają różne wariancje: σ 1 2 , σ 2 2 , , σ n 2 . {\displaystyle \sigma _{1}^{2},\sigma _{2}^{2},\dots ,\sigma _{n}^{2}.} Aby znormalizować poszczególne składowe należy je podzielić przez odpowiadające im wariancje:

d m ( x , μ ) = ( x 1 μ 1 ) 2 σ 1 2 + + ( x n μ n ) 2 σ n 2 = ( x μ ) D 1 ( x μ ) T {\displaystyle {\begin{aligned}d_{m}(\mathbf {x} ,{\boldsymbol {\mu }})&={\sqrt {{\frac {(x_{1}-\mu _{1})^{2}}{\sigma _{1}^{2}}}+\ldots +{\frac {(x_{n}-\mu _{n})^{2}}{\sigma _{n}^{2}}}}}\\&={\sqrt {(\mathbf {x} -{\boldsymbol {\mu }})D^{-1}(\mathbf {x} -{\boldsymbol {\mu }})^{T}}}\end{aligned}}}

gdzie D {\displaystyle D} jest macierzą diagonalną d i a g ( σ 1 2 , σ 2 2 , , σ n 2 ) . {\displaystyle \mathrm {diag} (\sigma _{1}^{2},\sigma _{2}^{2},\dots ,\sigma _{n}^{2}).}

Punkty o identycznej odległości tworzą na płaszczyźnie elipsę, a w przestrzeni trójwymiarowej elipsoidę, przy czym osie utworzonej figury są równoległe do osi układu współrzędnych.

Przypadek 3

Składowe mają różne wariancje i są skorelowane: σ i j 2 > 0 ,     1 i , j n . {\displaystyle \sigma _{ij}^{2}>0,\ \ 1\leqslant i,j\leqslant n.} Odpowiada to pełnej macierzy kowariancji C , {\displaystyle C,} a utworzona przez punkty o tej samej odległości elipsa jest obrócona o pewien kąt względem osi układu współrzędnych. Obrót ten jest dany przez macierz wektorów własnych macierzy C 1 , {\displaystyle C\,^{-1},} zaś długości półosi hiper-elipsoidy są określone przez odwrotności pierwiastków kwadratowych jej wartości własnych 1 λ 1 , , 1 λ n , . {\displaystyle {\frac {1}{\sqrt {\lambda _{1}}}},\dots ,{\frac {1}{\sqrt {\lambda _{n}}}},.}

Wartości własne spełniają równanie charakterystyczne, które w ogólności dla macierzy symetrycznej kwadratowej rozmiaru [ n {\displaystyle n} x n {\displaystyle n} ] sprowadza się do poszukiwania pierwiastków wielomianu n {\displaystyle n} tego stopnia.

Zastosowania

  • Kwadrat odległości Mahalanobisa występuje w wykładniku wielowymiarowego rozkładu Gaussa.
  • W zagadnieniach grupowania danych, np. klasteryzacji rozmytej, odległość Mahalanobisa wykorzystana jest do określania kształtu grupy (klastra). Przykładem jest algorytm GK[1] (Gustaffsona-Kessela).

Przypisy

  1. D.E. Gustafson, W.C. Kessel, Fuzzy clustering with a fuzzy covariance matrix, IEEE Conference on Decision and Control including the 17th Symposium on Adaptive Processes, 1978, 17, s. 761–766.
Encyklopedia internetowa (pojęcie matematyczne):