Co to jest krzywa ROC i jak ją interpretować?

Wstęp

Krzywa ROC (Receiver Operating Characteristic curve) to jeden z narzędzi stosowanych w analizie klasyfikatorów. Jest to wykres zależności między czułością (true positive rate) a specyficznością (true negative rate) klasyfikatora w różnych punktach progowych. Krzywa ROC jest szeroko stosowana w dziedzinach takich jak medycyna, psychologia, biologia czy informatyka.

Budowa krzywej ROC

Do zbudowania krzywej ROC potrzebne są wyniki klasyfikacji oraz informacja o prawdziwej klasie każdego obiektu w zbiorze testowym. Wynik klasyfikacji zwykle jest liczbą rzeczywistą z przedziału [0,1], która oznacza prawdopodobieństwo przynależności do klasy pozytywnej. W porównaniu z progiem decyzyjnym (threshold) obliczane są wartości czułości i specyficzności dla danego klasyfikatora. Następnie na wykresie przedstawia się zależność między czułością a specyficznością.

Interpretacja krzywej ROC

Im wykres krzywej ROC bliżej leży do górnego lewego rogu, tym lepszy jest klasyfikator. W tym przypadku czułość i specyficzność są wysokie. Natomiast im bliżej punktu (0,1), tym gorszy jest klasyfikator, co oznacza niską czułość i wysoką specyficzność. Klasyfikator o wartości AUC (Area Under the Curve) równą 0.5 to klasyfikator losowy, dla wartości powyżej 0.5 klasyfikator jest skuteczniejszy niż losowy, a dla wartości poniżej 0.5 klasyfikator jest skuteczniejszy w odwrotnym kierunku.

Zastosowanie krzywej ROC

Krzywa ROC jest szczególnie przydatna w sytuacjach, gdy ważniejsze jest uniknięcie fałszywie negatywnej diagnozy niż fałszywie pozytywnej. Przykładem może być badanie na obecność choroby. W takim przypadku bardziej istotna jest wykrycie choroby u osób, które nią faktycznie są chore, nawet jeśli okaże się, że wśród nich znajduje się też kilka osób zdrowych, niż potwierdzenie choroby u tych, którzy są zdrowi, pomimo że wśród nich nie ma fałszywie negatywnych przypadków. Krzywa ROC pozwala na oszacowanie skuteczności klasyfikatora w takiej sytuacji.

Przykład zastosowania

Przykładem zastosowania krzywej ROC może być badanie diagnostyczne testujące obecność przeciwciał przeciwko wirusowi HIV. W takiej sytuacji wśród osób testowanych mogą występować zarówno osoby, które są rzeczywiście zakażone, jak i osoby, które nie są zakażone. W przypadku tego testu ważniejsze jest, aby nie przegapić zakażenia u osób, które nim faktycznie są, nawet jeśli okaże się, że wśród nich znajduje się też kilka osób, które nie są zakażone.

W wyniku testu otrzymuje się wynik, który wskazuje na obecność lub brak przeciwciał przeciwko wirusowi. Następnie porównuje się wyniki testu z rzeczywistym stanem pacjenta. Dla różnych wartości progowych testu oblicza się wartości czułości i specyficzności oraz nanosi się punkty na wykres krzywej ROC. Im wykres bliżej punktu (1,1), tym lepszy jest test, natomiast im bliżej punktu (0,1), tym gorszy jest test.

Podsumowanie

Krzywa ROC to narzędzie stosowane w analizie klasyfikatorów, które pozwala na ocenę skuteczności klasyfikacji w sytuacjach, gdzie ważniejsza jest uniknięcie fałszywie negatywnych przypadków niż fałszywie pozytywnych. Krzywa ROC składa się z zależności między czułością a specyficznością w różnych punktach progowych klasyfikatora. Im krzywa bliżej leży do górnego lewego rogu, tym skuteczniejszy jest klasyfikator. Krzywa ROC znajduje zastosowanie w szerokiej gamie dziedzin, w tym medycynie, biologii, psychologii czy informatyce.