Najlepsze 10 algorytmów w eksploracji danych

Eksploracja danych osiąga ważne wnioski dzięki dużej ilości skomplikowanych obserwacji.

Drzewa decyzyjne

Algorytmy drzewa decyzyjnego polegają na uporządkowaniu danych w konkurujących wyborach, tworzących oddziały wpływu po wstępnej decyzji. Pień drzewa reprezentuje początkową decyzję i zaczyna się od pytania "tak" lub "nie", jak zjeść śniadanie lub nie. Biorąc śniadanie i nie jedząc śniadanie, byłyby to dwie rozbieżne gałęzie drzewa, a każdy kolejny wybór miałby własne rozbieżne gałęzie, które prowadzą do punktu końcowego.

Algorytm K-średnich

Algorytm K-średnich opiera się na analizie grup. Spróbuj podzielić zebrane dane na osobne "klastry" pogrupowane według wspólnych cech.

Maszyny wektorowe wspierające

Algorytmy maszyn wektorów pomocniczych pobierają dane wejściowe i przewidują, które z dwóch możliwych kategorii obejmują dane wejściowe. Przykładem może być zbieranie kodów pocztowych od grupy wyborców i spekulacje, czy wyborca jest demokratą, czy republikaninem.

Algorytm a priori

Algorytm a priori zwykle kontroluje dane transakcji. Na przykład w sklepie odzieżowym algorytm może kontrolować, które koszule zwykle kupują razem.

Algorytm EM

Algorytm ten definiuje parametry, analizując dane i przewidując możliwość przyszłego wyjściowego lub losowego zdarzenia w parametrach danych. Na przykład algorytm EM może spróbować przewidzieć czas następnej erupcji gejzeru na podstawie danych o czasie poprzednich erupcji.

Algorytm PageRank

Algorytm PageRank jest podstawowym algorytmem dla wyszukiwarek. Oceniaj i oceniaj przydatność danej części danych w dużym zestawie, takim jak pojedyncza witryna internetowa w większym zestawie wszystkich stron internetowych.

AdaBoost Algorithm

Algorytm AdaBoost działa w ramach innych algorytmów uczenia się, które przewidują zachowanie zgodnie z obserwowanymi danymi, dzięki czemu są wrażliwe na ekstremalne statystyki. Chociaż algorytm EM może być obciążony ze względu na gejzer, który ma dwie erupcje w czasie krótszym niż jedna minuta, gdy zwykle ma wysypkę raz dziennie, algorytm AdaBoost zmodyfikowałby wyjściowy algorytm EM poprzez analizę istotności punktu końcowego.

Algorytm najbliższego sąsiada

Algorytm rozpoznaje wzorce w lokalizacji danych i kojarzy je z danymi o większym identyfikatorze. Na przykład, jeśli chcesz przypisać urząd pocztowy do każdej lokalizacji geograficznej domu i masz zestaw danych dla każdej lokalizacji geograficznej domu, algorytm najbliższego sąsiada przypisze domy do najbliższego urzędu pocztowego na podstawie ich bliskości.

Naive Baye

Algorytm Naive Baye przewiduje wyjście tożsamości na podstawie danych ze znanych obserwacji. Na przykład, jeśli dana osoba ma wysokość 6 stóp 6 cali (1, 97 m) i nosi rozmiar 14 butów, algorytm Naive Baye może przewidzieć z pewnym prawdopodobieństwem, że dana osoba jest mężczyzną.

Algorytm CART

"CART" jest akronimem w języku angielskim oznaczającym analizę i klasyfikację drzewa regresji. Podobnie jak analiza drzew decyzyjnych, organizuje dane według konkurencyjnych opcji, tak jakby osoba przeżyła trzęsienie ziemi. W przeciwieństwie do algorytmów drzew decyzyjnych, które mogą jedynie klasyfikować dane wyjściowe lub dane liczbowe w oparciu o regresję, algorytm CART może wykorzystać zarówno do przewidywania prawdopodobieństwa zdarzenia.