Najlepsze 10 algorytmów w eksploracji danych
Drzewa decyzyjne
Algorytmy drzewa decyzyjnego polegają na uporządkowaniu danych w konkurujących wyborach, tworzących oddziały wpływu po wstępnej decyzji. Pień drzewa reprezentuje początkową decyzję i zaczyna się od pytania "tak" lub "nie", jak zjeść śniadanie lub nie. Biorąc śniadanie i nie jedząc śniadanie, byłyby to dwie rozbieżne gałęzie drzewa, a każdy kolejny wybór miałby własne rozbieżne gałęzie, które prowadzą do punktu końcowego.
Algorytm K-średnich
Algorytm K-średnich opiera się na analizie grup. Spróbuj podzielić zebrane dane na osobne "klastry" pogrupowane według wspólnych cech.
Maszyny wektorowe wspierające
Algorytmy maszyn wektorów pomocniczych pobierają dane wejściowe i przewidują, które z dwóch możliwych kategorii obejmują dane wejściowe. Przykładem może być zbieranie kodów pocztowych od grupy wyborców i spekulacje, czy wyborca jest demokratą, czy republikaninem.
Algorytm a priori
Algorytm a priori zwykle kontroluje dane transakcji. Na przykład w sklepie odzieżowym algorytm może kontrolować, które koszule zwykle kupują razem.
Algorytm EM
Algorytm ten definiuje parametry, analizując dane i przewidując możliwość przyszłego wyjściowego lub losowego zdarzenia w parametrach danych. Na przykład algorytm EM może spróbować przewidzieć czas następnej erupcji gejzeru na podstawie danych o czasie poprzednich erupcji.
Algorytm PageRank
Algorytm PageRank jest podstawowym algorytmem dla wyszukiwarek. Oceniaj i oceniaj przydatność danej części danych w dużym zestawie, takim jak pojedyncza witryna internetowa w większym zestawie wszystkich stron internetowych.
AdaBoost Algorithm
Algorytm AdaBoost działa w ramach innych algorytmów uczenia się, które przewidują zachowanie zgodnie z obserwowanymi danymi, dzięki czemu są wrażliwe na ekstremalne statystyki. Chociaż algorytm EM może być obciążony ze względu na gejzer, który ma dwie erupcje w czasie krótszym niż jedna minuta, gdy zwykle ma wysypkę raz dziennie, algorytm AdaBoost zmodyfikowałby wyjściowy algorytm EM poprzez analizę istotności punktu końcowego.
Algorytm najbliższego sąsiada
Algorytm rozpoznaje wzorce w lokalizacji danych i kojarzy je z danymi o większym identyfikatorze. Na przykład, jeśli chcesz przypisać urząd pocztowy do każdej lokalizacji geograficznej domu i masz zestaw danych dla każdej lokalizacji geograficznej domu, algorytm najbliższego sąsiada przypisze domy do najbliższego urzędu pocztowego na podstawie ich bliskości.
Naive Baye
Algorytm Naive Baye przewiduje wyjście tożsamości na podstawie danych ze znanych obserwacji. Na przykład, jeśli dana osoba ma wysokość 6 stóp 6 cali (1, 97 m) i nosi rozmiar 14 butów, algorytm Naive Baye może przewidzieć z pewnym prawdopodobieństwem, że dana osoba jest mężczyzną.
Algorytm CART
"CART" jest akronimem w języku angielskim oznaczającym analizę i klasyfikację drzewa regresji. Podobnie jak analiza drzew decyzyjnych, organizuje dane według konkurencyjnych opcji, tak jakby osoba przeżyła trzęsienie ziemi. W przeciwieństwie do algorytmów drzew decyzyjnych, które mogą jedynie klasyfikować dane wyjściowe lub dane liczbowe w oparciu o regresję, algorytm CART może wykorzystać zarówno do przewidywania prawdopodobieństwa zdarzenia.