Projekt tworzony był w pojedynkę, podczas studiów II stopnia w okresie 04.2023-06.2023 na kursie Data Mining. Tworzony był on w języku R połączonego z LaTeX'em przy pomocy R Sweave, pakietu knitr oraz pakietu tinytex , które zapewniły automatyzację skryptu generującego końcowy dokument. Oprócz tego użyto bibliotek ggplot2, caret, dplyr, DataExplorer oraz wielu innych pakietów w R. Ten kompleksowy projekt jest opisem przejścia przez najważniejsze części procesu data mining, w jego skład wchodzą:
- szeroka analiza eksploracyjna zbioru danych Automobile
- klasyfikacja zmiennej objaśnianej (KNN, Random forest, LDA, QDA, LR, KDA, Naive Bayes)
- analiza skupień, klasteryzacja (k-means, PAM, DBSCAN, AGNES, DIANA)
- redukcja wymiaru (PCA, MDS)