Maskininlärning och AI: viktiga termer och begrepp
Data
Även om denna term är något löst definierad så syftar man som regel på data som man har till sitt förfogande. I fallet med webbutiken är data information om besökarna och deras köp. Data behöver dock inte vara i tabellform; bilder, videofilmer, diagram m fl är också data.
Modell (Prediktionsmodell)
När man studerar data så gör man det med matematiska funktioner och sammanfattningen av dessa funktioner kallas modell. Man säger att man använder data för att bygga en modell. Denna modellen kan sedan användas för att exempelvis prediktera om nya patienter kommer utveckla cancer, eller om nya besökare kommer handla i webbutiken. Modellen sammanfattar vad datorn lärt sig med machine learning. Termerna modell och prediktionsmodell är synonyma i detta sammanhang.
Träning (training)
För att skapa en modell behövs exempeldata. I exemplet med webbutiken behövde vi data från många besökare och deras beteende innan vi kunde prediktera på nya besökare. Exempeldata (träningsdata) används för att maskininlärningen skall hitta mönstren som finns i data. Denna fasen kallas träning (eng. training), eftersom maskinen tränas med hjälp av exempeldata. Man brukar som regel använda 80% av all data till träning.

Testning (testing)
De 20% av data som inte används till träning kan användas till testning. Under testningen utvärderar man hur bra modellen är och detta måste göras på data som modellen inte tränats på. Testningen går alltså ut på att utvärdera modellens precision/förmåga.
Det är viktigt att man alltid testar modellen på data som modellen inte studerat under träningsfasen. Modellen kommer nämligen alltid ha hög precision på data som den ”sett under träningen”. Precisionen på testdata kommer alltid vara lägre och det är den precisionen som vi är intresserade av, eftersom det ger en bättre indikation av hur modellen presterar på framtida data. Fördelningen 80/20 kan justeras beroende på situation och data.
Variabel
Med variabel menar man vanligtvis kolumnerna i en tabell. Varje kolumn beskriver en egenskap hos enheterna man studerar (patienter, besökare, osv).
Utfall, Outcome, Label
Utfall är det man försöker förutsäga (prediktera) med hjälp av modellen. I exemplet med skoleleverna så är utfallet deras slutbetyg. I exemplet med webbutiken är utfallet om besökarna köper varor. Utfallet är alltså det man är intresserad av att prediktera.
Prediktorer (features)
Alla variabler som används för att förutsäga utfallet är prediktorer. Med andra ord är en prediktor en variabel som används för att prediktera (förutsäga) utfallet. I exemplet med skoleleverna så är deras skolnärvaro och föräldrar inkomst exempel på prediktorer.