De iris dataset zit standaard in R, en bevat 5 variabelen:
Deze wordt voor heel veel statistisch educatieve doeleinden gebruikt, en er is een volledige Wikipedia pagina aan gewijd. Daar vinden we ook enkele mooie foto’s terug van de iris bloem. Aangezien de afmetingen van deze foto’s sterk verschillen, zoeken we verder op Google en vinden we op deze website een gecombineerde foto die we hier invoegen, met een bijschrift.
Vragen we de structuur op van deze dataset (met het commando str
), dan zien we dat inderdaad de eerder genoemde variabelen erin zitten, en dat de dataset gegevens bevat over 150 bloemen.
str(iris)
## 'data.frame': 150 obs. of 5 variables:
## $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
## $ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
## $ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
## $ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
## $ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...
Nu vragen we ons af of er evenveel records per soort in de dataset zitten. Dit komen we te weten met het table
commando op de Species
variabele.
table(iris$Species)
We voeren het vorige commando niet uit, maar verkiezen de mooie layout door de functie kable
uit het knitr
package rond het table
commando te zetten.
Soort | Aantal |
---|---|
setosa | 50 |
versicolor | 50 |
virginica | 50 |
We kunnen heel veel kenmerken aflezen of afleiden uit de volgende output.
summary(iris)
## Sepal.Length Sepal.Width Petal.Length Petal.Width
## Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100
## 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300
## Median :5.800 Median :3.000 Median :4.350 Median :1.300
## Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
## 3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
## Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
## Species
## setosa :50
## versicolor:50
## virginica :50
##
##
##
Het is echter efficiënter om hiervoor gebruik te maken van berekende waarden, en deze als inline code op te roepen in de tekst. Zo dienen veranderingen in de dataset, en dus ook in de statistieken, niet meer manueel aangepast te worden.
We maken de volgende plotjes die ons een idee kunnen geven van de verschillende variabelen in de dataset.
Elk type plot komt in een aparte subsectie van het document.