Samenvatting Wiskunde statistiek 1 en 2 - Atheneum 5 - periode C 2006/2007

 

Statistiek 1: statistische verwerking

 

Statistiek gaat over waarnemingen (en hun aantallen). Er zijn 2 mogelijkheden:

1.      Het gaat over één rijtje waarnemingen, elke waarneming wordt genoemd, zie rijtje bij som 5, 8, 24 en som 27.

2.      Het gaat over een tabel met verschillende waarnemingen met bij elke waarneming een aantal. Dit komt het meest voor, zie bijvoorbeeld de tabellen bij som 3, 9 en 14.

Je moet gemiddelde, standaardafwijking, modus, mediaan en boxplot (min-Q1-mediaan-Q3-maximum) kunnen uitrekenen (met behulp van de rekenmachine).

 

Aantallen waarnemingen

 

frequentie = aantal keren dat een waarneming voorkomt

absolute frequentie = werkelijke (getelde) aantal

relatieve frequentie = aantal in verhouding tot totaal, dus als commagetal of percentage.

cumulatieve frequentie = somfrequentie = alle frequenties van kleinste tot huidige opgeteld.

modus = meest voorkomende waarneming

 

Klassenindeling

 

Vaak worden waarnemingen niet afzonderlijk genoemd, maar gegroepeerd in klassen. Het is bijvoorbeeld niet zinvol om de lengte van mensen (gemeten in milimeter nauwkeurig) als afzonderlijke waarneming te bewaren. Zinvoller is het dan om klassen te maken, bijvoorbeeld 180 tot 182 cm; 182 tot 184 cm, etcetera.

 

Een klasse is dus een gebiedje, een interval van waarnemingen. We schrijven een klassenindeling meestal in intervalnotatie, bijvoorbeeld [180, 182>. Een klasse loopt van de linker klassegrens tot de rechter klassegrens. Elke klasse heeft een klassenbreedte, het verschil tussen linker en rechter klassegrens. Het klassenmidden is het midden tussen linker en rechtergrens. Van de klasse [180, 182> is 180 de linker klassegrens, 182 de rechterklassegrens, de klassebreedte is 2 en het klassenmidden is 181. De waarneming 180 hoort in deze klasse, want '[' geeft aan dat de linkergrens in de klasse valt. De waarneming 182 hoort niet in deze klasse maar in de volgende, want '>' geeft aan dat de rechtergrens niet in de klasse valt.

 

Soms moet je in een klassenindeling goed de echte grenzen van de klassen nog uitzoeken, omdat de klassen niet aansluitend zijn. Bijvoorbeeld bij som 10: maak de klassen aansluitend door te nemen [0, 5>, [5, 10>, [10,15> en [15, 18>. som 14: [162; 167,5>, [167,5; 172,5> enzovoort. som 15: [0, 20>, [20, 45> enzovoort.

 

Tekenen van grafieken

 

frequentiepolygoon = lijndiagram = grafiek van horizontaal waarneming en verticaal frequentie.

somfrequentiepolygoon = lijndiagram met verticaal somfrequentie

frequentiepolygoon en somfrequentiepolygoon kunnen ook met relatieve frequentie: ze heten dan relatieve frequentiepolygoon en relatieve somfrequentiepolygoon.

 

Let op:

·         Een frequentiepolygoon teken je door het klassenmidden te nemen op de x-as en het punt te zetten bij de bijbehorende frequentie.

·         Een somfrequentiepolygoon teken je door de rechter klassegrens te nemen op de x-as en het punt te zetten bij de bijbehorende somfrequentie.

Vervolgens verbind je de punten met rechte lijnen.

Denk aan: -tekenen met potlood en geodriehoek; - tekst bij de assen; - correcte schaalverdeling.

 

In een polygoon (grafiek) kun je aflezen wat de klassenindeling is (namelijk steeds een recht lijnstuk voor het interval op de x-as). Uit een somfrequentiepolygoon kun je Q1, mediaan en Q3 direct aflezen op de x-as bij de y op 25%, 50% en 75%.

 


Berekenen

 

De waarnemingen voer je in in je rekenmachine met stat - edit.

·         Alleen waarnemingen? Alleen L1 invullen

·         Waarnemingen en frequenties? Waarnemingen in L1, frequenties in L2

·         relatieve (som)frequenties? Bij L3 naar boven,
dan L3 = L2 / sum( L2 ) voor relatieve frequenties
of L3 = cumSum( L2  ) / sum( L2 ) voor relatieve somfrequenties
sum vind je onder 2nd stat - math - 5 sum( ; cumsum vind je onder 2nd stat - ops = 6 cumSum

·         Lijstje leegmaken? Helemaal naar boven op L.. staan en clear

·         Lijstje weg en terughalen? Helmaal naar boven op het eerst volgende lijstje. Dan 2nd del en naam lijstje invoeren (2nd 1 voor L1, 2nd 2 voor L2 enzovoort)

 

Na het invoeren van de tabel druk je stat - calc - 1-Var Stats enter

 

Aleen een rijtje waarnemingen? Doe 1-Var Stats L1

Lijstje waarnemingen met lijstje frequenties? Doe 1-Var Stats L1  ,  L2

 

Van de dingen die je dan kunt aflezen, noem ik hier degenen die we gebruiken (druk zonodig pijltje naar beneden):

 

: het gemiddelde van de waarnemingen (= m = E(X))

sx: de standaardafwijking (= standaarddeviatie = s = s(X))

n: het aantal waarnemingen (daarmee kun controleren dat je de gegevens goed hebt ingevoerd)

minX: laagste waarneming

Q1: waarneming op 25%

Med: mediaan = middelste waarneming

Q3: waarneming op 75%

maxX: grootste waarneming

 

minX, Q1, Med, Q3 en maxX gebruik je voor het tekenen van een boxplot. Teken een boxplot liever met de hand (met stat-plot van de rekenmachine gaat er snel iets mis). Let op: -gelijke hoeveelheid per vakje langs de x-as, - verticale streepjes bij min, Q1, med, Q3, max, - box van Q1 tot Q3, - horizontale lijn van minX naar Q1 en van Q3 naar maxX.

 

Maten voor de spreiding (hoever de waarnemingen uit elkaar liggen zijn):

·         Spreidingsbreedte = maxX - minX

·         Kwartielafstand = Q3 - Q1

·         Standaardafwijking - waarde volgt uit rekenmachine, formule hoef je niet te kennen.

 

Statistiek 2: (kans)verdelingen

 

Een kansverdeling is een tabel met de mogelijke uitkomsten en hun kans. Waar we de kans van bekijken noemen we een toevalsvariabele of stochast. Een stochast geven we aan met een hoofdletter, bijvoorbeeld X. De kans op een bepaalde uitkomst a noemen we P(X = a), P staat voor probability. Voorbeeld: X = aantal keren zes bij 10 keer gooien van dobbelsteen. P(X=3) is de kans op 3 keer zes gooien.

 

In een kansverdeling moet je de kans op elke mogelijke uitkomst afzonderlijk uitrekenen. Als je in een kansverdeling alle mogelijk uitkomsten hebt, dan moeten alle kansen opgeteld samen 1 zijn.

 

Als je een kansverdeling hebt, kun je de verwachtingswaarde E(X) uitrekenen. Er zijn 2 manieren:

1.      Vermenigvuldig elke mogelijke uitkomst met de kans en tel alles op.

2.      Bereken het op de rekenmachine door L1 = mogelijke uitkomsten en L2 = kans en vervolgens
1-Var stats (zie statistiek 1). De verwachtingswaarde is .

Met de 2e manier reken je tevens de standaardafwijking s(X) (= sx) uit.

 


De binomiale kansverdeling

 

Soms is een kansverdeling binomiaal. Dat is als:

1.      Elk kansexperiment 2 mogelijke uitkomsten heeft. De kans op 'succes' is p, de kans op 'mislukt' = q = 1-p.

2.      Het kansexperiment n keer herhaald wordt.

Een binomiale kansverdeling geven we aan als bin(n, p) verdeeld.

 

Let op: een kansverdeling is alleen binomiaal als de kans op succes steeds hetzelfde blijft. Als je een kansverdeling moet maken van iets waarvan de kans verandert, zoals trekken zonder terugleggen, dan is de kansverdeling handwerk. Bekijk dit goed uit de kopieën van het 4e klas boek.

 

Een kansverdeling van een binomiale kans heeft de mogelijke uitkomsten 0..n. De uitkomst waarvan je de kans wilt uitrekenen noemen we k. Voorbeeld: Een stochast X is bin(10, 0.2) verdeeld. Je wilt P(X = 3) uitrekenen, dus de kans op uitkomst 3. Je hebt dan: n=10; p=0,2; k = 3.

 

Een binomiale kans reken je uit met binompdf(n, p, k). binompdf vind je op je rekenmachine onder 2nd vars - 0 binompdf(  enter. In het voorbeeld reken je voor P(X = 3) dus uit: binompdf(10, 0.2, 3).

 

Soms wil je niet een kans op precies een uitkomst k uitrekenen, maar de kans op hoogstens uitkomst k, dus P(X £ k). Je kunt dit doen door binompdf(n, p, 0) t/m binompdf(n, p, k) op te tellen. Het kan sneller met binomcdf(n, p, k). binomcdf vind je op je rekenmachine onder 2nd vars - A binomcdf(  enter. Bijvoorbeeld reken je voor de kans op hoogstens 4, dus P(X £ 4) uit: binomcdf(10, 0.2, 4).

 

Hoe werk je met binomcdf?

 

Wat wordt er gevraagd?

Hoe bereken je dat?

Kans op precies uitkomst k

binompdf(n, p, k)

Kans op hoogstens k

P(X £ k)

binomcdf(n, p, k), want die telt de kansen op van 0..k.

Kans op minder dan k

P(X < k)

Je moet dan de kansen optellen van 0..k-1,

dus binomcdf(n, p, k-1).

Kans op minstens k

P(X ³ k)

Alle kansen opgeteld is 1.

P(X ³ k) is dus 1 - P(X < k) is dus 1- binomcdf(n, p, k-1)

Kans minstens a en hoogstens b

P(a £ X £ b)

binomcdf(n, p, b) - binomcdf(n, p, a-1)

 

Bij een binomiale kansverdeling heb je de volgende formules:

Verwachtingswaarde:  E(X) = n * p

Standaardafwijking : s(X) = wortel n *p * (1-p)

 

Deze formules staan op je formuleblad.

 

Discreet of continue?

 

De binomiale verdeling is een discrete verdeling: niet elk kommagetal kan een uitkomst zijn. Als wel elk kommagetal een uitkomst kan zijn dan is sprake van een continue verdeling. Denk bij een discrete verdeling aan een digitaal getal, bij een continue verdeling aan een analoog getal. Discreet is vaak een aantal, continue is vaak gewicht, tijdsduur of lengte.

 

De normale verdeling

 

Een symmetrische verdeling rond een gemiddelde noemen we een normale verdeling. Denk bijvoorbeeld aan de gewichten van pakken suiker: het gemiddelde pak suiker weegt 1,00000 kilo, maar geen pak is precies 1,00000 kilo. De kans dat een pak te licht is, is even groot als de kans dat een pak te zwaar is.

 

Alles wat symmetrisch rond een gemiddelde zit, voldoet aan de eigenschappen van de normaal verdeling. Voorbeelden zijn geboortegewicht van jongens of meisjes, haargroei per dag, gewicht van een doosje rozijntjes.

 

Een normale verdeling karakteriseer je met het gemiddelde m en de standaardafwijking s. We schrijven dan: het is Norm(m, s) verdeeld.

 

Een normale verdeling heeft de volgende kenmerken (zie blz 102 in het boek voor een plaatje):

·         De grafiek is klokvormig

·         De grafiek is symmetrisch

·         68% van de waarnemingen ligt tussen m-s en  m+s.

·         95% van de waarnemingen ligt tussen m-2s en  m+2s.

Dit zijn dus de dingen die je moet nagaan als je wilt onderzoeken of iets normaal verdeeld is.

Bij een normale verdeling zijn het gemiddelde m en de standaardafwijking s in het algemeen gegeven.

 

Rekenregels

 

Of het nou gaat om binomiale kansverdelingen of normale verdelingen, je kunt rekenen met de verwachtingswaarde E(X) en de standaardafwijking s(X):

 

Als je een vast getal c erbij doet, wordt E(X) c hoger en verandert s(X) niet:

E(X + c) = E(X) + c

s(X + c) = s(X)

 

Als je vermenigvuldigd met een vast getal c, dan wordt E(X) c keer zoveel en s(X) ook c keer zoveel:

E(X . c) = E(X) * c

s(X . c) = s(X) * c

 

Deze formules staan niet op de formulekaart

 

Als je 2 experimenten X en Y na elkaar doet dan kun je een gezamenlijke verwachtingswaarde

uitrekenen:

 

E(X + Y) = E(X) + E(Y)

 

Als je 2 experimenten X en Y na elkaar doet die elkaar niet beïnvloeden en dus onafhankelijk van elkaar zijn dan kun je een gezamenlijke standaardafwijking uitrekenen:

 

s(X + Y) =

 

Bekijk voor wel/niet onafhankelijk som 27 en 29: bij som 27 is de kans onafhankelijk, bij som 29 is de kans niet onafhankelijk want het is trekken zonder terugleggen.

 

Deze formules staan op de formulekaart

 

Als S de som is van n keer herhaald stochast X dan:

 

E(S) = n . E(X)

s(S) = . s(X)

 

Als  het gemiddelde is van n keer herhaald stochast X dan:

 

E() = E(X)

s() = s(X) /

 

Deze regels heten de -wet en staan op de formulekaart