|
Hoofdstuk statistiek 3: Werken met de normale verdeling Voorbeeld: In een fabriek worden pakken met hagelslag gevuld. De gewichten van
de pakken zijn normaal verdeeld met een gemiddelde van 1. Maak een schets Bij vraagstukken over de normale verdeling is het handig om altijd eerst een schets van een klokvormige grafiek te maken, met daarin de gegevens zoals ze in het vraagstuk staan. a) Bereken hoeveel procent van de pakken een gewicht heeft tussen de
252 en schets bij a)
μ = 254 σ = 1,5 De oppervlakte onder de grafiek tussen 2 grenswaardes komt overeen met de kans dat een willekeurig pak tussen die grenswaardes zit. De totale oppervlakte onder de hele grafiek is 1,0 (als kommagetal) of 100% (als percentage). Er zijn 2 functies op de rekenmachine die je gebruikt om te rekenen met de normale verdeling: 1.
Om een kommagetal P van de
oppervlakte tussen grenswaardes te berekenen: met L = linkergrens, R = rechtergrens, μ = gemiddelde, σ = standaardafwijking. De uitkomst is het kommagetal P van de oppervlakte tussen de
grenswaardes. Vaak zul je dit om rekenen naar een percentage door P * 100
doen. Let op dat je normalcdf neemt.
De c staat voor 'cumulatief'. 2.
Om een grenswaarde van een linkergebied tot een grenswaarde te
berekenen: 2. Normalcdf (3.1) Voorbeeld: In een fabriek worden pakken met hagelslag gevuld. De gewichten van
de pakken zijn normaal verdeeld met een gemiddelde van a) Bereken hoeveel procent van de pakken een gewicht heeft tussen de
252 en b) Bereken hoeveel procent van de pakken een gewicht heeft van meer c) Bereken hoeveel procent van de pakken een gewicht heeft van minder
dan d) Een groothandel koopt 4000
pakken hagelslag op een pallet. Hoeveel pakken van minder dan 250 oplossing a) normalcdf(252, 255, 254, 1.5) ≈ 0.409. Dus 40,9 %. Ø Zorg dat je de vuistregels van de normale verdeling kent (zie samenvatting van hoofdstuk statistiek 2, bladzijde 120 van het boek), daarmee kun je een schatting maken aan de hand van een schets en zo zien dat je geen reken/type fouten gemaakt hebt. Ø Als er geen linkergrens gegeven is, neem je -1E99 als linkergrens. Als er geen rechtergrens gegeven is, neem je 1E99 als rechtergrens. oplossing b) normalcdf(257, 1E99, 254, 1.5) ≈ 0,023 dus ≈ 2,3% oplossing c) normalcdf(-1E99, 252, 254, 1.5) ≈ 0.091 dus ≈ 9,1% Ø Soms is niet een percentage gevraagd maar een aantal. Bereken dan eerst het percentage en neem vervolgens dat percentage van het totaal. oplossing d) normalcdf(-1E99, 250, 254, 1.5) ≈ 0.00383. ANS * 4000 ≈
15,3 Ø
Je moet de voorkennis van
hoofdstuk Statistiek 1&2 kunnen gebruiken. 3. InvNorm (3.2) Ø
linkergebied = 100% - rechtergebied (percentages) of 1,0 - rechtergebied (kommagetallen) Voorbeeld: In een fabriek worden pakken met hagelslag gevuld. De gewichten van
de pakken zijn normaal verdeeld met een gemiddelde van e) De lichtste 5% pakken worden afgekeurd. Tot welk gewicht worden de pakken afgekeurd? Rond af op 1 decimaal. f) De zwaarste 5% pakken worden ook afgekeurd. Vanaf welk gewicht worden de pakken afgekeurd? Rond af op 1 decimaal. oplossing
e) invNorm(0.05, 254, 8) ≈ oplossing
f) invNorm werkt met linkergebied. Als het
rechtergebied 5% is, dan moet het linkergebied 100-5 = 95% zijn. Dus
invNorm(0.95, 254, 8) ≈ Je kunt ook vragen hebben waar 2 grenzen gevraagd worden. Dan moet je 2x invNorm toepassen: g) Tussen welke grenzen ligt het gewicht van de middelste 18% pakken hagelslag? oplossing
g) Middelste 18% is dus tussen 50%-9% en 50%+9% is
tussen 41% en 59%. Dus tussen invNorm(0.41, 254, 8) en invNorm(0.59, 254, 8),
dus tussen (afgerond) 252,18 en Vragen e) t/m g) kunnen ook 'wiskundiger' opgeschreven zijn. Stochast X is Norm(254, 8) verdeeld. e) Geef P(X < 0,05) f ) Geef P(X > 0,95) g) Geef P(0,41 < X < 0,59) P staat voor kans ('probability'). '<' geeft aan dat een linkergebied (gebied kleiner dan grenswaarde) gevraagd is. '>' geeft aan dat een rechtergebied gevraagd wordt (gebied groter dan grenswaarde). Omdat de normaal verdeling continu is, maakt het niet uit of je vraagt '<' of '≤'. 4. Gemiddelde of standaardafwijking terugvinden (3.2) Meestal heb je het gemiddelde (= μ) en de standaardafwijking (= σ) gegeven. Als je de grenswaarde(s) R hebt, kun je met normalcdf de oppervlakte van gebied P uitrekenen, als je de oppervlakte van linkergebied P hebt, kun je met invNorm bijbehorende grenswaarde R uitrekenen. Je werkt dus steeds met de volgende gegevens: μ = gemiddelde σ = standaardafwijking R = (rechter)grenswaarde P = oppervlakte gebied (= kans op dat deel, P van 0..1,0 of 0..100%) Als je R, P en σ hebt, kun je de bijbehorende μ uitrekenen; Als je R, P, en μ hebt, kun je de bijbehorende σ uitrekenen. Som 9, 10 en 11 van het boek gaan hierover. a. R, P en σ gegeven,
μ gevraagd. Voorbeeld: som 10a uit het boek: R = 100, P = 0,85, σ = 7,3 Voor
μ nemen we X op de rekenmachine. Dus Y = (Y1 =) normalcdf(-1E99, 100, X, 7.3) moet als uitkomst 0,85 hebben. Uit een schets en de vuistregels weet je dat X + σ = 84%, dus X moet ongeveer 93 zijn. Je kunt het op 2 manieren aanpakken: 1. Je zoekt met de tabel steeds nauwkeuriger
het antwoord op (methode van het boek): Je kunt beginnen met een tabel vanaf 0, je moet dan wel tot in de 90 door de tabel lopen voor je ziet dat de waardes lager worden. Handiger is het te beginnen vanaf 90. Dus TBLSET (2ND WINDOW) TblStart = 90, ΔTbl = 1 Je kijkt in TABLE (2ND GRAPH) Het neemt af. Je ziet dat tussen 92 en 93 de uitkomst van 0,85 ligt. Dus TBLSET (2ND WINDOW) TblStart = 92, ΔTbl = 0.1 Weer TABLE (2ND GRAPH) Je ziet dat tussen 92,4 en 92,5 de uitkomst van 0,85 ligt. Dus TBLSET (2ND WINDOW) TblStart = 92.4, ΔTbl = 0.01 Weer TABLE (2ND GRAPH) Je ziet dat tussen 92,43 en 92,44 de uitkomst van 0,85 ligt. Dus TBLSET (2ND WINDOW) TblStart = 92.43, ΔTbl = 0.001 Weer TABLE (2ND GRAPH) Je ziet dat tussen 92,434 en 92,435 de uitkomst van 0,85 ligt. Dus afgerond op 2 decimalen is het antwoord μ = 92,43. 2. Je doet CALC - intersect met Y2 = 0.85 Als je invoert Y = (Y2 =) 0.85 moet je het snijpunt van Y1 en Y2 hebben. De Window instellingen die je kunt gebruiken zijn: Xmin = 0; Xmax = 100, Ymin = 0, Ymax = 1.1, Je weet immers dat de gevraagde X ongeveer 93 is en de Y-waarde is de oppervlakte van het gebied en dat ligt tussen 0 en 1,0. Met 1,1 nemen we net iets meer dan het hoogste wat voorkomt. Dan GRAPH en CALC (2ND TRACE) - 5:intersect 'First Curve' = <ENTER> 'Second Curve' = <ENTER> 'Guess =' met pijltjes in de buurt <ENTER>. Dit levert X=92,434036. Dus afgerond op 2 decimalen is het antwoord μ = 92,43 b. R, P en μ gegeven, σ gevraagd. Voorbeeld: som 11b uit het boek: R = 800, P = 0,01, μ = 850. Voor
σ nemen we X op de rekenmachine. We doen dus hetzelfde als hiervoor alleen nemen we nu X op de plek van σ op de rekenmachine. Dus Y = (Y1 =) normalcdf(-1E99, 800, 850, X) moet als uitkomst 0,01 hebben. Uit een schets en de vuistregels weet je dat 850 - 2 σ bij 2,5% ligt en meer is dan 800. Dus X moet kleiner dan 25 zijn. 1. Je zoekt met de tabel steeds nauwkeuriger
het antwoord op (methode van het boek): Je kunt beginnen met een tabel vanaf 0, handiger is het te beginnen vanaf 20. Dus TBLSET (2ND WINDOW) TblStart = 20, ΔTbl = 1 Je kijkt in TABLE (2ND GRAPH) Het neemt toe. Je ziet dat tussen 21 en 22 de uitkomst van 0,01 ligt. Dus TBLSET (2ND WINDOW) TblStart = 21, ΔTbl = 0.1 Weer TABLE (2ND GRAPH) Je ziet dat tussen 21,4 en 21,5 de uitkomst van 0,01 ligt. Dus TBLSET (2ND WINDOW) TblStart = 21.4, ΔTbl = 0.01 Weer TABLE (2ND GRAPH) Je ziet dat tussen 21,49 en 21,50 de uitkomst van 0,01 ligt. Dus afgerond op 1 decimaal is het antwoord σ = 21,5. 2. Je doet CALC - intersect met Y2 = 0.01 Als je invoert Y = (Y2 =) 0.01 moet je het snijpunt van Y1 en Y2 hebben. De Window instellingen die je kunt gebruiken zijn: Xmin = 20; Xmax = 30, Ymin = 0, Ymax = 0.05, Je weet immers dat de gevraagde X kleiner dan 25 is en de Y-waarde die goed in beeld moet zijn is 0,01. Dan GRAPH en CALC (2ND TRACE) - 5:intersect 'First Curve' = <ENTER> 'Second Curve' = <ENTER> 'Guess =' met pijltjes in de buurt <ENTER>. Dit levert X=21,492924. Dus afgerond op 1 decimaal is het antwoord σ = 21,5 Tot slot voor de liefhebber: Je kunt ook invNorm gebruiken in plaats van normalcdf. Probeer eens uit wat je dan moet doen (en controleer dat het inderdaad hetzelfde oplevert). 5. Controleren of een gegeven verdeling in een tabel normaal verdeeld
is (3.3) Aan een tabel kun je niet in een oogopslag zien of de gegevens normaal verdeeld zijn of niet. Daarvoor gebruik je normaal waarschijnlijkheidspapier. Daarmee controleer je of de verdeling normaal is en kun je μ en σ aflezen. Som 12 en Het werkt als volgt: 1. De normale verdeling wekt cumulatief, steeds als je het linkergebied P tot een grenswaarde R bekijkt, dan is P de oppervlakte van het gebied tot de grenswaarde. Daarom moet je als eerste de gegeven frequenties omrekenen in cumulatieve frequenties. 2. De cumulatieve frequenties moet je omrekenen naar 0..100% (dus relatieve cumulatieve frequenties). 3. Van de gegeven klassen neem je steeds de rechterklassegrens. Die zet je op het normaal waarschijnlijkheidspapier uit op de X-as. Je neemt de rechterklassegrens omdat je werkt met cumulatieve frequenties. 4. Bij elke rechterklassegrens zet je in de Y-richting de relatieve cumulatieve frequentie. 5. De punten verbind je zo goed mogelijk door een rechte lijn. 6. Als de punten goed passen bij de rechte lijn, dan is het een normale verdeling. 7. Bij Y = 50% kun je op de X-as de bijbehorende μ aflezen. Bij Y = 16% kun je op de X-as μ-σ aflezen en daarmee σ berekenen. Voorbeeld som 14 uit het boek:
Opmerkingen: · cumSum(L2) doe je door LIST (2ND STAT) - OPS - 6: cumSum · je kunt voor de laatste kolom ook L3 in plaats van L4 gebruiken, dan heb je alles tegelijk in beeld, het is dan gemakkelijker om de punten te zetten op het normaal waarschijnlijkheidspapier. Je neemt dan L3=cumSum(L2)/sum(L2) * 100. (sum(L2) doe je door LIST (2ND STAT) - MATH - 5: sum ) · Je krijgt nooit precies het 'goede antwoord' voor de schatting van μ en σ, je uitkomst hoeft niet hetzelfde te zijn als het antwoordboekje. De getekende lijn is een benadering, dus je μ en σ ook. ·
Je kunt je antwoord controleren
op de rekenmachine door STAT - CALC -
1: 1-Var Stats L1, L2 te doen. μ
= Als je uit bovenstaande tabel L1 en L2 tekent op normaal waarschijnlijkheidpapier krijg je het volgende:
Het is redelijk een rechte lijn. Dus het is normaal verdeeld. Bij 50% vind ik μ ≈ 14,4. Bij 16% vind ik μ-σ = 12,0, dus σ ≈ 14,4 - 12,0 ≈ 2,4. Controle met 1-Var Stats levert μ ≈ 15,0 en σ ≈ 2,2; dus je ziet dat het een ruwe benadering is. 6. Normale verdelingen en discrete waarden (3.4) Discrete waarden betekent dat niet elk getal mogelijk is, de verdeling is niet continu. Meestal gaat het over gehele getallen, maar ook getallen met 1 decimaal zoals de temperatuur op een digitale thermometer is discreet. Als je werkt met discrete waarden, moet je dus letten op de afronding. Zo zal 17,3 en 17,4 beide afgerond worden tot 17. Als je dus P(X > 17) moet uitrekenen, moet je in de continue normale verdeling nemen P(X > 17,5). Dit 'letten op de afronding' heet de continuïteitscorrectie want je corrigeert de grenswaarde omdat de normale verdeling een continue verdeling is. Ø Als je een kansverdeling hebt die normaal verdeeld is, wil je toch soms kijken naar afgeronde getallen. Bijvoorbeeld lengte of gewicht is normaal verdeeld en bekijk je meestal als een continue variabele. Je kunt echter ook kijken naar lengtes op hele centimeter en gewicht op hele grammen. Dan moet je dus letten op de afronding en pas je de continuïteitscorrectie toe. Ø Sommige kansverdelingen gaan over aantallen en zijn (bij benadering) normaal verdeeld. Voorbeelden: aantal zaadjes/blaadjes per plant, aantal verkochte bloemkolen per dag, aantal verhuurde fietsen per dag. Ook in dit geval pas je de continuïteitscorrectie toe. Je moet voor de continuïteitscorrectie letten op de afronding, daarvoor 'vertaal je de opgave naar niet afgeronde getallen'. Voorbeeld som Y is Norm(75,3; 6,8) verdeeld en kan alleen gehele waarden aannemen a) P(Y > 63) wordt P(Y > 63,5) dus normalcdf(63.5, 1E99, 73.3, 6.8) b) P(Y ≤ 80) wordt P(Y ≤ 80,5) dus normalcdf(-1E99, 80.5, 73.3, 6.8) c) P(Y > 72) wordt P(Y > 72,5) dus normalcdf(72.5, 1E99, 73.3, 6.8) d) P(Y ≥ 78) wordt P(Y ≥ 77,5) dus normalcdf(77.5, 1E99, 73.3, 6.8) e) P(65 < Y < 85) wordt P(65,5 < Y < 84,5) dus normalcdf(65.5, 84.5, 73.3, 6.8) f) P(45 ≤ Y < 70) wordt P(44,5 ≤ Y < 69,5) dus normalcdf(44.5, 69.5, 73.3, 6.8) 7. Een binomiale verdeling benaderen met een normale verdeling (3.5) Een binomiale stochast X is een kansverdeling van een experiment met 2 mogelijke uitkomsten succes (kans p) en mislukking (kans q = 1-p) dat n keer herhaald wordt. We noemen de stochast Bin(n, p) verdeeld. Op de rekenmachine: P(X = k) = binompdf(n, p, k) en P(X ≤ k) = binomcdf(n, p, k) Formules voor een binomiale verdeling zijn: verwachtingswaarde
= E(X) =
μ = n . p standaardafwijking
= σ(X) = σ = De binomiale kansverdeling kun je benaderen met de normale verdeling. Als n groter is en p dichter bij 0,5 ligt, is de benadering steeds beter. Dat je een binomiale kansverdeling kunt benaderen met de normale verdeling is handig want als n heel groot is, kan je rekenmachine binomcdf niet meer uitrekenen. Zie som 25d in het boek: binomcdf(1000000, 0.4, 400200) lukt niet. Om een binomiale verdeling te benaderen met een normale verdeling doorloop je de volgende stappen: 1. Reken μ en σ uit met de formules voor de verwachtingswaarde en standaardafwijking 2. Pas de continuïteitscorrectie op de vraag toe 3. Reken het antwoord uit met normalcdf Voorbeeld som 27 1. 27a: μ = n * p = 85 * 0,8 = 68 σ = dus Bin(85; 0,8) ≈ Norm(68; 3,69) 27b: 2. P(W ≤ 75) wordt P(W ≤ 75,5) in de normale verdeling. 3. Dus binomcdf(85, 0.8, 75) vergelijken met normalcdf(-1E99, 75.5, 68, 3.69) 27c: 2. P(65 ≤ W ≤ 75) wordt P(64.5 ≤ W ≤ 75.5) in de normale verdeling. 3. Dus binomcdf(85, 0.8, 75) - binomcdf(85, 0.8, 65) vergelijken met normalcdf(64.5, 75.5, 68, 3.69) Binnen een normale verdeling kun je met invNorm een grenswaarde vinden. Dat kun je ook doen als het gaat om discrete waarden in een normale verdeling. Je doet dat op dezelfde manier, alleen moet je de grenswaarde die uit invNorm komt, 'afronden' naar de juiste discrete waarde. Voorbeeld som 27d: Bin(85; 0,8) ≈ Norm(68; 3,69) De vraag is P(X ³ a) < 0,05. Laten we eerst eens kijken naar P(X ³ a) = 0,05. Er staat X ³ a, dus het gaat dus om een rechtergebied. Omdat invNorm altijd werkt met een linkergebied moeten we de vraag 'vertalen': P(X £ a) = 0,95. We moeten dus doen invNorm(0.95, 68, 3.69) ≈ 74,1. Dus P(X ³ 74.1) = 0,05. De uitkomst a = 74,1 is geen geheel getal en dat moet wel voor een binomiale verdeling. Het antwoord is dus 74 of 75. Daarom moeten we kijken naar de vraag: Er staat P(....) < 0,05. Het rechtergebied is dus kleiner dan wat we hebben uitgerekend. De grenswaarde ligt dus verder naar rechts. Het antwoord is dus 75. Als de vraag was geweest P(....) > 0,05 dan zou 74 het antwoord zijn. 8. Enkele sommen uit het boek De laatste som van elke paragraaf is vaak een 'inzicht' vraag die wat dieper gaat. Som 5 en 11 zijn al ter sprake gekomen. Daarom hier nog even de sommen uit de andere paragrafen. Ook enkele sommen van 3.6 komen ter sprake. som 16: Hij zou steeds de rechtergrens hebben moeten nemen. Hij heeft het midden genomen. De rechtergrens is steeds 5 meer. De hele lijn zou dus 5 naar rechts geschoven moeten worden. De μ moet dus 5 hoger zijn. De σ blijft hetzelfde, want μ was 5 te laag, maar μ-σ was ook 5 te laag. som 23: Bij de continuïteitscorrectie doe je er 0,5 bij of af. 0,5 is relatief veel ten opzichte van 15, relatief weinig ten opzichte van 1500. som 28: a) Het is zonder terugleggen. De kans verandert dus elke trekking. Dat mag eigenlijk niet, want voor een binomiale verdeling moet de kans steeds hetzelfde blijven. b) P(B £ 2) = P(B = 0) + P(B = 1) + P(B = 2). c) Omdat er maar 5 blikken getrokken worden, verandert de kans niet zoveel. 80/300 of 75/295 is niet een groot verschil. Bin(5, 80/300). d) P(B £ 2) = binompdf(5, 80/300, 2). e) μ = n * p = 5 * 80/300 » 1,35 en σ = som 31b: De vraag is: laat zien dat P(X > 195) is ongeveer 40% = 0,4. Het gaat over hele fietsen, dus je moet de continuïteitscorrectie toepassen. Dus Normalcdf(195.5, 1E99, 186, 37). som 31d: Lastige vraag. Je moet bedenken dat de grenswaarde ligt bij waar je evenveel winst als verlies maakt op een extra fiets. Dat is bij 20% kans op een teleurgestelde klant. Want 20% * 8 euro = 80% * 2 euro. Dus invNorm(0.8, 186, 37). som 32: a)
μ = E(X + Y) = E(X) + E(Y)
= 100 + 6 = b) normalcdf(110, 1E99, 106, 5.22) c)
Het boek bedoeld dat de lege
verpakkingsdoos 9.
Tot slot: om te onthouden · Het gemiddelde wordt meestal aangegeven met μ. Soms wordt de letter m gebruikt. Een verwachtingswaarde E(X) is ook hetzelfde als het gemiddelde. · De standaardafwijking wordt meestal aangegeven met σ. Soms wordt de letter s gebruikt. Standaarddeviatie is een ander woord voor standaardafwijking. · Nogmaals denk eraan: De parameters van Bin(n, p) zijn niet μ en σ. Vergeet niet de parameters om te rekenen als je Bin(n, p) moet benaderen met Norm(μ, σ)! |