Sentrale neiging vs verspreiding
In beskrywende en inferensiële statistieke word verskeie indekse gebruik om 'n datastel te beskryf wat ooreenstem met die sentrale neiging, verspreiding en skeefheid daarvan: die drie belangrikste eienskappe wat die relatiewe vorm van die verspreiding van 'n datastel bepaal.
Wat is sentrale neiging?
Sentrale neiging verwys na en plaas die middelpunt van die verspreiding van waardes. Gemiddelde, modus en mediaan is die mees gebruikte indekse in die beskrywing van die sentrale neiging van 'n datastel. As 'n datastel simmetries is, dan val beide die mediaan en die gemiddelde van die datastel met mekaar saam.
Gegewe 'n datastel, word die gemiddelde bereken deur die som van al die datawaardes te neem en dit dan deur die aantal data te deel. Byvoorbeeld, die gewigte van 10 mense (in kilogram) word gemeet as 70, 62, 65, 72, 80, 70, 63, 72, 77 en 79. Dan kan die gemiddelde gewig van die tien mense (in kilogram) wees soos volg bereken. Som van die gewigte is 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79=710. Gemiddeld=(som) / (aantal data)=710 / 10=71 (in kilogram). Dit word verstaan dat uitskieters (datapunte wat van die normale tendens afwyk) geneig is om die gemiddelde te beïnvloed. Dus, in die teenwoordigheid van uitskieters sal gemiddelde alleen nie 'n korrekte beeld gee oor die middelpunt van die datastel nie.
Die mediaan is die datapunt wat presies in die middel van die datastel gevind word. Een manier om die mediaan te bereken, is om die datapunte in stygende volgorde te orden, en dan die datapunt in die middel op te spoor. Byvoorbeeld, as dit een keer bestel is, lyk die vorige datastel soos 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Daarom is (70+72)/2=71 in die middel. Hieruit word gesien dat mediaan nie in die datastel hoef te wees nie. Mediaan word nie deur die teenwoordigheid van die uitskieters beïnvloed nie. Gevolglik sal mediaan dien as 'n beter maatstaf van sentrale neiging in die teenwoordigheid van uitskieters.
Die modus is die waarde wat die meeste in die stel data voorkom. In die vorige voorbeeld kom die waarde 70 en 72 albei twee keer voor en dus is albei modusse. Dit wys dat daar in sommige verdelings meer as een modale waarde is. As daar net een modus is, word gesê dat die datastel unimodaal is, in hierdie geval is die datastel bimodaal.
Wat is verspreiding?
Verspreiding is die hoeveelheid verspreiding van data oor die middelpunt van die verspreiding. Omvang en standaardafwyking is die mees gebruikte maatstawwe van verspreiding.
Die reeks is eenvoudig die hoogste waarde minus die laagste waarde. In die vorige voorbeeld is die hoogste waarde 80 en die laagste waarde is 62, dus die reeks is 80-62=18. Maar reeks verskaf nie 'n voldoende prentjie oor die verspreiding nie.
Om die standaardafwyking te bereken, word eers die afwykings van datawaardes vanaf die gemiddelde bereken. Die kwadraatwortelgemiddelde van afwykings word die standaardafwyking genoem. In die vorige voorbeeld is die onderskeie afwykings van die gemiddelde (70 – 71)=-1, (62 – 71)=-9, (65 – 71)=-6, (72 – 71)=1, (80 – 71)=9, (70 – 71)=-1, (63 – 71)=-8, (72 – 71)=1, (77 – 71)=6 en (79 – 71)=8. Die som van vierkante van afwyking is (-1)2 + (-9)2 + (-6)2+ 12 + 92 + (-1)2 + (-8) 2 + 12 + 62 + 82=366 Die standaardafwyking is √(366/10)=6.05 (in kilogram). Tensy die datastel baie skeef is, kan daaruit afgelei word dat die meerderheid van die data in die interval 71±6.05 is, en dit is inderdaad so in hierdie spesifieke voorbeeld.
Wat is die verskil tussen sentrale neiging en verspreiding?
• Sentrale neiging verwys na en plaas die middelpunt van die verspreiding van waardes
• Dispersie is die hoeveelheid verspreiding van data oor die middelpunt van 'n datastel.