Table Of ContentStatistik und ihre Anwendungen
Carsten Dormann
Parametrische
Statistik
Verteilungen, maximum likelihood
und GLM in R
2. Auflage
Reihenherausgeber
Prof.Dr.HolgerDette (cid:2) Prof.Dr.WolfgangHärdle
Statistik und ihre Anwendungen
WeitereBändedieserReihefindenSieunter
http://www.springer.com/series/5100
Carsten F. Dormann
Parametrische Statistik
Verteilungen, maximum likelihood und
GLM in R
2., überarbeitete und erweiterte Auflage
CarstenF.Dormann
AbteilungfürForstlicheBiometrie
UniversitätFreiburg
Freiburg,Deutschland
StatistikundihreAnwendungen
ISBN978-3-662-54683-3 ISBN978-3-662-54684-0(eBook)
DOI10.1007/978-3-662-54684-0
DieDeutscheNationalbibliothekverzeichnetdiesePublikationinderDeutschenNationalbibliografie;detaillier-
tebibliografischeDatensindimInternetüberhttp://dnb.d-nb.deabrufbar.
SpringerSpektrum
©Springer-VerlagGmbHDeutschland2013,2017
DasWerkeinschließlichallerseinerTeileisturheberrechtlichgeschützt.JedeVerwertung,dienichtausdrücklich
vomUrheberrechtsgesetzzugelassenist,bedarfdervorherigenZustimmungdesVerlags.Dasgiltinsbesondere
fürVervielfältigungen,Bearbeitungen,Übersetzungen,MikroverfilmungenunddieEinspeicherungundVerar-
beitunginelektronischenSystemen.
DieWiedergabevonGebrauchsnamen,Handelsnamen,Warenbezeichnungenusw.indiesemWerkberechtigt
auchohnebesondereKennzeichnungnichtzuderAnnahme,dasssolcheNamenimSinnederWarenzeichen-
undMarkenschutz-Gesetzgebungalsfreizubetrachtenwärenunddahervonjedermannbenutztwerdendürften.
DerVerlag,dieAutorenunddieHerausgebergehendavonaus,dassdieAngabenundInformationenindiesem
WerkzumZeitpunktderVeröffentlichungvollständigundkorrektsind.WederderVerlagnochdieAutorenoder
dieHerausgeberübernehmen,ausdrücklichoderimplizit,GewährfürdenInhaltdesWerkes,etwaigeFehler
oderÄußerungen.DerVerlagbleibtimHinblickaufgeografischeZuordnungenundGebietsbezeichnungenin
veröffentlichtenKartenundInstitutionsadressenneutral.
Planung:IrisRuhmann
GedrucktaufsäurefreiemundchlorfreigebleichtemPapier.
SpringerSpektrumistTeilvonSpringerNature
DieeingetrageneGesellschaftistSpringer-VerlagGmbHDeutschland
DieAnschriftderGesellschaftist:HeidelbergerPlatz3,14197Berlin,Germany
Vorwort
Scienceisinstitutionalisedscepticism.
MarcRees,AstronomerRoyal
Statistik,inmeinemVerständnis,istderformalisierteVersuch,sichnichtdurchArtefakte,
ZufallundVoreingenommenheitvonechtemErkenntnisgewinnabbringenzu lassen. Sie
istdassystematischeZweifelnandeneigenen(undanderer)Daten.WeralsWissenschaft-
lersichselbstgegenüberehrlichist,derwillnichteinemRauschenodereinerTautologie1
aufsitzen.
Jeder Datensatz hat irgendein Muster. Statistik stellt die Werkzeuge bereit zu testen,
ob dieses Muster belastbar ist. Deshalb ist Churchills Ausspruch „Trau keiner Statistik,
die Du nicht selbst gefälscht hast!“ ärgerlich. Er diskreditiert den Statistik-Betreiber als
jemanden,dernurUnterschiedefindenwill.GrundvoraussetzungistEhrlichkeit.Wersich
selbstundanderebetrügenwill,sollteseineDatenerfinden;mitaufwändigerStatistikzu
lügenistselbstverständlichmöglich,aberineffizient.Nureinselbstkritischer,zweifelnder
GeistwirdStatistiksinnvolleinsetzen–undeinEguteRWissenschaftlerIn.2Nurfürdiese
MenschenistdasvorliegendeMachwerkgedacht.
Dieses Buch wendet sich an Laien ohne Vorkenntnisse, die, freiwillig oder gezwun-
genermaßen,dieGrundlagentypischerstatistischerVerfahrenverstehenundanzuwenden
lernen wollen. Der typische Leser ist ein Student im Grundstudium/BSc in einem um-
weltwissenschaftlichen FachgebietodereinewissenschaftlichorientiertePerson,dieden
statistischenArbeitsbereichvonderPikeauflernenwill.DieStrukturdiesesBuchesistein
Wechselspiel aus Grundlagen und Umsetzungsbeispielen. Der eilige Leser kann schnell
sehen, wie etwas umgesetzt werden kann (in den geradzahligen Kapiteln), während das
Kapitel davor das Verständnis für das Wieso schaffen soll (in den ungeradzahligen Ka-
1Tautologie (Logik), eine Aussage, die, unabhängigvom Wahrheitswert der zugrunde liegenden
Bestandteile,immerwahrist(z.B.:„Esregnetoderesregnetnicht.“,http://de.wikipedia.org/wiki/
Tautologie,3.8.2011).
2IchverzichteimweiterenaufdieGleichstellungvonMannundFrauinderGrammatik:dasgram-
matikalischeGeschlechteinesWortesistunabhängigvomGeschlechtder/desBezeichneten.
V
VI Vorwort
piteln). Dieses wieso ist nicht durch mathematische Beweise als mehr durch praktisch
Nachvollziehbarkeitmotiviert.3
EineAusnahmebildendieKapitelzurWissenschaftsphilosophieundzumexperimen-
tellen Design (Kap. 13 und 14). Sie benutzen Ausdrücke, die erst im Laufe des Buchs
eingeführtwerden,sindabereigentlichso grundlegend,dasssieganzamAnfangstehen
sollten. Vielleicht überfliegtder geneigteLeser diese Kapitel gleich zu Beginnund hebt
sichdietechnischenDetailsfürspäterauf.
Es gibt unzählige Quellen für statistische Verfahren. Viele Bücher (vor allem engli-
sche)sindimLiteraturverzeichnisaufgeführt.Ergänzendwillichhieraufzwei„moderne“
Quellenverweisen:http://www.khanacademy.org/#statistics.DieseSeitebietetkurze(5–
10 Minuten lange) Videocasts zu einem Thema an. Für Manchen mag diese Form der
Inhaltsvermittlungbzw.-wiederholunggenaugeeignetsein. Ebenso sind dieWikipedia-
SeitenzurStatistikhäufigausgesprochengut(undwenneinmalnichtaufDeutsch,sodoch
auf Englisch). Allerdings sind sie meist sehr mathematisch und erst im unteren Teil mit
BeispielenauchfürAnfängerbrauchbar.Einfach’malreinklicken.
Danksagung DiesesBucherwuchsauseinigenJahrenderLehrpraxismitverschiedens-
ten Bachelor- und MasterstudentInnen und DoktorandInnen. Während sie Statistik ge-
lernt haben, habeich viel über die Vermittlung von Statistik gelernt. Für die konstrukti-
venRückmeldungenundfürdieToleranzgegenüberexperimentellenDarbietungsformen
bin ich all diesen Menschen sehr dankbar. Das vorliegende Werk habe ich so an den
Bachelor-StudentInnender Studiengänge Geographie, Waldwirschaft und Umweltnatur-
wissenschaftenanderUniversitätFreiburg„getestet“–undsiehabenesfürgutbefunden.
Danke!
Danken möchte ich auch Prof. Dr. Peter Pfaffelhuber, Freiburg, und Dr. Katharina
Gerstner, Leipzig, für eine Durchsicht auf mathematisch-statistische Korrektheit. Mög-
licheweiterhinexistierendenFehlersindnatürlichalleinmiranzulasten.4
SchließlichdankeichmeinerFamilie,dasssieüberMonatedenAnblickertragenhat,
wie ich allabendlich über einen Klapprechner gekrümmtwar. Auf diesem Rechner läuft
(neben R) LATEX.5 Beiden open source-Projekten bin ich extrem dankbar dafür, dass sie
eineunermesslichkompetenteSoftwareentwickelthaben.
3IchmacheaufdenfolgendenSeitenintensivvonFußnotenGebrauch.Siekonkretisierenzumeist
einen Punkt oder erklären ein technisches oder mathematische Detail. Für mich stellen sie das
schriftliche Pendant zum Senken der Stimme in der Vorlesung dar: einen Einschub, der für das
Verständnisnicht notwendigist, der aber eine interessante oderfür manche Situationenwichtige
Informationenthält.
4PS:Rückmeldungenzu Fehlern,Ungenauigkeiten,Unvollständigkeitenoderauchzu Wünschen
fü[email protected].
5LATEX(http://ctan.org)istfürdieTextverarbeitungdas,wasRfürdieStatistikist:Simplythebest.
Undwowirgeradedabeisind:Wikipedia,Python,Windows,Excel,macOS,Google,Genstat,Stata,
S-plus, Mathematica, Matlab und OpenOffice sind eingetragene Warenzeichen. Ihre Erwähnung
bedeutetkeinGutheißendieserProdukte.
Vorwort VII
Vorwortzur2.Auflage
Diese Auflageist vorallem eineÜberarbeitungderersten.TrotzintensivenKorrekturle-
sens hatten sich einige (Tipp-)Fehler eingeschlichen, die hier korrigiert wurden. Allen,
die Hinweise auf Fehler gegeben haben, sei hiermit herzlich gedankt, vor allem Gregor
Didenko und Jan Hanspach, die über die Hälfte aller Fehler entdeckt haben! Hinzuge-
kommen sind neben vielen kleinen Ergänzungen etwa zur Momentenmethode oder zur
TransformationderAntwortvariableneineBoxzurResiduendiagnostikfürGLMsunddie
Berücksichtigung der best-subset regression bei der Modellselektion. Vielen Dank auch
anAgnesHerrmannvomSpringer-Verlag,diemichbeiderUmsetzungdesBuchsalsepub
begleitete.
Freiburg,2017 CarstenF.Dormann
Die technische Seite und die Wahl der
Statistiksoftware
Lifeisrepetitive–usethecommandline.
GitaBenadi
AmEndediesesKapitels...
... sollteRaufDeinemRechnerlaufen.
... solltendieVor-undNachteilevonpoint-and-clickbzw.Code-basierterSoftware
fürdiestatistischeAuswertungklarsein.
... solltederDrang,endlichetwasselbstzurechnen,brennendsein.
EinfacheTests undBerechnungenkannmanmitHilfeeinesTaschenrechnersodereines
Tabellenkalkulationsprogramms(vulgo:Excel)durchführen.Füretwas anspruchsvollere
Analysen,etwaRegressionen,brauchenwirschonspezielleStatistiksoftware(Excelund
Freundekönnendaszwaroftauch,aberdenErgebnissenwürdeichnichttrauen,z.B.we-
gentrivialerProblemewieRechenfehler,Zeilenbegrenzungen,automatischeUmformun-
gen).AndieStellederTabellenprogrammetrittdann„point-and-click“-Statistiksoftware
(z.B. SPSS, Statistica, Minitab). Alternativ kann man auch in die Gruppe der Code-
basiertenProgrammeeinsteigen(Stata,S-plus,Matlab,Mathematica,Genstat,R).Diese
haben zwei große Vorteile: Ihr Funktionsumfang ist grundsätzlich nicht beschränkt, da
er durch Programmierung erweitert werden können; und der Code macht eine Analyse
nachvollziehbarundeinfachzuwiederholbar.
Ich kann vor allem den zweiten Punkt gar nicht genug betonen. Wenn wir z.B. nach
einerlängerenAnalyseeinenDatendreheroderTippfehlerindenRohdatenfinden,dann
müssenwirunsbeipoint-and-click-SoftwareerneutdurchalleSchrittekämpfen.InCode-
basiertenProgrammenführenwirdengespeichertenCodeeinfachnocheinmalaus–ein
copy-pasteunddieAnalyseistaktualisiert.
Code-basierteSoftwarefindetweiteAnwendungbeiallenautomatisiertenVorgängen.
Der monatliche Bericht der Blutspendendatenbank wird ebenso wie sämtliche Google-
Analysen mit Code-basierter Software erstellt. Welches Programm man dann konkret
wählt,istvorallemGeschmacks-undKostensache.
IX
X DietechnischeSeiteunddieWahlderStatistiksoftware
DieLernkurveistbeiCode-basierterSoftwarezunächststeiler.Manerlerntquasieine
neue Sprache, mit vielen neuen Vokabeln, einer Grammatik und macht dabei, wie beim
ErlernenvonSuaheli,bisansEndeseinesLebensFehler.Dafürerschließtmansicheine
ganzeWeltanMöglichkeiten,diemittelspoint-and-clicknichtzugänglichsind.Undaus
meinerSichtistesschlimm,etwasFalschestunzumüssen,nurweilwirzufaulist,etwas
Neueszulernen.
Umsonst(im Sinne von„ohneAufwand“) gibteskeineStatistik. Umsonst (im Sinne
von„ohnedafürGeldzubezahlen“)gibtesvorallemzweiSysteme:RundPython.6 Im
AugenblickbietetRdiegrößteFülleanFunktionen,diespeziellfürstatistischeAuswer-
tungengeschaffenwurden.Vielleichtsetztsichindennächsten10Jahrenetwasanderes
durch,aberderzeitgibtesnichtsNützlicheres.
AlsoR.
Hier eine ganz kurze Darstellung, wo man R erhält und wie man es installiert. Die
relevantenBenutzungsschrittewerdendannindenjeweiligenKapitelnerklärt.
Rherunterladenundinstallieren
RisteineStatistik-undVisualisierungssoftware,diedurchdieRFoundationkoordiniert
wird (R Core Team, 2017). Sie ist plattform-unabhängig(d.h. für verschiedene Linuxe,
WindowsundMacOSzuerhalten).DerCodeistfreiverfügbar.ÜberdieGeschichteund
vieletechnischeDetailsinformiertderzentraleAnlaufpunkt:www.r-project.org(Abb.1).
Im Augenblick interessiert uns vor allem CRAN, das Comprehensive R Archive Net-
work,aufdemesdieInstallationsdateiengibt.EinKlickaufCRAN(amlinkenBildrand)
bringtunsaufeineSeitemitSpiegelservern,vondenenwirunseinennahegelegenenaus-
suchen(etwa http://ftp5.gwdg.de/pub/misc/cran/).DerInhaltistaufallen Spiegelservern
derGleichewieaufdemHauptserverinWien(deshalbmirror).
ZurInstallationvonRbrauchenwirAdministratorenrechte!
JenachBetriebssystemklickenwirjetztinderdoppelumrandetenBoxaufDownload
for Linux/Mac OS X/Windows und in der neuen Seite auf base. Wir kommen zu
einerneuenSeite,diejenachBetriebssystemandersaussieht.
(cid:2) FürLinuxmüssenwirjetztzwischenDebian/UbuntuundRedHat/Suseauswählen(für
Linuxe,dienicht.debbzw..rpmPaketebenutzen,kannmanaufdervorherigenSeite
densource-Codeherunterladenundselbstkompilieren).Einfachergehtesmittelsder
SoftwareverwaltunginLinuxselbst,vonwoausmaneinfachaller-baseundr-cran
Pakete(nebstAbhängigkeiten)herunterlädtundinstalliert.
6www.python.org,mitPaketenNumPyundSciPy.EineguteenglischsprachigeEinführunginSta-
tistikmitPythonistHaslwanter(2016).
Description:Beispielreich baut dieses Buch Schritt für Schritt die statistischen Grundlagen moderner Datenanalysen auf. Im Gegensatz zu anderen einführenden Werken legt dieses Buch großen Wert auf einen umfassend gespannten Bogen, einen roten Faden, der alle Methoden zusammenführt. Dabei werden klassische s