Willkommen im Institut für Digitale Forschung und Bildung Stata Learning Modul Daten zusammenfassen In diesem Modul wird gezeigt, wie Sie Dateien in Stata kombinieren können. Beispiele umfassen angehängte Dateien, Eins-zu-Eins-Zusammenführung und Eins-zu-Eins-Zuordnungen. Anhängen von Datendateien Wenn Sie zwei Datendateien haben, können Sie sie kombinieren, indem Sie sie übereinander stapeln. ZB haben wir eine Akte, die Vatis enthält und eine Akte, die Mammen enthält, wie unten gezeigt. Wenn wir diese Dateien kombinieren wollten, indem wir sie aufeinander stapeln, können wir den Befehl append wie unten gezeigt verwenden. Wir können den Listenbefehl verwenden, um zu sehen, ob das korrekt funktionierte. Der Append funktionierte richtig. Die Väter und Mütter sind zusammen in einer Datei gestapelt. Aber es gibt ein kleines Problem. Wir können nicht sagen, die Väter von den Müttern. Lets versuchen, dies wieder tun, aber zuerst werden wir eine Variable namens momdad in der Väter und Mütter Datendatei, die Dad für die Dads-Datei und Mama für die Moms-Datei enthalten wird. Wenn wir die beiden Dateien zusammen kombinieren, wird die Momdad-Variable uns sagen, wer die Mütter und Väter sind. Hier machen wir momdad Variable für die Dads-Datei. Wir speichern die Datei mit dem Namen dads1. Hier machen wir momdad Variable für die Moms-Datei. Wir speichern die Datei, die es moms1 nennt. Nun können wir dads1 und moms1 zusammenfügen. Nun, wenn wir die Daten die momdad Variable zeigt, wer die Mütter und Väter sind. Match-Merging Eine weitere Möglichkeit, Daten-Dateien zu kombinieren, ist Match-Merging. Sagen wir, dass wir die Väter mit der faminc-Datendatei kombinieren wollten, die die Väterinformation und die Familieninformationen nebeneinander hatten. Wir können dies mit einem Spiel zusammenführen. Werfen wir einen Blick auf die Väter und faminc Datei. Wir wollen die Datendateien so kombinieren, dass sie so aussehen. Beachten Sie, dass die famid-Variable verwendet wird, um die Beobachtung aus der Vatendatei mit der entsprechenden Beobachtung aus der faminc-Datei zu verknüpfen. Die Strategie für das Zusammenführen der Dateien geht so. 1. sortiere Väter auf famid und speichere diese Akte (benennend es dads2). 2. sort faminc auf famid und speichern Sie diese Datei (aufrufend faminc2). 3. Verwenden Sie die Datei dads2. 4. Zusammenführen der Datei dads2 mit der faminc2-Datei mit famid, um sie anzupassen. Hier sind die vier Schritte. 1. Sortieren Sie die Dads-Datei von famid und speichern Sie es als dads2 2. Sortieren Sie die faminc-Datei von famid und speichern Sie es als faminc2. 3. Verwenden Sie die Datei dads2 4. Zusammenführen mit der faminc2-Datei mit famid als Schlüsselvariable. Es scheint, wie dies funktionierte gut, aber was ist, dass Merge-Variable Die Merge-Variable zeigt für jede Beobachtung, wie das Merge ging. Dies ist nützlich, um nicht übereinstimmende Datensätze zu identifizieren. Merge kann einen von drei Werten haben 1 - Der Datensatz enthält nur Informationen aus file1 (zB einen dad2 Datensatz ohne entsprechenden faminc2 Datensatz) 2 - Der Datensatz enthält nur Informationen aus file2 (zB einen faminc2 Datensatz ohne entsprechenden dad2 Datensatz Datensatz enthält Informationen aus beiden Dateien (zB die dad2 und faminc2 Datensätze aufeinander abgestimmt) Wenn Sie viele Datensätze haben, ist die tabellarische Zusammenführung sehr nützlich, um zusammenzufassen, wie viele Fehlanpassungen Sie haben In unserem Fall entsprechen alle Datensätze so den Wert für Merge War immer 3. Eins-zu-vielen Match-Merging Eine andere Art von Merge heißt eine zu viele Merge. Unsere one to one Merge zusammengestellt bis Väter und faminc und es gab eine eins zu eins Matching der Dateien. Wenn wir Völker zusammenführen Kinder, es kann mehrere Kinder pro Dad und damit ist dies ein zu viele fusionieren. Wie sehen Sie unten, ist die Strategie für die eine zu vielen zusammenzuarbeiten, ist wirklich die gleiche wie die zu eins zu fusionieren 1. sortieren Väter auf famid und Speichern Sie diese Datei als dads3 2. sortieren Sie Kinder auf famid und speichern Sie diese Akte als kids3 3. verwenden Sie die dads3 Akte 4. fusionieren Sie die Dads3 Akte mit der kids3 Akte unter Verwendung famid, um sie zusammenzubringen. Die 4 Schritte sind unten gezeigt. 1. Sortieren Sie die Dads-Datei auf famid und speichern Sie diese Datei als dads3. 2. Sortieren Sie die Kinder-Datendatei auf famid und speichern Sie diese Datei als kids3. 3. Verwenden Sie die Datei dads3. 4. Fügen Sie die Datei dads3 mit der Datei kids3 mit famid zusammen, um sie anzupassen. Lässt Liste der Ergebnisse. Die Ergebnisse sind ein bisschen leichter zu lesen, wenn wir die Daten auf famid und Geburt sortieren. Wie Sie sehen, ist dies im Grunde das gleiche wie ein eins zu eins Merge. Sie fragen sich, ob die Reihenfolge der Dateien auf der Merge-Anweisung relevant ist. Hier wechseln wir die Reihenfolge der Dateien und die Ergebnisse sind die gleichen. Der einzige Unterschied ist die Reihenfolge der Datensätze nach dem Zusammenführen. Zusammenfassung Anfügen von Datenbeispiel Zusammenführen von Beispielschritten (Eins-zu-Eins - und Eins-zu-Viele) Zusammenführungsbeispielprogramm Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, ein Buch oder ein Softwareprodukt angesehen werden Die University of California. Willkommen an das Institut für digitale Forschung und Bildung Stata FAQ: Wie kann ich fusionieren mehrere Dateien in Stata Diese FAQ basiert auf einer Seite, die von der Graduate Statistical Assistant Program an der Boston College entwickelt. Wir bedanken uns für die Erlaubnis, diese FAQ hier zu reproduzieren. Es ist nicht ungewöhnlich, dass Daten, insbesondere Erhebungsdaten, in mehrere Datensätze kommen (es gibt praktische Gründe für die Verteilung von Datensätzen auf diese Weise). Wenn Daten in mehreren Dateien verteilt werden, werden die Variablen, die Sie verwenden möchten, oft über mehrere Datensätze verteilt. Um mit in zwei oder mehr Datendateien enthaltenen Informationen zu arbeiten, müssen die Segmente in eine neue Datei zusammengefasst werden, die alle Variablen enthält, mit denen Sie arbeiten möchten. Zuerst müssen Sie herausfinden, welche Variablen Sie benötigen und welche Datensätze sie enthalten, können Sie dies tun, indem Sie das Codebuch. Zusätzlich zum Finden der Variablen, die Sie für Ihre Analyse benötigen, müssen Sie den Namen der Variablen id kennen. Eine id-Variable ist eine Variable, die für einen Fall (Beobachtung) im Dataset eindeutig ist. Für ein bestimmtes Individuum sollte die ID über alle Datensätze gleich sein. Dadurch können Sie die Daten aus verschiedenen Datensätzen an die richtige Person passen. Für Querschnittsdaten ist dies typischerweise eine einzige Variable, in anderen Fällen werden zwei oder mehr Variablen benötigt, dies wird allgemein in Felddaten gesehen, wo Subjekt-ID und - Datum oder - Welle häufig benötigt werden, um eine Beobachtung eindeutig zu identifizieren. Damit Stata die Datensätze zusammenführt, müssen die id-Variable oder die Variablen denselben Namen über alle Dateien haben. Wenn es sich bei der Variablen um einen String in einem Datensatz handelt, muss er auch ein String in allen anderen Datasets sein und dasselbe gilt für numerische Variablen (der spezifische Speichertyp ist nicht wichtig, solange er numerisch ist). Sobald Sie alle Variablen identifiziert haben, die Sie benötigen und wissen, was die Variable id (s) sind, können Sie beginnen, die Datensätze zusammenzuführen. Ein einfaches Beispiel Ein guter erster Schritt ist, unsere Daten zu beschreiben. Wir können dies tun, ohne tatsächlich öffnen Datei (dies kann praktisch sein, wenn die Dateien sehr groß sind), alles, was wir tun müssen, ist offen Stata und den Befehl ausgeben. Der beschreibende Befehl gibt uns eine Menge nützlicher Informationen, für unsere Zwecke die wichtigsten Dinge, die es zeigt, ist, dass die Variable id numerisch ist und dass die Daten unsortiert sind (die Daten müssen nach der Variablen oder Variablen sortiert werden, um zusammenzuführen ). Wir bemerken auch, dass die Variablen, die wir aus diesem Datensatz benötigen, tatsächlich im Datensatz sind. Wir würden dies für alle drei unserer Datensätze tun wollen, aber nur Platz sparen nur die Ausgabe für einen der Datensätze. Nehmen wir an, dass die Datasets alle unsortiert sind und dass die Variable id in allen drei Datasets denselben Namen (id) hat. Da die Datensätze arent sortiert sind, müssen wir jeden Datensatz öffnen, sortieren und dann das sortierte Dataset speichern. Obgleich wir die Daten von einer Web site leicht innerhalb von Stata benutzen können, können wir es nicht dort speichern. Beachten Sie also, dass alle Benutzungsbefehle Datensätze von unserer Website abrufen, aber sie in dem Verzeichnis d: Daten auf dem Benutzercomputer speichern. Die folgende Syntax öffnet jedes Dataset, sortiert es nach ID und speichert es an einem neuen Speicherort mit einem neuen Namen. Wenn der Dataset bereits auf unserem Computer war, konnten wir ihn an der gleichen Stelle speichern und möglicherweise sogar unter dem gleichen Namen (der alte Dataset ersetzt), das ist die Benutzerwahl. Als nächstes werden die Datensätze zusammengeführt. Der Merge-Befehl kombiniert entsprechende Beobachtungen aus dem aktuell im Speicher befindlichen Datensatz (genannt Master-Dataset) mit denen aus einem anderen Stata-Format-Dataset (das als Dataset bezeichnet wird) in einzelne Beobachtungen. Unter der Annahme, dass wir Data3 offen haben aus der Ausführung der oben genannten Syntax, das wird unser Master-Dataset werden. Die erste Zeile der Syntax unten vereinigt die Daten. Direkt nach dem Merge-Befehl ist der Name der Variable (oder Variablen), die id Variablen, in diesem Fall id. Als nächstes wird das Argument mit diesem sagt Stata, dass wir mit der Auflistung der ID-Variablen, und das, was folgt, sind die Dataset (s) zusammengeführt werden. Die Namen werden mit nur Leerzeichen (keine Kommas usw.) zwischen ihnen aufgelistet. (Beachten Sie, wenn die Namen oder Pfade Ihrer Datasets Leerzeichen enthalten, achten Sie darauf, sie in Anführungszeichen zu setzen, d. H.). Die nächste Syntaxzeile speichert unsere neue zusammengeführte Datenmenge. Beachten Sie, dass merge keine Ausgabe erzeugt. Nun können wir unseren neu zusammengeführten Datensatz ansehen. In der obigen Ausgabe sehen wir die Anzahl der Fälle (200), die korrekt ist. Dies ist wichtig, da Probleme mit dem Zusammenführungsprozeß oft zu wenige oder häufiger zu viele Fälle im zusammengeführten Datensatz führen. Wir sehen auch eine Liste der Variablen, die alle Variablen enthält, die wir wollen. Der zusammengeführte Datensatz enthält drei zusätzliche Variablen. Diese neuen Variablen werden zusammengeführt. Merge1 und merge2. Der Befehl merge erzeugt immer mindestens eine zusätzliche Variable namens merge. Wenn mehrere Dateien bei der Verwendung angegeben werden. Wird der Befehl zusätzliche Merge-Variablen erzeugen, eine für jeden der Datasets in der Verwendungsliste (in unserem Fall Merge1 und Merge2). Diese Variablen geben an, wo jede Beobachtung im Dataset gekommen ist. Dies ist nützlich, um sicherzustellen, dass Ihre Daten ordnungsgemäß zusammengeführt werden. Manchmal wird eine Beobachtung nicht in einem gegebenen Datensatz vorhanden sein, dies bedeutet nicht unbedingt, dass etwas im Merge-Prozess schief gelaufen ist, aber dies ist ein anderer Ort, wo man oft Hinweise bekommen kann, was möglicherweise falsch in der Merge-Prozess gegangen. Da in diesem Beispiel alle Datensätze alle Fälle enthalten und weil die Zusammenführung so verläuft, wie es sollte, sind die Zusammenführungsvariablen sehr interessant. Wir werden diese Variablen im Folgenden näher erläutern, wenn wir mit Datensätzen umgehen, in denen nicht alle Fälle in allen Datensätzen vorhanden sind. Unerwünschte Variablen löschen Es ist nicht ungewöhnlich, dass ein großer Dataset viele Variablen enthält, die Sie in Ihrer Analyse nicht verwenden werden. Sie können diese Variablen einfach in Ihren Datasets belassen, wenn Sie sie zusammenfügen, aber es gibt mehrere Gründe, die Sie nicht wollen, dies zu tun. Erstens gibt es eine Grenze für die Anzahl der Variablen, die Stata behandeln kann. In Small Stata ist die Grenze 99, in Stata / IC ist die Grenze 2,047 und in Stata / SE und Stata / MP ist die Grenze 32.767. Diese Grenzwerte sehen möglicherweise hoch, aber wenn Sie mehrere Datensätze zusammenführen, jede mit einer großen Anzahl von Variablen, können Sie die Grenze für Ihre Art von Stata überschreiten. Der zweite Grund, warum Sie nicht unnötige Variablen in Ihrem Dataset verlassen möchten, ist, dass jede Variable im Speicher zusätzliche Systemressourcen verwendet. Ein paar zusätzliche Variablen wird nicht alles verletzen, aber wenn Sie eine große Anzahl von unerwünschten Variablen haben, können Sie verschwenden Systemressourcen. Im Folgenden zeigen wir verschiedene Methoden, um zusätzliche Variablen zu eliminieren. Eine Option ist, dass, wenn Sie die Datasets öffnen, um sie zu sortieren, können Sie auch die Variablen, die Sie nicht planen, zu verwenden. Abhängig davon, ob es einfacher ist, die Variablen aufzulisten, die Sie in Ihrer Analyse verwenden möchten, oder um die Variablen aufzulisten, die Sie nicht benötigen, können Sie die Befehle halten oder fallen lassen. Es gibt mindestens eine zusätzliche Option, können Sie die Datasets, die nur die Variablen, die Sie im Speicher benötigen. Wenn ich einen Datensatz mit einer Anzahl von Variablen, aber die einzigen Variablen, die ich brauche von ihm sind id und lesen. Ich kann Variablennamen zu meinem Befehl verwenden, wie in der ersten Zeile der Syntax unten gezeigt. Dies ist besonders nützlich bei sehr großen Dateien, die viel Speicher erfordern. Sobald Sie die gewünschte Teilmenge von Variablen geöffnet haben, müssen Sie nur die Teilmenge der Daten unter einem neuen Namen speichern. Im obigen Beispiel enthielt dataset2 die folgenden Variablen: id, read, write, math, science und socst. Angenommen, meine Analyse erfordert nur die Variablen lesen und schreiben. Sind die einzigen Variablen aus dataset2, die benötigt werden, jene zwei und die Variable id, um die Daten mit einem anderen Datensatz zusammenzuführen. Nachfolgend sind Beispiele der gleichen Art von Datenherstellung, die oben durchgeführt wurden, unter Verwendung jeder der beschriebenen Techniken. Diese Techniken sind äquivalent, indem sie das gleiche Endergebnis erzeugen. Die Effizienz jeder Technik variiert je nach Situation. Verwenden von Keep, um Variablen auszuwählen: Verwenden von Drop, um unerwünschte Variablen zu entfernen: Öffnen einer Untermenge der Daten: Die Merge-Variablen Die durch den Merge-Befehl erzeugten Merge-Variablen sind leicht zu übersehen, sind aber sehr wichtig. Wie oben besprochen, geben sie an, aus welchen Dataset (s) jeweils hervorgeht. Dies ist wichtig, da viele Werte, die nur aus einem Datensatz stammten, auf ein Problem im Zusammenführungsprozess hindeuten. Allerdings ist es nicht ungewöhnlich für einige Fälle in einem Datensatz, aber nicht anders sein. In Panel-Daten kann dies auftreten, wenn ein gegebener Befragter nicht in allen Wellen der Studie teilnehmen. Es kann auch für eine Reihe von anderen Gründen auftreten. Beispielsweise könnte ein weiblicher Befragter in der Teilmenge der Daten mit demographischen Informationen erscheinen, aber vollständig aus der Teilmenge von Daten mit Informationen über weibliche Befragte Kinder fehlen, da sie keine Kinder hat. Da Fälle, die nicht in allen Datasets vorhanden sind, nicht unbedingt ein Problem darstellen, damit die Informationen in Merge-Variablen nützlich sein können, müssen Sie wissen, was zu erwarten ist, wenn die Datasets ordnungsgemäß zusammengeführt werden. In dem obigen Beispiel, in dem die gleichen 200 Fälle in drei Datensätzen erschien, würde ich erwarten, dass 200 Fälle zu sehen, die alle aus allen drei der Datensätze kam. Wenn es einige Fälle gibt, die von einigen der Datensätze fehlen, dann würde ich erwarten, eine bestimmte Anzahl von Fällen zu sehen, die nicht von allen Datenbeständen kommen, aber ich muss noch sicherstellen, dass es arent zu viele gibt, die von nur einigen kommen Datensätzen. Wenn Sie zu viele oder alle der Fälle in Ihrem zusammengeführten Datensatz haben, kommen Sie aus einem oder nur einigen der Datensätze, die Sie zusammengeführt haben, ist ein Zeichen, dass die Variable id nicht korrekt über Datensätze passt. Dies ist besonders häufig, wenn die Variable id ein String ist. Im Folgenden untersuchen wir einen Datensatz nach dem Zusammenführen zu sehen, ob alle wie erwartet. Die Ausgabe unten zeigt die Datei für einen Dataset data1m. dta, wenn wir die Anzahl der Beobachtungen betrachten (obs) sehen wir, dass der Datensatz nur 197 Fälle enthält, aber wir wissen, dass die Studie insgesamt 200 Fälle umfasste, so dass wir das wissen Sind drei Fälle fehlen völlig aus data1m. Dies ist wichtig, wenn wir die Zusammenführungsvariablen später korrekt interpretieren werden. Schließlich sortieren wir die Daten und speichern sie unter einem neuen Namen. Um Platz zu sparen, zeigen wir nicht die Ausgabe für die beiden anderen Datensätze (der Code erscheint unten, falls Sie es ausführen möchten). Nehmen wir an, dass wir, wenn wir auf data2m und data3m beschreiben, entdecken, dass es auch fehlende Fälle sind. Dataset data2m enthält 196 Beobachtungen und dataset3m enthält 197. Es ist möglich, dass einige dieser Fälle aus allen drei Datensätzen fehlen (dh die fehlenden Beobachtungen überschneiden sich über Datensätze), aber es ist auch möglich, dass alle 200 Beobachtungen in mindestens einem der beiden Datensätze auftreten Datensätzen. Wir werden herausfinden, sobald wir die Daten zusammenführen. Sobald wir die Datensätze geprüft und sortiert haben, können wir sie zusammenführen. Die Syntax unten ist dies, beachten Sie, dass der Befehl ist die gleiche wie im ersten Beispiel. Standardmäßig erlaubt Stata, dass Fälle aus einem der drei Datasets kommen. Es gibt Optionen, mit denen Sie steuern, welche Datasets die Fälle kommen, können Sie herausfinden, über sie durch die Eingabe von help fusionieren (ohne die Anführungszeichen) in Stata. Wie zuvor fügte der Merge-Befehl drei neue Variablen zusammen. Merge1. Und merge2. Die Variable merge gibt Auskunft darüber, welche Fälle im Master-Dataset vorhanden waren, sie nimmt einen von drei Werten an: Die Beobachtung ist nur im Master-DatasetInStata vorhanden, wie kann ich zwei Datensätze zusammenführen, um zwei Datensätze in Stata zuerst zu verschmelzen Sortieren Sie jeden Datensatz auf die Schlüsselvariablen, auf denen das Mischen basiert. Verwenden Sie dann den Befehl. merge, gefolgt von einer Liste von Schlüsselvariablen und Datensätzen. In Stata Version 11 und später: 1: 1 varlist mit Dateinamen zusammenführen Optionen Wenn Sie mit Stata Version 10 oder älter, lassen Sie die 1: 1-Spezifikation. Beobachtungen in jedem Datensatz sollten in der Eins-zu-Eins-Übereinstimmung eindeutig sein. Angenommen, wir haben zwei Schlüsselvariablen id und den Namen in zwei Datensätzen stat und math. Der folgende Code sortiert und speichert den stat-Datensatz und sortiert dann den mathematischen Datensatz. Wenn sich der Mathematikdatensatz noch im Speicher befindet, verschmilzt er (unter Verwendung des Statdatensatzes) zu den Schlüsselvariablen id und name: Wenn zwei Datensätze neben den Schlüsselvariablen Freigabenvariablen verwenden, verwenden Sie die Option update, um fehlende Werte zu ersetzen Die Master-Datei (im Speicher) mit entsprechenden nicht fehlenden Werten in der sekundären Datei. Use, update replace ersetzt nicht fehlende Werte in der Master-Datei durch entsprechende nicht fehlende Werte in der sekundären Datei. So verwenden Sie das Dropdown-Menü in Stata Version 11 und höher: Data gt Kombination von Datensätzen gt Zusammenführen von zwei Datasets Wenn Sie Fragen zur Verwendung statistischer und mathematischer Software an der Indiana University haben, wenden Sie sich an Research Analytics. Research Analytics befindet sich auf der IU Bloomington Campus in Woodburn Hall 200 Mitarbeiter sind für die Beratung Montag bis Freitag 9.00 Uhr und nach Vereinbarung.
No comments:
Post a Comment