Wednesday, 19 April 2017

Test Interaktionen In Stata Forex

Stata: Datenanalyse und statistische Software Kenneth Higbee, StataCorp Ich werde veranschaulichen, was passiert mit einem einfachen Beispiel mit Regress. Wir untersuchen die Hypothesen, die getestet werden, wenn wir die Basis (weggelassen) Ebene ändern, wenn wir eine Interaktion in einem einfachen Zwei-Faktor-Modell haben. Für dieses einfache Beispiel hat jeder Faktor nur zwei Ebenen. Die Schlussfolgerung ist, dass, trotz, was einige glauben können, der Test eines einzelnen Koeffizienten in einem Regressionsmodell, wenn Interaktionen im Modell sind, von der Wahl der Basisebenen abhängt. Das Ändern von einer Basis zur anderen ändert die Hypothese. Darüber hinaus ist die Hypothese für einen Test, der einen einzigen Regressionskoeffizienten umfasst, im Allgemeinen nicht derselbe wie die Hypothese, die durch einen ANOVA-F-Test einer Hauptwirkung eines Faktors getestet wurde. Dies kann auf den ersten Blick kontraintuitiv sein, aber es ist wahr. Nehmen Sie die folgenden Daten: Wir haben eine 2 mal 2 Tabelle mit unausgeglichener Datamdashthat ist, verschiedene Stichprobengrößen (4, 3, 2 und 8) in jeder Zelle. Wir verweisen auf die 2 mal 2 Tabelle oben und vergleichen ihre Werte und Mittel mit denen in anderen Regressionstabellen. Diese Vergleiche können uns helfen, besser zu verstehen, welche Hypothesen geprüft werden. Letrsquos beginnen, indem sie an die überparametrisierte Entwurfsmatrix X denken. Wir wollen die Regressionskoeffizienten b inv (XX) (Xy) berechnen, aber wegen der Kollinearitäten in X (A1 A2 nach B1 B2 cons.) Müssen viele der Spalten von X weggelassen werden, um eine Matrix voller Rangordnung zu haben Wir können invertieren. Entweder die A1 oder die A2 Spalte muss weggelassen werden (oder möglicherweise die Nachteile, aber letrsquos nicht erforschen, dass jetzt). Die Spalte, die wir weglassen, entspricht dem, was wir den Basispegel für diesen Faktor nennen. Ebenso für B1 und B2mdashone von ihnen muss weggelassen werden, um collinearity mit der Konstante zu vermeiden. Von den vier Spalten von X für die A-zu-B-Wechselwirkung müssen drei davon weggelassen werden (vorausgesetzt, dass wir eine der Spalten A, eine der Spalten B und Sp) halten. Wir könnten die erste Stufe von A und B (die Spalten A1 und B1 von X) und die Spalten von AB, die mit diesen Selektionen übereinstimmen (in diesem Fall die ersten 3 Spalten des Teils von X für AB), weglassen ). Das obige Kommando ist gleichbedeutend mit Statarsquos default, um die erste Ebene auszuwählen, um die Basis zu sein, wenn Sie einfach eingeben oder noch prägnanter, In allen Fällen des Regresses in dieser FAQ fügen Sie die allbaselevels Option hinzu, um eine ausführlichere Regressionstabelle zu erhalten, die genau das angibt Spalten der X-Matrix weggelassen wurden. Nachdem das Konzept völlig klar ist, können Sie die Option allbaselevels nicht verwenden, da es übermäßig ausführlich erscheint. Statt A auf Stufe 1 und B auf Stufe 1 für die Basis zu wählen, könnten wir für die Basis drei andere Wahlmöglichkeiten treffen: A bei Stufe 1, B bei Stufe 2A bei Stufe 2, B bei Stufe 1A bei Stufe 2, B bei Ebene 2 Sie können diese drei anderen Optionen mit diesen Befehlen erhalten: Führen Sie diese vier Regressionen aus, untersuchen Sie die Koeffizienten und vergleichen Sie sie mit den in der obigen Tabelle gezeigten Mitteln. Letrsquos beginnen mit den Standard-Basisebenen. Um klar zu sein, welche Säulen aus der X-Matrix fallen, die wir oben gezeigt haben, geben Sie zuerst den Befehl ein: Um der Kürze halber zu sehen, betrachten wir eine verkürzte Version derselben Regressionstabelle. Der Nachteilkoeffizient 25,5 entspricht dem Mittelwert der A1, B1 Zelle in unserer 2 mal 2 Tabelle. Mit anderen Worten entspricht die Konstante in der Regression der Zelle in unserer 2 mal 2 Tabelle für unsere gewählten Basisebenen (A bei 1 und B bei 1). Wir erhalten den Mittelwert der A1, B2 Zelle in unserer 2 mal 2 Tabelle, 26.33333, indem wir den Cons Koeffizienten dem 2.B Koeffizienten (25.5 0.833333) hinzufügen. Wir erhalten den Durchschnitt der A2, B1 Zelle in unserer 2 mal 2 Tabelle, 33, indem wir den Nachteilkoeffizienten dem 2.A Koeffizienten (25.5 7.5) addieren. Wir erhalten den Mittelwert der A2, B2-Zelle in unserer 2-fachen 2-Tabelle, 49, indem wir den Koeffizienten des Koeffizienten 2.A, den Koeffizienten 2.B und den Koeffizienten 2.A2.B (25.5 7.5 0.8333 15.1667 ). Letrsquos konzentrieren sich auf den 2.A-Koeffizienten, der 7,5 entspricht. Was entspricht es entspricht Es entspricht der A2, B1 Zelle minus der A1, B1 Zelle. Rückblickend auf unseren 2 mal 2 Tisch wäre das 33 minus 25,5. Wenn Sie den Test für diesen einzelnen Regressionskoeffizienten betrachten, testen Sie diese Hypothese: mit B auf 1 gesetzt. Gibt es einen Unterschied zwischen Stufe 2 von A und Ebene 1 von A. Nun wählen Sie eine der anderen drei Regressionen, die eine andere Kombination von Basen für die beiden Faktoren verwendet. Wir wählen die letzte. Nur um sicherzugehen, was aus der X-Matrix weggelassen wurde, geben Sie den Befehl ein: Für die Kürze ist hier die gleiche Regression kompakter dargestellt: Hier entspricht der Nachteilkoeffizient 49 dem Mittelwert für die Zelle A2, B2 Von unserem 2 mal 2 Tisch. Dies entspricht unserer Wahl der Stufe 2 als Basis für A und B. Wir erhalten den Mittelwert der A1, B2-Zelle, 26.3333, indem wir den Cons-Koeffizienten dem 1.A-Koeffizienten (49 -22.6667) addieren. Wir erhalten den Mittelwert der A2, B1 Zelle, 33, indem wir den Cons-Koeffizienten dem 1.B-Koeffizienten (49 -16) zuordnen. Wir erhalten den Mittelwert der A1, B1 Zelle, 25.5, durch Addition aller vier der Koeffizienten (49 -22.6667 -16 15.1667) Letrsquos Blick auf den 1.A Koeffizienten, der ist -22.6667. Dieser Koeffizient entspricht der A1, B2-Zelle minus der A2-, B2-Zelle. Aus unserer 2 mal 2 Tabelle wäre das 26.3333 minus 49. Wenn Sie sich den Test für diesen einzelnen Regressionskoeffizienten anschauen, testen Sie die Hypothese: mit B auf 2 setzen. Gibt es einen Unterschied zwischen Level 1 von A und Level 2 von A. Die Hypothese für den Test des 1.A-Koeffizienten in diesem Modell ist nicht gleichbedeutend mit der Hypothese für den Test des 2.A-Koeffizienten im vorherigen Regressionsmodell. Sie sind beide Tests A. Aber im ersten Fall ist es ein Test von A mit B auf 1 gesetzt. In diesem zweiten Fall ist es ein Test von A mit B auf 2 gesetzt. Im ersten Test war der p-Wert 0.710. Im zweiten ist der p-Wert 0.165. Dies sind sehr unterschiedliche p-Werte für diesen Datensatz, aber das ist nicht schockierend, weil sie verschiedene Hypothesen testen. Ich könnte veranschaulichen, was die Koeffizienten in den beiden anderen Regressionen repräsentieren (wo wir andere Kombinationen der Ebenen von A und B wählen, um die Basis zu sein), aber ich werde unterlassen, weil es eine lange FAQ noch länger machen würde. Der ANOVA-Test der Hauptwirkung von A ist ein anderer Test aus den beiden obigen Koeffiziententests. Der Test der Hauptwirkung von A ergibt einen p-Wert von 0,2496. Sie erhalten denselben p-Wert für den Haupteffekt von A, unabhängig davon, ob Sie den anova-Befehl wie oben gezeigt eingeben oder verschiedene Basisebenen auswählen. Die folgenden Befehle geben alle dieselben F-Tests: Wie würden Sie den ANOVA-Haupteffekt F-Test für Term A aus den zugrunde liegenden Regressionskoeffizienten erhalten? Schauen Sie sich die symbolische Option des Tests nach anova an. Für jeden der Regressionen können wir denselben F-Test für die Hauptwirkung von A erhalten, wie die obige ANOVA zeigt. Geben Sie die folgenden Befehle ein: Verweisen Sie zurück auf die Test A, symbolische Tabelle, um zu sehen, warum die obigen Tests so eingerichtet sind, wie sie sind. Wenn Sie nicht sicher sind, wie ich wusste, geben Sie b2.A2.B etc. verwenden Sie die coeflegend Option des Regress. Ich gebe zu, dass die Verwendung der linearen Kombination von Regressionskoeffizienten b2.A 0.5b2.A2.B (wobei die erste Regression als Beispiel ausgewählt wird), um den F-Test für den Term A rsquos Haupteffekt zu erzeugen, nicht offensichtlich oder intuitiv. Wir betrachten die Algebra, wenn die ersten Ebenen von A und B die Basisniveaus für unsere Regression sind: Sie finden, dass 0.5 (A2, B1 A2, B2) minus 0.5 (A1, B1 A1, B2) gleich b2. 0.5b2 ist. A2.B. Der F-Test in ANOVA für die Hauptwirkung von A prüft die folgende Hypothese: Der Mittelwert der Zelle bedeutet, wenn A 2 minus der Mittelwert der Zellmittel ist, wenn A 1 0 ist. Eine ähnliche Demonstration könnte für die anderen drei gezeigt werden Regressionsmodelle, in denen andere Basisstufen ausgewählt wurden. Willkommen für das Institut für Digitale Forschung und Bildung Stata FAQ Wie kann ich den Randbefehl verwenden, um mehrere Interaktionen in Regression und Anova zu verstehen (Stata 11) Der Ränderbefehl, neu in Stata 11, kann sein Ein sehr nützliches Werkzeug zum Verständnis und Interpretation von Interaktionen. Wir veranschaulichen den Befehl in zwei Beispielen mit dem hsbdemo-Dataset. Wir beginnen mit einem Modell, das eine kategorische durch kategorische Interaktion (weiblich von prog) zusammen mit einer kategorischen durch kontinuierliche Interaktion (Ehrungen durch Lesen). Um die Dinge etwas einfacher zu halten, haben die beiden Wechselwirkungen keine Bedingungen gemeinsam. Wir beginnen mit dem folgenden Regressionsmodell. Wie Sie sehen können, die honorc. read Interaktion ist signifikant zusammen mit allen anderen ein Grad der Freiheit Tests. Es gibt zwei Tests mit mehreren Freiheitsgraden, die wir mit dem Befehl testparm nachverfolgen müssen. Die weibliche Prog-Interaktion ist signifikant zusammen mit dem zwei Freiheitsgrad-Test für prog. Einige Leute könnten dies die wichtigste Wirkung für Prog nennen, aber das ist nicht richtig. Da wir Indikator (Dummy) Codierung verwenden, prüft der Test für Prog wirklich die Wirkung von prog, wenn weiblich gleich Null ist, das heißt, bei Männern. Wenn wir das F-Verhältnis für Prog mit den Zähler-Freiheitsgraden multiplizieren, erhalten wir einen Wert, der wie ein Chi-Quadrat skaliert ist. So, 2r (F) 17.616468, die ein Wert ist, den wir in einer kleinen Weile wieder sehen werden. Wir können das gleiche Modell mit dem Befehl anova ausführen. Die Anova scheint etwas anders zu sein, weil das Modell anders parametrisiert wird, aber es ist das exakt gleiche Modell. Beachten Sie, dass das F-Verhältnis für femaleprog dasselbe ist wie das aus dem testparm-Befehl und dass das F-Verhältnis für Ehrerbietung das gleiche ist wie das aus dem Regressionsausgang ((-.3200391.1112185) 2 (-2.8775707) 2 quadrierte t-Wert 8.2804133). Als nächstes verwenden wir Schätzungen speichern, um dieses Modell zu speichern, bevor Sie Ränder mit der Post-Option. Wir sind endlich bereit, den Ränderbefehl zu verwenden, um die femaleprog-Interaktion zu betrachten. Wenn Sie Schwierigkeiten haben, festzustellen, was die einzelnen Zeilen in der Ausgabe oben verweist, können Sie den Ränderbefehl mit der Option coeflegend erneut eingeben, um weitere Informationen zu erhalten. Diese Margins-Syntax mit der asymmetrischen Option liefert das Squash-Zelle-Mittelquantum (SAS-Terminologie), auch bekannt als das zitierte marginale Zellenmittel (SPSS-Terminologie), aber allgemeiner als das eingestellte Zellmittel bekannt. Und weil wir die Post-Option verwendet haben, können wir den Testbefehl verwenden, um die Unterschiede in den angepassten Zellmitteln zu vergleichen. Der kritische Wert von F für die pro Familienfehlerrate für diese Tests von einfachen Haupteffekten bei alpha ist gleich 0,05, was einem Chi-Quadrat-Wert von 7,42 entspricht. Die Verwendung von 7.42 als kritischer Wert deutet darauf hin, dass der Test der Progunterschiede bei weiblichen 0 (Männchen) signifikant war und denselben chi-Quadratwert aufweist, den wir oben in der 2r (F) berechnet haben. Der Test von prog bei weiblichen gleich eins (Weibchen) war nicht signifikant. Wir sollten den signifikanten Test mit paarweisen Vergleichen bei Frauen gleich Null verfolgen. Diese Tests enthalten keine Anpassungen für mehrfache Vergleiche, aber wir können eine Bonferroni-Anpassung verwenden, indem wir unseren Alpha-Pegel durch die Anzahl der paarweisen Tests (0,053 0,0167) dividieren. Mit dieser (zugegebenermaßen konservativen) Anpassung war nur prog2 vs prog3 female0 statistisch signifikant. Als nächstes können wir unsere Aufmerksamkeit auf die signifikante kategorische durch kontinuierliche Interaktion, Ehrungen durch Lesen. Wenn Sie auf die Regressionsausgabe zurückblicken, sehen Sie, dass der Koeffizient für den Lesezugriff .369414 mit einem Standardfehler von 0,0553672 war. Dieser Wert. 369414, ist die Steigung des Schreibens auf gelesen, wenn Ehren gleich Null ist. Wir können leicht die Steigung erhalten, wenn Ehrungen gleich Eins sind, indem wir diesen Koeffizienten dem Koeffizienten für den Wechselwirkungsterm hinzufügen (.369414 -.3200391 .0493749). Wir können diese Berechnung mit dem Befehl margins überprüfen, nachdem wir die Schätzungen wiederhergestellt haben, um unser ANOVAregressionsmodell zurückzubringen. Diese Ergebnisse sind in der Tat die gleichen wie unsere Berechnung der Pisten oben. Natürlich haben wir jetzt auch Standardfehler und Konfidenzintervalle für beide Pisten. Als nächstes berechnen wir die prädiktiven Margen für jeden 10. Wert von 20 bis 70 für jede Ebe - nee. Die prädiktiven Margen für dieses Modell sind die linearen Vorhersagen des Schreibens für die sechs Werte des Lesens für jede Ebene der Ehrungen. Da es sich um ein lineares Modell handelt, wird jeder der sechs prädiktiven Ränder für Ehrungen 0 auf eine gerade Linie fallen, wie die sechs Werte für Ehren 1. Wenn wir diese Werte als zwei Linien darstellen wollen, benötigen wir die Werte der prädiktiven Ränder , Die gelesenen Werte, für die die Werte berechnet wurden, und den Wert der Ehren, für die sie gelten. Die Werte für die prädiktiven Ränder und für das Lesen werden in zwei verschiedenen Matrizen gefunden, die mit dem Befehl Ränder gespeichert wurden. Die prädiktiven Ränder werden in der Matrix r (b) gefunden, während die Werte des Lesens in der Matrix r (at) zusammen mit einigen anderen Spalten gefunden werden, die wir verwerfen werden. Bitte beachten Sie, dass, wenn wir die Option post verwendet haben, die beiden Matrizen e (b) und e (at) gewesen wären. Mit ein wenig Matrixarbeit haben wir die prädiktiven Ränder und die gelesenen Werte in der Stata-Matrix b. Beachten Sie die Verwendung des Kronecker-Produkts, um zwei der gelesenen Werte zu erhalten. Die forvalues-Schleife fügt die alternierenden Werte von Ehren der Matrix b hinzu. Wir beenden, indem wir die Matrix auf Daten mit dem Befehl svmat speichern, gefolgt von unserem graph twoway Befehl. Nach dem Betrachten des Diagramms könnten Sie daran interessiert sein zu testen, ob die prädiktiven Ränder für Ehrungen 0 von den Werten für Ehrungen 1 für jeden der sechs Lesewerte verschieden sind. Wenn wir die Postoption verwendet hätten, hätten wir den Test als Nachschätzungsbefehl verwenden können. Allerdings ist es einfacher, den Rand-Befehl erneut zu berechnen, um den Randeffekt von Ehren mit der dydx-Option zu berechnen. Da Ehrungen ist eine kategorische variable Margen wird automatisch berechnen die diskrete Änderung für uns. Alle sechs dieser Tests wären signifikant unter Verwendung eines von Bonferroni bereinigten kritischen Wertes von 0,056, 0083. Unser nächstes Beispiel wird ein wenig komplexer, weil es zwei kategorische durch kategorische Interaktionen (weiblich durch prog und weiblich durch Ehrungen) mit einem gemeinsamen Begriff zwischen ihnen. Darüber hinaus gibt es eine kontinuierliche Kovariate, Mathematik. Dieses Mal beginnen wir mit dem ANOVA-Modell und folgen ihm mit dem Regressionsmodell. Wie Sie sehen können, die Regressions-und ANOVA-Modelle liefern die gleichen Ergebnisse für die Interaktionen und ein Grad der Freiheit Tests. Die beiden Freiheitsgrade für Prog unterscheiden sich von den Anova-Ergebnissen, da Regress Indikator (Dummy) - Codierung verwendet. Die Testparm Ergebnisse für Prog ist eigentlich die einfache Wirkung von prog, wenn Weibchen auf seinem Referenzniveau von Null ist. Wir werden wieder den Ränderbefehl mit den asbalanced und post Optionen verwenden, um die angepassten Zellmittel zu erhalten. Jetzt können wir Testbefehle verwenden, um die einfachen Haupteffekte für prog auf jedem Niveau der Frau zu prüfen. Der kritische Wert für diese Tests von einfachen Hauptwirkungen ist 3,76 für eine Familienfehlerrate von 0,05. Somit ist nur der Test für prog bei female0 statistisch signifikant. Wir werden diesen signifikanten Test von einfachen Hauptwirkungen mit paarweisen Vergleichen unter den Niveaus von prog verfolgen. Die Bonferroni-angepassten p-Werte für prog1 gegenüber prog3 und prog2 gegenüber prog3 sind 0,0045 bzw. 0,0003. Der andere Paarvergleich war ohne Anpassung nicht signifikant. Als nächstes müssen wir die zweite Interaktion im Modell betrachten. Um dies zu tun, verwenden wir den Schätzungswiederherstellungsbefehl. Sobald die Schätzungen wiederhergestellt sind, folgen wir der gleichen Reihe von Schritten, die wir für die erste Interaktion verwendet haben. Diesmal beträgt der kritische Wert für die Fehlerrate pro Familie 5.10, so dass beide Tests statistisch signifikant sind. Anstatt die Margins gefolgt von Test zu spielen, könnten wir zu den gleichen Ergebnissen gelangen, indem wir Margins mit Ehren ausführen, die in der Option dydx enthalten sind. Für kategoriale Variablen berechnet die dydx-Option diskrete Änderung. Die Ausgabe für diesen Ansatz ist in Bezug auf z-Scores. Durch Quadrieren der z-Werte können wir die Ergebnisse mit dem obigen Testbefehl vergleichen. So schließt Beispiel 2. Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, ein Buch oder ein Softwareprodukt von der Universität von Kalifornien ausgelegt werden.


No comments:

Post a Comment