Thursday 19 January 2017

Arma Autoregressive Moving Average Example

Les processus d'erreur moyenne mobile autorégressive (erreurs ARMA) et d'autres modèles impliquant des retards de termes d'erreur peuvent être estimés en utilisant des instructions FIT et simulés ou prévisionnés en utilisant les instructions SOLVE. Les modèles ARMA pour le processus d'erreur sont souvent utilisés pour les modèles avec des résidus autocorrélés. La macro AR peut être utilisée pour spécifier des modèles avec des processus d'erreur autorégressive. La macro MA peut être utilisée pour spécifier des modèles avec des processus d'erreur moyenne mobile. Erreurs autorégressives Un modèle avec des erreurs autorégressives de premier ordre, AR (1), a la forme alors qu'un processus d'erreur AR (2) a la forme et ainsi de suite pour les processus d'ordre supérieur. Notez que les s sont indépendants et identiquement distribués et ont une valeur attendue de 0. Un exemple d'un modèle avec une composante AR (2) est et ainsi de suite pour les processus d'ordre supérieur. Par exemple, vous pouvez écrire un modèle de régression linéaire simple avec MA (2) erreurs de moyenne mobile où MA1 et MA2 sont les paramètres de la moyenne mobile. Notez que RESID. Y est automatiquement défini par PROC MODEL comme La fonction ZLAG doit être utilisée pour les modèles MA pour tronquer la récursivité des décalages. Cela garantit que les erreurs retardées commencent à zéro dans la phase d'amorçage et ne propagent pas les valeurs manquantes lorsque des variables de période d'amorçage sont manquantes et il s'assure que les erreurs futures sont nulles plutôt que manquantes pendant la simulation ou la prévision. Pour plus de détails sur les fonctions de retard, reportez-vous à la section Lag Logic. Ce modèle écrit à l'aide de la macro MA est le suivant: Forme générale pour les modèles ARMA Le processus général ARMA (p, q) a la forme suivante Un modèle ARMA (p, q) peut être spécifié comme suit: où AR i et MA j représentent Les paramètres autorégressifs et de moyenne mobile pour les différents décalages. Vous pouvez utiliser tous les noms que vous voulez pour ces variables, et il existe de nombreuses façons équivalentes que la spécification pourrait être écrit. Les processus ARMA vectoriels peuvent également être estimés avec le MODÈLE PROC. Par exemple, un processus AR (1) à deux variables pour les erreurs des deux variables endogènes Y1 et Y2 peut être spécifié comme suit: Problèmes de convergence avec les modèles ARMA Les modèles ARMA peuvent être difficiles à estimer. Si les estimations des paramètres ne se situent pas dans la plage appropriée, les termes résiduels d'un modèle de moyenne mobile augmentent de façon exponentielle. Les résidus calculés pour les observations ultérieures peuvent être très importants ou peuvent déborder. Cela peut se produire soit parce que des valeurs de départ inappropriées ont été utilisées, soit parce que les itérations se sont éloignées de valeurs raisonnables. Il faut prendre soin de choisir les valeurs de départ pour les paramètres ARMA. Les valeurs initiales de 0,001 pour les paramètres ARMA fonctionnent habituellement si le modèle correspond bien aux données et que le problème est bien conditionné. Notez qu'un modèle MA peut souvent être approché par un modèle AR de haut niveau, et vice versa. Cela peut entraîner une collinearité élevée dans les modèles ARMA mixtes, ce qui peut entraîner un mauvais conditionnement dans les calculs et l'instabilité des paramètres estimés. Si vous avez des problèmes de convergence lors de l'estimation d'un modèle avec des processus d'erreur ARMA, essayez d'estimer par étapes. Tout d'abord, utilisez une instruction FIT pour estimer uniquement les paramètres structurels avec les paramètres ARMA maintenus à zéro (ou à des estimations antérieures raisonnables si disponibles). Ensuite, utilisez une autre instruction FIT pour estimer les paramètres ARMA uniquement, en utilisant les valeurs des paramètres structurels de la première exécution. Puisque les valeurs des paramètres structurels sont vraisemblablement proches de leurs estimations finales, les estimations des paramètres ARMA pourraient alors converger. Enfin, utilisez une autre instruction FIT pour produire des estimations simultanées de tous les paramètres. Comme les valeurs initiales des paramètres sont maintenant susceptibles d'être très proches de leurs estimations conjointes finales, les estimations devraient converger rapidement si le modèle est approprié pour les données. AR Conditions initiales Les retards initiaux des termes d'erreur des modèles AR (p) peuvent être modélisés de différentes façons. Les procédés autorégressifs de démarrage d'erreurs pris en charge par les procédures SAS / ETS sont les suivants: Procédures minimales conditionnelles (Procédures ARIMA et MODEL) Procédures minimales inconditionnelles (Procédures AUTOREG, ARIMA et MODEL) maximales (procédures AUTOREG, ARIMA et MODEL) Yule-Walker (Procédure AUTOREG seulement) Hildreth-Lu, qui supprime les premières p observations (procédure MODEL uniquement) Voir le chapitre 8, La procédure AUTOREG, pour une explication et une discussion des mérites de différentes méthodes de démarrage AR (p). Les initialisations CLS, ULS, ML et HL peuvent être effectuées par PROC MODEL. Pour les erreurs AR (1), ces initialisations peuvent être produites comme indiqué dans le tableau 18.2. Ces méthodes sont équivalentes dans de grands échantillons. Tableau 18.2 Initialisations effectuées par PROC MODEL: AR (1) ERRORS Les retards initiaux des termes d'erreur des modèles MA (q) peuvent également être modélisés de différentes façons. Les paradigmes de démarrage d'erreur moyenne mobile suivants sont supportés par les procédures ARIMA et MODEL: les moindres carrés conditionnels les moindres carrés inconditionnels La méthode des moindres carrés conditionnels pour estimer les termes d'erreurs moyennes mobiles n'est pas optimale car elle ignore le problème de démarrage. Cela réduit l'efficacité des estimations, bien qu'elles demeurent impartiales. Les résidus retardés initiaux, s'étendant avant le début des données, sont supposés être 0, leur valeur inconditionnelle attendue. Ceci introduit une différence entre ces résidus et les résidus des moindres carrés généralisés pour la covariance de la moyenne mobile qui, contrairement au modèle autorégressif, persiste à travers l'ensemble de données. Habituellement, cette différence converge rapidement vers 0, mais pour des processus de moyenne mobile non interchangeables, la convergence est assez lente. Pour minimiser ce problème, vous devriez avoir beaucoup de données, et les estimations des paramètres de la moyenne mobile devraient être bien dans la gamme inversible. Ce problème peut être corrigé au détriment d'écrire un programme plus complexe. On peut produire des estimations des moindres carrés inconditionnels pour le processus MA (1) en spécifiant le modèle comme suit: Les erreurs moyennes mobiles peuvent être difficiles à estimer. Vous devriez envisager d'utiliser une approximation AR (p) pour le processus de la moyenne mobile. Un processus à moyenne mobile peut généralement être bien approché par un processus autorégressif si les données n'ont pas été lissées ou différenciées. La macro AR La macro SAS AR génère des instructions de programmation pour le modèle PROC pour les modèles autorégressifs. La macro AR fait partie du logiciel SAS / ETS et aucune option spéciale ne doit être définie pour utiliser la macro. Le processus autorégressif peut être appliqué aux erreurs d'équations structurelles ou aux séries endogènes elles-mêmes. La macro AR peut être utilisée pour les types d'autorégression suivants: autorégression vectorielle non restreinte autorégression vectorielle restreinte Autoregression univariée Pour modéliser le terme d'erreur d'une équation comme un processus autorégressif, utilisez l'instruction suivante après l'équation: Par exemple, supposons que Y est un Linéaire de X1, X2 et une erreur AR (2). Vous écririez ce modèle comme suit: Les appels à AR doivent venir après toutes les équations auxquelles s'applique le processus. L'invocation de la macro précédente, AR (y, 2), produit les instructions affichées dans la sortie LIST de la figure 18.58. Figure 18.58 Sortie d'option LIST pour un modèle AR (2) Les variables préfixées PRED sont des variables de programme temporaires utilisées de sorte que les retards des résidus sont les résidus corrects et non ceux qui sont redéfinis par cette équation. Notez que cela équivaut aux instructions explicitement écrites dans la section Formulaire général pour les modèles ARMA. Vous pouvez également restreindre les paramètres autorégressifs à zéro à des décalages sélectionnés. Par exemple, si vous vouliez des paramètres autorégressifs aux lags 1, 12 et 13, vous pouvez utiliser les instructions suivantes: Ces instructions génèrent la sortie de la figure 18.59. Figure 18.59 Sortie de l'option LIST pour un modèle AR avec Lags aux niveaux 1, 12 et 13 La liste des procédures MODEL de l'instruction de code du programme compilé est analysée PRED. yab x1 c x2 RESID. y PRED. y - ACTUAL. y ERROR. y PRED. Y-y OLDPRED. y PRED. y yl1 ZLAG1 (y-perdy) yl12 ZLAG12 (y-perdy) yl13 ZLAG13 (y-perdy) RESID. y PRED. y - ACTUAL. y ERROR. y PRED. y - y Il existe Variations selon la méthode des moindres carrés conditionnels, selon que les observations au début de la série sont utilisées pour réchauffer le processus AR. Par défaut, la méthode des moindres carrés conditionnels AR utilise toutes les observations et suppose des zéros pour les décalages initiaux des termes autorégressifs. En utilisant l'option M, vous pouvez demander à AR que vous utilisiez la méthode des moindres carrés inconditionnels (ULS) ou du maximum de vraisemblance (ML). Par exemple, les discussions sur ces méthodes sont fournies dans la section AR Conditions initiales. En utilisant l'option MCLS n, vous pouvez demander que les n premières observations soient utilisées pour calculer les estimations des retards autorégressifs initiaux. Dans ce cas, l'analyse commence par l'observation n 1. Par exemple: Vous pouvez utiliser la macro AR pour appliquer un modèle autorégressif à la variable endogène, au lieu du terme d'erreur, en utilisant l'option TYPEV. Par exemple, si vous voulez ajouter les cinq décalages passés de Y à l'équation de l'exemple précédent, vous pouvez utiliser AR pour générer les paramètres et les retards en utilisant les instructions suivantes: Les instructions précédentes génèrent la sortie illustrée à la figure 18.60. Figure 18.60 Option LIST Sortie pour un modèle AR de Y Ce modèle prédit Y comme une combinaison linéaire de X1, X2, une interception et les valeurs de Y dans les cinq dernières périodes. Autoregression vecteur non restreint Pour modéliser les termes d'erreur d'un ensemble d'équations comme un processus autorégressif vectoriel, utilisez la forme suivante de la macro AR après les équations: La valeur nomprocessus est tout nom que vous fournissez à AR à utiliser pour créer des noms pour l'autorégressif paramètres. Vous pouvez utiliser la macro AR pour modéliser plusieurs processus AR différents pour différents ensembles d'équations en utilisant différents noms de processus pour chaque ensemble. Le nom du processus garantit que les noms de variable utilisés sont uniques. Utilisez une valeur processname courte pour le processus si des estimations de paramètres doivent être écrites dans un jeu de données de sortie. La macro AR essaie de construire des noms de paramètres inférieurs ou égaux à huit caractères, mais limité par la longueur de nomprocessus. Qui est utilisé comme préfixe pour les noms de paramètres AR. La variable listlist est la liste des variables endogènes des équations. Supposons, par exemple, que les erreurs des équations Y1, Y2 et Y3 soient générées par un processus autorégressif vectoriel de second ordre. Vous pouvez utiliser les instructions suivantes: qui génèrent ce qui suit pour Y1 et un code similaire pour Y2 et Y3: Seule la méthode des moindres carrés conditionnels (MCLS ou MCLS n) peut être utilisée pour les processus vectoriels. Vous pouvez également utiliser le même formulaire avec des restrictions que la matrice de coefficients soit 0 aux décalages sélectionnés. Par exemple, les instructions suivantes appliquent un processus vectoriel de troisième ordre aux erreurs d'équation avec tous les coefficients au retard 2 restreint à 0 et avec les coefficients aux écarts 1 et 3 sans restriction: Vous pouvez modéliser les trois séries Y1Y3 comme un processus vectoriel autorégressif Dans les variables plutôt que dans les erreurs en utilisant l'option TYPEV. Si vous souhaitez modéliser Y1Y3 en fonction de valeurs passées de Y1Y3 et de certaines variables ou constantes exogènes, vous pouvez utiliser AR pour générer les états pour les termes de retard. Écrivez une équation pour chaque variable pour la partie non-autorégressive du modèle, puis appelez AR avec l'option TYPEV. Par exemple, la partie non autorégressive du modèle peut être une fonction de variables exogènes, ou elle peut être des paramètres d'interception. S'il n'existe pas de composantes exogènes au modèle d'autorégression vectorielle, y compris les interceptions, affectez zéro à chacune des variables. Il doit y avoir une affectation à chacune des variables avant d'appeler AR. Cet exemple modélise le vecteur Y (Y1 Y2 Y3) comme une fonction linéaire uniquement de sa valeur dans les deux périodes précédentes et un vecteur d'erreur de bruit blanc. Le modèle a 18 (3 3 3 3) paramètres. Syntaxe de la macro AR Il existe deux cas de la syntaxe de la macro AR. Lorsque des restrictions sur un processus AR vectoriel ne sont pas nécessaires, la syntaxe de la macro AR a la forme générale spécifie un préfixe pour AR à utiliser dans la construction des noms de variables nécessaires pour définir le processus AR. Si l'endoliste n'est pas spécifié, la liste endogène prend par défaut le nom. Qui doit être le nom de l'équation à laquelle le processus d'erreur AR doit être appliqué. La valeur du nom ne peut pas dépasser 32 caractères. Est l'ordre du processus AR. Spécifie la liste des équations auxquelles le processus AR doit être appliqué. Si plus d'un nom est donné, un processus vectoriel non restreint est créé avec les résidus structurels de toutes les équations incluses comme régresseurs dans chacune des équations. Si non spécifié, endolist prend par défaut le nom. Spécifie la liste des délais auxquels les termes AR doivent être ajoutés. Les coefficients des termes aux décalages non listés sont mis à 0. Tous les retards indiqués doivent être inférieurs ou égaux à nlag. Et il ne doit pas y avoir de doubles. Si non spécifié, le laglist prend par défaut tous les retards 1 à nlag. Spécifie la méthode d'estimation à mettre en œuvre. Les valeurs valides de M sont CLS (estimations des moindres carrés conditionnels), ULS (estimations des moindres carrés inconditionnels) et ML (estimations du maximum de vraisemblance). MCLS est la valeur par défaut. Seul le MCLS est autorisé lorsque plus d'une équation est spécifiée. Les méthodes ULS et ML ne sont pas prises en charge par AR pour les modèles AR vectoriels. Spécifie que le processus AR doit être appliqué aux variables endogènes elles-mêmes plutôt qu'aux résidus structurels des équations. Auto-régression vectorielle restreinte Vous pouvez contrôler quels paramètres sont inclus dans le processus, en limitant à 0 ces paramètres que vous n'incluez pas. Tout d'abord, utilisez AR avec l'option DEFER pour déclarer la liste des variables et définir la dimension du processus. Ensuite, utilisez des appels AR supplémentaires pour générer des termes pour les équations sélectionnées avec des variables sélectionnées aux décalages sélectionnés. Les équations d'erreur produites sont les suivantes: Ce modèle indique que les erreurs pour Y1 dépendent des erreurs de Y1 et Y2 (mais pas de Y3) aux deux intervalles 1 et 2 et que les erreurs pour Y2 et Y3 dépendent Les erreurs précédentes pour les trois variables, mais seulement au décalage 1. Syntaxe AR Macro pour AR vectoriel restreint Une utilisation alternative d'AR est autorisée à imposer des restrictions sur un processus AR vectoriel en appelant AR plusieurs fois pour spécifier des termes AR différents et des décalages pour différents Équations. Le premier appel a la forme générale spécifie un préfixe pour AR à utiliser dans la construction de noms de variables nécessaires pour définir le processus vectoriel AR. Spécifie l'ordre du processus AR. Spécifie la liste des équations auxquelles le processus AR doit être appliqué. Spécifie que AR ne doit pas générer le processus AR mais doit attendre les informations supplémentaires spécifiées dans les appels AR ultérieurs pour la même valeur de nom. Les appels suivants ont la forme générale est la même que dans le premier appel. Spécifie la liste des équations auxquelles les spécifications de cet appel AR doivent être appliquées. Seuls les noms spécifiés dans la valeur endoliste du premier appel pour la valeur de nom peuvent apparaître dans la liste des équations dans eqlist. Spécifie la liste des équations dont les résidus structurels retardés doivent être inclus comme régresseurs dans les équations dans eqlist. Seuls les noms de l'endoliste du premier appel de la valeur de nom peuvent apparaître dans varlist. Si non spécifié, varlist par défaut est endolist. Spécifie la liste des délais auxquels les termes AR doivent être ajoutés. Les coefficients des termes aux décalages non listés sont mis à 0. Tous les retards indiqués doivent être inférieurs ou égaux à la valeur de nlag. Et il ne doit pas y avoir de doubles. Si non spécifié, laglist prend par défaut tous les retards 1 à nlag. La macro MA La macro SAS MA génère des instructions de programmation pour le modèle PROC pour les modèles à moyenne mobile. La macro MA fait partie du logiciel SAS / ETS et aucune option spéciale n'est nécessaire pour utiliser la macro. Le processus d'erreur moyenne mobile peut être appliqué aux erreurs d'équations structurelles. La syntaxe de la macro MA est la même que la macro AR sauf qu'il n'existe aucun argument TYPE. Lorsque vous utilisez les macros MA et AR combinées, la macro MA doit suivre la macro AR. Les instructions SAS / IML suivantes produisent un processus d'erreur ARMA (1, (1 3)) et l'enregistrent dans l'ensemble de données MADAT2. Les instructions PROC MODEL suivantes sont utilisées pour estimer les paramètres de ce modèle en utilisant la structure d'erreur de maximum de vraisemblance: Les estimations des paramètres produits par cette séquence sont présentées à la figure 18.61. Figure 18.61 Estimations d'un processus ARMA (1, (1 3)) Il existe deux cas de syntaxe pour la macro MA. Lorsque des restrictions sur un processus MA vectoriel ne sont pas nécessaires, la syntaxe de la macro MA a la forme générale spécifie un préfixe pour MA à utiliser dans la construction de noms de variables nécessaires pour définir le processus MA et est l'endoliste par défaut. Est l'ordre du processus MA. Spécifie les équations auxquelles le processus MA doit être appliqué. Si plus d'un nom est donné, l'estimation CLS est utilisée pour le processus vectoriel. Spécifie les délais auxquels les termes MA doivent être ajoutés. Tous les retards indiqués doivent être inférieurs ou égaux à nlag. Et il ne doit pas y avoir de doubles. Si non spécifié, le laglist prend par défaut tous les retards 1 à nlag. Spécifie la méthode d'estimation à mettre en œuvre. Les valeurs valides de M sont CLS (estimations des moindres carrés conditionnels), ULS (estimations des moindres carrés inconditionnels) et ML (estimations du maximum de vraisemblance). MCLS est la valeur par défaut. Seul le MCLS est autorisé lorsque plus d'une équation est spécifiée dans l'endoliste. MA Syntaxe macro pour le mouvement de vecteur restreint Moyenne Une autre utilisation de MA est autorisée à imposer des restrictions sur un processus MA vectoriel en appelant MA plusieurs fois pour spécifier différents termes MA et les décalages pour les différentes équations. Le premier appel a la forme générale spécifie un préfixe pour MA à utiliser dans la construction de noms de variables nécessaires pour définir le processus MA vecteur. Spécifie l'ordre du processus MA. Spécifie la liste des équations auxquelles le processus MA doit être appliqué. Spécifie que MA ne doit pas générer le processus MA mais doit attendre des informations supplémentaires spécifiées dans les appels MA ultérieurs pour la même valeur de nom. Les appels suivants ont la forme générale est la même que dans le premier appel. Spécifie la liste des équations auxquelles les spécifications de cet appel MA doivent être appliquées. Spécifie la liste des équations dont les résidus structurels retardés doivent être inclus comme régresseurs dans les équations dans eqlist. Spécifie la liste des décalages auxquels les termes MA doivent être ajoutés. Les modèles ARMA et ARIMA (Box-Jenkins) Les modèles ARMA et ARIMA (Box-Jenkins) Dans les sections précédentes, nous avons vu comment la valeur d'une série temporelle univariée au temps T. X t. Peut être modélisé en utilisant une variété d'expressions de la moyenne mobile. Nous avons également montré que des composantes telles que les tendances et la périodicité des séries temporelles peuvent être explicitement modélisées et / ou séparées, les données étant décomposées en composantes tendances, saisonnières et résiduelles. Nous avons également montré, dans les discussions précédentes sur l'autocorrélation. Que les coefficients d'autocorrélation complète et partielle sont extrêmement utiles pour identifier et modéliser des modèles dans des séries chronologiques. Ces deux aspects de l'analyse et de la modélisation des séries chronologiques peuvent être combinés dans un cadre de modélisation global plus général et souvent très efficace. Dans sa forme de base, cette approche est connue sous le nom de modélisation ARMA (moyenne mobile autorégressive), ou lorsque la différenciation est incluse dans la procédure, la modélisation ARIMA ou Box-Jenkins, après les deux auteurs qui ont joué un rôle central dans son développement BOX1, et Box, Jenkins amp Reinsel, 1994 BOX2). Il n'existe pas de règle fixe quant au nombre de périodes requises pour un exercice de modélisation réussi, mais pour des modèles plus complexes et pour une plus grande confiance dans les procédures d'ajustement et de validation, des séries de 50 étapes sont souvent recommandées. Les modèles ARMA combinent les méthodes d'autocorrélation (AR) et les moyennes mobiles (MA) dans un modèle composite de la série chronologique. Avant d'examiner comment ces modèles peuvent être combinés, nous examinons chacun séparément. Nous avons déjà vu que les modèles de moyenne mobile (MA) peuvent être utilisés pour fournir un bon ajustement à certains ensembles de données, et les variations sur ces modèles qui impliquent un lissage exponentiel double ou triple peuvent gérer les composantes tendances et périodiques dans les données. En outre, ces modèles peuvent être utilisés pour créer des prévisions qui imitent le comportement de périodes antérieures. Une forme simple de ces modèles, basée sur des données antérieures, peut être écrite comme: Où les termes bêta i sont les poids appliqués aux valeurs antérieures dans la série chronologique, et il est habituel de définir bêta i 1, sans perte de généralité. Ainsi pour un processus de premier ordre, q 1 et nous avons le modèle: c'est-à-dire que la moyenne mobile est estimée comme une moyenne pondérée des valeurs passées courantes et immédiates. Ce processus de calcul des moyennes est en quelque sorte un mécanisme de lissage pragmatique sans lien direct avec un modèle statistique. Cependant, nous pouvons spécifier un modèle statistique (ou stochastique) qui embrasse les procédures de moyennes mobiles en conjonction avec des processus aléatoires. Si on laisse un ensemble de variables aléatoires indépendantes et identiquement distribuées (un processus aléatoire) avec une moyenne nulle et une variance fixe connue, on peut écrire le processus comme une moyenne mobile d'ordre q en termes de: Clairement la valeur attendue de xt sous Ce modèle est 0, donc le modèle n'est valable que si le xt a déjà été ajusté pour avoir une moyenne nulle ou si une constante fixe (la moyenne du xt) est ajoutée à la somme. Il est également évident que la variance de xt est simplement: On peut étendre l'analyse ci-dessus pour évaluer la covariance, cov (x t. Xtk), que l'on trouve des rendements: Notons que ni la valeur moyenne, ni la covariance (ou autocovariance) Au décalage k est une fonction du temps, t. Donc le processus est de second ordre stationnaire. L'expression ci-dessus nous permet d'obtenir une expression pour la fonction d'autocorrélation (acf): Si k 0 rho k 1, et pour k gt q rho k 0. De plus, l'acf est symétrique et rho k rho - k. On peut calculer l'acf pour un processus MA de premier ordre: La composante autorégressive ou AR d'un modèle ARMA peut s'écrire sous la forme: où les termes in sont des coefficients d'autocorrélation aux décalages 1,2. P et z t est un terme d'erreur résiduelle. Notez que ce terme d'erreur concerne spécifiquement la période de temps actuelle, t. Ainsi, pour un processus de premier ordre, p 1 et nous avons le modèle: Ces expressions indiquent que la valeur estimée de x à l'instant t est déterminée par la valeur immédiatement précédente de x (ie à l'instant t -1) multipliée par une mesure alpha . De la mesure dans laquelle les valeurs de toutes les paires de valeurs à des intervalles de temps lag 1 séparés sont corrélées (c'est-à-dire leur autocorrélation), plus un terme d'erreur résiduelle, z. À l'instant t. Mais c'est précisément la définition d'un Processus de Markov. Donc un processus de Markov est un processus autorégressif de premier ordre. Si alpha 1 le modèle indique que la valeur suivante de x est simplement la valeur précédente plus un terme d'erreur aléatoire, et donc est une simple marche aléatoire 1D. Si l'on inclut d'autres termes, le modèle estime la valeur de x à l'instant t par une somme pondérée de ces termes plus une composante d'erreur aléatoire. Si l'on substitue la seconde expression au premier, on a: et l'application répétée de cette substitution donne: Or, si alpha lt1 et k est grand, cette expression peut être écrite dans l'ordre inverse, avec des termes décroissants et avec la contribution du terme En x sur le côté droit de l'expression devenant petit à petit, nous avons: Puisque le côté droit de cette expression modèle xt comme la somme d'un ensemble pondéré de valeurs antérieures, dans ce cas des termes d'erreur aléatoires, il est clair que Ce modèle AR est, en fait, une forme de modèle MA. Et si nous supposons que les termes d'erreur ont une moyenne nulle et une variance constante, alors comme dans le modèle MA, nous avons la valeur attendue du modèle aussi 0, en supposant que le xt a été ajusté pour fournir une moyenne zéro, avec la variance: Nous avons: Comme pour le modèle MA ci-dessus, cette analyse peut être étendue pour évaluer la covariance, cov (x t. X tk) d'un a (Α-1), nous avons: Cela démontre que pour un modèle autorégressif de premier ordre, la fonction d'autocorrélation (acf) est Simplement définie par des puissances successives de l'autocorrélation du premier ordre,, avec la condition alpha lt1. Pour alpha gt0, il s'agit simplement d'une puissance en diminution rapide ou d'une courbe exponentielle, tendant vers zéro, ou pour lt0, c'est une courbe oscillatoire d'amortissement, tendant de nouveau à zéro. Si l'on suppose que la série temporelle est stationnaire, l'analyse ci-dessus peut être étendue à des autocorrélations de deuxième ordre et d'ordre supérieur. Afin d'adapter un modèle AR à un ensemble de données observées, nous cherchons à minimiser la somme des erreurs au carré (un ajustement par les moindres carrés) en utilisant le plus petit nombre de termes qui fournissent un ajustement satisfaisant aux données. Les modèles de ce type sont décrits comme autorégressifs. Et peut être appliquée à la fois aux séries chronologiques et aux ensembles de données spatiales (voir plus loin, les modèles d'autorégression spatiale). Bien qu'en théorie un modèle autorégressif puisse fournir un bon ajustement à un ensemble de données observé, il nécessiterait généralement un retrait préalable, des composantes de tendance et périodiques, et même alors pourrait nécessiter un grand nombre de termes afin de fournir un bon ajustement aux données. Cependant, en combinant les modèles AR avec les modèles MA, nous pouvons produire une famille de modèles mixtes qui peuvent être appliqués dans un large éventail de situations. Ces modèles sont connus sous le nom de modèles ARMA et ARIMA et sont décrits dans les sous-sections suivantes. Dans les deux sous-sections précédentes, nous avons introduit le mode MA d'ordre q: et le modèle AR d'ordre p: On peut combiner ces deux modèles en les additionnant simplement comme un modèle d'ordre (p. Et q MA termes: En général, cette forme de modèle combiné ARMA peut être utilisé pour modéliser une série chronologique avec moins de termes globaux que soit un MA ou un modèle AR par eux-mêmes. Elle exprime la valeur estimée au temps t comme la somme des q termes qui représentent la variation moyenne de la variation aléatoire sur q périodes précédentes (la composante MA), plus la somme des termes p AR qui calculent la valeur courante de x comme somme pondérée Des p valeurs les plus récentes. Cependant, cette forme de modèle suppose que la série temporelle est stationnaire, ce qui est rarement le cas. En pratique, les tendances et la périodicité existent dans de nombreux ensembles de données, il est donc nécessaire de supprimer ces effets avant d'appliquer ces modèles. L'enlèvement est généralement effectué en incluant dans le modèle un stade de différenciation initial, typiquement une, deux ou trois fois, jusqu'à ce que la série soit au moins approximativement stationnaire - ne présentant aucune tendance ou périodicité évidente. Comme pour les processus MA et AR, le processus de différenciation est décrit par ordre de différenciation, par exemple 1, 2, 3. Ensemble, ces trois éléments forment un triple: (p, d, q) qui définit le type de modèle appliqué. Dans cette forme, le modèle est décrit comme un modèle ARIMA. La lettre I dans ARIMA fait référence au fait que l'ensemble de données a été initialement différencié (cf. différenciation) et lorsque la modélisation est terminée, les résultats doivent alors être additionnés ou intégrés pour produire les estimations finales et les prévisions. La modélisation ARIMA est discutée ci-dessous. Comme on l'a noté dans la section précédente, la combinaison de la différenciation d'une série temporelle non stationnaire avec le modèle ARMA fournit une famille puissante de modèles qui peuvent être appliqués dans un large éventail de situations. Le développement de ce modèle étendu est largement dû à G E P Box et G M Jenkins, et en conséquence les modèles d'ARIMA sont également connus comme des modèles de Box-Jenkins. La première étape de la procédure de Box-Jenkins est de différencier la série chronologique jusqu'à ce qu'elle soit stationnaire, ce qui permet d'éliminer les composantes saisonnières et les tendances. Dans de nombreux cas, une ou deux étapes de différenciation sont suffisantes. La série différenciée sera plus courte que la série source par c pas de temps, où c est la plage de la différenciation. Un modèle ARMA est alors adapté à la série temporelle résultante. Parce que les modèles ARIMA ont trois paramètres il ya beaucoup de variations aux modèles possibles qui pourraient être montés. Cependant, la décision sur ce que ces paramètres devraient être peut être guidée par un certain nombre de principes de base: (i) le modèle doit être aussi simple que possible, c'est-à-dire contenir le moins de termes possible, ce qui signifie les valeurs de p et q (Ii) l'ajustement aux données historiques devrait être aussi bon que possible, c'est-à-dire que la taille des écarts au carré entre la valeur estimée à n'importe quelle période passée et la valeur réelle doit être minimisée (principe des moindres carrés) Du modèle sélectionné peut alors être examinée pour voir si les résidus restants sont significativement différents de 0 (voir plus loin, ci-dessous) (iii) l'autocorrélation partielle mesurée aux décalages 1,2,3. Devrait donner une indication de l'ordre de la composante AR, c'est-à-dire que la valeur choisie pour q (iv) la forme de la fonction d'autocorrélation (acf) tracé peut suggérer le type de modèle ARIMA requis - le tableau ci-dessous (du NIST) Interpréter la forme de l'acf en termes de sélection de modèle. Sélection de type de modèle ARIMA en utilisant la forme acf La série n'est pas stationnaire. Les modèles ARIMA standard sont souvent décrits par le triple: (p. Ceux-ci définissent la structure du modèle en fonction de l'ordre des modèles AR, différenciation et MA à utiliser. Il est également possible d'inclure des paramètres similaires pour la saisonnalité dans les données, bien que ces modèles soient plus complexes à ajuster et à interpréter - le trip (P. D. Q) est généralement utilisé pour identifier ces composantes du modèle. Dans la capture d'écran de SPSS présentée ci-dessous, la boîte de dialogue permettant de sélectionner manuellement des éléments structurels non saisonniers et saisonniers est affichée (des installations similaires sont disponibles dans d'autres packages intégrés, tels que SAS / ETS). Comme on peut le voir, le dialogue permet également de transformer les données (généralement pour aider à la stabilisation de la variance) et de permettre aux utilisateurs d'inclure une constante dans le modèle (par défaut). Cet outil logiciel particulier permet de détecter les valeurs aberrantes si nécessaire, selon une gamme de procédures de détection, mais dans de nombreux cas, les valeurs aberrantes ont été étudiées et ajustées ou supprimées et les valeurs de substitution ont été estimées avant toute analyse. Modélisation de la série temporelle SPSS: modélisation ARIMA, mode expert Un certain nombre de modèles ARIMA peuvent être montés sur les données, manuellement ou via un processus automatisé (par exemple un processus par étapes), et une ou plusieurs mesures utilisées pour juger ce qui est le meilleur en termes de L'ajustement et la parcimonie. La comparaison des modèles utilise typiquement une ou plusieurs des mesures de la théorie de l'information décrites plus haut dans ce manuel - AIC, BIC et / ou MDL (la fonction R, arima () fournit la mesure AIC, tandis que SPSS fournit une gamme de mesures d'ajustement, Inclut une version de la statistique BIC d'autres outils varient dans les mesures fournies - Minitab, qui fournit une gamme de méthodes TSA, ne comprend pas les statistiques AIC / BIC type). En pratique, on peut utiliser un large éventail de mesures (c'est-à-dire autres que / en plus des mesures basées sur les moindres carrés pour évaluer la qualité du modèle). Par exemple, l'erreur absolue moyenne et l'erreur absolue maximale peuvent être des mesures utiles, Un bon nombre d'ensembles de logiciels peut également fournir une mesure globale de l'autocorrélation qui peut rester dans les résidus après l'ajustement du modèle. Une statistique fréquemment appliquée est due à Ljung et Box (1978 LJU1) , Et est de la forme: où n est le nombre d'échantillons (valeurs de données), ri est l'autocorrélation de l'échantillon au décalage i et k le nombre total de décalages sur lesquels le calcul est effectué. Une distribution chi-carré avec k-m degrés de liberté, où m est le nombre de paramètres utilisés pour l'ajustement du modèle, à l'exclusion de tout terme constant ou variables prédictives (c'est-à-dire incluant les triples pd q) Indique que les résidus contiennent encore une autocorrélation significative après la mise en place du modèle, suggérant qu'un modèle amélioré devrait être recherché. Exemple: Modélisation de la croissance du nombre de passagers des lignes aériennes Voici un exemple de montage automatisé utilisant SPSS aux données d'essai de Box-Jenkins-Reinsel des numéros de passagers aériens REI1 fournis précédemment dans ce manuel. Initialement aucune spécification des dates étant des mois dans les années a été spécifiée. Le modèle sélectionné par le processus automatisé était un modèle ARIMA (0,1,12), c'est-à-dire que le processus identifiait correctement que la série nécessitait un niveau de différenciation et appliquait un modèle de moyenne mobile avec une périodicité de 12 et pas de composante d'autocorrélation pour s'adapter données. Le modèle d'ajustement produit une valeur R 2 de 0,966, qui est très élevée, et une erreur absolue maximale (MAE) de 75. L'ajustement visuel du modèle aux données semble excellent, mais le tracé de l'autocorrélation résiduelle après l'ajustement et Ljung - Box test montre que l'autocorrélation significative reste, indiquant qu'un modèle amélioré est possible. Le modèle automatisé ARIMA adapté aux passagers internationaux de la compagnie aérienne: totaux mensuels, 1949-1960 Pour étudier cela plus loin, un modèle révisé a été adapté, basé sur la discussion de cet ensemble de données par Box et Jenkins (1968) et la version mise à jour de Chatfields (1975 CHA1) Dont il utilise Minitab pour illustrer son analyse (6ème édition, 2003). La série temporelle a été définie comme ayant une périodicité de 12 mois et un modèle ARIMA avec des composantes (0,1,1), (0,1,1). Graphiquement, les résultats semblent très semblables au graphique ci-dessus, mais avec ce modèle le R-carré est 0,991, le MAE41 et la Ljung-Box statistique n'est plus significative (12,6, avec 16 degrés de liberté). Le modèle est donc une amélioration par rapport à la version originale (générée automatiquement), composée d'une MA non saisonnière et d'une composante MA saisonnière, d'une composante autorégressive et d'un niveau de différenciation pour les structures saisonnières et non saisonnières. Qu'il s'agisse d'un montage manuel ou automatisé, un modèle ARIMA peut fournir un bon cadre pour la modélisation d'une série temporelle ou il se peut que des modèles ou approches alternatifs donnent un résultat plus satisfaisant. Souvent, il est difficile de savoir à l'avance quel est le bon modèle de prévision, car c'est seulement à la lumière de sa capacité à prédire les valeurs futures des séries de données qu'il peut être véritablement jugé. Souvent, ce processus est approché en ajustant le modèle à des données antérieures excluant des périodes de temps récentes (également appelées échantillons de hold-out), puis en utilisant le modèle pour prédire ces événements futurs connus, mais cela ne donne qu'une confiance limitée dans sa validité future. Les prévisions à plus long terme peuvent être extrêmement peu fiables en utilisant de telles méthodes. Il est évident que le modèle de statistiques du trafic aérien décrit ci-dessus n'est pas en mesure de prédire correctement le nombre de passagers dans les années 1990 et au-delà, ni la baisse de 5 ans du nombre de passagers aériens internationaux américains après le 9/11/2001. De même, un modèle ARIMA peut être adapté aux valeurs historiques des cours boursiers ou des valeurs d'indices (par exemple les indices NYSE ou FTSE) et fournira typiquement un excellent ajustement aux données (donnant une valeur R-carrée supérieure à 0,99) mais Souvent de peu d'utilité pour prévoir les valeurs futures de ces prix ou indices. Typiquement, les modèles ARIMA sont utilisés pour la prévision, en particulier dans le domaine de la modélisation macro et micro-économique. Cependant, elles peuvent être appliquées dans un large éventail de disciplines, soit sous la forme décrite ici, soit augmentées avec des variables prédictives supplémentaires qui sont censées améliorer la fiabilité des prévisions faites. Ces derniers sont importants parce que la structure entière des modèles ARMA discutés ci-dessus dépend des valeurs antérieures et des événements aléatoires indépendants dans le temps, et non sur aucun facteur explicatif ou causatif. Par conséquent, les modèles ARIMA ne reflèteront et ne prolongeront pas les modèles passés, qui pourraient devoir être modifiés dans les prévisions par des facteurs tels que l'environnement macroéconomique, les changements technologiques ou les changements à long terme des ressources et / ou de l'environnement. BOX1 Boîte G E P, Jenkins G M (1968). Quelques avancées récentes en matière de prévision et de contrôle. Statistiques appliquées, 17 (2), 91-109 BOX2 Box, G E P, Jenkins, G M, Reinsel G C (1994) Analyse, prévision et contrôle des séries chronologiques. 3e éd. Prentice Hall, Englewood Cliffs, NJ CHA1 Chatfield C (1975) L'analyse des séries chronologiques: théorie et pratique. Chapman et Hall, Londres (voir également, 6e éd., 2003) LJU1 Ljung G M, Box G E P (1978) Sur une mesure d'un manque d'ajustement dans les modèles de séries chronologiques. Biometrika, 65, 297303 NIST / SEMATECH e-Handbook of Statistical Methods, itl. nist. gov/div898/handbook/ Section 6.4: Introduction aux séries chronologiques. Les modèles de séries de temps de REI1 Reinsel GC pour les modèles de Box-Jenkins: stat. wisc. edu/Documentation est la moyenne inconditionnelle du processus, et x03C8 (L) est une méthode rationnelle, infinie - Polynôme opérateur à décalage en degrés, (1 x 03C8 1 L x03C8 2 L 2 x 2026). Remarque: La propriété Constant d'un objet modèle arima correspond à c. Et non la moyenne inconditionnelle 956. Par décomposition de Wolds 1. L'équation 5-12 correspond à un processus stochastique stationnaire pourvu que les coefficients x03C8 i soient absolument sommables. C'est le cas lorsque le polynôme AR, x03D5 (L). Est stable. Ce qui signifie que toutes ses racines se situent en dehors du cercle unité. De plus, le processus est causal à condition que le polynôme MA soit inversible. Ce qui signifie que toutes ses racines se situent en dehors du cercle unité. Econometrics Toolbox applique la stabilité et l'inversibilité des processus ARMA. Lorsque vous spécifiez un modèle ARMA en utilisant arima. Vous obtenez une erreur si vous entrez des coefficients qui ne correspondent pas à un polynôme AR stable ou à un polynôme MA inversible. De même, l'estimation impose des contraintes de stationnarité et d'inversibilité pendant l'estimation. Références 1 Wold, H. Une étude dans l'analyse des séries chronologiques stationnaires. Uppsala, Suède: Almqvist amp Wiksell, 1938. Sélectionnez votre pays


No comments:

Post a Comment