Thursday 12 January 2017

Autoregressive Moving Average Series

Moyenne mobile autorégressive Modèles ARMA (p, q) pour l'analyse des séries chronologiques - Partie 3 Voici le troisième et dernier post de la mini-série sur les modèles ARMA (Autoregressive Moving Average) pour l'analyse des séries chronologiques. Nous avons introduit les modèles autorégressifs et les modèles Moyenne mobile dans les deux articles précédents. Maintenant, il est temps de les combiner pour produire un modèle plus sophistiqué. En fin de compte, cela nous amènera aux modèles ARIMA et GARCH qui nous permettront de prévoir les rendements des actifs et de prévoir la volatilité. Ces modèles constitueront la base des signaux commerciaux et des techniques de gestion des risques. Si vous avez lu la partie 1 et la partie 2, vous aurez vu que nous avons tendance à suivre un modèle pour notre analyse d'un modèle de série chronologique. Ill répéter brièvement ici: Justification - Pourquoi sommes-nous intéressés à ce modèle particulier Définition - Une définition mathématique pour réduire l'ambiguïté. Correlogramme - Tracer un échantillon de corrélogramme pour visualiser le comportement d'un modèle. Simulation et montage - Adapter le modèle à des simulations, afin de s'assurer que nous avons bien compris le modèle. Données financières réelles - Appliquer le modèle aux prix réels des actifs historiques. Prédiction - Prévoir les valeurs suivantes pour générer des signaux commerciaux ou des filtres. Pour suivre cet article, il est conseillé de jeter un coup d'oeil aux articles précédents sur l'analyse des séries chronologiques. Ils peuvent tous être trouvés ici. Critère d'information bayésienne Dans la partie 1 de cette série d'articles, nous avons examiné le critère d'information Akaike (AIC) comme moyen de nous aider à choisir entre les meilleurs modèles de série temporelle. Un outil étroitement lié est le critère bayésien d'information (BIC). Essentiellement, il a un comportement similaire à l'AIC dans la mesure où il pénalise les modèles pour avoir trop de paramètres. Cela peut conduire à une surfaçon. La différence entre le BIC et l'AIC est que le BIC est plus sévère avec sa pénalisation de paramètres supplémentaires. Critère d'information bayésienne Si nous prenons la fonction de vraisemblance pour un modèle statistique, qui a k ​​paramètres, et L maximise la probabilité. Alors le critère d'information bayésien est donné par: où n est le nombre de points de données dans la série temporelle. Nous utiliserons l'AIC et le BIC ci-dessous pour choisir les modèles ARMA (p, q) appropriés. Ljung-Box Test Dans la partie 1 de cet article, Rajan mentionné dans les commentaires Disqus que le test de Ljung-Box était plus approprié que d'utiliser le Critère d'information Akaike du Critère d'information bayésienne pour décider si un modèle ARMA était un bon ajustement à un moment séries. Le test de Ljung-Box est un test d'hypothèse classique qui est conçu pour tester si un ensemble d'autocorrélations d'un modèle de séries chronologiques adaptées diffèrent significativement de zéro. Le test ne teste pas chaque lag individuel pour le hasard, mais teste plutôt le hasard sur un groupe de décalages. Ljung-Box Test Nous définissons l'hypothèse nulle comme: Les données de séries chronologiques à chaque décalage sont i. i.d .. c'est-à-dire que les corrélations entre les valeurs de série de population sont nulles. Nous définissons l'hypothèse alternative comme: Les données de séries chronologiques ne sont pas i. i.d. Et possèdent une corrélation sérielle. Nous calculons la statistique de test suivante. Q: Où n est la longueur de l'échantillon de séries temporelles, chapeau k est l'autocorrélation de l'échantillon au décalage k et h le nombre de décalages dans le test. La règle de décision pour rejeter l'hypothèse nulle est de vérifier si Q gt chi2, pour une distribution au chi carré avec h degrés de liberté au 100 (1-alpha) percentile. Alors que les détails du test peuvent sembler un peu complexes, nous pouvons en fait utiliser R pour calculer le test pour nous, simplifiant un peu la procédure. Maintenant que nous avons discuté du BIC et du test de Ljung-Box, nous étions prêts à discuter de notre premier modèle mixte, à savoir la moyenne mobile autorégressive d'ordre p, q ou ARMA (p, Q). À ce jour, nous avons considéré les processus autorégressifs et les processus de moyenne mobile. L'ancien modèle considère son propre comportement passé comme des intrants pour le modèle et, en tant que tel, tente de capter les effets des participants sur le marché, tels que l'élan et la réversion moyenne dans le négoce boursier. Ce dernier modèle est utilisé pour caractériser l'information sur les chocs dans une série, comme une annonce de surprise ou un événement imprévu (comme le déversement d'hydrocarbures BP Deepwater Horizon). Par conséquent, un modèle ARMA tente de saisir ces deux aspects lors de la modélisation des séries chronologiques financières. Il est à noter qu'un modèle ARMA ne prend pas en compte le regroupement de la volatilité, un phénomène empirique clé de nombreuses séries chronologiques financières. Ce n'est pas un modèle conditionnellement hétéroscédastique. Pour cela, nous devrons attendre les modèles ARCH et GARCH. Le modèle ARMA (p, q) est une combinaison linéaire de deux modèles linéaires et est donc lui-même linéaire: Moyenne mobile auto-régressive Modèle d'ordre p, q Un modèle de série temporelle, est un modèle de moyenne mobile autorégressif d'ordre p, q . Où est le bruit blanc avec E (wt) 0 et la variance sigma2. Si nous considérons l'opérateur de décalage vers l'arrière. (Voir un article précédent), alors nous pouvons réécrire ce qui précède en tant que fonction theta et phi de: On peut voir directement que, en posant p neq 0 et q0, on récupère le modèle AR (p). De même, si on pose p 0 et q neq 0 on récupère le modèle MA (q). L'une des principales caractéristiques du modèle ARMA est qu'elle est parcimonieuse et redondante dans ses paramètres. Autrement dit, un modèle ARMA nécessitera souvent moins de paramètres qu'un modèle AR (p) ou MA (q) seul. En outre, si nous réécrivons l'équation en termes de BSO, alors les polynômes theta et phi peuvent parfois partager un facteur commun, ce qui conduit à un modèle plus simple. Simulations et corrélogrammes Comme pour les modèles autorégressifs et de moyenne mobile, nous allons maintenant simuler diverses séries ARMA et tenter ensuite d'adapter les modèles ARMA à ces réalisations. Nous le faisons parce que nous voulons nous assurer que nous comprenons la procédure d'ajustement, y compris la façon de calculer les intervalles de confiance pour les modèles, ainsi que de s'assurer que la procédure réellement récupérer des estimations raisonnables pour les paramètres ARMA d'origine. Dans la partie 1 et la partie 2, nous avons construit manuellement les séries AR et MA en dessinant N échantillons à partir d'une distribution normale puis en élaborant le modèle de série temporelle en utilisant des décalages de ces échantillons. Cependant, il existe un moyen plus simple de simuler des données AR, MA, ARMA et même ARIMA, simplement en utilisant la méthode arima. sim dans R. Commençons par le modèle ARMA non trivial le plus simple possible, à savoir ARMA (1,1 ) Modèle. C'est-à-dire, un modèle autorégressif d'ordre un combiné avec un modèle de moyenne mobile d'ordre un. Un tel modèle n'a que deux coefficients, alpha et bêta, qui représentent les premiers décalages de la série temporelle elle-même et les termes de bruit blanc de choc. Un tel modèle est donné par: Il faut préciser les coefficients avant la simulation. Prenons alpha 0.5 et beta -0.5: La sortie est la suivante: Laisse aussi tracer le corrélogramme: On voit qu'il n'y a pas d'autocorrélation significative, ce qui est à prévoir d'un modèle ARMA (1,1). Enfin, nous allons essayer de déterminer les coefficients et leurs erreurs standard en utilisant la fonction arima: Nous pouvons calculer les intervalles de confiance pour chaque paramètre à l'aide des erreurs standard: Les intervalles de confiance contiennent les vraies valeurs des paramètres pour les deux cas. 95 intervalles de confiance sont très larges (une conséquence des erreurs standard raisonnablement grandes). Essayons maintenant un modèle ARMA (2,2). C'est-à-dire un modèle AR (2) combiné à un modèle MA (2). Nous avons besoin de spécifier quatre paramètres pour ce modèle: alpha1, alpha2, beta1 et beta2. Prenons alpha1 0.5, alpha2-0.25 beta10.5 et beta2-0.3: La sortie de notre modèle ARMA (2,2) est la suivante: Et l'autocorelation correspondante: Nous pouvons maintenant essayer d'adapter un modèle ARMA (2,2) à Les données: On peut aussi calculer les intervalles de confiance pour chaque paramètre: Noter que les intervalles de confiance pour les coefficients de la composante moyenne mobile (beta1 et beta2) ne contiennent pas réellement la valeur du paramètre d'origine. Cependant, à des fins commerciales, nous avons juste besoin d'avoir un pouvoir prédictif qui dépasse le hasard et produit suffisamment de bénéfices au-dessus des coûts de transaction, afin d'être rentable dans les données. le long terme. Maintenant que nous avons vu quelques exemples de modèles ARMA simulés, nous avons besoin d'un mécanisme pour choisir les valeurs de p et q lors de l'ajustement des modèles aux données financières réelles. Choisir le meilleur modèle ARMA (p, q) Pour déterminer quel ordre p, q du modèle ARMA est approprié pour une série, il faut utiliser l'AIC (ou BIC) sur un sous-ensemble de valeurs pour p, q, et Puis appliquez l'essai de Ljung-Box pour déterminer si un bon ajustement a été obtenu, pour des valeurs particulières de p, q. Pour montrer cette méthode, nous allons d'abord simuler un processus ARMA (p, q) particulier. Nous ferons ensuite une boucle sur toutes les valeurs par paires de p dans et q dans et calculons l'AIC. Nous allons sélectionner le modèle avec l'AIC le plus bas et ensuite exécuter un test Ljung-Box sur les résidus pour déterminer si nous avons atteint un bon ajustement. Commençons par simuler une série ARMA (3,2): Nous allons maintenant créer un objet final pour stocker le meilleur ajustement du modèle et la valeur AIC la plus faible. Nous faisons une boucle sur les différentes combinaisons p, q et utilisons l'objet courant pour stocker l'ajustement d'un modèle ARMA (i, j) pour les variables de boucle i et j. Si l'AIC actuel est inférieur à tout AIC calculé précédemment, nous avons défini l'AIC final à cette valeur courante et sélectionnez cet ordre. A la fin de la boucle, nous avons l'ordre du modèle ARMA stocké dans final. order et l'ARIMA (p, d, q) s'ajustent lui-même (avec le composant d intégré à 0) stocké comme final. arma: , De l'ordre et des coefficients ARIMA: on voit que l'ordre initial du modèle ARMA simulé a été récupéré, à savoir avec p3 et q2. Nous pouvons tracer le corelogramme des résidus du modèle pour voir s'ils ressemblent à une réalisation de bruit blanc discret (DWN): Le corelogramme ressemble en effet à une réalisation de DWN. Enfin, nous effectuons l'essai de Ljung-Box pour 20 défauts pour confirmer ceci: Notez que la valeur p est supérieure à 0,05, ce qui indique que les résidus sont indépendants au niveau 95 et donc un modèle ARMA (3,2) fournit un Bonne tenue modèle. Il est clair que cela devrait être le cas puisque nous avons simulé les données nous-mêmes. Cependant, c'est précisément la procédure que nous utiliserons lorsque nous allons adapter des modèles ARMA (p, q) à l'index SampP500 dans la section suivante. Données financières Maintenant que nous avons décrit la procédure pour choisir le modèle de série temporelle optimal pour une série simulée, il est assez simple de l'appliquer aux données financières. Pour cet exemple, nous allons de nouveau choisir l'indice SampP500 US Equity. Permet de télécharger les prix quotidiens de clôture à l'aide de quantmod et de créer ensuite le flux de retours de logs: Lets la même procédure d'ajustement que pour la série ARMA (3,2) simulée ci-dessus sur la série logs retour du SampP500 en utilisant l'AIC: A l'ordre ARMA (3,3): Permet de tracer les résidus du modèle ajusté dans le journal logique SampP500 journalier flux: Notez qu'il ya quelques pics significatifs, surtout à des décalages plus élevés. Ceci est indicatif d'un mauvais ajustement. Nous allons effectuer un test de Ljung-Box pour voir si nous avons des preuves statistiques pour cela: Comme nous le soupçonnons, la valeur p est inférieure à 0,05 et en tant que tel nous ne pouvons pas dire que les résidus sont une réalisation de bruit blanc discret. Il existe donc une autocorrélation supplémentaire dans les résidus qui n'est pas expliquée par le modèle ARMA (3, 3). Prochaines étapes Comme nous l'avons vu tout au long dans cette série d'articles, nous avons vu des preuves d'hétéroscédasticité conditionnelle (regroupement de volatilité) dans la série SampP500, en particulier dans les périodes autour de 2007-2008. Lorsque nous utiliserons un modèle GARCH plus tard dans la série d'articles, nous verrons comment éliminer ces autocorrélations. En pratique, les modèles ARMA ne sont jamais en règle générale bons pour les rendements des actions log. Nous devons prendre en compte l'hétéroscédasticité conditionnelle et utiliser une combinaison d'ARIMA et de GARCH. L'article suivant considérera ARIMA et montrera comment le composant intégré diffère du modèle ARMA que nous avons envisagé dans cet article. Cliquez ci-dessous pour en savoir plus. L'information contenue sur ce site web est l'opinion des auteurs individuels basée sur leur observation personnelle, leur recherche et leurs années d'expérience. L'éditeur et ses auteurs ne sont pas des conseillers en placement, des avocats, des CPA ou d'autres professionnels des services financiers enregistrés et ne rendent pas de conseils juridiques, fiscaux, comptables, de placement ou autres services professionnels. L'information offerte par ce site Web est seulement l'éducation générale. Parce que chaque situation factuelle des individus est différente, le lecteur devrait chercher son conseiller personnel. Ni l'auteur ni l'éditeur n'assument aucune responsabilité ou responsabilité pour des erreurs ou omissions et n'a aucune responsabilité ni responsabilité envers une personne ou une entité à l'égard des dommages causés ou prétendument causés directement ou indirectement par les informations contenues sur ce site. À utiliser à vos risques et périls. En outre, ce site Web peut recevoir une compensation financière des sociétés mentionnées par la publicité, les programmes d'affiliation ou autrement. Les tarifs et offres des annonceurs affichés sur ce site Web changent fréquemment, parfois sans préavis. Alors que nous nous efforçons de maintenir des informations exactes et en temps opportun, les détails de l'offre peuvent être périmés. Les visiteurs doivent donc vérifier les modalités de ces offres avant de participer à ces offres. L'auteur et son éditeur déclinent toute responsabilité quant à la mise à jour des informations et déclinent la responsabilité du contenu, des produits et des services de tiers, y compris lorsqu'ils sont accessibles par l'entremise d'hyperliens et / ou de publicités sur ce site. Nous décrivons quelques-unes des approches les plus courantes ci-dessous. Tendances, décompositions saisonnières et résiduelles Une approche consiste à décomposer les séries temporelles en une composante tendance, saisonnière et résiduelle. Le triple lissage exponentiel est un exemple de cette approche. Un autre exemple, appelé loess saisonnier, est basé sur les moindres carrés localement pondérés et est discuté par Cleveland (1993). Nous ne discutons pas du loess saisonnier dans ce manuel. Méthodes basées sur la fréquence Une autre approche, couramment utilisée dans les applications scientifiques et d'ingénierie, est d'analyser les séries dans le domaine fréquentiel. Un exemple de cette approche dans la modélisation d'un ensemble de données de type sinusoïdal est illustré dans l'étude de cas de déviation de faisceau. Le diagramme spectral est l'outil principal pour l'analyse de fréquence des séries temporelles. Le modèle autorégressif (AR) est une approche commune pour la modélisation de séries chronologiques univariées: Xt delta phi1 X phi2 X cdots phip X A, où (Xt) est la série temporelle, (At) est le bruit blanc et delta Gauche (1 - somme p phii droite) mu. Avec (mu) désignant la moyenne du processus. Un modèle autorégressif est simplement une régression linéaire de la valeur courante de la série contre une ou plusieurs valeurs antérieures de la série. La valeur de (p) est appelée l'ordre du modèle AR. Les modèles AR peuvent être analysés à l'aide d'une ou plusieurs méthodes, y compris des techniques linéaires de moindres carrés. Ils ont aussi une interprétation directe. Modèles de moyenne mobile (MA) Une autre approche commune pour la modélisation de modèles de séries chronologiques univariées est le modèle de la moyenne mobile (MA): Xt mu At - theta1 A - theta2 A - cdots - thetaq A, où (Xt) est la série chronologique ) Est la moyenne de la série, (A) sont des termes de bruit blanc, et (theta1,, ldots,, thetaq) sont les paramètres du modèle. La valeur de (q) est appelée l'ordre du modèle MA. C'est-à-dire qu'un modèle de moyenne mobile est conceptuellement une régression linéaire de la valeur courante de la série contre le bruit blanc ou des chocs aléatoires d'une ou plusieurs valeurs antérieures de la série. On suppose que les chocs aléatoires à chaque point proviennent de la même distribution, typiquement une distribution normale, avec localisation à zéro et échelle constante. La distinction dans ce modèle est que ces chocs aléatoires sont propogés à des valeurs futures des séries temporelles. L'ajustement des estimations MA est plus compliqué qu'avec les modèles AR parce que les termes d'erreur ne sont pas observables. Cela signifie que les procédures d'ajustement non linéaires itératives doivent être utilisées à la place des moindres carrés linéaires. Les modèles MA ont aussi une interprétation moins évidente que les modèles AR. Parfois, ACF et PACF suggèrent qu'un modèle MA serait un meilleur choix de modèle et que parfois les termes AR et MA devraient être utilisés dans le même modèle (voir la section 6.4.4.5). Notez toutefois que les termes d'erreur après ajustement du modèle doivent être indépendants et suivre les hypothèses standard pour un processus univarié. Box et Jenkins ont popularisé une approche qui combine la moyenne mobile et les approches autorégressives dans le livre Analyse des séries temporelles: prévision et contrôle (Box, Jenkins et Reinsel, 1994). Bien que les approches de la moyenne autorégressive et de la moyenne mobile étaient déjà connues (et ont été étudiées à l'origine par Yule), la contribution de Box et Jenkins a été de développer une méthodologie systématique pour identifier et estimer des modèles qui pourraient intégrer les deux approches. Cela fait des modèles Box-Jenkins une puissante classe de modèles. Les prochaines sections traiteront de ces modèles en détail. Simulation moyenne mobile mouvante (premier ordre) La démonstration est définie de telle sorte que la même série aléatoire de points est utilisée quelle que soit la façon dont les constantes et sont variées. Cependant, lorsque le bouton quotrandomizequot est pressé, une nouvelle série aléatoire sera générée et utilisée. Garder la série aléatoire identique permet à l'utilisateur de voir exactement les effets sur la série ARMA de changements dans les deux constantes. La constante est limitée à (-1,1) parce que la divergence de la série ARMA résulte quand. La démonstration est uniquement pour un processus de premier ordre. Des termes AR supplémentaires permettraient de générer des séries plus complexes, tandis que des termes MA additionnels augmenteraient le lissage. Pour une description détaillée des processus ARMA, voir, par exemple, G. Box, G. M. Jenkins, et G. Reinsel, Time Series Analysis: Forecasting and Control. 3e éd. Englewood Cliffs, NJ: Prentice-Hall, 1994. LIENS CONNEXES


No comments:

Post a Comment