Qu'est-ce que la time series analysis ?
La time series analysis est une technique statistique qui concerne l'analyse des données et des tendances de séries temporelles. Les données de séries temporelles suivent des intervalles de temps périodiques qui ont été mesurés en intervalles de temps réguliers ou qui ont été collectés à des intervalles de temps particuliers. En d'autres termes, une série temporelle est simplement une série de points de données ordonnés dans le temps, et la time series analysis est le processus qui consiste à donner un sens à ces données.
Dans un contexte commercial, les exemples de données de séries temporelles incluent toutes les tendances qui doivent être capturées sur une période de temps. Un rapport de tendances Google est un type de données de séries temporelles qui peut être analysé. Il existe également des applications beaucoup plus complexes, comme la prévision de l'offre et de la demande sur la base des tendances passées.

Exemples de données de séries temporelles
En économie, les données de séries temporelles peuvent être le produit intérieur brut (PIB), l'indice des prix à la consommation, l'indice S&P 500 et les taux de chômage. L'ensemble de données peut être le produit intérieur brut d'un pays à partir des données économiques de la Réserve fédérale.
Du point de vue des sciences sociales, les données de séries temporelles peuvent être le taux de natalité, les données de migration, l'augmentation de la population et les facteurs politiques.
Les caractéristiques statistiques des données de séries temporelles ne correspondent pas toujours aux méthodes statistiques conventionnelles. Par conséquent, l'analyse précise des données de séries temporelles nécessite un ensemble unique d'outils et de méthodes, connus collectivement sous le nom de time series analysis.
Certains aspects font partie intégrante du processus de la time series analysis. L'analyste doit être capable d'identifier que les données suivent ces critères :
- Stationnarité est un aspect crucial d'une série temporelle. Une série temporelle est considérée comme stationnaire lorsque ses propriétés statistiques, telles que la moyenne et la variance ne varient pas dans le temps. La variance et la moyenne sont constantes et la covariance est indépendante du temps.
- Saisonnalité fait référence aux fluctuations périodiques. Par exemple, si l'on considère la consommation d'électricité, elle est généralement élevée pendant la journée et diminue pendant la nuit. Dans le cas des habitudes d'achat, les ventes en ligne connaissent un pic pendant les vacances avant de ralentir et de diminuer.
- Corrélation automatique est la similarité entre les observations en fonction du délai qui les sépare. Le tracé de données autocorrélées donne un graphique semblable à une fonction sinusoïdale.
Les données : types, termes et concepts
Les données, en général, sont considérées comme faisant partie de l'un de ces trois types :
- Données de séries temporelles : ensemble d'observations sur les valeurs que prend une variable à différents moments dans le temps.
- Données transversales : données d'une ou plusieurs variables, recueillies au même moment.
- Données groupées : une combinaison de données de séries temporelles et de données transversales.
Ce sont là quelques-uns des termes et concepts associés à l'analyse des données de séries temporelles :
- Dépendance : la dépendance fait référence à l'association de deux observations avec la même variable à des points de temps antérieurs.
- Stationnarité : ce paramètre mesure la valeur moyenne de la série. Si une valeur reste constante sur la période donnée, s'il y a des pics dans les données, ou si ces valeurs tendent vers l'infini, alors il ne s'agit pas de stationnarité.
- Différenciation : la différentiation est une technique permettant de rendre la série temporelle stationnaire et de contrôler les corrélations qui apparaissent automatiquement. Cela dit, toutes les analyses de séries temporelles n'ont pas besoin d'être différentiées et le faire peut produire des estimations inexactes.
- Ajustement des courbes : l'ajustement de courbes, en tant que méthode de régression, est utile pour les données qui ne présentent pas de relation linéaire. Dans ce cas, l'équation mathématique de l'ajustement des courbes garantit que les données qui se situent trop en marge pour avoir un réel impact sont « régressées » sur une courbe avec une formule distincte que les systèmes peuvent utiliser et interpréter.
Identifier les données transversales par rapport aux données de séries temporelles
Les données transversales sont l'opposé des données de séries temporelles. Il s'agit d'observer diverses entités, telles que des individus et des organisations, à un moment unique dans le temps pour en tirer des conclusions. Les deux formes d'analyse des données ont leur propre valeur et les entreprises utilisent parfois les deux formes d'analyse pour tirer de meilleures conclusions.
Les données de séries temporelles se retrouvent dans presque tous les domaines d'activité et d'application organisationnelle concernés par le passé. Cela va de l'économie, des sciences sociales et de l'anthropologie au changement climatique, en passant par les affaires, la finance, les opérations et même l'épidémiologie. Dans une série temporelle, le temps est souvent la variable indépendante, et l'objectif est de faire une prévision pour l'avenir.
L'avantage le plus important de la time series analysis est que, comme les points de données d'une série temporelle sont collectés de manière linéaire à des périodes adjacentes, elle peut potentiellement établir des corrélations entre les observations. Cette caractéristique distingue les données de time series des données transversales.
Techniques de time series analysis
Comme nous l'avons vu ci-dessus, la time series analysis peut être un objectif ambitieux pour les entreprises. Afin d'obtenir des résultats précis à partir de l'ajustement d'un modèle, l'un des nombreux modèles mathématiques peut être utilisé dans l'analyse des séries temporelles, tels que :
- Modèles de moyenne mobile intégrée autorégressive de Box-Jenkins (ARIMA)
- Modèles multivariés de Box-Jenkins
- Lissage exponentiel de Holt-Winters
Si les modèles mathématiques exacts dépassent le cadre de cet article, certaines applications spécifiques de ces modèles méritent d'être abordées ici.
Les modèles de Box-Jenkins, qu'il s'agisse du modèle ARIMA ou du modèle multivarié, utilisent le comportement passé d'une variable pour décider du modèle le plus approprié pour l'analyser. L'hypothèse est que toute série chronologique de données à analyser peut être caractérisée par une fonction linéaire de ses valeurs passées, de ses erreurs passées, ou des deux. Lorsque le modèle a été développé pour la première fois, les données utilisées provenaient d'un four à gaz et de son comportement variable dans le temps.
En revanche, le modèle de lissage exponentiel de Holt-Winters est mieux adapté à l'analyse des données de séries temporelles qui présentent une tendance définie et varient selon les saisons.
Ces modèles mathématiques sont une combinaison de plusieurs méthodes de mesure ; la méthode Holt-Winters utilise des moyennes pondérées, ce qui peut sembler assez simple, mais ces valeurs sont superposées aux équations du lissage exponentiel.
Applications de la time series analysis
Les modèles de time series analysis donnent deux résultats :
- Obtenir une compréhension des forces et de la structure sous-jacentes qui ont produit les modèles de données observés. Les scénarios complexes du monde réel s'inscrivent très rarement dans des schémas fixes, et la time series analysis permet de les étudier, ainsi que toutes leurs variables, telles qu'elles sont observées dans le temps. Cette application est généralement destinée à comprendre les processus qui se produisent progressivement et sur une période de temps, comme l'impact du changement climatique sur l'augmentation des taux d'infection.
- Ajustez un modèle mathématique aussi précisément que possible pour que le processus puisse passer à la prévision, au suivi, voire à certaines boucles de rétroaction. Il s'agit d'un cas d'utilisation pour les entreprises qui cherchent à fonctionner à grande échelle et qui ont besoin de toutes les données qu'elles peuvent obtenir pour réussir.
Vu que les données sont numériques et que le processus d'analyse semble mathématique, la time series analysis peut sembler presque abstraite. Cependant, toute organisation peut réaliser un certain nombre d'applications actuelles de ces méthodes. Par exemple, il est intéressant d'imaginer que les grandes chaînes d'approvisionnement mondiales telles que celles d'Amazon ne sont maintenues à flot que grâce à l'interprétation de données aussi complexes sur diverses périodes. Même pendant la pandémie de COVID-19, où les chaînes d'approvisionnement ont subi un maximum de dommages, le fait qu'elles aient pu rebondir aussi rapidement est dû aux chiffres et à la compréhension de ces chiffres, qui se poursuit chaque jour et chaque semaine.
La time series analysis est utilisée pour déterminer le meilleur modèle qui peut être utilisé pour prévoir les paramètres de l'entreprise. Par exemple, les fluctuations des cours de la bourse, les ventes, le roulement et tout autre processus pouvant utiliser des données de séries temporelles pour faire des prédictions sur l'avenir. Elle permet à la direction de comprendre les modèles de données qui dépendent du temps et d'analyser les tendances des mesures de l'entreprise.
D'un point de vue pratique, la time series analysis dans les entreprises est surtout utilisée pour :
- Les prévisions économiques
- La prévision des ventes
- Les études sur les services publics
- L'analyse budgétaire
- L'analyse des marchés boursiers
- Les projections de rendement
- L'analyse du recensement
- Le contrôle des processus et de la qualité
- Les études d'inventaire
- Les projections de la charge de travail
Avantages de la time series analysis
Les analystes de données ont beaucoup à gagner de la time series analysis. L'application de divers modèles de séries temporelles permet de nettoyer les données brutes, de leur donner un sens et de découvrir des modèles pour faciliter les projections.
Voici quelques avantages de la time series analysis :
Elle nettoie les données et élimine les facteurs de confusion
Le nettoyage des données permet de filtrer le bruit, d'éliminer les valeurs aberrantes ou d'appliquer diverses moyennes pour obtenir une meilleure perspective globale des données. Il s'agit de se concentrer sur le signal en filtrant le bruit. Le processus de la time series analysis élimine tout le bruit et permet aux entreprises de se faire une idée plus claire de ce qui se passe au jour le jour.
Elle permet de comprendre les données
Les modèles utilisés dans la time series analysis permettent d'interpréter la véritable signification des données d'un ensemble de données, ce qui facilite la vie des analystes de données. Les modèles de corrélation automatique et les mesures de saisonnalité peuvent être appliqués pour prédire quand un certain point de données peut être attendu. En outre, les mesures de stationnarité permettent d'obtenir une estimation de la valeur de ce point de données.
Cela signifie que les entreprises peuvent examiner les données et voir des modèles dans le temps et l'espace, plutôt qu'une masse de chiffres et de nombres qui ne sont pas significatifs pour la fonction principale de l'organisation.
Données prévisionnelles
La time series analysis peut servir de base à la prévision des données. Cette analyse est intrinsèquement équipée pour découvrir des modèles dans les données qui constituent la base de la prévision des points de données futurs. C'est cet aspect prévisionnel de la time series analysis qui la rend extrêmement populaire dans le domaine des affaires. Alors que la plupart des analyses de données utilisent des données passées pour obtenir des informations rétroactives, la time series analysis permet de prédire l'avenir. C'est cet avantage même qui aide la direction à prendre de meilleures décisions commerciales.
Inconvénients de la time series analysis
La time series analysis n'est pas parfaite. Elle peut souffrir d'une généralisation à partir d'une seule étude, alors que davantage de points de données et de modèles pourraient être justifiés. Une erreur humaine peut entraîner une mauvaise identification du modèle de données correct, ce qui peut avoir un effet multiplicateur sur les résultats.
Il peut également être difficile d'obtenir les points de données appropriés. Un point de différence majeur entre la time series analysis et la plupart des autres problèmes statistiques est que dans une série temporelle, les observations ne sont pas toujours indépendantes.
Par exemple, un seul événement fortuit peut affecter tous les points de données ultérieurs, et il appartient à chaque data scientist de jauger avec précision lesquels de ces événements peuvent avoir un impact sur l'analyse en question. Existe-t-il des similitudes dans les prédictions qui peuvent rendre les données historiques utiles ?

L'avenir de la time series analysis
La time series analysis représente un domaine très avancé de l'analyse des données. Elle se concentre sur la description, le traitement et la prévision des séries temporelles. Les séries temporelles sont des ensembles de données ordonnées dans le temps. Lors de l'interprétation d'une série temporelle, il faut tenir compte des modèles de corrélation automatique, de la saisonnalité et de la stationnarité avant de choisir le bon modèle d'analyse. Il existe plusieurs modèles de time series analysis, allant du modèle de base au modèle avancé, en passant par le modèle affiné. Les modèles avancés aident les analystes de données à prédire le comportement des séries temporelles avec beaucoup plus de précision.
Avec l'avènement de l'automatisation et des techniques de machine learning, la compréhension de ces informations et la réalisation de calculs complexes ne sont plus aussi difficiles qu'auparavant, ce qui ouvre la voie à une meilleure compréhension de notre passé et de notre avenir.