Résumé : L’exploitation des données massives, que ce soit pour leur collecte, leur stockage ou leur analyse, nécessite de bâtir des systèmes flexibles capables de gérer l’hétérogénéité des modèles de données, en prenant en compte les caractéristiques des données (volume, vélocité, etc.), et tout en garantissant des propriétés fortes afin d’assurer que le résultat obtenu correspond aux objectifs des traitements définis.
Mes recherches visent à intégrer ces aspects à trois niveaux : au niveau des architectures logicielles, au niveau des modèles de données et au niveau des outils d’analyse. Concernant les deux derniers niveaux, je propose une approche sûre et orientée données s’appuyant sur les tenseurs.
Les tenseurs sont des objets mathématiques multi-dimensionnels permettant de modéliser une grande variété de données. Ils sont également dotés d’opérateurs puissants : les décompositions tensorielles. D’un point de vue analytique, ces dernières permettent d’extraire des relations interprétables entre les éléments des différentes dimensions. Dans cette présentation, je parlerai de deux décompositions : CAMDECOMP/PARAFAC et Tucker. Je montrerai leur utilité dans un contexte d’analyse, sur des jeux de données comportant une vérité de terrain mais aussi sur des données massives issues de Twitter.
Apport des tenseurs et de leurs décompositions à l analyse de données massives
