Résumé: Au cours des dernières années, les premières méthodes d’extraction de motifs ont rencontré d’énormes difficultés à cause du volume exponentiel de données. Ces méthodes sont incompatibles avec la nécessité de prendre en compte les retours des utilisateurs pour un processus interactif. En particulier, les méthodes d’extraction exhaustive de motifs intéressants ont rencontré deux problèmes majeurs : le temps de calcul qui dépend de la quantité de données à traiter et la nécessité de fixer le seuil de fréquence qui juge de la pertinence d’un motif. Ces obstacles sont de plus en plus visibles avec des données de nature complexe telles que des séquences, des données distribuées comme des triplestores du Web et des bases de données transactionnelles pondérées pour l’extraction d’itemsets à forte utilité. Une vue d’ensemble du domaine de la fouille de données montre que peu de méthodes d’extraction de motifs ont été proposées pour les bases de données distribuées. Cependant, de nombreuses applications du monde réel sur ces types de données nécessitent un temps de réponse très court et des motifs ayant une très bonne diversité. Pour surmonter ces obstacles, une nouvelle approche probabiliste, appelée échantillonnage en sortie, a été proposée. L’échantillonnage en sortie est une approche non exhaustive pour la découverte instantanée de motifs intéressants qui assure une bonne interactivité tout en offrant de solides garanties statistiques grâce à sa nature aléatoire. Dans ce séminaire, nous présenterons nos contributions dans ce domaine tout en montrant leur intérêt pour la construction de classifieurs de données séquentielles, la détection d’anomalies dans les triplestores du Web et la découverte d’itemsets à forte utilité moyenne. Nous terminerons par présenter un algorithme générique pour paralléliser efficacement toutes nos méthodes proposées avant de donner quelques perspectives dans l’échantillonnage d’itemsets à forte utilité moyenne dans les flux de données.
Biographie: Lamine Diop is currently ATER at University of Tours, France, since 2021. He received a double Master’s degree in computer science from University Gaston Berger of Saint-Louis, Senegal, and University of Tours, France, in 2017 and his Ph.D in Computer Science from University Gaston Berger of Saint-Louis in 2020. His main research interests include pattern mining, semantic web and distributed databases, with a particular interest for local and stream pattern sampling. More recently, he studies how data mining methods can be used in the field of semantic web. For more details, please visit his website at https://sites.google.com/ugb.edu.sn/laminediop .