Hdr de Aurélien Lemay

Techniques d’apprentissage automatique des données semi-structurées : requêtes d’inférence et transformation avec des outils d’inférence grammaticale

Dans un contexte où la plupart de nos données sont en ligne, les informations proviennent d'une grande diversité d'acteurs et sont désormais stockées dans une grande variété de formats. Cela va des formats hautement structurés tels que les bases de données traditionnelles aux textes simples, en passant par de nombreux formats intermédiaires, tels que XML, HTML, JSON ou HTML, par exemple, généralement regroupés sous le terme données semi-structurées. Cette diversité de formats, mais aussi le large éventail d’outils nécessaires pour manipuler ces données, ainsi que le fait que leur structuration est souvent sous-estimée, constituent un problème pour l’utilisateur final dans la mesure où il peut s’avérer difficile pour un non-expert. extraire simplement les données dont il a vraiment besoin. L'apprentissage automatique peut fournir des solutions pour concevoir automatiquement des outils permettant à l'utilisateur d'interroger ou de transformer des données semi-structurées. Dans cette présentation, nous examinerons comment les techniques issues d'inférences grammaticales peuvent être adaptées dans ce cadre.

soutenue le 16/11/2018

Hdr de Aurélien Lemay

Techniques d’apprentissage automatique des données semi-structurées : requêtes d’inférence et transformation avec des outils d’inférence grammaticale

Dans un contexte où la plupart de nos données sont en ligne, les informations proviennent d'une grande diversité d'acteurs et sont désormais stockées dans une grande variété de formats. Cela va des formats hautement structurés tels que les bases de données traditionnelles aux textes simples, en passant par de nombreux formats intermédiaires, tels que XML, HTML, JSON ou HTML, par exemple, généralement regroupés sous le terme données semi-structurées. Cette diversité de formats, mais aussi le large éventail d’outils nécessaires pour manipuler ces données, ainsi que le fait que leur structuration est souvent sous-estimée, constituent un problème pour l’utilisateur final dans la mesure où il peut s’avérer difficile pour un non-expert. extraire simplement les données dont il a vraiment besoin. L'apprentissage automatique peut fournir des solutions pour concevoir automatiquement des outils permettant à l'utilisateur d'interroger ou de transformer des données semi-structurées. Dans cette présentation, nous examinerons comment les techniques issues d'inférences grammaticales peuvent être adaptées dans ce cadre.

soutenue le 16/11/2018