HEADWORK - Processus massivement participatifs d’acquisition de données et de connaissances
Coordinateur : David Gross Amblard, Institut de recherche en Informatique et Systèmes aléatoires
Partenaires : Pierre Bourhis, Joachim Niehren, Momar Sakho, Florent Capelli, Nicolas Crosetti, Inria de Lille CRIStAL
Équipes : Spirals du Groupe Thématique Génie Logiciel Links du Groupe Thématique : SISE.
Dates : 2016 - 2020
Résumé :
Le crowdsourcing désigne le recours à une masse (potentiellement très grande) de participants via Internet pour résoudre des tâches d’acquisition ou d’analyse de données. Il s’agit d’une technologie en pleine expansion impactant de nombreux domaines, depuis l’enrichissement de connaissances scientifiques jusqu’à l’analyse marketing. Mais actuellement, les plateformes de crowdsourcing existantes s’appuient principalement sur des langages de programmation bas-niveau, des modèles de données rigides et une modélisation simpliste des participants, ce qui engendre plusieurs inconvénients.
La nature bas-niveau des solutions existantes freine la conception de workflows complexes d’analyse de données, pouvant être exécutés, composés, analysés, voire proposés par les participants eux-mêmes. Prendre en compte la qualité, l’incertitude, l’inconsistance ou la représentativité des contributions des participants est également un problème ouvert. Peu de méthodes existent pour affecter des tâches au meilleur participant selon son profil (niveau de confiance, sa motivation, son expertise) ou pour automatiquement optimiser le temps d’exécution ou la meilleure politique d’incitation pour les participants. De manière similaire, les campagnes de crowdsourcing existantes peuvent produire des jeux de données rigides et isolés. Un modèle de données flexible et commun pour la connaissance produite sur les données et les participants faciliterait ainsi l’acquisition participative de connaissances.
Pour répondre à ces défis, Headwork proposera :
- des modèles expressifs des workflows, des participants, des données et des connaissances, afin de capturer différents scénarios de crowdsourcing pour des tâches complexes d’acquisition de données, en prenant en compte la spécificité des participants humains ;
- des méthodes pour déployer, vérifier, optimiser, mais aussi pour surveiller et adapter les workflows participatifs à l’exécution.
Pour cela, Headwork s’appuiera sur deux membres experts des plateformes participatives d’acquisition de connaissances (MNHN-Cesco & FouleFactory, académiques et industriels), sur des équipes centrales en gestion de données et modélisation de workflows (Dahu, Druid, Links, Sumo)... et sur une cohorte d’environ 60 000 participants enregistrés sur nos plateformes.
Abstract :
Crowdsourcing relies on potentially huge numbers of on-line participants to resolve data acquisition or analysis tasks. It is an exploding area that impacts various domains, ranging from scientific knowledge enrichment to market analysis support. But currently, existing crowd platforms rely mostly on low level programming paradigms, rigid data models and poor participant profiles, which yields severe limitations. The low-level nature of existing solutions prevents the design of complex data acquisition workflows, that could be executed, composed, searched and even be proposed by participants themselves. Taking into account the quality, uncertainty, inconsistency and representativeness of participant contributions is still an open problem. Methods for assigning a task to the correct participant according to his trust, motivation and expertise, automatically improving crowd execution time, computing optimal participant rewards, are missing. Similarly, usual crowd campaigns produce isolated and rigid data sets : A flexible and common data model for the produced knowledge about data and participants could allow participative knowledge acquisition.
To overcome these challenges, Headwork will define :
- Rich workflow, participant, data and knowledge models to capture various kind of crowd applications with complex data acquisition tasks and human specificities ;
- Methods for deploying, verifying, optimizing, but also monitoring and adapting crowd-based workflow executions at run time.
To reach this goal, Headwork will rely on two experts of large participative knowledge acquisition platforms MNHN-Cesco & FouleFactory, from academy and industry respectively), on major academic teams on data management and worflow modeling (Dahu, Druid, Links, Sumo)... and a crowd of around 60,000 registered participants from our platforms.