datamed2ddev@univ-thies.sn +221775739439 / +221339544711 UFR-SET, Université Iba Der Thiam de Thiès, BP 967 – Thiès (SN)

Bienvenu sur datamed2ddev

Apport des Données à l'Organisation et à l'Accès aux Informations Médicales

pour le Développement Durable.

Projet financé par le FARI et le CEA MITIC

A propos de datamed2ddev

Thématiques de Recherche

Le projet datamed2ddev s'identifie à travers les thématiques de recherche suivantes :

Ingénierie des connaissances

L'ingénierie des connaissances est une des dimensions de la gestion des connaissances au sein d'une organisation. Elle fait référence à l'ingénierie de systèmes complexes « intelligents » incorporant beaucoup de connaissances tels les systèmes experts.

Fouille de texte et de données

La fouille de textes ou « l'extraction de connaissances » dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l'intelligence artificielle. Cette technique est souvent désignée sous l'anglicisme text mining.

Statistiques Appliquées

La statistique est un domaine des mathématiques et de plus en plus, elle fait partie de ce que l'on appelle aujourd'hui la science des données (en anglais : Data Science). Elle possède une composante théorique ainsi qu'une composante appliquée. La composante théorique s'appuie sur la théorie des probabilités et forme avec cette dernière, les sciences de l'aléatoire. La statistique appliquée est utilisée dans presque tous les domaines de l'activité humaine : ingénierie, management, économie, biologie, informatique, etc.

Web Sémantique

Le Web sémantique, ou toile sémantique, est une extension du Web standardisée par le World Wide Web Consortium. Ces standards encouragent l'utilisation de formats de données et de protocoles d'échange normés sur le Web, en s'appuyant sur le modèle Resource Description Framework.

Intelligence Artificielle

L'intelligence artificielle est « l'ensemble des théories et des techniques mises en œuvre en vue de réaliser des machines capables de simuler l'intelligence ». Elle correspond donc à un ensemble de concepts et de technologies plus qu'à une discipline autonome constituée.

Sources de financement

Le projet est financé par :

Description du projet

  • Contexte

    Le rôle des données dans l'atteinte des objectifs de développement n'est plus à démontrer. Les données constituent le socle de la société mondiale de l'information, où la quantité et le flux d'information dans la société ne cessent d'augmenter. Les spécialistes reconnaissent actuellement que les statistiques jouent un rôle majeur dans l'exploitation de l'information scientifique qu'elles fournissent, utile à tous les aspects de la vie quotidienne. Cette appréciation croissante du rôle et de l'importance d'une exploitation efficiente des données, conduit maintenant à accorder une plus haute priorité au développement des capacités de raisonnement, dans de nombreux systèmes d'aide à la prise de décision. Les Nations Unies ont établi un "Groupe de Haut niveau sur l'agenda de développement de l'après 2015", qui dans son rapport intitulé "Un partenariat mondial renouvelé pour le développement : éliminer la pauvreté et transformer les économies moyennant le développement durable", décrit, entre autres choses, un programme universel pour éliminer la pauvreté extrême de la face de la terre en 2030, et réalise la promesse d'un développement durable. Le rapport appelle à une révolution des données pour le développement durable, avec une nouvelle initiative internationale pour améliorer la qualité des statistiques et de l'information accessible aux citoyens. La plupart des institutions et organisations gouvernementales ou non, depuis plusieurs années, récupèrent des données sur les personnes, les objets du monde réel ou des concepts manipulés dans leurs domaines d'activités. Cependant ces données stockées soit dans des fichiers plats ou texte, soient dans des bases de données ne permettent pas de faire des raisonnements sémantiques, automatisés et performants afin d'améliorer la prise de décision des administrateurs sur leurs orientations budgétaires et sur l'impact de leur politique.

  • Le but du projet est la mise en place d'un modèle permettant de disposer d'une base de connaissances (BC) en RDF/OWL à partir des bases de données disponibles au niveau des services de ces institutions et organisations et de la littérature disponible sur leurs domaines d'intervention. L'exploitation automatique de ces connaissances permettra (i) de montrer qu'elles renferment une mine d'information et (ii) aux autorités administratives d'orienter les politiques et les investissements vers les facteurs les plus déterminants dans la réussite de leurs activités. Elle permettra de justifier la pertinence des données à récolter sur les personnes, les objets du monde réel et les concepts particuliers. Elle permettra de justifier la conservation d'une partie de ces données lorsque ces dernières ne sont plus utilisées par l'institution. Ceci est en phase avec les problématiques de la commission des données privées (CDP) mise en place par l'état pour assurer le droit des utilisateurs vis à vis de ceux qui récoltent les données les concernant. Les résultats permettront de prouver l'apport du datamining sémantique par rapport aux modèles de calcul d'intelligence artificielle.

  • La mise en place et l'implémentation d’un modèle sémantique qui intègre différentes méthodes d'indexation et d'annotation pour faciliter l'accès au contenu de documents semi-structurés à des applications. Ceci passera par une extraction de termes et d'entités nommées qui portent une bonne partie de la sémantique du document et leur rapprochement à une ontologie du domaine considéré. La mise à disposition d'une ontologie (au minimum une taxonomie) du domaine d'activités que l'on peut trouver (sur le web) ou le créer nous-même. Ensuite il faudra mettre en place un modèle permettant d'automatiser l'extraction des données relationnelles et leur insertion dans des bases de connaissances. La mise en place d’un outil permettant de comparer continuellement le datamining standard basé sur les entrepôts de données et le datamining sémantique basé sur les inférences sur les représentations de connaissances.

  • Ce travail passe nécessairement par une revue des approches et outils proposés dans le domaine de la fouille de texte en général, mais plus particulièrement dans ceux basés sur le Topic Modelling. Nous allons mettre l'accent sur les modèles mathématiques qui sous-tendent ces approches. Ensuite il faudra mettre en place l'approche permettant d'automatiser l'extraction automatique des thèmes à partir d'un corpus de texte. Des expérimentations seront effectuées sur les benchmark ou Framework de divers domaines. Nous allons créer et implémenter un modèle sémantique qui intègre différentes méthodes d'indexation et d'annotation pour faciliter l'accès au contenu de documents semi-structurés à des applications.

  • Les propositions seront publiées dans des conférences scientifiques en général, en informatique en particulier, des revues nationales et internationales. L'interrogation de ces bases de connaissances permettra d'assister le personnel d’un domaine donné (administration, médecine, urbanisation, éducation, etc.) dans la récolte de données et lors de l'exploitation des connaissances tirées de ces données. Les résultats permettront de justifier la pertinence des données à récolter sur les personnes, les objets du monde réel et les concepts particuliers. Elle permettra de justifier également la conservation d'une partie de ces données lorsque ces dernières ne sont plus utilisées par l'institution. L'utilisation de ce modèles permettra de montrer qu'il est possible de, en utilisant des ontologies ou modèles sémantiques, partager des informations dans un cadre réglementaire et raisonner sur les données propres à une entité en utilisant les données partenaires sans pour autant disposer d'un modèle de calcul très puissant. Ces résultats permettront de prouver l'apport de la souplesse du raisonnement sur les connaissances par rapport aux modèles de calcul basés sur la théorie du relationnel.

Partenaires

Ils nous accompagnent.

Activités

Pour arriver à bout de ce projet nous divisons le projet en plusieurs paquets, chacun allant dans le sens de répondre à une partie du problème global.

Topic Modeling

La modélisation de sujet est une technique d'apprentissage automatique non supervisée capable de numériser un ensemble de documents, de détecter des modèles de mots et de phrases à l'intérieur de ceux-ci et de regrouper automatiquement des groupes de mots et des expressions similaires qui caractérisent le mieux un ensemble de documents. Vous avez probablement beaucoup entendu parler de l'intelligence artificielle, ainsi que de termes tels que l'apprentissage automatique et le traitement du langage naturel (PNL). Surtout si vous travaillez dans une entreprise qui traite des centaines, voire des milliers d'interactions clients chaque jour. L'analyse des données des publications sur les réseaux sociaux, des e-mails, des chats, des réponses à des enquêtes ouvertes, etc. n'est pas une tâche facile, et encore moins lorsqu'elle est déléguée à des humains uniquement. C'est pourquoi beaucoup sont enthousiasmés par les implications que l'intelligence artificielle pourrait avoir sur leurs tâches quotidiennes, ainsi que sur les entreprises dans leur ensemble. L'analyse de texte alimentée par l'IA utilise une grande variété de méthodes ou d'algorithmes pour traiter le langage naturellement, dont l'analyse de sujet - utilisée pour détecter automatiquement les sujets à partir de textes.

Annotation Sémantique

L'annotation sémantique est une tâche de fouille de texte proche des méthodes de traitement automatique des langues qui consiste à étiqueter dans un document les mots avec des liens qui pointent vers une description sémantique. Outre l'insertion de contenus qui permettent de compléter un texte (par exemple en identifiant automatiquement les noms de personnes et en fournissant leur date de naissance), l'annotation sémantique joue un rôle essentiel en désambiguïsation en fournissant un identifiant unique représentant parfaitement l'identité du mot ou du groupe de mots annotés. On peut ainsi définir l'annotation sémantique comme la tâche permettant de déterminer l'identité exacte d'un concept contenu dans un texte et de fournir des informations sur ce concept. Ses applications sont nombreuses: de la fouille de données intelligente à la conception d'application de compréhension du langage de haut niveau comme Siri.

Datamining Sémantique

Il s'agira de mettre en place un modèle permettant de disposer d’une base de connaissances (BC) en RDF/OWL à partir des bases de données disponibles au niveau des services de ces institutions et organisations et de la littérature disponible sur leurs domaines d’intervention. L’exploitation automatique de ces connaissances permettra (i) de montrer qu’elles renferment une mine d’information et (ii) aux autorités administratives d’orienter les politiques et les investissements vers les facteurs les plus déterminants dans la réussite de leurs activités. Elle permettra de justifier la pertinence des données à récolter sur les personnes, les objets du monde réel et les concepts particuliers. Elle permettra de justifier la conservation d’une partie de ces données lorsque ces derniers ne sont plus utilisés par l’institution. Ceci est en phase avec les problématiques de la commission des données privées (CDP) mise en place par l’état pour assurer le droit des utilisateurs vis à vis de ceux qui récoltent les données les concernant. Les résultats permettront de prouver l’apport du datamining sémantique par rapport aux modèles de calcul d’intelligence artificielle.

Alignement d'ontologie

En informatique, l'alignement d'ontologies désigne deux choses:

  1. Le processus de découverte des correspondances entre deux ontologies différentes (équivalence de concepts ou de relations, subsomption, etc.)
  2. Le résultat de ce processus, c'est-à-dire l'expression des correspondances (e.g., le concept appelé « Automobile » d'une première ontologie est équivalent au concept appelé « Voiture » dans une seconde ontologie).

Reécriture de requêtes

Le but de nos travaux ici sera de définir un modèle unifié de réécritures de requêtes qui permet d’accéder au contenu de documents semi-structurés représenté par des notations RDF à partir d’une requête mot-clé. Cet accès doit être simple, rapide et complet le plus possible. Le modèle se veut générique et incorpore des ontologies les plus pauvres (taxonomie, lexique) aux plus complexes. Nous pourrons réutiliser, en les intégrant des techniques existantes. S’il faudra passer par une représentation intermédiaire il n’est pas exclu de faire du NoSQL.

Equipe de recherche

ENSEIGNANTS - CHERCHEURS

Pr Mouhamadou THIAM

PhD Informatique | UIDT - UFR SET

Coordonnateur du projet

Email : mthiam@univ-thies.sn

Dr Gaoussou CAMARA

PhD Informatique | UADB - UFR SATIC

Partenaire du projet

Email : gcamara@uadb.edu.sn

Dr Abdoulaye GUISSE

PhD Informatique | EPT

Partenaire du projet

Email : aguisse@ept.sn

M. Papa Diop

Ingénieur en Informatique / ENFEFS

Partenaire du projet

Email : papaddiop@gmail.com

DOCTORANTS ET ETUDIANTS DU MASTER

Publications et Evenements

  • Publications

  • Evénements

    CNRIA 2021 : 11th Conference on Research in Computer Science and its Applications Dakar, Senegal, June 17-19, 2021
    Lien : https://easychair.org/cfp/cnria-2021

Contact

Besoin d'intégrer l'equipe ? Prenez contact avec eux !

Localisation :

UFR-SET | UIDT, BP : 967 – Thiès (SN)

Téléphone :

+221775739439 / +221339544711

Loading
Your message has been sent. Thank you!