f66f01dee35f872322be7d8f12a47f082e599027
[homepage.git] / teaching / internships / 03-swh-forge-crawling.mdwn
1 **Titre**: *Construire le web sémantique des projets logiciels libres*
2
3 **Contexte**: projet de recherche de grande envergure ayant comme but la
4 récupération, l'organisation, et l'archivage à très long terme (siècles) de la
5 totalité du logiciel libre publiquement accessible via Internet.
6
7 **Description**: Ils existent des millions de projets de logiciels libres,
8 hébergés sur des centaines de plateformes différentes, et souvent
9 dupliqués. Pour naviguer dans ce graphe de projets logiciels, il est important
10 de disposer de métadonnées pertinentes, et plusieurs efforts existent, autour
11 de technologies du Web Sémantique comme DOAP ou schema.org. Le but de ce stage
12 est de collecter les métadonnées existantes, les uniformiser, et les intégrer
13 dans une des plus grandes collections de logiciels libres au monde.
14
15 **Connaissances souhaitées** pour accéder au stage:
16
17 - information retrieval
18 - modélisation et représentation des connaissances
19 - manipulation de données semi-structurées (HTML, XML, etc.)
20
21 **Établissement d'accueil**: [Inria Paris](http://www.inria.fr/centre/paris)
22
23 **Encadrants**:
24
25 - [Roberto Di Cosmo](http://www.dicosmo.org/)
26 - [Stefano Zacchiroli](http://upsilon.cc/~zack)
27
28 **Status**: disponible