internships: add 3 new topics
authorStefano Zacchiroli <zack@upsilon.cc>
Wed, 10 Feb 2016 10:08:46 +0000 (11:08 +0100)
committerStefano Zacchiroli <zack@upsilon.cc>
Wed, 10 Feb 2016 10:08:46 +0000 (11:08 +0100)
teaching/internships/01-swh-distributed-object-storage.mdwn [new file with mode: 0644]
teaching/internships/02-swh-web-ui.mdwn [new file with mode: 0644]
teaching/internships/03-swh-forge-crawling.mdwn [new file with mode: 0644]

diff --git a/teaching/internships/01-swh-distributed-object-storage.mdwn b/teaching/internships/01-swh-distributed-object-storage.mdwn
new file mode 100644 (file)
index 0000000..1bc0f69
--- /dev/null
@@ -0,0 +1,28 @@
+**Titre**: *Qui veut gagner des milliards (de fichiers source)?*
+
+**Contexte**: projet de recherche de grande envergure ayant comme but la
+récupération, l'organisation, et l'archivage à très long terme (siècles) de la
+totalité du logiciel libre publiquement accessible via Internet.
+
+**Description**: On souhaite concevoir, réaliser et tester en production un
+système de stockage pour fichiers textuels de petite taille (typiquement: code
+source) capable de stocker des milliards des fichiers, pour une occupation
+totale de l'ordre de 100 téraoctets, sur plusieurs noeuds des stockage
+géographiquement distribués. La synchronisation entre noeuds sera asynchrone,
+et chaque noeud disposera d'un contrôle automatique d'intégrité capable de
+réparer les fichiers corrompus (self-healing).
+
+**Connaissances souhaitées** pour accéder au stage:
+
+- algorithmique répartie
+- Python
+- PostgreSQL
+
+**Établissement d'accueil**: [Inria Paris](http://www.inria.fr/centre/paris)
+
+**Encadrants**:
+
+- [Roberto Di Cosmo](http://www.dicosmo.org/)
+- [Stefano Zacchiroli](http://upsilon.cc/~zack)
+
+**Status**: disponible
diff --git a/teaching/internships/02-swh-web-ui.mdwn b/teaching/internships/02-swh-web-ui.mdwn
new file mode 100644 (file)
index 0000000..e087086
--- /dev/null
@@ -0,0 +1,29 @@
+**Titre**: *Naviguer dans le plus grand dépôt Git du monde*
+
+**Contexte**: projet de recherche de grande envergure ayant comme but la
+récupération, l'organisation, et l'archivage à très long terme (siècles) de la
+totalité du logiciel libre publiquement accessible via Internet.
+
+**Description**: On souhaite concevoir une application Web permettant de
+explorer le contenu d'un dépôt d'un système de contrôle de version à-la
+Git. Idéalement, le but est similaire à la réalisation d'un clone de
+l'interface Web de GitHub, avec une subtilité: le dépôt qu'on souhaite explorer
+est très probablement le plus grand au monde—500 millions de commits, 2
+milliards des fichiers, 10 millions d'auteurs—ce qui pose plusieurs défis
+architecturaux et d'utilisabilité.
+
+**Connaissances souhaitées** pour accéder au stage:
+
+- programmation Web
+- interfaces graphiques
+- Python
+- PostgreSQL
+
+**Établissement d'accueil**: [Inria Paris](http://www.inria.fr/centre/paris)
+
+**Encadrants**:
+
+- [Roberto Di Cosmo](http://www.dicosmo.org/)
+- [Stefano Zacchiroli](http://upsilon.cc/~zack)
+
+**Status**: disponible
diff --git a/teaching/internships/03-swh-forge-crawling.mdwn b/teaching/internships/03-swh-forge-crawling.mdwn
new file mode 100644 (file)
index 0000000..f66f01d
--- /dev/null
@@ -0,0 +1,28 @@
+**Titre**: *Construire le web sémantique des projets logiciels libres*
+
+**Contexte**: projet de recherche de grande envergure ayant comme but la
+récupération, l'organisation, et l'archivage à très long terme (siècles) de la
+totalité du logiciel libre publiquement accessible via Internet.
+
+**Description**: Ils existent des millions de projets de logiciels libres,
+hébergés sur des centaines de plateformes différentes, et souvent
+dupliqués. Pour naviguer dans ce graphe de projets logiciels, il est important
+de disposer de métadonnées pertinentes, et plusieurs efforts existent, autour
+de technologies du Web Sémantique comme DOAP ou schema.org. Le but de ce stage
+est de collecter les métadonnées existantes, les uniformiser, et les intégrer
+dans une des plus grandes collections de logiciels libres au monde.
+
+**Connaissances souhaitées** pour accéder au stage:
+
+- information retrieval
+- modélisation et représentation des connaissances
+- manipulation de données semi-structurées (HTML, XML, etc.)
+
+**Établissement d'accueil**: [Inria Paris](http://www.inria.fr/centre/paris)
+
+**Encadrants**:
+
+- [Roberto Di Cosmo](http://www.dicosmo.org/)
+- [Stefano Zacchiroli](http://upsilon.cc/~zack)
+
+**Status**: disponible