 # <span title="international, peer-reviewed conferences">international, peer-reviewed conference proceedings</span>
- 1. <a class="paper-download" href="ipres-2018-doi.pdf" title="download paper in PDF format">[.pdf]</a> <a class="bibtex-download" href="ipres-2018-doi.bib" title="download bibliographic entry in BibTeX format">[.bib]</a> <a href="http://www.dicosmo.org">Roberto Di Cosmo</a>, <a href="https://moranegg.github.io/">Morane Gruenpeter</a>, <a href="http://upsilon.cc/~zack">Stefano Zacchiroli</a>. **Identifiers for Digital Objects: the Case of Software Source Code Preservation**.  <em>
+ 1. <a class="bibtex-download" href="msr-2019-swh.bib" title="download bibliographic entry in BibTeX format">[.bib]</a> Antoine Pietri, <a href="https://www.spinellis.gr">Diomidis Spinellis</a>, <a href="http://upsilon.cc/~zack">Stefano Zacchiroli</a>. **The Software Heritage Graph Dataset: Public software development under one roof**.  <em>
+       To appear in proceedings of <a href="http://2019.msrconf.org/">MSR 2019</a>: The 16th International
+       Conference on Mining Software Repositories, May 2019,
+       Montreal, Canada. Co-located with <a href="https://2019.icse-conferences.org/home">ICSE 2019</a>.
+      </em>
+    [[!toggle id=id73 text="Abstract..."]] [[!toggleable id=id73 text="""
+    *Abstract:* Software Heritage is the largest existing public archive of software source code and accompanying development history: it currently spans more than five billion unique source code files and one billion unique commits, coming from more than 80 million software projects. This paper introduces the Software Heritage graph dataset: a fully-deduplicated Merkle DAG representation of the Software Heritage archive. The dataset links together file content identifiers, source code directories, Version Control System (VCS) commits tracking evolution over time, up to the full states of VCS repositories as observed by Software Heritage during periodic crawls. The dataset's contents come from major development forges (including GitHub and GitLab), FOSS distributions (e.g., Debian), and language-specific package managers (e.g., PyPI). Crawling information is also included, providing timestamps about when and where all archived source code artifacts have been observed in the wild. The Software Heritage graph dataset is available in multiple formats, including downloadable CSV dumps and Apache Parquet files for local use, as well as a public instance on Amazon Athena interactive query service for ready-to-use powerful analytical processing. Source code file contents are cross-referenced at the graph leaves, and can be retrieved through individual requests using the Software Heritage archive API.
+    """]]
+ 1. <a class="paper-download" href="ipres-2018-doi.pdf" title="download paper in PDF format">[.pdf]</a> <a class="bibtex-download" href="ipres-2018-doi.bib" title="download bibliographic entry in BibTeX format">[.bib]</a> <span class="doi_logo"><a href="http://dx.doi.org/10.17605/OSF.IO/KDE56" title="Document Object Identifier">doi&gt;</a></span> <a href="http://www.dicosmo.org">Roberto Di Cosmo</a>, <a href="https://moranegg.github.io/">Morane Gruenpeter</a>, <a href="http://upsilon.cc/~zack">Stefano Zacchiroli</a>. **Identifiers for Digital Objects: the Case of Software Source Code Preservation**.  <em>
        In proceedings of <a href="https://ipres2018.org/">iPRES 2018</a>: 15th International
        Conference on Digital Preservation, Boston, MA, USA,
        September 2018, 9 pages.
@@ -558,6 +566,14 @@ You might also be interested in my author profiles on
 # <span title="national, peer-reviewed conferences and workshops">national, peer-reviewed conference and workshop procedings</span>
+ 1. <a class="paper-download" href="benevol-2018-swh.pdf" title="download paper in PDF format">[.pdf]</a> <a class="bibtex-download" href="benevol-2018-swh.bib" title="download bibliographic entry in BibTeX format">[.bib]</a> Antoine Pietri, <a href="http://upsilon.cc/~zack">Stefano Zacchiroli</a>. **Towards Universal Software Evolution Analysis**.  <em>
+       In proceedings of BENEVOL 2018: <a href="http://se.ewi.tudelft.nl/benevol2018/">The 17th
+       Belgium-Netherlands Software Evolution Workshop</a>, Delft,
+       Netherlands, December 2018.
+      </em>
+    [[!toggle id=id72 text="Abstract..."]] [[!toggleable id=id72 text="""
+    *Abstract:* Software evolution studies have mostly focused on individual software products, generally developed as Free/Open Source Software (FOSS) projects, and more sparingly on software collections like component and package ecosystems. We argue in this paper that the next step in this organic scale expansion is universal software evolution analysis, i.e., the study of software evolution at the scale of the whole body of publicly available software. We consider the case of Software Heritage, the largest existing archive of publicly available software source code artifacts (more than 5 B unique files archived and 1 B commits, coming from more than 80 M software projects). We propose research requirements that would allow to leverage the Software Heritage archive to study universal software evolution. We discuss the challenges that need to be overcome to address such requirements and outline a research roadmap to do so.
+    """]]
  1. <a class="paper-download" href="jfla10-dh-ocaml.pdf" title="download paper in PDF format">[.pdf]</a> <a class="bibtex-download" href="jfla10-dh-ocaml.bib" title="download bibliographic entry in BibTeX format">[.bib]</a> <a href="http://www.pps.univ-paris-diderot.fr/~dogguy/">Mehdi Dogguy</a>, <a href="http://stephane.glondu.net/">Stéphane Glondu</a>, <a href="http://sylvain.le-gall.net/">Sylvain Le Gall</a>, <a href="http://upsilon.cc/~zack">Stefano Zacchiroli</a>. **Enforcing Type-Safe Linking using Inter-Package Relationships**.  <em>In proceedings of JFLA 2010: <a href="http://jfla.inria.fr/2010/">21st Journée Francophones des Langages
       Applicatifs</a>, pp. 29-54. 30/01-02/02/2010 -
       La Ciotat, France.</em>
+  author = {Antoine Pietri and Stefano Zacchiroli},
+  title = {Towards Universal Software Evolution Analysis},
+  abstract = {Software evolution studies have mostly focused on individual software products, generally developed as Free/Open Source Software (FOSS) projects, and more sparingly on software collections like component and package ecosystems. We argue in this paper that the next step in this organic scale expansion is universal software evolution analysis, i.e., the study of software evolution at the scale of the whole body of publicly available software. We consider the case of Software Heritage, the largest existing archive of publicly available software source code artifacts (more than 5 B unique files archived and 1 B commits, coming from more than 80 M software projects). We propose research requirements that would allow to leverage the Software Heritage archive to study universal software evolution. We discuss the challenges that need to be overcome to address such requirements and outline a research roadmap to do so.},
+  year = {2018},
+  booktitle = {BENEVOL 2018: The 17th Belgium-Netherlands Software Evolution Workshop},
   title = {Identifiers for Digital Objects: the Case of Software Source Code Preservation},
   abstract = {In the very broad scope addressed by digital preservation initiatives, a special place belongs to the scientific and technical artifacts that we need to properly archive to enable scientific reproducibility. For these artifacts we need identifiers that are not only unique and persistent, but also support integrity in an intrinsic way. They must provide strong guarantees that the object denoted by a given identifier will always be the same, without relying on third parties and external administrative processes. In this article, we report on our quest for this identifiers for digital objects (IDOs), whose properties are different from, and complementary to, those of the various digital identifiers of objects (DIOs) that are in widespread use today. We argue that both kinds of identifiers are needed and present the framework for intrinsic persistent identifiers that we have adopted in Software Heritage for preserving billions of software artifacts.},
   year = {2018},
+  doi = {10.17605/OSF.IO/KDE56},
   booktitle = {iPRES 2018: 15th International Conference on Digital Preservation},
+  author = {Antoine Pietri and Diomidis Spinellis and Stefano Zacchiroli},
+  title = {The Software Heritage Graph Dataset: Public software development under one roof},
+  abstract = {Software Heritage is the largest existing public archive of software source code and accompanying development history: it currently spans more than five billion unique source code files and one billion unique commits, coming from more than 80 million software projects. This paper introduces the Software Heritage graph dataset: a fully-deduplicated Merkle DAG representation of the Software Heritage archive. The dataset links together file content identifiers, source code directories, Version Control System (VCS) commits tracking evolution over time, up to the full states of VCS repositories as observed by Software Heritage during periodic crawls. The dataset's contents come from major development forges (including GitHub and GitLab), FOSS distributions (e.g., Debian), and language-specific package managers (e.g., PyPI). Crawling information is also included, providing timestamps about when and where all archived source code artifacts have been observed in the wild. The Software Heritage graph dataset is available in multiple formats, including downloadable CSV dumps and Apache Parquet files for local use, as well as a public instance on Amazon Athena interactive query service for ready-to-use powerful analytical processing. Source code file contents are cross-referenced at the graph leaves, and can be retrieved through individual requests using the Software Heritage archive API.},
+  year = {2019},
+  booktitle = {MSR 2019: The 16th International Conference on Mining Software Repositories},