papers: update biblio info for MSR 2019
authorStefano Zacchiroli <zack@upsilon.cc>
Sun, 26 May 2019 18:56:25 +0000 (14:56 -0400)
committerStefano Zacchiroli <zack@upsilon.cc>
Sun, 26 May 2019 18:56:25 +0000 (14:56 -0400)
research/publications.mdwn
research/publications/msr-2019-swh.bib

index 81e2d09..8d621c8 100644 (file)
@@ -169,10 +169,13 @@ You might also be interested in my author profiles on
 
 # <span title="international, peer-reviewed conferences">international, peer-reviewed conference proceedings</span>
 
- 1. <a class="paper-download" href="msr-2019-swh.pdf" title="download paper in PDF format">[.pdf]</a> <a class="bibtex-download" href="msr-2019-swh.bib" title="download bibliographic entry in BibTeX format">[.bib]</a> Antoine Pietri, <a href="https://www.spinellis.gr">Diomidis Spinellis</a>, <a href="http://upsilon.cc/~zack">Stefano Zacchiroli</a>. **The Software Heritage Graph Dataset: Public software development under one roof**.  <em>
-       To appear in proceedings of <a href="http://2019.msrconf.org/">MSR 2019</a>: The 16th International
-       Conference on Mining Software Repositories, May 2019,
-       Montreal, Canada. Co-located with <a href="https://2019.icse-conferences.org/home">ICSE 2019</a>.
+ 1. <a class="paper-download" href="msr-2019-swh.pdf" title="download paper in PDF format">[.pdf]</a> <a class="bibtex-download" href="msr-2019-swh.bib" title="download bibliographic entry in BibTeX format">[.bib]</a> <span class="doi_logo"><a href="http://dx.doi.org/10.1109/MSR.2019.00030" title="Document Object Identifier">doi&gt;</a></span> Antoine Pietri, <a href="https://www.spinellis.gr">Diomidis Spinellis</a>, <a href="http://upsilon.cc/~zack">Stefano Zacchiroli</a>. **The Software Heritage Graph Dataset: Public software development under one roof**.  <em>
+       In proceedings of <a href="http://2019.msrconf.org/">MSR
+       2019</a>: The 16th International Conference on Mining Software
+       Repositories, May 2019, Montreal, Canada. Co-located with
+       <a href="https://2019.icse-conferences.org/home">ICSE 2019</a>.
+       pp. 138-142,
+       IEEE 2019.
       </em>
     [[!toggle id=id73 text="Abstract..."]] [[!toggleable id=id73 text="""
     *Abstract:* Software Heritage is the largest existing public archive of software source code and accompanying development history: it currently spans more than five billion unique source code files and one billion unique commits, coming from more than 80 million software projects. This paper introduces the Software Heritage graph dataset: a fully-deduplicated Merkle DAG representation of the Software Heritage archive. The dataset links together file content identifiers, source code directories, Version Control System (VCS) commits tracking evolution over time, up to the full states of VCS repositories as observed by Software Heritage during periodic crawls. The dataset's contents come from major development forges (including GitHub and GitLab), FOSS distributions (e.g., Debian), and language-specific package managers (e.g., PyPI). Crawling information is also included, providing timestamps about when and where all archived source code artifacts have been observed in the wild. The Software Heritage graph dataset is available in multiple formats, including downloadable CSV dumps and Apache Parquet files for local use, as well as a public instance on Amazon Athena interactive query service for ready-to-use powerful analytical processing. Source code file contents are cross-referenced at the graph leaves, and can be retrieved through individual requests using the Software Heritage archive API.
index d75d99d..a0ba2cb 100644 (file)
@@ -2,6 +2,9 @@
   author = {Antoine Pietri and Diomidis Spinellis and Stefano Zacchiroli},
   title = {The Software Heritage Graph Dataset: Public software development under one roof},
   abstract = {Software Heritage is the largest existing public archive of software source code and accompanying development history: it currently spans more than five billion unique source code files and one billion unique commits, coming from more than 80 million software projects. This paper introduces the Software Heritage graph dataset: a fully-deduplicated Merkle DAG representation of the Software Heritage archive. The dataset links together file content identifiers, source code directories, Version Control System (VCS) commits tracking evolution over time, up to the full states of VCS repositories as observed by Software Heritage during periodic crawls. The dataset's contents come from major development forges (including GitHub and GitLab), FOSS distributions (e.g., Debian), and language-specific package managers (e.g., PyPI). Crawling information is also included, providing timestamps about when and where all archived source code artifacts have been observed in the wild. The Software Heritage graph dataset is available in multiple formats, including downloadable CSV dumps and Apache Parquet files for local use, as well as a public instance on Amazon Athena interactive query service for ready-to-use powerful analytical processing. Source code file contents are cross-referenced at the graph leaves, and can be retrieved through individual requests using the Software Heritage archive API.},
+  publisher = {IEEE},
   year = {2019},
+  doi = {10.1109/MSR.2019.00030},
+  pages = {138-142},
   booktitle = {MSR 2019: The 16th International Conference on Mining Software Repositories},
 }