papers: publish SWH provenance TR
authorStefano Zacchiroli <zack@upsilon.cc>
Tue, 18 Jun 2019 07:37:06 +0000 (09:37 +0200)
committerStefano Zacchiroli <zack@upsilon.cc>
Tue, 18 Jun 2019 07:37:06 +0000 (09:37 +0200)
research/publications.mdwn
research/publications/swh-provenance-tr.bib [new file with mode: 0644]
research/publications/swh-provenance-tr.pdf [new file with mode: 0644]

index 8d621c8..38dee2b 100644 (file)
@@ -169,7 +169,7 @@ You might also be interested in my author profiles on
 
 # <span title="international, peer-reviewed conferences">international, peer-reviewed conference proceedings</span>
 
- 1. <a class="paper-download" href="msr-2019-swh.pdf" title="download paper in PDF format">[.pdf]</a> <a class="bibtex-download" href="msr-2019-swh.bib" title="download bibliographic entry in BibTeX format">[.bib]</a> <span class="doi_logo"><a href="http://dx.doi.org/10.1109/MSR.2019.00030" title="Document Object Identifier">doi&gt;</a></span> Antoine Pietri, <a href="https://www.spinellis.gr">Diomidis Spinellis</a>, <a href="http://upsilon.cc/~zack">Stefano Zacchiroli</a>. **The Software Heritage Graph Dataset: Public software development under one roof**.  <em>
+ 1. <a class="paper-download" href="msr-2019-swh.pdf" title="download paper in PDF format">[.pdf]</a> <a class="bibtex-download" href="msr-2019-swh.bib" title="download bibliographic entry in BibTeX format">[.bib]</a> <span class="doi_logo"><a href="http://dx.doi.org/10.1109/MSR.2019.00030" title="Document Object Identifier">doi&gt;</a></span> <a href="https://koin.fr/">Antoine Pietri</a>, <a href="https://www.spinellis.gr">Diomidis Spinellis</a>, <a href="http://upsilon.cc/~zack">Stefano Zacchiroli</a>. **The Software Heritage Graph Dataset: Public software development under one roof**.  <em>
        In proceedings of <a href="http://2019.msrconf.org/">MSR
        2019</a>: The 16th International Conference on Mining Software
        Repositories, May 2019, Montreal, Canada. Co-located with
@@ -569,7 +569,7 @@ You might also be interested in my author profiles on
 
 # <span title="national, peer-reviewed conferences and workshops">national, peer-reviewed conference and workshop procedings</span>
 
- 1. <a class="paper-download" href="benevol-2018-swh.pdf" title="download paper in PDF format">[.pdf]</a> <a class="bibtex-download" href="benevol-2018-swh.bib" title="download bibliographic entry in BibTeX format">[.bib]</a> Antoine Pietri, <a href="http://upsilon.cc/~zack">Stefano Zacchiroli</a>. **Towards Universal Software Evolution Analysis**.  <em>
+ 1. <a class="paper-download" href="benevol-2018-swh.pdf" title="download paper in PDF format">[.pdf]</a> <a class="bibtex-download" href="benevol-2018-swh.bib" title="download bibliographic entry in BibTeX format">[.bib]</a> <a href="https://koin.fr/">Antoine Pietri</a>, <a href="http://upsilon.cc/~zack">Stefano Zacchiroli</a>. **Towards Universal Software Evolution Analysis**.  <em>
        In proceedings of <a href="http://se.ewi.tudelft.nl/benevol2018/">BENEVOL 2018</a>: The 17th
        Belgium-Netherlands Software Evolution Workshop, Delft,
        Netherlands, December 2018.
@@ -590,6 +590,14 @@ You might also be interested in my author profiles on
 
 # <span title="official research reports of research institutions">technical reports</span>
 
+ 1. <a class="paper-download" href="swh-provenance-tr.pdf" title="download paper in PDF format">[.pdf]</a> <a class="bibtex-download" href="swh-provenance-tr.bib" title="download bibliographic entry in BibTeX format">[.bib]</a> Guillaume Rousseau, <a href="http://www.dicosmo.org">Roberto Di Cosmo</a>, <a href="http://upsilon.cc/~zack">Stefano Zacchiroli</a>. **Growth and Duplication of Public Source Code over Time: Provenance Tracking at Scale**.  <em>
+       Inria
+       <a href="https://hal.archives-ouvertes.fr/hal-02158292">technical
+       report</a>, 2019.
+      </em>
+    [[!toggle id=id74 text="Abstract..."]] [[!toggleable id=id74 text="""
+    *Abstract:* We study the evolution of the largest known corpus of publicly available source code, i.e., the Software Heritage archive (4B unique source code files, 1B commits capturing their development histories across 50M software projects). On such corpus we quantify the growth rate of original, never-seen-before source code files and commits. We find the growth rates to be exponential over a period of more than 40 years. We then estimate the multiplication factor, i.e., how much the same artifacts (e.g., files or commits) appear in different contexts (e.g., commits or source code distribution places). We observe a combinatorial explosion in the multiplication of identical source code files across different commits. We discuss the implication of these findings for the problem of tracking the provenance of source code artifacts (e.g., where and when a given source code file or commit has been observed in the wild) for the entire body of publicly available source code. To that end we benchmark different data models for capturing software provenance information at this scale and growth rate. We identify a viable solution that is deployable on commodity hardware and appears to be maintainable for the foreseeable future.
+    """]]
  1. <a class="paper-download" href="aeolus-blender-tr.pdf" title="download paper in PDF format">[.pdf]</a> <a class="bibtex-download" href="aeolus-blender-tr.bib" title="download bibliographic entry in BibTeX format">[.bib]</a> <a href="http://www.dicosmo.org">Roberto Di Cosmo</a>, Antoine Eiche, <a href="http://www.cs.unibo.it/~jmauro/">Jacopo Mauro</a>, <a href="http://www.cs.unibo.it/~zavattar/">Gianluigi Zavattaro</a>, <a href="http://upsilon.cc/~zack">Stefano Zacchiroli</a>, <a href="http://www.pps.univ-paris-diderot.fr/~qba/">Jakub Zwolakowski</a>. **Automatic Deployment of Software Components in the Cloud with the Aeolus Blender**.  <em>
        Inria <a href="https://hal.inria.fr/hal-01103806/">technical
        report</a> 2015.
diff --git a/research/publications/swh-provenance-tr.bib b/research/publications/swh-provenance-tr.bib
new file mode 100644 (file)
index 0000000..1682a83
--- /dev/null
@@ -0,0 +1,8 @@
+@techreport{swh-provenance-tr,
+  author = {Guillaume Rousseau and Di Cosmo, Roberto and Stefano Zacchiroli},
+  title = {Growth and Duplication of Public Source Code over Time: Provenance Tracking at Scale},
+  abstract = {We study the evolution of the largest known corpus of publicly available source code, i.e., the Software Heritage archive (4B unique source code files, 1B commits capturing their development histories across 50M software projects). On such corpus we quantify the growth rate of original, never-seen-before source code files and commits. We find the growth rates to be exponential over a period of more than 40 years. We then estimate the multiplication factor, i.e., how much the same artifacts (e.g., files or commits) appear in different contexts (e.g., commits or source code distribution places). We observe a combinatorial explosion in the multiplication of identical source code files across different commits. We discuss the implication of these findings for the problem of tracking the provenance of source code artifacts (e.g., where and when a given source code file or commit has been observed in the wild) for the entire body of publicly available source code. To that end we benchmark different data models for capturing software provenance information at this scale and growth rate. We identify a viable solution that is deployable on commodity hardware and appears to be maintainable for the foreseeable future.},
+  year = {2019},
+  institution = {Inria},
+  howpublished = {\url{https://hal.archives-ouvertes.fr/hal-02158292}},
+}
diff --git a/research/publications/swh-provenance-tr.pdf b/research/publications/swh-provenance-tr.pdf
new file mode 100644 (file)
index 0000000..5872934
Binary files /dev/null and b/research/publications/swh-provenance-tr.pdf differ