papers: add (to appear) EMSE paper on software provenance
authorStefano Zacchiroli <zack@upsilon.cc>
Sun, 22 Mar 2020 09:34:49 +0000 (10:34 +0100)
committerStefano Zacchiroli <zack@upsilon.cc>
Sun, 22 Mar 2020 09:34:49 +0000 (10:34 +0100)
research/publications.mdwn
research/publications/swh-provenance-emse.bib [new file with mode: 0644]

index ba6b824..a561faa 100644 (file)
@@ -13,6 +13,15 @@ You might also be interested in my author profiles on
 
 # <span title="international, peer-reviewed journals">international, peer-reviewed journal articles</span>
 
+ 1. <a class="bibtex-download" href="swh-provenance-emse.bib" title="download bibliographic entry in BibTeX format">[.bib]</a> Guillaume Rousseau, <a href="http://www.dicosmo.org">Roberto Di Cosmo</a>, <a href="http://upsilon.cc/~zack">Stefano Zacchiroli</a>. **Software Provenance Tracking at the Scale of Public Source Code**.  <em>
+       To appear in <a href="http://link.springer.com/journal/10664">Empirical Software
+       Engineering</a>
+       2020.  ISSN 1382-3256,
+       Springer.
+      </em>
+    [[!toggle id=id82 text="Abstract..."]] [[!toggleable id=id82 text="""
+    *Abstract:* We study the possibilities to track provenance of software source code artifacts within the largest publicly accessible corpus of publicly available source code, the Software Heritage archive, with over 4 billions unique source code files and 1 billion commits capturing their development histories across 50 million software projects. We perform a systematic and generic estimate of the replication factor across the different layers of this corpus, analysing how much the same artifacts (e.g., SLOC, files or commits) appear in different contexts (e.g., files, commits or source code repositories). We observe a combinatorial explosion in the number of identical source code files across different commits. To discuss the implication of these findings, we benchmark different data models for capturing software provenance information at this scale, and we identify a viable solution, based on the properties of isochrone subgraphs, that is deployable on commodity hardware, is incremental and appears to be maintainable for the foreseeable future. Using these properties, we quantify, at a scale never achieved previously, the growth rate of original, i.e. never-seen-before, source code files and commits, and find it to be exponential over a period of more than 40 years.
+    """]]
  1. <a class="paper-download" href="nms-oss-won-lost.pdf" title="download paper in PDF format">[.pdf]</a> <a class="bibtex-download" href="nms-oss-won-lost.bib" title="download bibliographic entry in BibTeX format">[.bib]</a> <a href="https://www.canberra.edu.au/about-uc/faculties/arts-design/courses/communications-staff/oneil-mathieu">Mathieu O'Neil</a>, <a href="http://ses.telecom-paristech.fr/en/membres/laure-muselli/">Laure Muselli</a>, <a href="https://demography.cass.anu.edu.au/people/mahin-raissi">Mahin Raissi</a>, <a href="http://upsilon.cc/~zack">Stefano Zacchiroli</a>. **"Open source has won and lost the war": Legitimising commercial-communal hybridisation in a FOSS project**.  <em>To appear in <a href="https://journals.sagepub.com/home/nms">New Media and
       Society</a>.  ISSN 1461-4448,
       2020.</em>
diff --git a/research/publications/swh-provenance-emse.bib b/research/publications/swh-provenance-emse.bib
new file mode 100644 (file)
index 0000000..d742f09
--- /dev/null
@@ -0,0 +1,9 @@
+@article{swh-provenance-emse,
+  author = {Guillaume Rousseau and Di Cosmo, Roberto and Stefano Zacchiroli},
+  title = {Software Provenance Tracking at the Scale of Public Source Code},
+  abstract = {We study the possibilities to track provenance of software source code artifacts within the largest publicly accessible corpus of publicly available source code, the Software Heritage archive, with over 4 billions unique source code files and 1 billion commits capturing their development histories across 50 million software projects. We perform a systematic and generic estimate of the replication factor across the different layers of this corpus, analysing how much the same artifacts (e.g., SLOC, files or commits) appear in different contexts (e.g., files, commits or source code repositories). We observe a combinatorial explosion in the number of identical source code files across different commits. To discuss the implication of these findings, we benchmark different data models for capturing software provenance information at this scale, and we identify a viable solution, based on the properties of isochrone subgraphs, that is deployable on commodity hardware, is incremental and appears to be maintainable for the foreseeable future. Using these properties, we quantify, at a scale never achieved previously, the growth rate of original, i.e. never-seen-before, source code files and commits, and find it to be exponential over a period of more than 40 years.},
+  publisher = {Springer},
+  year = {2020},
+  issn = {1382-3256},
+  journal = {Empirical Software Engineering},
+}