publications: add DOIs for a bunch of papers
authorStefano Zacchiroli <zack@upsilon.cc>
Wed, 1 Apr 2020 12:58:45 +0000 (14:58 +0200)
committerStefano Zacchiroli <zack@upsilon.cc>
Wed, 1 Apr 2020 12:58:45 +0000 (14:58 +0200)
research/publications.mdwn
research/publications/msr-2020-challenge.bib
research/publications/msr-2020-forks.bib
research/publications/msr-2020-topology.bib
research/publications/nms-oss-won-lost.bib

index 30e44c1..2fddc26 100644 (file)
@@ -21,7 +21,7 @@ You might also be interested in my author profiles on
     [[!toggle id=id82 text="Abstract..."]] [[!toggleable id=id82 text="""
     *Abstract:* We study the possibilities to track provenance of software source code artifacts within the largest publicly accessible corpus of publicly available source code, the Software Heritage archive, with over 4 billions unique source code files and 1 billion commits capturing their development histories across 50 million software projects. We perform a systematic and generic estimate of the replication factor across the different layers of this corpus, analysing how much the same artifacts (e.g., SLOC, files or commits) appear in different contexts (e.g., files, commits or source code repositories). We observe a combinatorial explosion in the number of identical source code files across different commits. To discuss the implication of these findings, we benchmark different data models for capturing software provenance information at this scale, and we identify a viable solution, based on the properties of isochrone subgraphs, that is deployable on commodity hardware, is incremental and appears to be maintainable for the foreseeable future. Using these properties, we quantify, at a scale never achieved previously, the growth rate of original, i.e. never-seen-before, source code files and commits, and find it to be exponential over a period of more than 40 years.
     """]]
- 1. <a class="paper-download" href="nms-oss-won-lost.pdf" title="download paper in PDF format">[.pdf]</a> <a class="bibtex-download" href="nms-oss-won-lost.bib" title="download bibliographic entry in BibTeX format">[.bib]</a> <a href="https://www.canberra.edu.au/about-uc/faculties/arts-design/courses/communications-staff/oneil-mathieu">Mathieu O'Neil</a>, <a href="http://ses.telecom-paristech.fr/en/membres/laure-muselli/">Laure Muselli</a>, <a href="https://demography.cass.anu.edu.au/people/mahin-raissi">Mahin Raissi</a>, <a href="http://upsilon.cc/~zack">Stefano Zacchiroli</a>. **"Open source has won and lost the war": Legitimising commercial-communal hybridisation in a FOSS project**.  <em>To appear in <a href="https://journals.sagepub.com/home/nms">New Media and
+ 1. <a class="paper-download" href="nms-oss-won-lost.pdf" title="download paper in PDF format">[.pdf]</a> <a class="bibtex-download" href="nms-oss-won-lost.bib" title="download bibliographic entry in BibTeX format">[.bib]</a> <span class="doi_logo"><a href="http://dx.doi.org/10.1177/1461444820907022" title="Document Object Identifier">doi&gt;</a></span> <a href="https://www.canberra.edu.au/about-uc/faculties/arts-design/courses/communications-staff/oneil-mathieu">Mathieu O'Neil</a>, <a href="http://ses.telecom-paristech.fr/en/membres/laure-muselli/">Laure Muselli</a>, <a href="https://demography.cass.anu.edu.au/people/mahin-raissi">Mahin Raissi</a>, <a href="http://upsilon.cc/~zack">Stefano Zacchiroli</a>. **"Open source has won and lost the war": Legitimising commercial-communal hybridisation in a FOSS project**.  <em>To appear in <a href="https://journals.sagepub.com/home/nms">New Media and
       Society</a>.  ISSN 1461-4448,
       2020.</em>
     [[!toggle id=id81 text="Abstract..."]] [[!toggleable id=id81 text="""
@@ -202,7 +202,7 @@ You might also be interested in my author profiles on
 
 # <span title="international, peer-reviewed conferences">international, peer-reviewed conference proceedings</span>
 
- 1. <a class="bibtex-download" href="msr-2020-topology.bib" title="download bibliographic entry in BibTeX format">[.bib]</a> <a href="https://koin.fr/">Antoine Pietri</a>, Guillaume Rousseau, <a href="http://upsilon.cc/~zack">Stefano Zacchiroli</a>. **Determining the Intrinsic Structure of Public Software Development History**.  <em>
+ 1. <a class="bibtex-download" href="msr-2020-topology.bib" title="download bibliographic entry in BibTeX format">[.bib]</a> <span class="doi_logo"><a href="http://dx.doi.org/10.1145/3379597.3387506" title="Document Object Identifier">doi&gt;</a></span> <a href="https://koin.fr/">Antoine Pietri</a>, Guillaume Rousseau, <a href="http://upsilon.cc/~zack">Stefano Zacchiroli</a>. **Determining the Intrinsic Structure of Public Software Development History**.  <em>
        To appear in proceedings of <a href="http://2020.msrconf.org/">MSR 2020</a>: The 17th International
        Conference on Mining Software Repositories, May 2020,
        Seoul, South Korea. Co-located with <a href="https://conf.researchr.org/home/icse-2020">ICSE 2020</a>.
@@ -211,7 +211,7 @@ You might also be interested in my author profiles on
     [[!toggle id=id80 text="Abstract..."]] [[!toggleable id=id80 text="""
     *Abstract:* Background: Collaborative software development has produced a wealth of version control system (VCS) data that can now be analyzed in full. Little is known about the intrinsic structure of the entire corpus of publicly available VCS as an interconnected graph. Understanding its structure is needed to determine the best approach to analyze it in full and to avoid methodological pitfalls when doing so. Objective: We intend to determine the most salient network topology properties of public software development history as captured by VCS. We will explore: degree distributions, determining whether they are scale-free or not; distribution of connect component sizes; distribution of shortest path lengths. Method: We will use Software Heritage---which is the largest corpus of public VCS data---compress it using webgraph compression techniques, and analyze it in-memory using classic graph algorithms. Analyses will be performed both on the full graph and on relevant subgraphs. Limitations: The study is exploratory in nature; as such no hypotheses on the findings is stated at this time. Chosen graph algorithms are expected to scale to the corpus size, but it will need to be confirmed experimentally. External validity will depend on how representative Software Heritage is of the software commons.
     """]]
- 1. <a class="bibtex-download" href="msr-2020-forks.bib" title="download bibliographic entry in BibTeX format">[.bib]</a> <a href="https://koin.fr/">Antoine Pietri</a>, Guillaume Rousseau, <a href="http://upsilon.cc/~zack">Stefano Zacchiroli</a>. **Forking Without Clicking: on How to Identify Software Repository Forks**.  <em>
+ 1. <a class="bibtex-download" href="msr-2020-forks.bib" title="download bibliographic entry in BibTeX format">[.bib]</a> <span class="doi_logo"><a href="http://dx.doi.org/10.1145/3379597.3387450" title="Document Object Identifier">doi&gt;</a></span> <a href="https://koin.fr/">Antoine Pietri</a>, Guillaume Rousseau, <a href="http://upsilon.cc/~zack">Stefano Zacchiroli</a>. **Forking Without Clicking: on How to Identify Software Repository Forks**.  <em>
        To appear in proceedings of <a href="http://2020.msrconf.org/">MSR 2020</a>: The 17th International
        Conference on Mining Software Repositories, May 2020,
        Seoul, South Korea. Co-located with <a href="https://conf.researchr.org/home/icse-2020">ICSE 2020</a>.
@@ -238,7 +238,7 @@ You might also be interested in my author profiles on
     [[!toggle id=id76 text="Abstract..."]] [[!toggleable id=id76 text="""
     *Abstract:* Dependency solving is a hard (NP-complete) problem in all non-trivial component models due to either mutually incompatible versions of the same packages or explicitly declared package conflicts. As such, software upgrade planning needs to rely on highly specialized dependency solvers, lest falling into pitfalls such as incompleteness—a combination of package versions that satisfy dependency constraints does exist, but the package manager is unable to find it. In this paper we look back at proposals from dependency solving research dating back a few years. Specifically, we review the idea of treating dependency solving as a separate concern in package manager implementations, relying on generic dependency solvers based on tried and tested techniques such as SAT solving, PBO, MILP, etc. By conducting a census of dependency solving capabilities in state-of-the-art package managers we conclude that some proposals are starting to take off (e.g., SAT-based dependency solving) while—with few exceptions—others have not (e.g., outsourcing dependency solving to reusable components). We reflect on why that has been the case and look at novel challenges for dependency solving that have emerged since.
     """]]
- 1. <a class="paper-download" href="msr-2020-challenge.pdf" title="download paper in PDF format">[.pdf]</a> <a class="bibtex-download" href="msr-2020-challenge.bib" title="download bibliographic entry in BibTeX format">[.bib]</a> <a href="https://koin.fr/">Antoine Pietri</a>, <a href="https://www.spinellis.gr">Diomidis Spinellis</a>, <a href="http://upsilon.cc/~zack">Stefano Zacchiroli</a>. **The Software Heritage Graph Dataset: Large-scale Analysis of Public Software Development History**.  <em>
+ 1. <a class="paper-download" href="msr-2020-challenge.pdf" title="download paper in PDF format">[.pdf]</a> <a class="bibtex-download" href="msr-2020-challenge.bib" title="download bibliographic entry in BibTeX format">[.bib]</a> <span class="doi_logo"><a href="http://dx.doi.org/10.1145/3379597.3387510" title="Document Object Identifier">doi&gt;</a></span> <a href="https://koin.fr/">Antoine Pietri</a>, <a href="https://www.spinellis.gr">Diomidis Spinellis</a>, <a href="http://upsilon.cc/~zack">Stefano Zacchiroli</a>. **The Software Heritage Graph Dataset: Large-scale Analysis of Public Software Development History**.  <em>
        To appear in proceedings of <a href="http://2020.msrconf.org/">MSR 2020</a>: The 17th International
        Conference on Mining Software Repositories, May 2020,
        Seoul, South Korea. Co-located with <a href="https://conf.researchr.org/home/icse-2020">ICSE 2020</a>.
index 7a29b3c..1ae84b2 100644 (file)
@@ -4,5 +4,6 @@
   abstract = {Software Heritage is the largest existing public archive of software source code and accompanying development history. It spans more than five billion unique source code files and one billion unique commits, coming from more than 80 million software projects. These software artifacts were retrieved from major collaborative development platforms (e.g., GitHub, GitLab) and package repositories (e.g., PyPI, Debian, NPM), and stored in a uniform representation linking together source code files, directories, commits, and full snapshots of version control systems (VCS) repositories as observed by Software Heritage during periodic crawls. This dataset is unique in terms of accessibility and scale, and allows to explore a number of research questions on the long tail of public software development, instead of solely focusing on "most starred" repositories as it often happens.},
   publisher = {IEEE},
   year = {2020},
+  doi = {10.1145/3379597.3387510},
   booktitle = {MSR 2020: The 17th International Conference on Mining Software Repositories},
 }
index ba31984..6848f51 100644 (file)
@@ -4,5 +4,6 @@
   abstract = {The notion of software "fork" has been shifting over time from the (negative) phenomenon of community disagreements that result in the creation of separate development lines and ultimately software products, to the (positive) practice of using distributed version control system (VCS) repositories to collaboratively improve a single product without stepping on each others toes. In both cases the VCS repositories participating in a fork share parts of a common development history. Studies of software forks generally rely on hosting platform metadata, such as GitHub, as the source of truth for what constitutes a fork. These “forge forks” however can only identify as forks repositories that have been created on the platform, e.g., by clicking a "fork" button on the platform user interface. The increased diversity in code hosting platforms (e.g., GitLab) and the habits of significant development communities (e.g., the Linux kernel, which is not primarily hosted on any single platform) call into question the reliability of trusting code hosting platforms to identify forks. Doing so might introduce selection and methodological biases in empirical studies. In this article we explore various definitions of "software forks", trying to capture forking workflows that exist in the real world. We quantify the differences in how many repositories would be identified as forks on GitHub according to the various definitions, confirming that a significant number could be overlooked by only considering forge forks. We study the structure and size of fork networks, observing how they are affected by the proposed definitions and discuss the potential impact on empirical research.},
   publisher = {IEEE},
   year = {2020},
+  doi = {10.1145/3379597.3387450},
   booktitle = {MSR 2020: The 17th International Conference on Mining Software Repositories},
 }
index 1c73715..02e572b 100644 (file)
@@ -4,5 +4,6 @@
   abstract = {Background: Collaborative software development has produced a wealth of version control system (VCS) data that can now be analyzed in full. Little is known about the intrinsic structure of the entire corpus of publicly available VCS as an interconnected graph. Understanding its structure is needed to determine the best approach to analyze it in full and to avoid methodological pitfalls when doing so. Objective: We intend to determine the most salient network topology properties of public software development history as captured by VCS. We will explore: degree distributions, determining whether they are scale-free or not; distribution of connect component sizes; distribution of shortest path lengths. Method: We will use Software Heritage---which is the largest corpus of public VCS data---compress it using webgraph compression techniques, and analyze it in-memory using classic graph algorithms. Analyses will be performed both on the full graph and on relevant subgraphs. Limitations: The study is exploratory in nature; as such no hypotheses on the findings is stated at this time. Chosen graph algorithms are expected to scale to the corpus size, but it will need to be confirmed experimentally. External validity will depend on how representative Software Heritage is of the software commons.},
   publisher = {IEEE},
   year = {2020},
+  doi = {10.1145/3379597.3387506},
   booktitle = {MSR 2020: The 17th International Conference on Mining Software Repositories},
 }
index 16d87e5..c0a6ba7 100644 (file)
@@ -4,5 +4,6 @@
   abstract = {Information technology (IT) firms are paying developers in Free and Open Source Software (FOSS) projects, leading to the emergence of hybrid forms of work. In order to understand how the firm-project hybridisation process occurs, we present the results of an online survey of participants in the Debian project, as well as interviews with Debian Developers. We find that the intermingling of the commercial logic of the firm and the communal logic of the project requires rhetorical legitimation. We analyse the discourses used to legitimise firm-project cooperation as well as the organisational mechanisms which facilitate this cooperation. A first phase of legitimation, based on firm adoption of open licenses and developer self-fulfilment, aims to erase the commercial/communal divide. A second more recent phase seeks to professionalise work relations inside the project and, in doing so, challenges the social order which restricts participation in FOSS. Ultimately, hybridisation raises the question of the fair distribution of the profits firms derive from FOSS.},
   year = {2020},
   issn = {1461-4448},
+  doi = {10.1177/1461444820907022},
   journal = {New Media and Society},
 }