publications: add recent papers
authorStefano Zacchiroli <zack@upsilon.cc>
Wed, 11 Mar 2020 13:51:35 +0000 (14:51 +0100)
committerStefano Zacchiroli <zack@upsilon.cc>
Wed, 11 Mar 2020 13:51:35 +0000 (14:51 +0100)
research/publications.mdwn
research/publications/msr-2020-forks.bib [new file with mode: 0644]
research/publications/msr-2020-topology.bib [new file with mode: 0644]
research/publications/nms-oss-won-lost.bib [new file with mode: 0644]
research/publications/nms-oss-won-lost.pdf [new file with mode: 0644]

index 6c1bec9..3be6680 100644 (file)
@@ -13,6 +13,12 @@ You might also be interested in my author profiles on
 
 # <span title="international, peer-reviewed journals">international, peer-reviewed journal articles</span>
 
+ 1. <a class="paper-download" href="nms-oss-won-lost.pdf" title="download paper in PDF format">[.pdf]</a> <a class="bibtex-download" href="nms-oss-won-lost.bib" title="download bibliographic entry in BibTeX format">[.bib]</a> <a href="https://www.canberra.edu.au/about-uc/faculties/arts-design/courses/communications-staff/oneil-mathieu">Mathieu O'Neil</a>, Laure Muselli, Mahin Raissi, <a href="http://upsilon.cc/~zack">Stefano Zacchiroli</a>. **"Open source has won and lost the war": Legitimising commercial-communal hybridisation in a FOSS project**.  <em>To appear in <a href="https://journals.sagepub.com/home/nms">New Media and
+      Society</a>.  ISSN 1461-4448,
+      2020.</em>
+    [[!toggle id=id81 text="Abstract..."]] [[!toggleable id=id81 text="""
+    *Abstract:* Information technology (IT) firms are paying developers in Free and Open Source Software (FOSS) projects, leading to the emergence of hybrid forms of work. In order to understand how the firm-project hybridisation process occurs, we present the results of an online survey of participants in the Debian project, as well as interviews with Debian Developers. We find that the intermingling of the commercial logic of the firm and the communal logic of the project requires rhetorical legitimation. We analyse the discourses used to legitimise firm-project cooperation as well as the organisational mechanisms which facilitate this cooperation. A first phase of legitimation, based on firm adoption of open licenses and developer self-fulfilment, aims to erase the commercial/communal divide. A second more recent phase seeks to professionalise work relations inside the project and, in doing so, challenges the social order which restricts participation in FOSS. Ultimately, hybridisation raises the question of the fair distribution of the profits firms derive from FOSS.
+    """]]
  1. <a class="paper-download" href="cise-2020-doi.pdf" title="download paper in PDF format">[.pdf]</a> <a class="bibtex-download" href="cise-2020-doi.bib" title="download bibliographic entry in BibTeX format">[.bib]</a> <span class="doi_logo"><a href="http://dx.doi.org/10.1109/MCSE.2019.2963148" title="Document Object Identifier">doi&gt;</a></span> <a href="http://www.dicosmo.org">Roberto Di Cosmo</a>, <a href="https://moranegg.github.io/">Morane Gruenpeter</a>, <a href="http://upsilon.cc/~zack">Stefano Zacchiroli</a>. **Referencing Source Code Artifacts: a Separate Concern in Software Citation**.  <em>
        In <a href="https://www.computer.org/csdl/magazines/cs">Computing in Science
        and Engineering</a>, volume 22,
@@ -188,6 +194,24 @@ You might also be interested in my author profiles on
 
 # <span title="international, peer-reviewed conferences">international, peer-reviewed conference proceedings</span>
 
+ 1. <a class="bibtex-download" href="msr-2020-topology.bib" title="download bibliographic entry in BibTeX format">[.bib]</a> <a href="https://koin.fr/">Antoine Pietri</a>, Guillaume Rousseau, <a href="http://upsilon.cc/~zack">Stefano Zacchiroli</a>. **Determining the Intrinsic Structure of Public Software Development History**.  <em>
+       To appear in proceedings of <a href="http://2020.msrconf.org/">MSR 2020</a>: The 17th International
+       Conference on Mining Software Repositories, May 2020,
+       Seoul, South Korea. Co-located with <a href="https://conf.researchr.org/home/icse-2020">ICSE 2020</a>.
+       IEEE 2020.
+      </em>
+    [[!toggle id=id80 text="Abstract..."]] [[!toggleable id=id80 text="""
+    *Abstract:* Background: Collaborative software development has produced a wealth of version control system (VCS) data that can now be analyzed in full. Little is known about the intrinsic structure of the entire corpus of publicly available VCS as an interconnected graph. Understanding its structure is needed to determine the best approach to analyze it in full and to avoid methodological pitfalls when doing so. Objective: We intend to determine the most salient network topology properties of public software development history as captured by VCS. We will explore: degree distributions, determining whether they are scale-free or not; distribution of connect component sizes; distribution of shortest path lengths. Method: We will use Software Heritage---which is the largest corpus of public VCS data---compress it using webgraph compression techniques, and analyze it in-memory using classic graph algorithms. Analyses will be performed both on the full graph and on relevant subgraphs. Limitations: The study is exploratory in nature; as such no hypotheses on the findings is stated at this time. Chosen graph algorithms are expected to scale to the corpus size, but it will need to be confirmed experimentally. External validity will depend on how representative Software Heritage is of the software commons.
+    """]]
+ 1. <a class="bibtex-download" href="msr-2020-forks.bib" title="download bibliographic entry in BibTeX format">[.bib]</a> <a href="https://koin.fr/">Antoine Pietri</a>, Guillaume Rousseau, <a href="http://upsilon.cc/~zack">Stefano Zacchiroli</a>. **Forking Without Clicking: on How to Identify Software Repository Forks**.  <em>
+       To appear in proceedings of <a href="http://2020.msrconf.org/">MSR 2020</a>: The 17th International
+       Conference on Mining Software Repositories, May 2020,
+       Seoul, South Korea. Co-located with <a href="https://conf.researchr.org/home/icse-2020">ICSE 2020</a>.
+       IEEE 2020.
+      </em>
+    [[!toggle id=id79 text="Abstract..."]] [[!toggleable id=id79 text="""
+    *Abstract:* The notion of software "fork" has been shifting over time from the (negative) phenomenon of community disagreements that result in the creation of separate development lines and ultimately software products, to the (positive) practice of using distributed version control system (VCS) repositories to collaboratively improve a single product without stepping on each others toes. In both cases the VCS repositories participating in a fork share parts of a common development history. Studies of software forks generally rely on hosting platform metadata, such as GitHub, as the source of truth for what constitutes a fork. These “forge forks” however can only identify as forks repositories that have been created on the platform, e.g., by clicking a "fork" button on the platform user interface. The increased diversity in code hosting platforms (e.g., GitLab) and the habits of significant development communities (e.g., the Linux kernel, which is not primarily hosted on any single platform) call into question the reliability of trusting code hosting platforms to identify forks. Doing so might introduce selection and methodological biases in empirical studies. In this article we explore various definitions of "software forks", trying to capture forking workflows that exist in the real world. We quantify the differences in how many repositories would be identified as forks on GitHub according to the various definitions, confirming that a significant number could be overlooked by only considering forge forks. We study the structure and size of fork networks, observing how they are affected by the proposed definitions and discuss the potential impact on empirical research.
+    """]]
  1. <a class="paper-download" href="saner-2020-swh-graph.pdf" title="download paper in PDF format">[.pdf]</a> <a class="bibtex-download" href="saner-2020-swh-graph.bib" title="download bibliographic entry in BibTeX format">[.bib]</a> <a href="http://boldi.di.unimi.it/">Paolo Boldi</a>, <a href="https://koin.fr/">Antoine Pietri</a>, <a href="http://vigna.di.unimi.it/">Sebastiano Vigna</a>, <a href="http://upsilon.cc/~zack">Stefano Zacchiroli</a>. **Ultra-Large-Scale Repository Analysis via Graph Compression**.  <em>
        In proceedings of <a href="https://saner2020.csd.uwo.ca/">SANER 2020</a>: The 27th IEEE
        International Conference on Software Analysis, Evolution and
diff --git a/research/publications/msr-2020-forks.bib b/research/publications/msr-2020-forks.bib
new file mode 100644 (file)
index 0000000..ba31984
--- /dev/null
@@ -0,0 +1,8 @@
+@inproceedings{msr-2020-forks,
+  author = {Antoine Pietri and Guillaume Rousseau and Stefano Zacchiroli},
+  title = {Forking Without Clicking: on How to Identify Software Repository Forks},
+  abstract = {The notion of software "fork" has been shifting over time from the (negative) phenomenon of community disagreements that result in the creation of separate development lines and ultimately software products, to the (positive) practice of using distributed version control system (VCS) repositories to collaboratively improve a single product without stepping on each others toes. In both cases the VCS repositories participating in a fork share parts of a common development history. Studies of software forks generally rely on hosting platform metadata, such as GitHub, as the source of truth for what constitutes a fork. These “forge forks” however can only identify as forks repositories that have been created on the platform, e.g., by clicking a "fork" button on the platform user interface. The increased diversity in code hosting platforms (e.g., GitLab) and the habits of significant development communities (e.g., the Linux kernel, which is not primarily hosted on any single platform) call into question the reliability of trusting code hosting platforms to identify forks. Doing so might introduce selection and methodological biases in empirical studies. In this article we explore various definitions of "software forks", trying to capture forking workflows that exist in the real world. We quantify the differences in how many repositories would be identified as forks on GitHub according to the various definitions, confirming that a significant number could be overlooked by only considering forge forks. We study the structure and size of fork networks, observing how they are affected by the proposed definitions and discuss the potential impact on empirical research.},
+  publisher = {IEEE},
+  year = {2020},
+  booktitle = {MSR 2020: The 17th International Conference on Mining Software Repositories},
+}
diff --git a/research/publications/msr-2020-topology.bib b/research/publications/msr-2020-topology.bib
new file mode 100644 (file)
index 0000000..1c73715
--- /dev/null
@@ -0,0 +1,8 @@
+@inproceedings{msr-2020-topology,
+  author = {Antoine Pietri and Guillaume Rousseau and Stefano Zacchiroli},
+  title = {Determining the Intrinsic Structure of Public Software Development History},
+  abstract = {Background: Collaborative software development has produced a wealth of version control system (VCS) data that can now be analyzed in full. Little is known about the intrinsic structure of the entire corpus of publicly available VCS as an interconnected graph. Understanding its structure is needed to determine the best approach to analyze it in full and to avoid methodological pitfalls when doing so. Objective: We intend to determine the most salient network topology properties of public software development history as captured by VCS. We will explore: degree distributions, determining whether they are scale-free or not; distribution of connect component sizes; distribution of shortest path lengths. Method: We will use Software Heritage---which is the largest corpus of public VCS data---compress it using webgraph compression techniques, and analyze it in-memory using classic graph algorithms. Analyses will be performed both on the full graph and on relevant subgraphs. Limitations: The study is exploratory in nature; as such no hypotheses on the findings is stated at this time. Chosen graph algorithms are expected to scale to the corpus size, but it will need to be confirmed experimentally. External validity will depend on how representative Software Heritage is of the software commons.},
+  publisher = {IEEE},
+  year = {2020},
+  booktitle = {MSR 2020: The 17th International Conference on Mining Software Repositories},
+}
diff --git a/research/publications/nms-oss-won-lost.bib b/research/publications/nms-oss-won-lost.bib
new file mode 100644 (file)
index 0000000..16d87e5
--- /dev/null
@@ -0,0 +1,8 @@
+@article{nms-oss-won-lost,
+  author = {O'Neil, Mathieu and Laure Muselli and Mahin Raissi and Stefano Zacchiroli},
+  title = {"Open source has won and lost the war": Legitimising commercial-communal hybridisation in a FOSS project},
+  abstract = {Information technology (IT) firms are paying developers in Free and Open Source Software (FOSS) projects, leading to the emergence of hybrid forms of work. In order to understand how the firm-project hybridisation process occurs, we present the results of an online survey of participants in the Debian project, as well as interviews with Debian Developers. We find that the intermingling of the commercial logic of the firm and the communal logic of the project requires rhetorical legitimation. We analyse the discourses used to legitimise firm-project cooperation as well as the organisational mechanisms which facilitate this cooperation. A first phase of legitimation, based on firm adoption of open licenses and developer self-fulfilment, aims to erase the commercial/communal divide. A second more recent phase seeks to professionalise work relations inside the project and, in doing so, challenges the social order which restricts participation in FOSS. Ultimately, hybridisation raises the question of the fair distribution of the profits firms derive from FOSS.},
+  year = {2020},
+  issn = {1461-4448},
+  journal = {New Media and Society},
+}
diff --git a/research/publications/nms-oss-won-lost.pdf b/research/publications/nms-oss-won-lost.pdf
new file mode 100644 (file)
index 0000000..c528d9f
Binary files /dev/null and b/research/publications/nms-oss-won-lost.pdf differ