papers: add SANER 2020 swh-graph preprint
authorStefano Zacchiroli <zack@upsilon.cc>
Sun, 22 Dec 2019 09:46:09 +0000 (10:46 +0100)
committerStefano Zacchiroli <zack@upsilon.cc>
Sun, 22 Dec 2019 09:46:09 +0000 (10:46 +0100)
research/publications.mdwn
research/publications/saner-2020-swh-graph.bib [new file with mode: 0644]
research/publications/saner-2020-swh-graph.pdf [new file with mode: 0644]

index f5b6d48..91fee21 100644 (file)
@@ -175,6 +175,15 @@ You might also be interested in my author profiles on
 
 # <span title="international, peer-reviewed conferences">international, peer-reviewed conference proceedings</span>
 
+ 1. <a class="paper-download" href="saner-2020-swh-graph.pdf" title="download paper in PDF format">[.pdf]</a> <a class="bibtex-download" href="saner-2020-swh-graph.bib" title="download bibliographic entry in BibTeX format">[.bib]</a> Paolo Boldi, <a href="https://koin.fr/">Antoine Pietri</a>, Sebastiano Vigna, <a href="http://upsilon.cc/~zack">Stefano Zacchiroli</a>. **Ultra-Large-Scale Repository Analysis via Graph Compression**.  <em>
+       To appear in proceedings of <a href="https://saner2020.csd.uwo.ca/">SANER 2020</a>: The 27th IEEE
+       International Conference on Software Analysis, Evolution and
+       Reengineering, February 18-21, 2020, London, Ontario,
+       Canada. IEEE 2020.
+      </em>
+    [[!toggle id=id76 text="Abstract..."]] [[!toggleable id=id76 text="""
+    *Abstract:* We consider the problem of mining the development history—as captured by modern version control systems—of ultra-large-scale software archives (e.g., tens of millions software repositories corresponding). We show that graph compression techniques can be applied to the problem, dramatically reducing the hardware resources needed to mine similarly-sized corpus. As a concrete use case we compress the full Software Heritage archive, consisting of 5 billion unique source code files and 1 billion unique commits, harvested from more than 80 million software projects—encompassing a full mirror of GitHub. The resulting compressed graph fits in less than 100 GB of RAM, corresponding to a hardware cost of less than 300 U.S. dollars. We show that the compressed in-memory representation of the full corpus can be accessed with excellent performances, with edge lookup times close to memory random access. As a sample exploitation experiment we show that the compressed graph can be used to conduct clone detection at this scale, benefiting from main memory access speed.
+    """]]
  1. <a class="paper-download" href="msr-2020-challenge.pdf" title="download paper in PDF format">[.pdf]</a> <a class="bibtex-download" href="msr-2020-challenge.bib" title="download bibliographic entry in BibTeX format">[.bib]</a> <a href="https://koin.fr/">Antoine Pietri</a>, <a href="https://www.spinellis.gr">Diomidis Spinellis</a>, <a href="http://upsilon.cc/~zack">Stefano Zacchiroli</a>. **The Software Heritage Graph Dataset: Large-scale Analysis of Public Software Development History**.  <em>
        To appear in proceedings of <a href="http://2020.msrconf.org/">MSR 2020</a>: The 17th International
        Conference on Mining Software Repositories, May 2020,
diff --git a/research/publications/saner-2020-swh-graph.bib b/research/publications/saner-2020-swh-graph.bib
new file mode 100644 (file)
index 0000000..ff6ea6e
--- /dev/null
@@ -0,0 +1,8 @@
+@inproceedings{saner-2020-swh-graph,
+  author = {Paolo Boldi and Antoine Pietri and Sebastiano Vigna and Stefano Zacchiroli},
+  title = {Ultra-Large-Scale Repository Analysis via Graph Compression},
+  abstract = {We consider the problem of mining the development history—as captured by modern version control systems—of ultra-large-scale software archives (e.g., tens of millions software repositories corresponding). We show that graph compression techniques can be applied to the problem, dramatically reducing the hardware resources needed to mine similarly-sized corpus. As a concrete use case we compress the full Software Heritage archive, consisting of 5 billion unique source code files and 1 billion unique commits, harvested from more than 80 million software projects—encompassing a full mirror of GitHub. The resulting compressed graph fits in less than 100 GB of RAM, corresponding to a hardware cost of less than 300 U.S. dollars. We show that the compressed in-memory representation of the full corpus can be accessed with excellent performances, with edge lookup times close to memory random access. As a sample exploitation experiment we show that the compressed graph can be used to conduct clone detection at this scale, benefiting from main memory access speed.},
+  publisher = {IEEE},
+  year = {2020},
+  booktitle = {SANER 2020: The 27th IEEE International Conference on Software Analysis, Evolution and Reengineering},
+}
diff --git a/research/publications/saner-2020-swh-graph.pdf b/research/publications/saner-2020-swh-graph.pdf
new file mode 100644 (file)
index 0000000..5e54dec
Binary files /dev/null and b/research/publications/saner-2020-swh-graph.pdf differ