From 837149cf4a554258efdc511910724774ce73d7e2 Mon Sep 17 00:00:00 2001
From: Tmonster <tom@ebergen.com>
Date: Wed, 4 Sep 2024 14:11:29 +0200
Subject: [PATCH 01/31] add 500GB runs

---
 _report/index.Rmd | 20 ++++++++++++++++++--
 _report/report.R  |  3 +++
 2 files changed, 21 insertions(+), 2 deletions(-)

diff --git a/_report/index.Rmd b/_report/index.Rmd
index b92250ca..ac7f6f48 100644
--- a/_report/index.Rmd
+++ b/_report/index.Rmd
@@ -131,6 +131,16 @@ loop_benchplot(dt_join, report_name="join", syntax.dict=join.syntax.dict, except
 
 ![](./groupby/G1_1e9_1e2_0_0_advanced.png)
 
+#### 500 GB {.active}
+
+##### **basic questions**
+
+![](./groupby/G1_1e10_1e4_10_0_basic.png)
+
+##### **advanced questions**
+
+![](./groupby/G1_1e10_1e4_10_0_advanced.png)
+
 ### join {.tabset .tabset-fade .tabset-pills}
 
 #### 0.5 GB
@@ -145,7 +155,7 @@ loop_benchplot(dt_join, report_name="join", syntax.dict=join.syntax.dict, except
 ![](./join/J1_1e7_NA_0_0_advanced.png)
 -->
 
-#### 5 GB {.active}
+#### 5 GB 
 
 ##### **basic questions**
 
@@ -158,12 +168,18 @@ loop_benchplot(dt_join, report_name="join", syntax.dict=join.syntax.dict, except
 ![](./join/J1_1e8_NA_0_0_advanced.png)
 -->
 
-#### 50 GB
+#### 50 GB {.active}
 
 ##### **basic questions**
 
 ![](./join/J1_1e9_NA_0_0_basic.png)
 
+#### 500 GB
+
+##### **basic questions**
+
+![](./join/J1_1e10_NA_10_0_basic.png)
+
 <!--
 ##### **advanced questions**
 
diff --git a/_report/report.R b/_report/report.R
index 01b27dd0..fbe00e38 100644
--- a/_report/report.R
+++ b/_report/report.R
@@ -13,14 +13,17 @@ get_data_levels = function() {
   in_rows = c("1e7","1e8","1e9")
   k_na_sort = c("1e2_0_0","1e1_0_0","2e0_0_0","1e2_0_1","1e2_5_0")
   groupby = paste("G1", paste(rep(in_rows, each=length(k_na_sort)), k_na_sort, sep="_"), sep="_")
+  groupby <- c(groupby, "G1_1e10_1e4_100_0")
   ## join
   in_rows = c("1e7","1e8","1e9")
   k_na_sort = c("NA_0_0","NA_5_0","NA_0_1")
   join = paste("J1", paste(rep(in_rows, each=length(k_na_sort)), k_na_sort, sep="_"), sep="_")
+  join <- c(join, "J1_1e10_NA_10_0")
   ## groupby2014
   in_rows = c("1e7","1e8","1e9")
   k_na_sort = "1e2_0_0"
   groupby2014 = paste("G0", paste(rep(in_rows, each=length(k_na_sort)), k_na_sort, sep="_"), sep="_")
+
   list(groupby=groupby, join=join, groupby2014=groupby2014)
 }
 get_excluded_batch = function() {

From 24b6e919b259d9114ef43b967964d5f26701c786 Mon Sep 17 00:00:00 2001
From: Tmonster <tom@ebergen.com>
Date: Wed, 4 Sep 2024 15:31:47 +0200
Subject: [PATCH 02/31] add more helper files

---
 _control/data.csv                  |  4 +-
 _control/extract_groupby_large.sql |  5 ++
 _control/extract_groupby_small.sql | 10 ++++
 _control/extract_join_small.sql    | 77 ++++++++++++++++++++++++++++++
 _control/timeout.csv               |  2 +
 _report/index.Rmd                  |  1 +
 _utils/download_data.sh            | 31 ++++++++++++
 _utils/repro.sh                    |  1 -
 8 files changed, 129 insertions(+), 2 deletions(-)
 create mode 100644 _control/extract_groupby_large.sql
 create mode 100644 _control/extract_groupby_small.sql
 create mode 100644 _control/extract_join_small.sql
 create mode 100644 _utils/download_data.sh

diff --git a/_control/data.csv b/_control/data.csv
index d68b271f..4a874f63 100644
--- a/_control/data.csv
+++ b/_control/data.csv
@@ -14,10 +14,12 @@ groupby,G1_1e9_1e1_0_0,1e9,1e1,0,0,1
 groupby,G1_1e9_2e0_0_0,1e9,2e0,0,0,1
 groupby,G1_1e9_1e2_0_1,1e9,1e2,0,1,1
 groupby,G1_1e9_1e2_5_0,1e9,1e2,5,0,1
+groupby,G1_1e10_1e4_10_0,1e10,1e4,10,0,1 
 join,J1_1e7_NA_0_0,1e7,NA,0,0,1
 join,J1_1e7_NA_5_0,1e7,NA,5,0,1
 join,J1_1e7_NA_0_1,1e7,NA,0,1,1
 join,J1_1e8_NA_0_0,1e8,NA,0,0,1
 join,J1_1e8_NA_5_0,1e8,NA,5,0,1
 join,J1_1e8_NA_0_1,1e8,NA,0,1,1
-join,J1_1e9_NA_0_0,1e9,NA,0,0,1
\ No newline at end of file
+join,J1_1e9_NA_0_0,1e9,NA,0,0,1
+join,J1_1e10_NA_0_0,1e10,NA,0,0,1
\ No newline at end of file
diff --git a/_control/extract_groupby_large.sql b/_control/extract_groupby_large.sql
new file mode 100644
index 00000000..9ce180d8
--- /dev/null
+++ b/_control/extract_groupby_large.sql
@@ -0,0 +1,5 @@
+COPY G1_1e9_1e2_0_0 to 'G1_1e9_1e2_0_0.csv' (FORMAT CSV, HEADER 1);
+COPY G1_1e9_1e1_0_0 to 'G1_1e9_1e1_0_0.csv' (FORMAT CSV, HEADER 1);
+COPY G1_1e9_2e0_0_0 to 'G1_1e9_2e0_0_0.csv' (FORMAT CSV, HEADER 1);
+COPY G1_1e9_1e2_0_1 to 'G1_1e9_1e2_0_1.csv' (FORMAT CSV, HEADER 1);
+COPY G1_1e9_1e2_5_0 to 'G1_1e9_1e2_5_0.csv' (FORMAT CSV, HEADER 1);
\ No newline at end of file
diff --git a/_control/extract_groupby_small.sql b/_control/extract_groupby_small.sql
new file mode 100644
index 00000000..7c76a790
--- /dev/null
+++ b/_control/extract_groupby_small.sql
@@ -0,0 +1,10 @@
+COPY G1_1e7_1e2_0_0 to 'G1_1e7_1e2_0_0.csv' (FORMAT CSV, HEADER 1);
+COPY G1_1e7_1e1_0_0 to 'G1_1e7_1e1_0_0.csv' (FORMAT CSV, HEADER 1);
+COPY G1_1e7_2e0_0_0 to 'G1_1e7_2e0_0_0.csv' (FORMAT CSV, HEADER 1);
+COPY G1_1e7_1e2_0_1 to 'G1_1e7_1e2_0_1.csv' (FORMAT CSV, HEADER 1);
+COPY G1_1e7_1e2_5_0 to 'G1_1e7_1e2_5_0.csv' (FORMAT CSV, HEADER 1);
+COPY G1_1e8_1e2_0_0 to 'G1_1e8_1e2_0_0.csv' (FORMAT CSV, HEADER 1);
+COPY G1_1e8_1e1_0_0 to 'G1_1e8_1e1_0_0.csv' (FORMAT CSV, HEADER 1);
+COPY G1_1e8_2e0_0_0 to 'G1_1e8_2e0_0_0.csv' (FORMAT CSV, HEADER 1);
+COPY G1_1e8_1e2_0_1 to 'G1_1e8_1e2_0_1.csv' (FORMAT CSV, HEADER 1);
+COPY G1_1e8_1e2_5_0 to 'G1_1e8_1e2_5_0.csv' (FORMAT CSV, HEADER 1);
diff --git a/_control/extract_join_small.sql b/_control/extract_join_small.sql
new file mode 100644
index 00000000..72323dc7
--- /dev/null
+++ b/_control/extract_join_small.sql
@@ -0,0 +1,77 @@
+COPY J1_1e7_NA_0_0 to 'J1_1e7_NA_0_0.csv' (FORMAT CSV, HEADER 1);
+COPY J1_1e7_NA_5_0 to 'J1_1e7_NA_5_0.csv' (FORMAT CSV, HEADER 1);
+COPY J1_1e7_NA_0_1 to 'J1_1e7_NA_0_1.csv' (FORMAT CSV, HEADER 1);
+COPY J1_1e8_NA_0_0 to 'J1_1e8_NA_0_0.csv' (FORMAT CSV, HEADER 1);
+COPY J1_1e8_NA_5_0 to 'J1_1e8_NA_5_0.csv' (FORMAT CSV, HEADER 1);
+COPY J1_1e8_NA_0_1 to 'J1_1e8_NA_0_1.csv' (FORMAT CSV, HEADER 1);
+COPY J1_1e9_NA_0_0 to 'J1_1e9_NA_0_0.csv' (FORMAT CSV, HEADER 1);
+
+COPY J1_1e7_1e7_0_1 to 'J1_1e7_1e7_0_1.csv' (FORMAT CSV, HEADER 1);
+COPY J1_1e8_1e5_0_1 to 'J1_1e8_1e5_0_1.csv' (FORMAT CSV, HEADER 1);
+COPY J1_1e9_1e6_0_0 to 'J1_1e9_1e6_0_0.csv' (FORMAT CSV, HEADER 1);
+
+COPY J1_1e7_1e7_5_0 to 'J1_1e7_1e7_5_0.csv' (FORMAT CSV, HEADER 1);
+COPY J1_1e8_1e5_5_0 to 'J1_1e8_1e5_5_0.csv' (FORMAT CSV, HEADER 1);
+COPY J1_1e9_1e9_0_0 to 'J1_1e9_1e9_0_0.csv' (FORMAT CSV, HEADER 1);
+
+COPY J1_1e7_1e1_0_0 to 'J1_1e7_1e1_0_0.csv' (FORMAT CSV, HEADER 1);
+COPY J1_1e7_NA_0_0 to 'J1_1e7_NA_0_0.csv' (FORMAT CSV, HEADER 1);
+COPY J1_1e8_1e8_0_0 to 'J1_1e8_1e8_0_0.csv' (FORMAT CSV, HEADER 1);
+COPY J1_1e9_NA_0_0 to 'J1_1e9_NA_0_0.csv' (FORMAT CSV, HEADER 1);
+
+COPY J1_1e7_1e1_0_1 to 'J1_1e7_1e1_0_1.csv' (FORMAT CSV, HEADER 1);
+COPY J1_1e7_NA_0_1 to 'J1_1e7_NA_0_1.csv' (FORMAT CSV, HEADER 1);
+COPY J1_1e8_1e8_0_1 to 'J1_1e8_1e8_0_1.csv' (FORMAT CSV, HEADER 1);
+
+COPY J1_1e7_1e1_5_0 to 'J1_1e7_1e1_5_0.csv' (FORMAT CSV, HEADER 1);
+COPY J1_1e7_NA_5_0 to 'J1_1e7_NA_5_0.csv' (FORMAT CSV, HEADER 1);
+COPY J1_1e8_1e8_5_0 to 'J1_1e8_1e8_5_0.csv' (FORMAT CSV, HEADER 1);
+
+
+
+
+COPY J1_1e7_1e4_0_0 TO 'J1_1e7_1e4_0_0.csv' (FORMAT CSV, HEADER 1);
+COPY J1_1e8_1e2_0_0 TO 'J1_1e8_1e2_0_0.csv' (FORMAT CSV, HEADER 1);
+COPY J1_1e8_NA_0_0 TO 'J1_1e8_NA_0_0.csv' (FORMAT CSV, HEADER 1);
+COPY J1_1e7_1e4_0_1 TO 'J1_1e7_1e4_0_1.csv' (FORMAT CSV, HEADER 1);
+COPY J1_1e8_1e2_0_1 TO 'J1_1e8_1e2_0_1.csv' (FORMAT CSV, HEADER 1);
+COPY J1_1e8_NA_0_1 TO 'J1_1e8_NA_0_1.csv' (FORMAT CSV, HEADER 1);
+COPY J1_1e7_1e4_5_0 TO 'J1_1e7_1e4_5_0.csv' (FORMAT CSV, HEADER 1);
+COPY J1_1e8_1e2_5_0 TO 'J1_1e8_1e2_5_0.csv' (FORMAT CSV, HEADER 1);
+COPY J1_1e8_NA_5_0 TO 'J1_1e8_NA_5_0.csv' (FORMAT CSV, HEADER 1);
+COPY J1_1e7_1e7_0_0 TO 'J1_1e7_1e7_0_0.csv' (FORMAT CSV, HEADER 1);
+COPY J1_1e8_1e5_0_0 TO 'J1_1e8_1e5_0_0.csv' (FORMAT CSV, HEADER 1);
+
+
+CREATE TABLE J1_1e7_1e4_0_0 as select * from 'J1_1e7_1e4_0_0.csv';
+CREATE TABLE J1_1e8_1e2_0_0 as select * from 'J1_1e8_1e2_0_0.csv';
+CREATE TABLE J1_1e8_NA_0_0 as select * from 'J1_1e8_NA_0_0.csv';
+CREATE TABLE J1_1e7_1e4_0_1 as select * from 'J1_1e7_1e4_0_1.csv';
+CREATE TABLE J1_1e8_1e2_0_1 as select * from 'J1_1e8_1e2_0_1.csv';
+CREATE TABLE J1_1e8_NA_0_1 as select * from 'J1_1e8_NA_0_1.csv';
+CREATE TABLE J1_1e7_1e4_5_0 as select * from 'J1_1e7_1e4_5_0.csv';
+CREATE TABLE J1_1e8_1e2_5_0 as select * from 'J1_1e8_1e2_5_0.csv';
+CREATE TABLE J1_1e8_NA_5_0 as select * from 'J1_1e8_NA_5_0.csv';
+CREATE TABLE J1_1e7_1e7_0_0 as select * from 'J1_1e7_1e7_0_0.csv';
+CREATE TABLE J1_1e8_1e5_0_0 as select * from 'J1_1e8_1e5_0_0.csv';
+CREATE TABLE J1_1e7_1e7_0_1 as select * from 'J1_1e7_1e7_0_1.csv';
+CREATE TABLE J1_1e8_1e5_0_1 as select * from 'J1_1e8_1e5_0_1.csv';
+CREATE TABLE J1_1e7_1e7_5_0 as select * from 'J1_1e7_1e7_5_0.csv';
+CREATE TABLE J1_1e8_1e5_5_0 as select * from 'J1_1e8_1e5_5_0.csv';
+CREATE TABLE J1_1e7_1e1_0_0 as select * from 'J1_1e7_1e1_0_0.csv';
+CREATE TABLE J1_1e7_NA_0_0 as select * from 'J1_1e7_NA_0_0.csv';
+CREATE TABLE J1_1e8_1e8_0_0 as select * from 'J1_1e8_1e8_0_0.csv';
+CREATE TABLE J1_1e7_1e1_0_1 as select * from 'J1_1e7_1e1_0_1.csv';
+CREATE TABLE J1_1e7_NA_0_1 as select * from 'J1_1e7_NA_0_1.csv';
+CREATE TABLE J1_1e8_1e8_0_1 as select * from 'J1_1e8_1e8_0_1.csv';
+CREATE TABLE J1_1e7_1e1_5_0 as select * from 'J1_1e7_1e1_5_0.csv';
+CREATE TABLE J1_1e7_NA_5_0 as select * from 'J1_1e7_NA_5_0.csv';
+CREATE TABLE J1_1e8_1e8_5_0 as select * from 'J1_1e8_1e8_5_0.csv';
+
+
+
+create table J1_1e9_1e3_0_0 as select * from 'J1_1e9_1e3_0_0.csv';
+CREATE TABLE J1_1e9_NA_0_0 as select * from 'J1_1e9_NA_0_0.csv';
+create table J1_1e9_1e6_0_0  as select * from 'J1_1e9_1e6_0_0.csv';
+create table J1_1e9_1e9_0_0  as select * from 'J1_1e9_1e9_0_0.csv';
+
diff --git a/_control/timeout.csv b/_control/timeout.csv
index 4860a032..fdbb824c 100644
--- a/_control/timeout.csv
+++ b/_control/timeout.csv
@@ -2,9 +2,11 @@ task,in_rows,minutes
 groupby,1e7,10
 groupby,1e8,30
 groupby,1e9,60
+groupby,1e10,360
 join,1e7,10
 join,1e8,30
 join,1e9,60
+join,1e10,360
 groupby2014,1e7,60
 groupby2014,1e8,120
 groupby2014,1e9,180
diff --git a/_report/index.Rmd b/_report/index.Rmd
index ac7f6f48..df61e45d 100644
--- a/_report/index.Rmd
+++ b/_report/index.Rmd
@@ -141,6 +141,7 @@ loop_benchplot(dt_join, report_name="join", syntax.dict=join.syntax.dict, except
 
 ![](./groupby/G1_1e10_1e4_10_0_advanced.png)
 
+
 ### join {.tabset .tabset-fade .tabset-pills}
 
 #### 0.5 GB
diff --git a/_utils/download_data.sh b/_utils/download_data.sh
new file mode 100644
index 00000000..f011ad9a
--- /dev/null
+++ b/_utils/download_data.sh
@@ -0,0 +1,31 @@
+
+# get small data
+wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/groupby_small.duckdb
+~/duckdb groupby_small.duckdb -c "copy G1_1e7_1e2_0_0 to 'G1_1e7_1e2_0_0.csv' (FORMAT CSV)"
+~/duckdb groupby_small.duckdb -c "copy G1_1e7_1e1_0_0 to 'G1_1e7_1e1_0_0.csv' (FORMAT CSV)"
+~/duckdb groupby_small.duckdb -c "copy G1_1e7_2e0_0_0 to 'G1_1e7_2e0_0_0.csv' (FORMAT CSV)"
+~/duckdb groupby_small.duckdb -c "copy G1_1e7_1e2_0_1 to 'G1_1e7_1e2_0_1.csv' (FORMAT CSV)"
+~/duckdb groupby_small.duckdb -c "copy G1_1e7_1e2_5_0 to 'G1_1e7_1e2_5_0.csv' (FORMAT CSV)"
+~/duckdb groupby_small.duckdb -c "copy G1_1e8_1e2_0_0 to 'G1_1e8_1e2_0_0.csv' (FORMAT CSV)"
+~/duckdb groupby_small.duckdb -c "copy G1_1e8_1e1_0_0 to 'G1_1e8_1e1_0_0.csv' (FORMAT CSV)"
+~/duckdb groupby_small.duckdb -c "copy G1_1e8_2e0_0_0 to 'G1_1e8_2e0_0_0.csv' (FORMAT CSV)"
+~/duckdb groupby_small.duckdb -c "copy G1_1e8_1e2_0_1 to 'G1_1e8_1e2_0_1.csv' (FORMAT CSV)"
+~/duckdb groupby_small.duckdb -c "copy G1_1e8_1e2_5_0 to 'G1_1e8_1e2_5_0.csv' (FORMAT CSV)"
+
+wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join_small.duckdb
+
+# get large data
+wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join_large.duckdb
+
+wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/groupby_large.duckdb
+~/duckdb -c "copy G1_1e9_1e2_0_0 to 'G1_1e9_1e2_0_0.csv' (FORMAT CSV)"
+~/duckdb -c "copy G1_1e9_1e1_0_0 to 'G1_1e9_1e1_0_0.csv' (FORMAT CSV)"
+~/duckdb -c "copy G1_1e9_2e0_0_0 to 'G1_1e9_2e0_0_0.csv' (FORMAT CSV)"
+~/duckdb -c "copy G1_1e9_1e2_0_1 to 'G1_1e9_1e2_0_1.csv' (FORMAT CSV)"
+~/duckdb -c "copy G1_1e9_1e2_5_0 to 'G1_1e9_1e2_5_0.csv' (FORMAT CSV)"
+
+# get 500GB data
+wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join-500gb.duckdb
+
+# ??? 
+wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/groupby-500gb.duckdb
\ No newline at end of file
diff --git a/_utils/repro.sh b/_utils/repro.sh
index a8df441f..aed446b0 100644
--- a/_utils/repro.sh
+++ b/_utils/repro.sh
@@ -38,7 +38,6 @@ cd ..
 
 Rscript -e 'install.packages(c("jsonlite","bit64","devtools","rmarkdown"), dependecies=TRUE, repos="https://cloud.r-project.org")'
 
-
 source ./pandas/py-pandas/bin/activate
 python3 -m pip install --upgrade psutil
 python3 -m pip install --upgrade pandas

From 69d68bcdd1ba9437fc3d095f7f083b2d46e4e108 Mon Sep 17 00:00:00 2001
From: Tmonster <tom@ebergen.com>
Date: Wed, 4 Sep 2024 16:52:25 +0200
Subject: [PATCH 03/31] added 500GB. need to modify some solutions to go on
 disk for the 500GB case

---
 _benchplot/benchplot.R | 9 ++++++++-
 _report/index.Rmd      | 2 +-
 _report/report.R       | 2 +-
 3 files changed, 10 insertions(+), 3 deletions(-)

diff --git a/_benchplot/benchplot.R b/_benchplot/benchplot.R
index 040f1d6e..7b5396da 100644
--- a/_benchplot/benchplot.R
+++ b/_benchplot/benchplot.R
@@ -1,8 +1,15 @@
 ## Based on Matt Dowle scripts from 2014
 ## https://github.com/h2oai/db-benchmark/commit/fce1b8c9177afb49471fcf483a438f619f1a992b
 ## Original grouping benchmark can be found in: https://github.com/Rdatatable/data.table/wiki/Benchmarks-:-Grouping
+suppressPackageStartupMessages(library(bit64))
 
-format_comma = function(x) format(as.integer(x), big.mark=",")
+format_comma = function(x) {
+       if (x == 1e10) {
+               "10,000,000,000"
+       } else {
+               format(as.integer64(x), big.mark=",")
+       }
+}
 format_num = function(x, digits=3L) { # at least 3+1 chars on output, there is surely some setting to achieve that better with base R but it is not obvious to find that among all features there
   cx = sprintf("%0.2f", x)
   int = sapply(strsplit(cx, ".", fixed=TRUE), `[`, 1L)
diff --git a/_report/index.Rmd b/_report/index.Rmd
index df61e45d..def85cbf 100644
--- a/_report/index.Rmd
+++ b/_report/index.Rmd
@@ -121,7 +121,7 @@ loop_benchplot(dt_join, report_name="join", syntax.dict=join.syntax.dict, except
 
 ![](./groupby/G1_1e8_1e2_0_0_advanced.png)
 
-#### 50 GB {.active}
+#### 50 GB
 
 ##### **basic questions**
 
diff --git a/_report/report.R b/_report/report.R
index fbe00e38..910ac1ca 100644
--- a/_report/report.R
+++ b/_report/report.R
@@ -13,7 +13,7 @@ get_data_levels = function() {
   in_rows = c("1e7","1e8","1e9")
   k_na_sort = c("1e2_0_0","1e1_0_0","2e0_0_0","1e2_0_1","1e2_5_0")
   groupby = paste("G1", paste(rep(in_rows, each=length(k_na_sort)), k_na_sort, sep="_"), sep="_")
-  groupby <- c(groupby, "G1_1e10_1e4_100_0")
+  groupby <- c(groupby, "G1_1e10_1e4_10_0")
   ## join
   in_rows = c("1e7","1e8","1e9")
   k_na_sort = c("NA_0_0","NA_5_0","NA_0_1")

From 96bb92905918a2640366dc03fe1f504acbd011f2 Mon Sep 17 00:00:00 2001
From: Tmonster <tom@ebergen.com>
Date: Wed, 4 Sep 2024 18:00:32 +0200
Subject: [PATCH 04/31] add back in on_disk check for some solutions

---
 clickhouse/exec.sh               | 1 +
 collapse/groupby-collapse.R      | 3 ++-
 datafusion/groupby-datafusion.py | 2 ++
 datafusion/join-datafusion.py    | 2 ++
 duckdb/groupby-duckdb.R          | 2 +-
 juliadf/groupby-juliadf.jl       | 3 +++
 juliadf/join-juliadf.jl          | 3 +++
 juliads/groupby-juliads.jl       | 3 +++
 juliads/join-juliads.jl          | 4 +++-
 polars/groupby-polars.py         | 2 ++
 polars/join-polars.py            | 2 ++
 11 files changed, 24 insertions(+), 3 deletions(-)

diff --git a/clickhouse/exec.sh b/clickhouse/exec.sh
index 2d085cc1..89b27ca2 100755
--- a/clickhouse/exec.sh
+++ b/clickhouse/exec.sh
@@ -34,6 +34,7 @@ IS_SORTED=$(clickhouse-client --query "SELECT splitByChar('_','$SRC_DATANAME')[5
 ON_DISK=0
 
 if [ $1 == 'groupby' ]; then
+  ON_DISK=$(clickhouse-client --query "SELECT (splitByChar('_','$SRC_DATANAME')[2])::Float32 >= 1e10::Float32 FORMAT TSV")
   clickhouse-client --query "DROP TABLE IF EXISTS $SRC_DATANAME"
   if [ $HAS_NULL -eq 1 ]; then
     if [ $IS_SORTED -eq 1 ]; then
diff --git a/collapse/groupby-collapse.R b/collapse/groupby-collapse.R
index 171bbdf8..9cdc09b4 100755
--- a/collapse/groupby-collapse.R
+++ b/collapse/groupby-collapse.R
@@ -13,12 +13,13 @@ task = "groupby"
 solution = "collapse"
 fun = "group_by"
 cache = TRUE
-on_disk = FALSE
 
 data_name = Sys.getenv("SRC_DATANAME")
 src_grp = file.path("data", paste(data_name, "csv", sep="."))
 cat(sprintf("loading dataset %s\n", data_name))
 
+on_disk = as.numeric(strsplit(data_name, "_", fixed=TRUE)[[1L]][2L])>=1e10
+
 x = data.table::fread(src_grp, showProgress=FALSE, stringsAsFactors=TRUE, na.strings="", data.table=FALSE)
 print(nrow(x))
 gc()
diff --git a/datafusion/groupby-datafusion.py b/datafusion/groupby-datafusion.py
index af952de7..7f7deb65 100755
--- a/datafusion/groupby-datafusion.py
+++ b/datafusion/groupby-datafusion.py
@@ -35,6 +35,8 @@ def ans_shape(batches):
 src_grp = os.path.join("data", data_name + ".csv")
 print("loading dataset %s" % data_name, flush=True)
 
+on_disk = 'TRUE' if float(SRC_DATANAME.replace("G1_", "")[:4]) >= 1e10 else 'FALSE'
+
 data = pacsv.read_csv(src_grp, convert_options=pacsv.ConvertOptions(auto_dict_encode=True))
 
 ctx = df.SessionContext()
diff --git a/datafusion/join-datafusion.py b/datafusion/join-datafusion.py
index 1d598757..62a72698 100755
--- a/datafusion/join-datafusion.py
+++ b/datafusion/join-datafusion.py
@@ -39,6 +39,8 @@ def ans_shape(batches):
   raise Exception("Something went wrong in preparing files used for join")
 
 print("loading datasets " + data_name + ", " + y_data_name[0] + ", " + y_data_name[2] + ", " + y_data_name[2], flush=True)
+on_disk = 'TRUE' if float(SRC_DATANAME.replace("J1_", "")[:4]) >= 1e10 else 'FALSE'
+
 
 ctx = df.SessionContext()
 
diff --git a/duckdb/groupby-duckdb.R b/duckdb/groupby-duckdb.R
index 13703e74..e193dd44 100755
--- a/duckdb/groupby-duckdb.R
+++ b/duckdb/groupby-duckdb.R
@@ -21,7 +21,7 @@ cat(sprintf("loading dataset %s\n", data_name))
 
 db_file = sprintf('%s-%s-%s.db', solution, task, data_name)
 
-on_disk = FALSE # as.numeric(strsplit(data_name, "_", fixed=TRUE)[[1L]][2L])>=1e9
+on_disk = as.numeric(strsplit(data_name, "_", fixed=TRUE)[[1L]][2L])>=1e10
 uses_NAs = as.numeric(strsplit(data_name, "_", fixed=TRUE)[[1L]][4L])>0
 if (on_disk) {
   print("using disk memory-mapped data storage")
diff --git a/juliadf/groupby-juliadf.jl b/juliadf/groupby-juliadf.jl
index 9ed5e7cb..b01ea022 100755
--- a/juliadf/groupby-juliadf.jl
+++ b/juliadf/groupby-juliadf.jl
@@ -17,6 +17,7 @@ solution = "juliadf";
 fun = "by";
 cache = true;
 on_disk = false;
+isondisk(indata) = parse(Float64, split(indata, "_")[2])>=10^10
 
 data_name = ENV["SRC_DATANAME"];
 src_grp = string("data/", data_name, ".csv");
@@ -31,6 +32,8 @@ x = CSV.read(src_grp,
 in_rows = size(x, 1);
 println(in_rows); flush(stdout);
 
+on_disk = isondisk(data_name)
+
 task_init = time();
 print("grouping...\n"); flush(stdout);
 
diff --git a/juliadf/join-juliadf.jl b/juliadf/join-juliadf.jl
index 74b16aaa..020aee63 100755
--- a/juliadf/join-juliadf.jl
+++ b/juliadf/join-juliadf.jl
@@ -16,6 +16,7 @@ solution = "juliadf";
 fun = "join";
 cache = true;
 on_disk = false;
+isondisk(indata) = parse(Float64, split(indata, "_")[2])>=10^10
 
 data_name = ENV["SRC_DATANAME"];
 src_jn_x = string("data/", data_name, ".csv");
@@ -25,6 +26,8 @@ if length(src_jn_y) != 3
   error("Something went wrong in preparing files used for join")
 end;
 
+on_disk = isondisk(data_name)
+
 println(string("loading datasets ", data_name, ", ", y_data_name[1], ", ", y_data_name[2], ", ", y_data_name[3])); flush(stdout);
 
 x_df = CSV.read(src_jn_x,
diff --git a/juliads/groupby-juliads.jl b/juliads/groupby-juliads.jl
index da518cc9..9d4be11b 100755
--- a/juliads/groupby-juliads.jl
+++ b/juliads/groupby-juliads.jl
@@ -20,6 +20,7 @@ solution = "juliads";
 fun = "combine";
 cache = true;
 on_disk = false;
+isondisk(indata) = parse(Float64, split(indata, "_")[2])>=10^10
 
 data_name = ENV["SRC_DATANAME"];
 src_grp = string("data/", data_name, ".csv");
@@ -28,6 +29,8 @@ println(string("loading dataset ", data_name)); flush(stdout);
 x = filereader(src_grp, types=[Characters{5}, Characters{5}, Characters{12}, Int32, Int32, Int32, Int32, Int32, Float64]);
 modify!(x, 1:3 => PooledArray)
 
+on_disk = isondisk(data_name)
+
 in_rows = size(x, 1);
 println(in_rows); flush(stdout);
 
diff --git a/juliads/join-juliads.jl b/juliads/join-juliads.jl
index 594e6049..28b725fb 100755
--- a/juliads/join-juliads.jl
+++ b/juliads/join-juliads.jl
@@ -21,7 +21,7 @@ solution = "juliads";
 fun = "join";
 cache = true;
 on_disk = false;
-isondisk(indata) = false # It seems that the new machine has enough memory - parse(Float64, split(indata, "_")[2])>=10^9
+isondisk(indata) = parse(Float64, split(indata, "_")[2])>=10^10
 
 data_name = ENV["SRC_DATANAME"];
 src_jn_x = string("data/", data_name, ".csv");
@@ -31,6 +31,8 @@ if length(src_jn_y) != 3
   error("Something went wrong in preparing files used for join")
 end;
 
+on_disk = isondisk(data_name)
+
 println(string("loading datasets ", data_name, ", ", y_data_name[1], ", ", y_data_name[2], ", ", y_data_name[3])); flush(stdout);
 
 # temporary file which will be deleted after the run - usually located at /tmp/
diff --git a/polars/groupby-polars.py b/polars/groupby-polars.py
index df3cb77a..0deac9e4 100755
--- a/polars/groupby-polars.py
+++ b/polars/groupby-polars.py
@@ -27,6 +27,8 @@
     x = (pl.read_csv(src_grp, schema_overrides={"id4":pl.Int32, "id5":pl.Int32, "id6":pl.Int32, "v1":pl.Int32, "v2":pl.Int32, "v3":pl.Float64}, low_memory=True, rechunk=True)
          .with_columns(pl.col(["id1", "id2", "id3"]).cast(pl.Categorical)))
 
+on_disk = 'TRUE' if float(SRC_DATANAME.replace("G1_", "")[:4]) >= 1e10 else 'FALSE'
+
 in_rows = x.shape[0]
 x.write_ipc(f"{mount_point}/polars/tmp.ipc")
 del x
diff --git a/polars/join-polars.py b/polars/join-polars.py
index 91e793b0..f75038d7 100755
--- a/polars/join-polars.py
+++ b/polars/join-polars.py
@@ -24,6 +24,8 @@
 if len(src_jn_y) != 3:
   raise Exception("Something went wrong in preparing files used for join")
 
+
+on_disk = 'TRUE' if float(SRC_DATANAME.replace("J1_", "")[:4]) >= 1e10 else 'FALSE'
 print("loading datasets " + data_name + ", " + y_data_name[0] + ", " + y_data_name[2] + ", " + y_data_name[2], flush=True)
 
 with pl.StringCache():

From 758be4bedd4010e7e7f60d6155dcb194eb9785ca Mon Sep 17 00:00:00 2001
From: Tmonster <tom@ebergen.com>
Date: Thu, 5 Sep 2024 12:32:24 +0200
Subject: [PATCH 05/31] add script to set up and run benchmark

---
 _control/data_groupby_xlarge.csv |   2 +
 _control/data_join_xlarge.csv    |   2 +
 _control/data_large.csv          |   7 +++
 _control/data_small.csv          |  17 +++++
 _utils/partitioned_run.sh        | 103 +++++++++++++++++++++++++++++++
 _utils/sleep_and_run.sh          |   9 ---
 6 files changed, 131 insertions(+), 9 deletions(-)
 create mode 100644 _control/data_groupby_xlarge.csv
 create mode 100644 _control/data_join_xlarge.csv
 create mode 100644 _control/data_large.csv
 create mode 100644 _control/data_small.csv
 create mode 100644 _utils/partitioned_run.sh
 delete mode 100755 _utils/sleep_and_run.sh

diff --git a/_control/data_groupby_xlarge.csv b/_control/data_groupby_xlarge.csv
new file mode 100644
index 00000000..fe08705c
--- /dev/null
+++ b/_control/data_groupby_xlarge.csv
@@ -0,0 +1,2 @@
+task,data,nrow,k,na,sort,active
+groupby,G1_1e10_1e4_10_0,1e10,1e4,10,0,1 
\ No newline at end of file
diff --git a/_control/data_join_xlarge.csv b/_control/data_join_xlarge.csv
new file mode 100644
index 00000000..86d3fc47
--- /dev/null
+++ b/_control/data_join_xlarge.csv
@@ -0,0 +1,2 @@
+task,data,nrow,k,na,sort,active
+join,J1_1e10_NA_0_0,1e10,NA,0,0,1
\ No newline at end of file
diff --git a/_control/data_large.csv b/_control/data_large.csv
new file mode 100644
index 00000000..db0ba3a2
--- /dev/null
+++ b/_control/data_large.csv
@@ -0,0 +1,7 @@
+task,data,nrow,k,na,sort,active
+groupby,G1_1e9_1e2_0_0,1e9,1e2,0,0,1
+groupby,G1_1e9_1e1_0_0,1e9,1e1,0,0,1
+groupby,G1_1e9_2e0_0_0,1e9,2e0,0,0,1
+groupby,G1_1e9_1e2_0_1,1e9,1e2,0,1,1
+groupby,G1_1e9_1e2_5_0,1e9,1e2,5,0,1
+join,J1_1e9_NA_0_0,1e9,NA,0,0,1
\ No newline at end of file
diff --git a/_control/data_small.csv b/_control/data_small.csv
new file mode 100644
index 00000000..dd0b5378
--- /dev/null
+++ b/_control/data_small.csv
@@ -0,0 +1,17 @@
+task,data,nrow,k,na,sort,active
+groupby,G1_1e7_1e2_0_0,1e7,1e2,0,0,1
+groupby,G1_1e7_1e1_0_0,1e7,1e1,0,0,1
+groupby,G1_1e7_2e0_0_0,1e7,2e0,0,0,1
+groupby,G1_1e7_1e2_0_1,1e7,1e2,0,1,1
+groupby,G1_1e7_1e2_5_0,1e7,1e2,5,0,1
+groupby,G1_1e8_1e2_0_0,1e8,1e2,0,0,1
+groupby,G1_1e8_1e1_0_0,1e8,1e1,0,0,1
+groupby,G1_1e8_2e0_0_0,1e8,2e0,0,0,1
+groupby,G1_1e8_1e2_0_1,1e8,1e2,0,1,1
+groupby,G1_1e8_1e2_5_0,1e8,1e2,5,0,1
+join,J1_1e7_NA_0_0,1e7,NA,0,0,1
+join,J1_1e7_NA_5_0,1e7,NA,5,0,1
+join,J1_1e7_NA_0_1,1e7,NA,0,1,1
+join,J1_1e8_NA_0_0,1e8,NA,0,0,1
+join,J1_1e8_NA_5_0,1e8,NA,5,0,1
+join,J1_1e8_NA_0_1,1e8,NA,0,1,1
\ No newline at end of file
diff --git a/_utils/partitioned_run.sh b/_utils/partitioned_run.sh
new file mode 100644
index 00000000..8843788a
--- /dev/null
+++ b/_utils/partitioned_run.sh
@@ -0,0 +1,103 @@
+# first download and expand small data
+
+# get groupby small (0.5GB and 5GB datasets)
+wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/groupby_small.duckdb
+# get join small (0.5GB and 5GB datasets)
+wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join_small.duckdb
+
+
+# expand groupby-small datasets to csv
+~/duckdb -c groupby_small.duckdb "copy ....."
+
+# expand join-small datasets to csv
+~/duckdb -c join_small.duckdb "copy ...."
+
+
+cp ../_control/data_small.csv ../_control/data.csv
+
+
+echo "Running all solutions on small (0.5GB and 5GB) datasets"
+./run.sh
+
+
+###
+echo "done..."
+echo "removing small data files"
+rm data/*.csv
+rm data/*.duckdb
+
+
+#--------------------------------- LARGE BENCHMARKS ---------------------------------
+
+# download and expand large data
+
+# get groupby large (0.5GB and 5GB datasets)
+wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/groupby_large.duckdb
+# get join small (0.5GB and 5GB datasets)
+https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join_large.duckdb
+
+
+# expand groupby-small datasets to csv
+~/duckdb -c groupby_large.duckdb "copy ....."
+
+# expand join-small datasets to csv
+~/duckdb -c join_large.duckdb "copy ...."
+
+
+cp ../_control/data_large.csv ../_control/data.csv
+
+
+echo "Running all solutions on large (50GB) datasets"
+./run.sh
+
+
+###
+echo "done..."
+echo "removing data files"
+rm data/*.csv
+rm data/*.duckdb
+
+#--------------------------------- X-LARGE GROUP BY BENCHMARKS ---------------------------------
+
+# get groupby large (500GB dataset)
+wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/groupby-500gb.duckdb
+
+
+# expand groupby-small datasets to csv
+~/duckdb -c groupby_large.duckdb "copy ....."
+
+
+cp ../_control/data_groupby_xlarge.csv ../_control/data.csv
+
+echo "Running groupby x-large (500GB) datasets"
+./run.sh
+
+###
+echo "done..."
+echo "removing data files"
+rm data/*.csv
+rm data/*.duckdb
+
+#--------------------------------- X-LARGE JOIN BENCHMARKS ---------------------------------
+
+
+# get join large (500GB dataset)
+wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join-500gb.duckdb
+
+
+# expand groupby-small datasets to csv
+~/duckdb -c groupby_large.duckdb "copy ....."
+
+
+cp ../_control/data_join_xlarge.csv ../_control/data.csv
+
+echo "Running join x-large (500GB)"
+./run.sh
+
+###
+echo "done..."
+echo "removing data files"
+rm data/*.csv
+rm data/*.duckdb
+
+
diff --git a/_utils/sleep_and_run.sh b/_utils/sleep_and_run.sh
deleted file mode 100755
index 9d6b2249..00000000
--- a/_utils/sleep_and_run.sh
+++ /dev/null
@@ -1,9 +0,0 @@
-while [ -f run.lock ]
-do
-   sleep 1800
-done
-
-
-rm run.lock
-
-./run.sh

From f7f2a5b50c101dd5f0f3e37e0db4b97849d1fca2 Mon Sep 17 00:00:00 2001
From: Tmonster <tom@ebergen.com>
Date: Thu, 5 Sep 2024 12:40:09 +0200
Subject: [PATCH 06/31] make it easier to choose what gets run

---
 _run/run_groupby_xl.sh    |  18 +++++++
 _run/run_join_xl.sh       |  20 +++++++
 _run/run_large.sh         |  27 ++++++++++
 _run/run_small_medium.sh  |  28 ++++++++++
 _utils/partitioned_run.sh | 107 ++------------------------------------
 5 files changed, 97 insertions(+), 103 deletions(-)
 create mode 100644 _run/run_groupby_xl.sh
 create mode 100644 _run/run_join_xl.sh
 create mode 100644 _run/run_large.sh
 create mode 100644 _run/run_small_medium.sh

diff --git a/_run/run_groupby_xl.sh b/_run/run_groupby_xl.sh
new file mode 100644
index 00000000..f0ed936a
--- /dev/null
+++ b/_run/run_groupby_xl.sh
@@ -0,0 +1,18 @@
+# get groupby large (500GB dataset)
+wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/groupby-500gb.duckdb
+
+
+# expand groupby-small datasets to csv
+~/duckdb -c groupby_large.duckdb "copy ....."
+
+
+cp ../_control/data_groupby_xlarge.csv ../_control/data.csv
+
+echo "Running groupby x-large (500GB) datasets"
+./run.sh
+
+###
+echo "done..."
+echo "removing data files"
+rm data/*.csv
+rm data/*.duckdb
\ No newline at end of file
diff --git a/_run/run_join_xl.sh b/_run/run_join_xl.sh
new file mode 100644
index 00000000..f65ea488
--- /dev/null
+++ b/_run/run_join_xl.sh
@@ -0,0 +1,20 @@
+# get join large (500GB dataset)
+wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join-500gb.duckdb
+
+
+# expand groupby-small datasets to csv
+~/duckdb -c groupby_large.duckdb "copy ....."
+
+
+cp ../_control/data_join_xlarge.csv ../_control/data.csv
+
+echo "Running join x-large (500GB)"
+./run.sh
+
+###
+echo "done..."
+echo "removing data files"
+rm data/*.csv
+rm data/*.duckdb
+
+
diff --git a/_run/run_large.sh b/_run/run_large.sh
new file mode 100644
index 00000000..9b905d46
--- /dev/null
+++ b/_run/run_large.sh
@@ -0,0 +1,27 @@
+# download and expand large data
+
+# get groupby large (0.5GB and 5GB datasets)
+wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/groupby_large.duckdb
+# get join small (0.5GB and 5GB datasets)
+https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join_large.duckdb
+
+
+# expand groupby-small datasets to csv
+~/duckdb -c groupby_large.duckdb "copy ....."
+
+# expand join-small datasets to csv
+~/duckdb -c join_large.duckdb "copy ...."
+
+
+cp ../_control/data_large.csv ../_control/data.csv
+
+
+echo "Running all solutions on large (50GB) datasets"
+./run.sh
+
+
+###
+echo "done..."
+echo "removing data files"
+rm data/*.csv
+rm data/*.duckdb
\ No newline at end of file
diff --git a/_run/run_small_medium.sh b/_run/run_small_medium.sh
new file mode 100644
index 00000000..05d7dfbd
--- /dev/null
+++ b/_run/run_small_medium.sh
@@ -0,0 +1,28 @@
+# first download and expand small data
+
+# get groupby small (0.5GB and 5GB datasets)
+wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/groupby_small.duckdb
+# get join small (0.5GB and 5GB datasets)
+wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join_small.duckdb
+
+
+# expand groupby-small datasets to csv
+~/duckdb -c groupby_small.duckdb "copy ....."
+
+# expand join-small datasets to csv
+~/duckdb -c join_small.duckdb "copy ...."
+
+
+cp ../_control/data_small.csv ../_control/data.csv
+
+
+echo "Running all solutions on small (0.5GB and 5GB) datasets"
+./run.sh
+
+
+###
+echo "done..."
+echo "removing small data files"
+rm data/*.csv
+rm data/*.duckdb
+
diff --git a/_utils/partitioned_run.sh b/_utils/partitioned_run.sh
index 8843788a..9fbb1299 100644
--- a/_utils/partitioned_run.sh
+++ b/_utils/partitioned_run.sh
@@ -1,103 +1,4 @@
-# first download and expand small data
-
-# get groupby small (0.5GB and 5GB datasets)
-wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/groupby_small.duckdb
-# get join small (0.5GB and 5GB datasets)
-wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join_small.duckdb
-
-
-# expand groupby-small datasets to csv
-~/duckdb -c groupby_small.duckdb "copy ....."
-
-# expand join-small datasets to csv
-~/duckdb -c join_small.duckdb "copy ...."
-
-
-cp ../_control/data_small.csv ../_control/data.csv
-
-
-echo "Running all solutions on small (0.5GB and 5GB) datasets"
-./run.sh
-
-
-###
-echo "done..."
-echo "removing small data files"
-rm data/*.csv
-rm data/*.duckdb
-
-
-#--------------------------------- LARGE BENCHMARKS ---------------------------------
-
-# download and expand large data
-
-# get groupby large (0.5GB and 5GB datasets)
-wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/groupby_large.duckdb
-# get join small (0.5GB and 5GB datasets)
-https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join_large.duckdb
-
-
-# expand groupby-small datasets to csv
-~/duckdb -c groupby_large.duckdb "copy ....."
-
-# expand join-small datasets to csv
-~/duckdb -c join_large.duckdb "copy ...."
-
-
-cp ../_control/data_large.csv ../_control/data.csv
-
-
-echo "Running all solutions on large (50GB) datasets"
-./run.sh
-
-
-###
-echo "done..."
-echo "removing data files"
-rm data/*.csv
-rm data/*.duckdb
-
-#--------------------------------- X-LARGE GROUP BY BENCHMARKS ---------------------------------
-
-# get groupby large (500GB dataset)
-wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/groupby-500gb.duckdb
-
-
-# expand groupby-small datasets to csv
-~/duckdb -c groupby_large.duckdb "copy ....."
-
-
-cp ../_control/data_groupby_xlarge.csv ../_control/data.csv
-
-echo "Running groupby x-large (500GB) datasets"
-./run.sh
-
-###
-echo "done..."
-echo "removing data files"
-rm data/*.csv
-rm data/*.duckdb
-
-#--------------------------------- X-LARGE JOIN BENCHMARKS ---------------------------------
-
-
-# get join large (500GB dataset)
-wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join-500gb.duckdb
-
-
-# expand groupby-small datasets to csv
-~/duckdb -c groupby_large.duckdb "copy ....."
-
-
-cp ../_control/data_join_xlarge.csv ../_control/data.csv
-
-echo "Running join x-large (500GB)"
-./run.sh
-
-###
-echo "done..."
-echo "removing data files"
-rm data/*.csv
-rm data/*.duckdb
-
-
+./_run/run_small_medium.sh
+./_run/run_large.sh
+./_run/run_groupby_xl.sh
+./_run/run_join_xl.sh
\ No newline at end of file

From 10a90c96687ad3c705c29d05aef4733829ba12f0 Mon Sep 17 00:00:00 2001
From: Tmonster <tom@ebergen.com>
Date: Thu, 5 Sep 2024 13:07:37 +0200
Subject: [PATCH 07/31] fixed some scripts

---
 _run/run_groupby_xl.sh   |  2 +-
 _run/run_join_xl.sh      |  5 ++++-
 _run/run_large.sh        | 13 ++++++++++---
 _run/run_small_medium.sh | 36 ++++++++++++++++++++++++++++++++++--
 4 files changed, 49 insertions(+), 7 deletions(-)

diff --git a/_run/run_groupby_xl.sh b/_run/run_groupby_xl.sh
index f0ed936a..1a37cde9 100644
--- a/_run/run_groupby_xl.sh
+++ b/_run/run_groupby_xl.sh
@@ -3,7 +3,7 @@ wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/groupby-500gb.
 
 
 # expand groupby-small datasets to csv
-~/duckdb -c groupby_large.duckdb "copy ....."
+~/duckdb -c groupby-500gb.duckdb "copy G1_1e10_1e4_10_0 to 'G1_1e10_1e4_10_0.csv' (FORMAT CSV)"
 
 
 cp ../_control/data_groupby_xlarge.csv ../_control/data.csv
diff --git a/_run/run_join_xl.sh b/_run/run_join_xl.sh
index f65ea488..701faa79 100644
--- a/_run/run_join_xl.sh
+++ b/_run/run_join_xl.sh
@@ -3,7 +3,10 @@ wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join-500gb.duc
 
 
 # expand groupby-small datasets to csv
-~/duckdb -c groupby_large.duckdb "copy ....."
+~/duckdb -c join-500gb.duckdb "copy x to 'J1_NA_0_0.csv' (FORMAT CSV)"
+~/duckdb -c join-500gb.duckdb "copy big to 'J1_1e10_0_0.csv' (FORMAT CSV)"
+~/duckdb -c join-500gb.duckdb "copy medim to 'J1_1e7_0_0.csv' (FORMAT CSV)"
+~/duckdb -c join-500gb.duckdb "copy small to 'J1_1e4_0_0.csv' (FORMAT CSV)"
 
 
 cp ../_control/data_join_xlarge.csv ../_control/data.csv
diff --git a/_run/run_large.sh b/_run/run_large.sh
index 9b905d46..0302ddd7 100644
--- a/_run/run_large.sh
+++ b/_run/run_large.sh
@@ -3,14 +3,21 @@
 # get groupby large (0.5GB and 5GB datasets)
 wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/groupby_large.duckdb
 # get join small (0.5GB and 5GB datasets)
-https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join_large.duckdb
+wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join_large.duckdb
 
 
 # expand groupby-small datasets to csv
-~/duckdb -c groupby_large.duckdb "copy ....."
+~/duckdb -c groupby_large.duckdb "copy G1_1e9_1e2_0_0 to 'G1_1e9_1e2_0_0.csv' (FORMAT CSV)"
+~/duckdb -c groupby_large.duckdb "copy G1_1e9_1e1_0_0 to 'G1_1e9_1e1_0_0.csv' (FORMAT CSV)"
+~/duckdb -c groupby_large.duckdb "copy G1_1e9_2e0_0_0 to 'G1_1e9_2e0_0_0.csv' (FORMAT CSV)"
+~/duckdb -c groupby_large.duckdb "copy G1_1e9_1e2_0_1 to 'G1_1e9_1e2_0_1.csv' (FORMAT CSV)"
+~/duckdb -c groupby_large.duckdb "copy G1_1e9_1e2_5_0 to 'G1_1e9_1e2_5_0.csv' (FORMAT CSV)"
 
 # expand join-small datasets to csv
-~/duckdb -c join_large.duckdb "copy ...."
+~/duckdb -c join_large.duckdb "copy x to 'J1_NA_0_0.csv' (FORMAT CSV)"
+~/duckdb -c join_large.duckdb "copy big to 'J1_1e9_0_0.csv' (FORMAT CSV)"
+~/duckdb -c join_large.duckdb "copy medim to 'J1_1e6_0_0.csv' (FORMAT CSV)"
+~/duckdb -c join_large.duckdb "copy small to 'J1_1e3_0_0.csv' (FORMAT CSV)"
 
 
 cp ../_control/data_large.csv ../_control/data.csv
diff --git a/_run/run_small_medium.sh b/_run/run_small_medium.sh
index 05d7dfbd..ee92ce99 100644
--- a/_run/run_small_medium.sh
+++ b/_run/run_small_medium.sh
@@ -7,10 +7,42 @@ wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join_small.duc
 
 
 # expand groupby-small datasets to csv
-~/duckdb -c groupby_small.duckdb "copy ....."
+~/duckdb -c groupby_small.duckdb "copy G1_1e7_1e2_0_0 to 'G1_1e7_1e2_0_0.csv' (FORMAT CSV)"
+~/duckdb -c groupby_small.duckdb "copy G1_1e7_1e1_0_0 to 'G1_1e7_1e1_0_0.csv' (FORMAT CSV)"
+~/duckdb -c groupby_small.duckdb "copy G1_1e7_2e0_0_0 to 'G1_1e7_2e0_0_0.csv' (FORMAT CSV)"
+~/duckdb -c groupby_small.duckdb "copy G1_1e7_1e2_0_1 to 'G1_1e7_1e2_0_1.csv' (FORMAT CSV)"
+~/duckdb -c groupby_small.duckdb "copy G1_1e7_1e2_5_0 to 'G1_1e7_1e2_5_0.csv' (FORMAT CSV)"
+~/duckdb -c groupby_small.duckdb "copy G1_1e8_1e2_0_0 to 'G1_1e8_1e2_0_0.csv' (FORMAT CSV)"
+~/duckdb -c groupby_small.duckdb "copy G1_1e8_1e1_0_0 to 'G1_1e8_1e1_0_0.csv' (FORMAT CSV)"
+~/duckdb -c groupby_small.duckdb "copy G1_1e8_2e0_0_0 to 'G1_1e8_2e0_0_0.csv' (FORMAT CSV)"
+~/duckdb -c groupby_small.duckdb "copy G1_1e8_1e2_0_1 to 'G1_1e8_1e2_0_1.csv' (FORMAT CSV)"
+~/duckdb -c groupby_small.duckdb "copy G1_1e8_1e2_5_0 to 'G1_1e8_1e2_5_0.csv' (FORMAT CSV)"
 
 # expand join-small datasets to csv
-~/duckdb -c join_small.duckdb "copy ...."
+~/duckdb -c join_small.duckdb "copy J1_1e7_1e1_0_0 to 'J1_1e7_1e1_0_0.csv' (FORMAT CSV)"
+~/duckdb -c join_small.duckdb "copy J1_1e7_1e4_5_0 to 'J1_1e7_1e4_5_0.csv' (FORMAT CSV)"
+~/duckdb -c join_small.duckdb "copy J1_1e7_NA_0_1 to 'J1_1e7_NA_0_1.csv' (FORMAT CSV)"
+~/duckdb -c join_small.duckdb "copy J1_1e8_1e5_0_0 to 'J1_1e8_1e5_0_0.csv' (FORMAT CSV)"
+~/duckdb -c join_small.duckdb "copy J1_1e8_1e8_5_0 to 'J1_1e8_1e8_5_0.csv' (FORMAT CSV)"
+~/duckdb -c join_small.duckdb "copy J1_1e7_1e1_0_1 to 'J1_1e7_1e1_0_1.csv' (FORMAT CSV)"
+~/duckdb -c join_small.duckdb "copy J1_1e7_1e7_0_0 to 'J1_1e7_1e7_0_0.csv' (FORMAT CSV)"
+~/duckdb -c join_small.duckdb "copy J1_1e7_NA_5_0 to 'J1_1e7_NA_5_0.csv' (FORMAT CSV)"
+~/duckdb -c join_small.duckdb "copy J1_1e8_1e5_0_1 to 'J1_1e8_1e5_0_1.csv' (FORMAT CSV)"
+~/duckdb -c join_small.duckdb "copy J1_1e8_NA_0_0 to 'J1_1e8_NA_0_0.csv' (FORMAT CSV)"
+~/duckdb -c join_small.duckdb "copy J1_1e7_1e1_5_0 to 'J1_1e7_1e1_5_0.csv' (FORMAT CSV)"
+~/duckdb -c join_small.duckdb "copy J1_1e7_1e7_0_1 to 'J1_1e7_1e7_0_1.csv' (FORMAT CSV)"
+~/duckdb -c join_small.duckdb "copy J1_1e8_1e2_0_0 to 'J1_1e8_1e2_0_0.csv' (FORMAT CSV)"
+~/duckdb -c join_small.duckdb "copy J1_1e8_1e5_5_0 to 'J1_1e8_1e5_5_0.csv' (FORMAT CSV)"
+~/duckdb -c join_small.duckdb "copy J1_1e8_NA_0_1 to 'J1_1e8_NA_0_1.csv' (FORMAT CSV)"
+~/duckdb -c join_small.duckdb "copy J1_1e7_1e4_0_0 to 'J1_1e7_1e4_0_0.csv' (FORMAT CSV)"
+~/duckdb -c join_small.duckdb "copy J1_1e7_1e7_5_0 to 'J1_1e7_1e7_5_0.csv' (FORMAT CSV)"
+~/duckdb -c join_small.duckdb "copy J1_1e8_1e2_0_1 to 'J1_1e8_1e2_0_1.csv' (FORMAT CSV)"
+~/duckdb -c join_small.duckdb "copy J1_1e8_1e8_0_0 to 'J1_1e8_1e8_0_0.csv' (FORMAT CSV)"
+~/duckdb -c join_small.duckdb "copy J1_1e8_NA_5_0 to 'J1_1e8_NA_5_0.csv' (FORMAT CSV)"
+~/duckdb -c join_small.duckdb "copy J1_1e7_1e4_0_1 to 'J1_1e7_1e4_0_1.csv' (FORMAT CSV)"
+~/duckdb -c join_small.duckdb "copy J1_1e7_NA_0_0 to 'J1_1e7_NA_0_0.csv' (FORMAT CSV)"
+~/duckdb -c join_small.duckdb "copy J1_1e8_1e2_5_0 to 'J1_1e8_1e2_5_0.csv' (FORMAT CSV)"
+~/duckdb -c join_small.duckdb "copy J1_1e8_1e8_0_1 to 'J1_1e8_1e8_0_1.csv' (FORMAT CSV)"
 
 
 cp ../_control/data_small.csv ../_control/data.csv

From 28754dbfacbef330526d32982739a62003772315 Mon Sep 17 00:00:00 2001
From: Tmonster <tom@ebergen.com>
Date: Thu, 5 Sep 2024 13:18:38 +0200
Subject: [PATCH 08/31] change ~duckdb to duckdb

---
 _run/run_groupby_xl.sh   |  7 +++--
 _run/run_join_xl.sh      |  8 ++---
 _run/run_large.sh        | 18 +++++------
 _run/run_small_medium.sh | 68 ++++++++++++++++++++--------------------
 4 files changed, 52 insertions(+), 49 deletions(-)

diff --git a/_run/run_groupby_xl.sh b/_run/run_groupby_xl.sh
index 1a37cde9..671fc4c1 100644
--- a/_run/run_groupby_xl.sh
+++ b/_run/run_groupby_xl.sh
@@ -3,7 +3,7 @@ wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/groupby-500gb.
 
 
 # expand groupby-small datasets to csv
-~/duckdb -c groupby-500gb.duckdb "copy G1_1e10_1e4_10_0 to 'G1_1e10_1e4_10_0.csv' (FORMAT CSV)"
+duckdb -c groupby-500gb.duckdb "copy G1_1e10_1e4_10_0 to 'G1_1e10_1e4_10_0.csv' (FORMAT CSV)"
 
 
 cp ../_control/data_groupby_xlarge.csv ../_control/data.csv
@@ -15,4 +15,7 @@ echo "Running groupby x-large (500GB) datasets"
 echo "done..."
 echo "removing data files"
 rm data/*.csv
-rm data/*.duckdb
\ No newline at end of file
+rm data/*.duckdb
+
+
+/bin:/usr/bin
\ No newline at end of file
diff --git a/_run/run_join_xl.sh b/_run/run_join_xl.sh
index 701faa79..6b7a2d99 100644
--- a/_run/run_join_xl.sh
+++ b/_run/run_join_xl.sh
@@ -3,10 +3,10 @@ wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join-500gb.duc
 
 
 # expand groupby-small datasets to csv
-~/duckdb -c join-500gb.duckdb "copy x to 'J1_NA_0_0.csv' (FORMAT CSV)"
-~/duckdb -c join-500gb.duckdb "copy big to 'J1_1e10_0_0.csv' (FORMAT CSV)"
-~/duckdb -c join-500gb.duckdb "copy medim to 'J1_1e7_0_0.csv' (FORMAT CSV)"
-~/duckdb -c join-500gb.duckdb "copy small to 'J1_1e4_0_0.csv' (FORMAT CSV)"
+duckdb -c join-500gb.duckdb "copy x to 'J1_NA_0_0.csv' (FORMAT CSV)"
+duckdb -c join-500gb.duckdb "copy big to 'J1_1e10_0_0.csv' (FORMAT CSV)"
+duckdb -c join-500gb.duckdb "copy medim to 'J1_1e7_0_0.csv' (FORMAT CSV)"
+duckdb -c join-500gb.duckdb "copy small to 'J1_1e4_0_0.csv' (FORMAT CSV)"
 
 
 cp ../_control/data_join_xlarge.csv ../_control/data.csv
diff --git a/_run/run_large.sh b/_run/run_large.sh
index 0302ddd7..0ea46581 100644
--- a/_run/run_large.sh
+++ b/_run/run_large.sh
@@ -7,17 +7,17 @@ wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join_large.duc
 
 
 # expand groupby-small datasets to csv
-~/duckdb -c groupby_large.duckdb "copy G1_1e9_1e2_0_0 to 'G1_1e9_1e2_0_0.csv' (FORMAT CSV)"
-~/duckdb -c groupby_large.duckdb "copy G1_1e9_1e1_0_0 to 'G1_1e9_1e1_0_0.csv' (FORMAT CSV)"
-~/duckdb -c groupby_large.duckdb "copy G1_1e9_2e0_0_0 to 'G1_1e9_2e0_0_0.csv' (FORMAT CSV)"
-~/duckdb -c groupby_large.duckdb "copy G1_1e9_1e2_0_1 to 'G1_1e9_1e2_0_1.csv' (FORMAT CSV)"
-~/duckdb -c groupby_large.duckdb "copy G1_1e9_1e2_5_0 to 'G1_1e9_1e2_5_0.csv' (FORMAT CSV)"
+duckdb -c groupby_large.duckdb "copy G1_1e9_1e2_0_0 to 'G1_1e9_1e2_0_0.csv' (FORMAT CSV)"
+duckdb -c groupby_large.duckdb "copy G1_1e9_1e1_0_0 to 'G1_1e9_1e1_0_0.csv' (FORMAT CSV)"
+duckdb -c groupby_large.duckdb "copy G1_1e9_2e0_0_0 to 'G1_1e9_2e0_0_0.csv' (FORMAT CSV)"
+duckdb -c groupby_large.duckdb "copy G1_1e9_1e2_0_1 to 'G1_1e9_1e2_0_1.csv' (FORMAT CSV)"
+duckdb -c groupby_large.duckdb "copy G1_1e9_1e2_5_0 to 'G1_1e9_1e2_5_0.csv' (FORMAT CSV)"
 
 # expand join-small datasets to csv
-~/duckdb -c join_large.duckdb "copy x to 'J1_NA_0_0.csv' (FORMAT CSV)"
-~/duckdb -c join_large.duckdb "copy big to 'J1_1e9_0_0.csv' (FORMAT CSV)"
-~/duckdb -c join_large.duckdb "copy medim to 'J1_1e6_0_0.csv' (FORMAT CSV)"
-~/duckdb -c join_large.duckdb "copy small to 'J1_1e3_0_0.csv' (FORMAT CSV)"
+duckdb -c join_large.duckdb "copy x to 'J1_NA_0_0.csv' (FORMAT CSV)"
+duckdb -c join_large.duckdb "copy big to 'J1_1e9_0_0.csv' (FORMAT CSV)"
+duckdb -c join_large.duckdb "copy medim to 'J1_1e6_0_0.csv' (FORMAT CSV)"
+duckdb -c join_large.duckdb "copy small to 'J1_1e3_0_0.csv' (FORMAT CSV)"
 
 
 cp ../_control/data_large.csv ../_control/data.csv
diff --git a/_run/run_small_medium.sh b/_run/run_small_medium.sh
index ee92ce99..8e62aa71 100644
--- a/_run/run_small_medium.sh
+++ b/_run/run_small_medium.sh
@@ -7,42 +7,42 @@ wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join_small.duc
 
 
 # expand groupby-small datasets to csv
-~/duckdb -c groupby_small.duckdb "copy G1_1e7_1e2_0_0 to 'G1_1e7_1e2_0_0.csv' (FORMAT CSV)"
-~/duckdb -c groupby_small.duckdb "copy G1_1e7_1e1_0_0 to 'G1_1e7_1e1_0_0.csv' (FORMAT CSV)"
-~/duckdb -c groupby_small.duckdb "copy G1_1e7_2e0_0_0 to 'G1_1e7_2e0_0_0.csv' (FORMAT CSV)"
-~/duckdb -c groupby_small.duckdb "copy G1_1e7_1e2_0_1 to 'G1_1e7_1e2_0_1.csv' (FORMAT CSV)"
-~/duckdb -c groupby_small.duckdb "copy G1_1e7_1e2_5_0 to 'G1_1e7_1e2_5_0.csv' (FORMAT CSV)"
-~/duckdb -c groupby_small.duckdb "copy G1_1e8_1e2_0_0 to 'G1_1e8_1e2_0_0.csv' (FORMAT CSV)"
-~/duckdb -c groupby_small.duckdb "copy G1_1e8_1e1_0_0 to 'G1_1e8_1e1_0_0.csv' (FORMAT CSV)"
-~/duckdb -c groupby_small.duckdb "copy G1_1e8_2e0_0_0 to 'G1_1e8_2e0_0_0.csv' (FORMAT CSV)"
-~/duckdb -c groupby_small.duckdb "copy G1_1e8_1e2_0_1 to 'G1_1e8_1e2_0_1.csv' (FORMAT CSV)"
-~/duckdb -c groupby_small.duckdb "copy G1_1e8_1e2_5_0 to 'G1_1e8_1e2_5_0.csv' (FORMAT CSV)"
+duckdb -c groupby_small.duckdb "copy G1_1e7_1e2_0_0 to 'G1_1e7_1e2_0_0.csv' (FORMAT CSV)"
+duckdb -c groupby_small.duckdb "copy G1_1e7_1e1_0_0 to 'G1_1e7_1e1_0_0.csv' (FORMAT CSV)"
+duckdb -c groupby_small.duckdb "copy G1_1e7_2e0_0_0 to 'G1_1e7_2e0_0_0.csv' (FORMAT CSV)"
+duckdb -c groupby_small.duckdb "copy G1_1e7_1e2_0_1 to 'G1_1e7_1e2_0_1.csv' (FORMAT CSV)"
+duckdb -c groupby_small.duckdb "copy G1_1e7_1e2_5_0 to 'G1_1e7_1e2_5_0.csv' (FORMAT CSV)"
+duckdb -c groupby_small.duckdb "copy G1_1e8_1e2_0_0 to 'G1_1e8_1e2_0_0.csv' (FORMAT CSV)"
+duckdb -c groupby_small.duckdb "copy G1_1e8_1e1_0_0 to 'G1_1e8_1e1_0_0.csv' (FORMAT CSV)"
+duckdb -c groupby_small.duckdb "copy G1_1e8_2e0_0_0 to 'G1_1e8_2e0_0_0.csv' (FORMAT CSV)"
+duckdb -c groupby_small.duckdb "copy G1_1e8_1e2_0_1 to 'G1_1e8_1e2_0_1.csv' (FORMAT CSV)"
+duckdb -c groupby_small.duckdb "copy G1_1e8_1e2_5_0 to 'G1_1e8_1e2_5_0.csv' (FORMAT CSV)"
 
 # expand join-small datasets to csv
-~/duckdb -c join_small.duckdb "copy J1_1e7_1e1_0_0 to 'J1_1e7_1e1_0_0.csv' (FORMAT CSV)"
-~/duckdb -c join_small.duckdb "copy J1_1e7_1e4_5_0 to 'J1_1e7_1e4_5_0.csv' (FORMAT CSV)"
-~/duckdb -c join_small.duckdb "copy J1_1e7_NA_0_1 to 'J1_1e7_NA_0_1.csv' (FORMAT CSV)"
-~/duckdb -c join_small.duckdb "copy J1_1e8_1e5_0_0 to 'J1_1e8_1e5_0_0.csv' (FORMAT CSV)"
-~/duckdb -c join_small.duckdb "copy J1_1e8_1e8_5_0 to 'J1_1e8_1e8_5_0.csv' (FORMAT CSV)"
-~/duckdb -c join_small.duckdb "copy J1_1e7_1e1_0_1 to 'J1_1e7_1e1_0_1.csv' (FORMAT CSV)"
-~/duckdb -c join_small.duckdb "copy J1_1e7_1e7_0_0 to 'J1_1e7_1e7_0_0.csv' (FORMAT CSV)"
-~/duckdb -c join_small.duckdb "copy J1_1e7_NA_5_0 to 'J1_1e7_NA_5_0.csv' (FORMAT CSV)"
-~/duckdb -c join_small.duckdb "copy J1_1e8_1e5_0_1 to 'J1_1e8_1e5_0_1.csv' (FORMAT CSV)"
-~/duckdb -c join_small.duckdb "copy J1_1e8_NA_0_0 to 'J1_1e8_NA_0_0.csv' (FORMAT CSV)"
-~/duckdb -c join_small.duckdb "copy J1_1e7_1e1_5_0 to 'J1_1e7_1e1_5_0.csv' (FORMAT CSV)"
-~/duckdb -c join_small.duckdb "copy J1_1e7_1e7_0_1 to 'J1_1e7_1e7_0_1.csv' (FORMAT CSV)"
-~/duckdb -c join_small.duckdb "copy J1_1e8_1e2_0_0 to 'J1_1e8_1e2_0_0.csv' (FORMAT CSV)"
-~/duckdb -c join_small.duckdb "copy J1_1e8_1e5_5_0 to 'J1_1e8_1e5_5_0.csv' (FORMAT CSV)"
-~/duckdb -c join_small.duckdb "copy J1_1e8_NA_0_1 to 'J1_1e8_NA_0_1.csv' (FORMAT CSV)"
-~/duckdb -c join_small.duckdb "copy J1_1e7_1e4_0_0 to 'J1_1e7_1e4_0_0.csv' (FORMAT CSV)"
-~/duckdb -c join_small.duckdb "copy J1_1e7_1e7_5_0 to 'J1_1e7_1e7_5_0.csv' (FORMAT CSV)"
-~/duckdb -c join_small.duckdb "copy J1_1e8_1e2_0_1 to 'J1_1e8_1e2_0_1.csv' (FORMAT CSV)"
-~/duckdb -c join_small.duckdb "copy J1_1e8_1e8_0_0 to 'J1_1e8_1e8_0_0.csv' (FORMAT CSV)"
-~/duckdb -c join_small.duckdb "copy J1_1e8_NA_5_0 to 'J1_1e8_NA_5_0.csv' (FORMAT CSV)"
-~/duckdb -c join_small.duckdb "copy J1_1e7_1e4_0_1 to 'J1_1e7_1e4_0_1.csv' (FORMAT CSV)"
-~/duckdb -c join_small.duckdb "copy J1_1e7_NA_0_0 to 'J1_1e7_NA_0_0.csv' (FORMAT CSV)"
-~/duckdb -c join_small.duckdb "copy J1_1e8_1e2_5_0 to 'J1_1e8_1e2_5_0.csv' (FORMAT CSV)"
-~/duckdb -c join_small.duckdb "copy J1_1e8_1e8_0_1 to 'J1_1e8_1e8_0_1.csv' (FORMAT CSV)"
+duckdb -c join_small.duckdb "copy J1_1e7_1e1_0_0 to 'J1_1e7_1e1_0_0.csv' (FORMAT CSV)"
+duckdb -c join_small.duckdb "copy J1_1e7_1e4_5_0 to 'J1_1e7_1e4_5_0.csv' (FORMAT CSV)"
+duckdb -c join_small.duckdb "copy J1_1e7_NA_0_1 to 'J1_1e7_NA_0_1.csv' (FORMAT CSV)"
+duckdb -c join_small.duckdb "copy J1_1e8_1e5_0_0 to 'J1_1e8_1e5_0_0.csv' (FORMAT CSV)"
+duckdb -c join_small.duckdb "copy J1_1e8_1e8_5_0 to 'J1_1e8_1e8_5_0.csv' (FORMAT CSV)"
+duckdb -c join_small.duckdb "copy J1_1e7_1e1_0_1 to 'J1_1e7_1e1_0_1.csv' (FORMAT CSV)"
+duckdb -c join_small.duckdb "copy J1_1e7_1e7_0_0 to 'J1_1e7_1e7_0_0.csv' (FORMAT CSV)"
+duckdb -c join_small.duckdb "copy J1_1e7_NA_5_0 to 'J1_1e7_NA_5_0.csv' (FORMAT CSV)"
+duckdb -c join_small.duckdb "copy J1_1e8_1e5_0_1 to 'J1_1e8_1e5_0_1.csv' (FORMAT CSV)"
+duckdb -c join_small.duckdb "copy J1_1e8_NA_0_0 to 'J1_1e8_NA_0_0.csv' (FORMAT CSV)"
+duckdb -c join_small.duckdb "copy J1_1e7_1e1_5_0 to 'J1_1e7_1e1_5_0.csv' (FORMAT CSV)"
+duckdb -c join_small.duckdb "copy J1_1e7_1e7_0_1 to 'J1_1e7_1e7_0_1.csv' (FORMAT CSV)"
+duckdb -c join_small.duckdb "copy J1_1e8_1e2_0_0 to 'J1_1e8_1e2_0_0.csv' (FORMAT CSV)"
+duckdb -c join_small.duckdb "copy J1_1e8_1e5_5_0 to 'J1_1e8_1e5_5_0.csv' (FORMAT CSV)"
+duckdb -c join_small.duckdb "copy J1_1e8_NA_0_1 to 'J1_1e8_NA_0_1.csv' (FORMAT CSV)"
+duckdb -c join_small.duckdb "copy J1_1e7_1e4_0_0 to 'J1_1e7_1e4_0_0.csv' (FORMAT CSV)"
+duckdb -c join_small.duckdb "copy J1_1e7_1e7_5_0 to 'J1_1e7_1e7_5_0.csv' (FORMAT CSV)"
+duckdb -c join_small.duckdb "copy J1_1e8_1e2_0_1 to 'J1_1e8_1e2_0_1.csv' (FORMAT CSV)"
+duckdb -c join_small.duckdb "copy J1_1e8_1e8_0_0 to 'J1_1e8_1e8_0_0.csv' (FORMAT CSV)"
+duckdb -c join_small.duckdb "copy J1_1e8_NA_5_0 to 'J1_1e8_NA_5_0.csv' (FORMAT CSV)"
+duckdb -c join_small.duckdb "copy J1_1e7_1e4_0_1 to 'J1_1e7_1e4_0_1.csv' (FORMAT CSV)"
+duckdb -c join_small.duckdb "copy J1_1e7_NA_0_0 to 'J1_1e7_NA_0_0.csv' (FORMAT CSV)"
+duckdb -c join_small.duckdb "copy J1_1e8_1e2_5_0 to 'J1_1e8_1e2_5_0.csv' (FORMAT CSV)"
+duckdb -c join_small.duckdb "copy J1_1e8_1e8_0_1 to 'J1_1e8_1e8_0_1.csv' (FORMAT CSV)"
 
 
 cp ../_control/data_small.csv ../_control/data.csv

From aa76eb54930280364682510c0e3ec5ec0298e8dc Mon Sep 17 00:00:00 2001
From: Tmonster <tom@ebergen.com>
Date: Thu, 5 Sep 2024 13:23:40 +0200
Subject: [PATCH 09/31] fix more path issues

---
 _run/run_groupby_xl.sh   |  4 +--
 _run/run_join_xl.sh      | 10 +++---
 _run/run_large.sh        | 24 ++++++-------
 _run/run_small_medium.sh | 78 ++++++++++++++++++++--------------------
 4 files changed, 58 insertions(+), 58 deletions(-)

diff --git a/_run/run_groupby_xl.sh b/_run/run_groupby_xl.sh
index 671fc4c1..10cd9920 100644
--- a/_run/run_groupby_xl.sh
+++ b/_run/run_groupby_xl.sh
@@ -1,9 +1,9 @@
 # get groupby large (500GB dataset)
-wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/groupby-500gb.duckdb
+wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/groupby-500gb.duckdb --output-document=groupby-500gb.duckdb
 
 
 # expand groupby-small datasets to csv
-duckdb -c groupby-500gb.duckdb "copy G1_1e10_1e4_10_0 to 'G1_1e10_1e4_10_0.csv' (FORMAT CSV)"
+duckdb -c data/groupby-500gb.duckdb "copy G1_1e10_1e4_10_0 to 'data/G1_1e10_1e4_10_0.csv' (FORMAT CSV)"
 
 
 cp ../_control/data_groupby_xlarge.csv ../_control/data.csv
diff --git a/_run/run_join_xl.sh b/_run/run_join_xl.sh
index 6b7a2d99..13567f4f 100644
--- a/_run/run_join_xl.sh
+++ b/_run/run_join_xl.sh
@@ -1,12 +1,12 @@
 # get join large (500GB dataset)
-wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join-500gb.duckdb
+wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join-500gb.duckdb --output-document=data/join-500gb.duckdb
 
 
 # expand groupby-small datasets to csv
-duckdb -c join-500gb.duckdb "copy x to 'J1_NA_0_0.csv' (FORMAT CSV)"
-duckdb -c join-500gb.duckdb "copy big to 'J1_1e10_0_0.csv' (FORMAT CSV)"
-duckdb -c join-500gb.duckdb "copy medim to 'J1_1e7_0_0.csv' (FORMAT CSV)"
-duckdb -c join-500gb.duckdb "copy small to 'J1_1e4_0_0.csv' (FORMAT CSV)"
+duckdb -c data/join-500gb.duckdb "copy x to 'data/J1_NA_0_0.csv' (FORMAT CSV)"
+duckdb -c data/join-500gb.duckdb "copy big to 'data/J1_1e10_0_0.csv' (FORMAT CSV)"
+duckdb -c data/join-500gb.duckdb "copy medim to 'data/J1_1e7_0_0.csv' (FORMAT CSV)"
+duckdb -c data/join-500gb.duckdb "copy small to 'data/J1_1e4_0_0.csv' (FORMAT CSV)"
 
 
 cp ../_control/data_join_xlarge.csv ../_control/data.csv
diff --git a/_run/run_large.sh b/_run/run_large.sh
index 0ea46581..99fa7a0a 100644
--- a/_run/run_large.sh
+++ b/_run/run_large.sh
@@ -1,26 +1,26 @@
 # download and expand large data
 
 # get groupby large (0.5GB and 5GB datasets)
-wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/groupby_large.duckdb
+wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/groupby_large.duckdb --output-document=data/groupby_large.duckdb
 # get join small (0.5GB and 5GB datasets)
-wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join_large.duckdb
+wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join_large.duckdb --output-document=data/join_large.duckdb
 
 
 # expand groupby-small datasets to csv
-duckdb -c groupby_large.duckdb "copy G1_1e9_1e2_0_0 to 'G1_1e9_1e2_0_0.csv' (FORMAT CSV)"
-duckdb -c groupby_large.duckdb "copy G1_1e9_1e1_0_0 to 'G1_1e9_1e1_0_0.csv' (FORMAT CSV)"
-duckdb -c groupby_large.duckdb "copy G1_1e9_2e0_0_0 to 'G1_1e9_2e0_0_0.csv' (FORMAT CSV)"
-duckdb -c groupby_large.duckdb "copy G1_1e9_1e2_0_1 to 'G1_1e9_1e2_0_1.csv' (FORMAT CSV)"
-duckdb -c groupby_large.duckdb "copy G1_1e9_1e2_5_0 to 'G1_1e9_1e2_5_0.csv' (FORMAT CSV)"
+duckdb -c data/groupby_large.duckdb "copy G1_1e9_1e2_0_0 to 'data/G1_1e9_1e2_0_0.csv' (FORMAT CSV)"
+duckdb -c data/groupby_large.duckdb "copy G1_1e9_1e1_0_0 to 'data/G1_1e9_1e1_0_0.csv' (FORMAT CSV)"
+duckdb -c data/groupby_large.duckdb "copy G1_1e9_2e0_0_0 to 'data/G1_1e9_2e0_0_0.csv' (FORMAT CSV)"
+duckdb -c data/groupby_large.duckdb "copy G1_1e9_1e2_0_1 to 'data/G1_1e9_1e2_0_1.csv' (FORMAT CSV)"
+duckdb -c data/groupby_large.duckdb "copy G1_1e9_1e2_5_0 to 'data/G1_1e9_1e2_5_0.csv' (FORMAT CSV)"
 
 # expand join-small datasets to csv
-duckdb -c join_large.duckdb "copy x to 'J1_NA_0_0.csv' (FORMAT CSV)"
-duckdb -c join_large.duckdb "copy big to 'J1_1e9_0_0.csv' (FORMAT CSV)"
-duckdb -c join_large.duckdb "copy medim to 'J1_1e6_0_0.csv' (FORMAT CSV)"
-duckdb -c join_large.duckdb "copy small to 'J1_1e3_0_0.csv' (FORMAT CSV)"
+duckdb -c data/join_large.duckdb "copy x to 'data/J1_NA_0_0.csv' (FORMAT CSV)"
+duckdb -c data/join_large.duckdb "copy big to 'data/J1_1e9_0_0.csv' (FORMAT CSV)"
+duckdb -c data/join_large.duckdb "copy medim to 'data/J1_1e6_0_0.csv' (FORMAT CSV)"
+duckdb -c data/join_large.duckdb "copy small to 'data/J1_1e3_0_0.csv' (FORMAT CSV)"
 
 
-cp ../_control/data_large.csv ../_control/data.csv
+cp _control/data_large.csv _control/data.csv
 
 
 echo "Running all solutions on large (50GB) datasets"
diff --git a/_run/run_small_medium.sh b/_run/run_small_medium.sh
index 8e62aa71..4e21f09d 100644
--- a/_run/run_small_medium.sh
+++ b/_run/run_small_medium.sh
@@ -1,51 +1,51 @@
 # first download and expand small data
 
 # get groupby small (0.5GB and 5GB datasets)
-wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/groupby_small.duckdb
+wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/groupby_small.duckdb --output_document=data/groupby_small.duckdb
 # get join small (0.5GB and 5GB datasets)
-wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join_small.duckdb
+wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join_small.duckdb --output-document=data/join_small.duckdb
 
 
 # expand groupby-small datasets to csv
-duckdb -c groupby_small.duckdb "copy G1_1e7_1e2_0_0 to 'G1_1e7_1e2_0_0.csv' (FORMAT CSV)"
-duckdb -c groupby_small.duckdb "copy G1_1e7_1e1_0_0 to 'G1_1e7_1e1_0_0.csv' (FORMAT CSV)"
-duckdb -c groupby_small.duckdb "copy G1_1e7_2e0_0_0 to 'G1_1e7_2e0_0_0.csv' (FORMAT CSV)"
-duckdb -c groupby_small.duckdb "copy G1_1e7_1e2_0_1 to 'G1_1e7_1e2_0_1.csv' (FORMAT CSV)"
-duckdb -c groupby_small.duckdb "copy G1_1e7_1e2_5_0 to 'G1_1e7_1e2_5_0.csv' (FORMAT CSV)"
-duckdb -c groupby_small.duckdb "copy G1_1e8_1e2_0_0 to 'G1_1e8_1e2_0_0.csv' (FORMAT CSV)"
-duckdb -c groupby_small.duckdb "copy G1_1e8_1e1_0_0 to 'G1_1e8_1e1_0_0.csv' (FORMAT CSV)"
-duckdb -c groupby_small.duckdb "copy G1_1e8_2e0_0_0 to 'G1_1e8_2e0_0_0.csv' (FORMAT CSV)"
-duckdb -c groupby_small.duckdb "copy G1_1e8_1e2_0_1 to 'G1_1e8_1e2_0_1.csv' (FORMAT CSV)"
-duckdb -c groupby_small.duckdb "copy G1_1e8_1e2_5_0 to 'G1_1e8_1e2_5_0.csv' (FORMAT CSV)"
+duckdb -c data/groupby_small.duckdb "copy G1_1e7_1e2_0_0 to 'data/G1_1e7_1e2_0_0.csv' (FORMAT CSV)"
+duckdb -c data/groupby_small.duckdb "copy G1_1e7_1e1_0_0 to 'data/G1_1e7_1e1_0_0.csv' (FORMAT CSV)"
+duckdb -c data/groupby_small.duckdb "copy G1_1e7_2e0_0_0 to 'data/G1_1e7_2e0_0_0.csv' (FORMAT CSV)"
+duckdb -c data/groupby_small.duckdb "copy G1_1e7_1e2_0_1 to 'data/G1_1e7_1e2_0_1.csv' (FORMAT CSV)"
+duckdb -c data/groupby_small.duckdb "copy G1_1e7_1e2_5_0 to 'data/G1_1e7_1e2_5_0.csv' (FORMAT CSV)"
+duckdb -c data/groupby_small.duckdb "copy G1_1e8_1e2_0_0 to 'data/G1_1e8_1e2_0_0.csv' (FORMAT CSV)"
+duckdb -c data/groupby_small.duckdb "copy G1_1e8_1e1_0_0 to 'data/G1_1e8_1e1_0_0.csv' (FORMAT CSV)"
+duckdb -c data/groupby_small.duckdb "copy G1_1e8_2e0_0_0 to 'data/G1_1e8_2e0_0_0.csv' (FORMAT CSV)"
+duckdb -c data/groupby_small.duckdb "copy G1_1e8_1e2_0_1 to 'data/G1_1e8_1e2_0_1.csv' (FORMAT CSV)"
+duckdb -c data/groupby_small.duckdb "copy G1_1e8_1e2_5_0 to 'data/G1_1e8_1e2_5_0.csv' (FORMAT CSV)"
 
 # expand join-small datasets to csv
-duckdb -c join_small.duckdb "copy J1_1e7_1e1_0_0 to 'J1_1e7_1e1_0_0.csv' (FORMAT CSV)"
-duckdb -c join_small.duckdb "copy J1_1e7_1e4_5_0 to 'J1_1e7_1e4_5_0.csv' (FORMAT CSV)"
-duckdb -c join_small.duckdb "copy J1_1e7_NA_0_1 to 'J1_1e7_NA_0_1.csv' (FORMAT CSV)"
-duckdb -c join_small.duckdb "copy J1_1e8_1e5_0_0 to 'J1_1e8_1e5_0_0.csv' (FORMAT CSV)"
-duckdb -c join_small.duckdb "copy J1_1e8_1e8_5_0 to 'J1_1e8_1e8_5_0.csv' (FORMAT CSV)"
-duckdb -c join_small.duckdb "copy J1_1e7_1e1_0_1 to 'J1_1e7_1e1_0_1.csv' (FORMAT CSV)"
-duckdb -c join_small.duckdb "copy J1_1e7_1e7_0_0 to 'J1_1e7_1e7_0_0.csv' (FORMAT CSV)"
-duckdb -c join_small.duckdb "copy J1_1e7_NA_5_0 to 'J1_1e7_NA_5_0.csv' (FORMAT CSV)"
-duckdb -c join_small.duckdb "copy J1_1e8_1e5_0_1 to 'J1_1e8_1e5_0_1.csv' (FORMAT CSV)"
-duckdb -c join_small.duckdb "copy J1_1e8_NA_0_0 to 'J1_1e8_NA_0_0.csv' (FORMAT CSV)"
-duckdb -c join_small.duckdb "copy J1_1e7_1e1_5_0 to 'J1_1e7_1e1_5_0.csv' (FORMAT CSV)"
-duckdb -c join_small.duckdb "copy J1_1e7_1e7_0_1 to 'J1_1e7_1e7_0_1.csv' (FORMAT CSV)"
-duckdb -c join_small.duckdb "copy J1_1e8_1e2_0_0 to 'J1_1e8_1e2_0_0.csv' (FORMAT CSV)"
-duckdb -c join_small.duckdb "copy J1_1e8_1e5_5_0 to 'J1_1e8_1e5_5_0.csv' (FORMAT CSV)"
-duckdb -c join_small.duckdb "copy J1_1e8_NA_0_1 to 'J1_1e8_NA_0_1.csv' (FORMAT CSV)"
-duckdb -c join_small.duckdb "copy J1_1e7_1e4_0_0 to 'J1_1e7_1e4_0_0.csv' (FORMAT CSV)"
-duckdb -c join_small.duckdb "copy J1_1e7_1e7_5_0 to 'J1_1e7_1e7_5_0.csv' (FORMAT CSV)"
-duckdb -c join_small.duckdb "copy J1_1e8_1e2_0_1 to 'J1_1e8_1e2_0_1.csv' (FORMAT CSV)"
-duckdb -c join_small.duckdb "copy J1_1e8_1e8_0_0 to 'J1_1e8_1e8_0_0.csv' (FORMAT CSV)"
-duckdb -c join_small.duckdb "copy J1_1e8_NA_5_0 to 'J1_1e8_NA_5_0.csv' (FORMAT CSV)"
-duckdb -c join_small.duckdb "copy J1_1e7_1e4_0_1 to 'J1_1e7_1e4_0_1.csv' (FORMAT CSV)"
-duckdb -c join_small.duckdb "copy J1_1e7_NA_0_0 to 'J1_1e7_NA_0_0.csv' (FORMAT CSV)"
-duckdb -c join_small.duckdb "copy J1_1e8_1e2_5_0 to 'J1_1e8_1e2_5_0.csv' (FORMAT CSV)"
-duckdb -c join_small.duckdb "copy J1_1e8_1e8_0_1 to 'J1_1e8_1e8_0_1.csv' (FORMAT CSV)"
-
-
-cp ../_control/data_small.csv ../_control/data.csv
+duckdb -c data/join_small.duckdb "copy J1_1e7_1e1_0_0 to 'data/J1_1e7_1e1_0_0.csv' (FORMAT CSV)"
+duckdb -c data/join_small.duckdb "copy J1_1e7_1e4_5_0 to 'data/J1_1e7_1e4_5_0.csv' (FORMAT CSV)"
+duckdb -c data/join_small.duckdb "copy J1_1e7_NA_0_1 to 'data/J1_1e7_NA_0_1.csv' (FORMAT CSV)"
+duckdb -c data/join_small.duckdb "copy J1_1e8_1e5_0_0 to 'data/J1_1e8_1e5_0_0.csv' (FORMAT CSV)"
+duckdb -c data/join_small.duckdb "copy J1_1e8_1e8_5_0 to 'data/J1_1e8_1e8_5_0.csv' (FORMAT CSV)"
+duckdb -c data/join_small.duckdb "copy J1_1e7_1e1_0_1 to 'data/J1_1e7_1e1_0_1.csv' (FORMAT CSV)"
+duckdb -c data/join_small.duckdb "copy J1_1e7_1e7_0_0 to 'data/J1_1e7_1e7_0_0.csv' (FORMAT CSV)"
+duckdb -c data/join_small.duckdb "copy J1_1e7_NA_5_0 to 'data/J1_1e7_NA_5_0.csv' (FORMAT CSV)"
+duckdb -c data/join_small.duckdb "copy J1_1e8_1e5_0_1 to 'data/J1_1e8_1e5_0_1.csv' (FORMAT CSV)"
+duckdb -c data/join_small.duckdb "copy J1_1e8_NA_0_0 to 'data/J1_1e8_NA_0_0.csv' (FORMAT CSV)"
+duckdb -c data/join_small.duckdb "copy J1_1e7_1e1_5_0 to 'data/J1_1e7_1e1_5_0.csv' (FORMAT CSV)"
+duckdb -c data/join_small.duckdb "copy J1_1e7_1e7_0_1 to 'data/J1_1e7_1e7_0_1.csv' (FORMAT CSV)"
+duckdb -c data/join_small.duckdb "copy J1_1e8_1e2_0_0 to 'data/J1_1e8_1e2_0_0.csv' (FORMAT CSV)"
+duckdb -c data/join_small.duckdb "copy J1_1e8_1e5_5_0 to 'data/J1_1e8_1e5_5_0.csv' (FORMAT CSV)"
+duckdb -c data/join_small.duckdb "copy J1_1e8_NA_0_1 to 'data/J1_1e8_NA_0_1.csv' (FORMAT CSV)"
+duckdb -c data/join_small.duckdb "copy J1_1e7_1e4_0_0 to 'data/J1_1e7_1e4_0_0.csv' (FORMAT CSV)"
+duckdb -c data/join_small.duckdb "copy J1_1e7_1e7_5_0 to 'data/J1_1e7_1e7_5_0.csv' (FORMAT CSV)"
+duckdb -c data/join_small.duckdb "copy J1_1e8_1e2_0_1 to 'data/J1_1e8_1e2_0_1.csv' (FORMAT CSV)"
+duckdb -c data/join_small.duckdb "copy J1_1e8_1e8_0_0 to 'data/J1_1e8_1e8_0_0.csv' (FORMAT CSV)"
+duckdb -c data/join_small.duckdb "copy J1_1e8_NA_5_0 to 'data/J1_1e8_NA_5_0.csv' (FORMAT CSV)"
+duckdb -c data/join_small.duckdb "copy J1_1e7_1e4_0_1 to 'data/J1_1e7_1e4_0_1.csv' (FORMAT CSV)"
+duckdb -c data/join_small.duckdb "copy J1_1e7_NA_0_0 to 'data/J1_1e7_NA_0_0.csv' (FORMAT CSV)"
+duckdb -c data/join_small.duckdb "copy J1_1e8_1e2_5_0 to 'data/J1_1e8_1e2_5_0.csv' (FORMAT CSV)"
+duckdb -c data/join_small.duckdb "copy J1_1e8_1e8_0_1 to 'data/J1_1e8_1e8_0_1.csv' (FORMAT CSV)"
+
+
+cp _control/data_small.csv _control/data.csv
 
 
 echo "Running all solutions on small (0.5GB and 5GB) datasets"

From ae508c673bee83f67646fffc47c4010f316b98dd Mon Sep 17 00:00:00 2001
From: Tmonster <tom@ebergen.com>
Date: Thu, 5 Sep 2024 13:25:11 +0200
Subject: [PATCH 10/31] one last fix

---
 _run/run_join_xl.sh | 2 +-
 _run/run_large.sh   | 8 ++++----
 2 files changed, 5 insertions(+), 5 deletions(-)

diff --git a/_run/run_join_xl.sh b/_run/run_join_xl.sh
index 13567f4f..76d6b257 100644
--- a/_run/run_join_xl.sh
+++ b/_run/run_join_xl.sh
@@ -5,7 +5,7 @@ wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join-500gb.duc
 # expand groupby-small datasets to csv
 duckdb -c data/join-500gb.duckdb "copy x to 'data/J1_NA_0_0.csv' (FORMAT CSV)"
 duckdb -c data/join-500gb.duckdb "copy big to 'data/J1_1e10_0_0.csv' (FORMAT CSV)"
-duckdb -c data/join-500gb.duckdb "copy medim to 'data/J1_1e7_0_0.csv' (FORMAT CSV)"
+duckdb -c data/join-500gb.duckdb "copy medium to 'data/J1_1e7_0_0.csv' (FORMAT CSV)"
 duckdb -c data/join-500gb.duckdb "copy small to 'data/J1_1e4_0_0.csv' (FORMAT CSV)"
 
 
diff --git a/_run/run_large.sh b/_run/run_large.sh
index 99fa7a0a..45ed45c0 100644
--- a/_run/run_large.sh
+++ b/_run/run_large.sh
@@ -14,10 +14,10 @@ duckdb -c data/groupby_large.duckdb "copy G1_1e9_1e2_0_1 to 'data/G1_1e9_1e2_0_1
 duckdb -c data/groupby_large.duckdb "copy G1_1e9_1e2_5_0 to 'data/G1_1e9_1e2_5_0.csv' (FORMAT CSV)"
 
 # expand join-small datasets to csv
-duckdb -c data/join_large.duckdb "copy x to 'data/J1_NA_0_0.csv' (FORMAT CSV)"
-duckdb -c data/join_large.duckdb "copy big to 'data/J1_1e9_0_0.csv' (FORMAT CSV)"
-duckdb -c data/join_large.duckdb "copy medim to 'data/J1_1e6_0_0.csv' (FORMAT CSV)"
-duckdb -c data/join_large.duckdb "copy small to 'data/J1_1e3_0_0.csv' (FORMAT CSV)"
+duckdb -c data/join_large.duckdb "copy J1_1e9_NA_0_0 to 'data/J1_NA_0_0.csv' (FORMAT CSV)"
+duckdb -c data/join_large.duckdb "copy J1_1e9_1e9_0_0 to 'data/J1_1e9_0_0.csv' (FORMAT CSV)"
+duckdb -c data/join_large.duckdb "copy J1_1e9_1e6_0_0 to 'data/J1_1e6_0_0.csv' (FORMAT CSV)"
+duckdb -c data/join_large.duckdb "copy J1_1e9_1e3_0_0 to 'data/J1_1e3_0_0.csv' (FORMAT CSV)"
 
 
 cp _control/data_large.csv _control/data.csv

From 07ea2458580c2c29282de04dcc8ea450d42c94d6 Mon Sep 17 00:00:00 2001
From: Tmonster <tom@ebergen.com>
Date: Thu, 5 Sep 2024 13:30:13 +0200
Subject: [PATCH 11/31] change permissions on run files

---
 _run/run_groupby_xl.sh   | 0
 _run/run_join_xl.sh      | 0
 _run/run_large.sh        | 0
 _run/run_small_medium.sh | 0
 4 files changed, 0 insertions(+), 0 deletions(-)
 mode change 100644 => 100755 _run/run_groupby_xl.sh
 mode change 100644 => 100755 _run/run_join_xl.sh
 mode change 100644 => 100755 _run/run_large.sh
 mode change 100644 => 100755 _run/run_small_medium.sh

diff --git a/_run/run_groupby_xl.sh b/_run/run_groupby_xl.sh
old mode 100644
new mode 100755
diff --git a/_run/run_join_xl.sh b/_run/run_join_xl.sh
old mode 100644
new mode 100755
diff --git a/_run/run_large.sh b/_run/run_large.sh
old mode 100644
new mode 100755
diff --git a/_run/run_small_medium.sh b/_run/run_small_medium.sh
old mode 100644
new mode 100755

From 67b1ec549bd1bc5008138c3a8eda23ef2be977d7 Mon Sep 17 00:00:00 2001
From: Tmonster <tom@ebergen.com>
Date: Thu, 5 Sep 2024 14:01:34 +0200
Subject: [PATCH 12/31] move -c

---
 _run/run_groupby_xl.sh   |  2 +-
 _run/run_join_xl.sh      |  8 ++---
 _run/run_large.sh        | 18 +++++------
 _run/run_small_medium.sh | 68 ++++++++++++++++++++--------------------
 4 files changed, 48 insertions(+), 48 deletions(-)

diff --git a/_run/run_groupby_xl.sh b/_run/run_groupby_xl.sh
index 10cd9920..ddfdda5c 100755
--- a/_run/run_groupby_xl.sh
+++ b/_run/run_groupby_xl.sh
@@ -3,7 +3,7 @@ wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/groupby-500gb.
 
 
 # expand groupby-small datasets to csv
-duckdb -c data/groupby-500gb.duckdb "copy G1_1e10_1e4_10_0 to 'data/G1_1e10_1e4_10_0.csv' (FORMAT CSV)"
+duckdb data/groupby-500gb.duckdb -c "copy G1_1e10_1e4_10_0 to 'data/G1_1e10_1e4_10_0.csv' (FORMAT CSV)"
 
 
 cp ../_control/data_groupby_xlarge.csv ../_control/data.csv
diff --git a/_run/run_join_xl.sh b/_run/run_join_xl.sh
index 76d6b257..67557677 100755
--- a/_run/run_join_xl.sh
+++ b/_run/run_join_xl.sh
@@ -3,10 +3,10 @@ wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join-500gb.duc
 
 
 # expand groupby-small datasets to csv
-duckdb -c data/join-500gb.duckdb "copy x to 'data/J1_NA_0_0.csv' (FORMAT CSV)"
-duckdb -c data/join-500gb.duckdb "copy big to 'data/J1_1e10_0_0.csv' (FORMAT CSV)"
-duckdb -c data/join-500gb.duckdb "copy medium to 'data/J1_1e7_0_0.csv' (FORMAT CSV)"
-duckdb -c data/join-500gb.duckdb "copy small to 'data/J1_1e4_0_0.csv' (FORMAT CSV)"
+duckdb data/join-500gb.duckdb  -c "copy x to 'data/J1_NA_0_0.csv' (FORMAT CSV)"
+duckdb data/join-500gb.duckdb  -c "copy big to 'data/J1_1e10_0_0.csv' (FORMAT CSV)"
+duckdb data/join-500gb.duckdb  -c "copy medium to 'data/J1_1e7_0_0.csv' (FORMAT CSV)"
+duckdb data/join-500gb.duckdb  -c "copy small to 'data/J1_1e4_0_0.csv' (FORMAT CSV)"
 
 
 cp ../_control/data_join_xlarge.csv ../_control/data.csv
diff --git a/_run/run_large.sh b/_run/run_large.sh
index 45ed45c0..562d46a6 100755
--- a/_run/run_large.sh
+++ b/_run/run_large.sh
@@ -7,17 +7,17 @@ wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join_large.duc
 
 
 # expand groupby-small datasets to csv
-duckdb -c data/groupby_large.duckdb "copy G1_1e9_1e2_0_0 to 'data/G1_1e9_1e2_0_0.csv' (FORMAT CSV)"
-duckdb -c data/groupby_large.duckdb "copy G1_1e9_1e1_0_0 to 'data/G1_1e9_1e1_0_0.csv' (FORMAT CSV)"
-duckdb -c data/groupby_large.duckdb "copy G1_1e9_2e0_0_0 to 'data/G1_1e9_2e0_0_0.csv' (FORMAT CSV)"
-duckdb -c data/groupby_large.duckdb "copy G1_1e9_1e2_0_1 to 'data/G1_1e9_1e2_0_1.csv' (FORMAT CSV)"
-duckdb -c data/groupby_large.duckdb "copy G1_1e9_1e2_5_0 to 'data/G1_1e9_1e2_5_0.csv' (FORMAT CSV)"
+duckdb data/groupby_large.duckdb  -c "copy G1_1e9_1e2_0_0 to 'data/G1_1e9_1e2_0_0.csv' (FORMAT CSV)"
+duckdb data/groupby_large.duckdb  -c "copy G1_1e9_1e1_0_0 to 'data/G1_1e9_1e1_0_0.csv' (FORMAT CSV)"
+duckdb data/groupby_large.duckdb  -c "copy G1_1e9_2e0_0_0 to 'data/G1_1e9_2e0_0_0.csv' (FORMAT CSV)"
+duckdb data/groupby_large.duckdb  -c "copy G1_1e9_1e2_0_1 to 'data/G1_1e9_1e2_0_1.csv' (FORMAT CSV)"
+duckdb data/groupby_large.duckdb  -c "copy G1_1e9_1e2_5_0 to 'data/G1_1e9_1e2_5_0.csv' (FORMAT CSV)"
 
 # expand join-small datasets to csv
-duckdb -c data/join_large.duckdb "copy J1_1e9_NA_0_0 to 'data/J1_NA_0_0.csv' (FORMAT CSV)"
-duckdb -c data/join_large.duckdb "copy J1_1e9_1e9_0_0 to 'data/J1_1e9_0_0.csv' (FORMAT CSV)"
-duckdb -c data/join_large.duckdb "copy J1_1e9_1e6_0_0 to 'data/J1_1e6_0_0.csv' (FORMAT CSV)"
-duckdb -c data/join_large.duckdb "copy J1_1e9_1e3_0_0 to 'data/J1_1e3_0_0.csv' (FORMAT CSV)"
+duckdb data/join_large.duckdb  -c "copy J1_1e9_NA_0_0 to 'data/J1_NA_0_0.csv' (FORMAT CSV)"
+duckdb data/join_large.duckdb  -c "copy J1_1e9_1e9_0_0 to 'data/J1_1e9_0_0.csv' (FORMAT CSV)"
+duckdb data/join_large.duckdb  -c "copy J1_1e9_1e6_0_0 to 'data/J1_1e6_0_0.csv' (FORMAT CSV)"
+duckdb data/join_large.duckdb  -c "copy J1_1e9_1e3_0_0 to 'data/J1_1e3_0_0.csv' (FORMAT CSV)"
 
 
 cp _control/data_large.csv _control/data.csv
diff --git a/_run/run_small_medium.sh b/_run/run_small_medium.sh
index 4e21f09d..c93d6338 100755
--- a/_run/run_small_medium.sh
+++ b/_run/run_small_medium.sh
@@ -7,42 +7,42 @@ wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join_small.duc
 
 
 # expand groupby-small datasets to csv
-duckdb -c data/groupby_small.duckdb "copy G1_1e7_1e2_0_0 to 'data/G1_1e7_1e2_0_0.csv' (FORMAT CSV)"
-duckdb -c data/groupby_small.duckdb "copy G1_1e7_1e1_0_0 to 'data/G1_1e7_1e1_0_0.csv' (FORMAT CSV)"
-duckdb -c data/groupby_small.duckdb "copy G1_1e7_2e0_0_0 to 'data/G1_1e7_2e0_0_0.csv' (FORMAT CSV)"
-duckdb -c data/groupby_small.duckdb "copy G1_1e7_1e2_0_1 to 'data/G1_1e7_1e2_0_1.csv' (FORMAT CSV)"
-duckdb -c data/groupby_small.duckdb "copy G1_1e7_1e2_5_0 to 'data/G1_1e7_1e2_5_0.csv' (FORMAT CSV)"
-duckdb -c data/groupby_small.duckdb "copy G1_1e8_1e2_0_0 to 'data/G1_1e8_1e2_0_0.csv' (FORMAT CSV)"
-duckdb -c data/groupby_small.duckdb "copy G1_1e8_1e1_0_0 to 'data/G1_1e8_1e1_0_0.csv' (FORMAT CSV)"
-duckdb -c data/groupby_small.duckdb "copy G1_1e8_2e0_0_0 to 'data/G1_1e8_2e0_0_0.csv' (FORMAT CSV)"
-duckdb -c data/groupby_small.duckdb "copy G1_1e8_1e2_0_1 to 'data/G1_1e8_1e2_0_1.csv' (FORMAT CSV)"
-duckdb -c data/groupby_small.duckdb "copy G1_1e8_1e2_5_0 to 'data/G1_1e8_1e2_5_0.csv' (FORMAT CSV)"
+duckdb data/groupby_small.duckdb -c "copy G1_1e7_1e2_0_0 to 'data/G1_1e7_1e2_0_0.csv' (FORMAT CSV)"
+duckdb data/groupby_small.duckdb -c "copy G1_1e7_1e1_0_0 to 'data/G1_1e7_1e1_0_0.csv' (FORMAT CSV)"
+duckdb data/groupby_small.duckdb -c "copy G1_1e7_2e0_0_0 to 'data/G1_1e7_2e0_0_0.csv' (FORMAT CSV)"
+duckdb data/groupby_small.duckdb -c "copy G1_1e7_1e2_0_1 to 'data/G1_1e7_1e2_0_1.csv' (FORMAT CSV)"
+duckdb data/groupby_small.duckdb -c "copy G1_1e7_1e2_5_0 to 'data/G1_1e7_1e2_5_0.csv' (FORMAT CSV)"
+duckdb data/groupby_small.duckdb -c "copy G1_1e8_1e2_0_0 to 'data/G1_1e8_1e2_0_0.csv' (FORMAT CSV)"
+duckdb data/groupby_small.duckdb -c "copy G1_1e8_1e1_0_0 to 'data/G1_1e8_1e1_0_0.csv' (FORMAT CSV)"
+duckdb data/groupby_small.duckdb -c "copy G1_1e8_2e0_0_0 to 'data/G1_1e8_2e0_0_0.csv' (FORMAT CSV)"
+duckdb data/groupby_small.duckdb -c "copy G1_1e8_1e2_0_1 to 'data/G1_1e8_1e2_0_1.csv' (FORMAT CSV)"
+duckdb data/groupby_small.duckdb -c "copy G1_1e8_1e2_5_0 to 'data/G1_1e8_1e2_5_0.csv' (FORMAT CSV)"
 
 # expand join-small datasets to csv
-duckdb -c data/join_small.duckdb "copy J1_1e7_1e1_0_0 to 'data/J1_1e7_1e1_0_0.csv' (FORMAT CSV)"
-duckdb -c data/join_small.duckdb "copy J1_1e7_1e4_5_0 to 'data/J1_1e7_1e4_5_0.csv' (FORMAT CSV)"
-duckdb -c data/join_small.duckdb "copy J1_1e7_NA_0_1 to 'data/J1_1e7_NA_0_1.csv' (FORMAT CSV)"
-duckdb -c data/join_small.duckdb "copy J1_1e8_1e5_0_0 to 'data/J1_1e8_1e5_0_0.csv' (FORMAT CSV)"
-duckdb -c data/join_small.duckdb "copy J1_1e8_1e8_5_0 to 'data/J1_1e8_1e8_5_0.csv' (FORMAT CSV)"
-duckdb -c data/join_small.duckdb "copy J1_1e7_1e1_0_1 to 'data/J1_1e7_1e1_0_1.csv' (FORMAT CSV)"
-duckdb -c data/join_small.duckdb "copy J1_1e7_1e7_0_0 to 'data/J1_1e7_1e7_0_0.csv' (FORMAT CSV)"
-duckdb -c data/join_small.duckdb "copy J1_1e7_NA_5_0 to 'data/J1_1e7_NA_5_0.csv' (FORMAT CSV)"
-duckdb -c data/join_small.duckdb "copy J1_1e8_1e5_0_1 to 'data/J1_1e8_1e5_0_1.csv' (FORMAT CSV)"
-duckdb -c data/join_small.duckdb "copy J1_1e8_NA_0_0 to 'data/J1_1e8_NA_0_0.csv' (FORMAT CSV)"
-duckdb -c data/join_small.duckdb "copy J1_1e7_1e1_5_0 to 'data/J1_1e7_1e1_5_0.csv' (FORMAT CSV)"
-duckdb -c data/join_small.duckdb "copy J1_1e7_1e7_0_1 to 'data/J1_1e7_1e7_0_1.csv' (FORMAT CSV)"
-duckdb -c data/join_small.duckdb "copy J1_1e8_1e2_0_0 to 'data/J1_1e8_1e2_0_0.csv' (FORMAT CSV)"
-duckdb -c data/join_small.duckdb "copy J1_1e8_1e5_5_0 to 'data/J1_1e8_1e5_5_0.csv' (FORMAT CSV)"
-duckdb -c data/join_small.duckdb "copy J1_1e8_NA_0_1 to 'data/J1_1e8_NA_0_1.csv' (FORMAT CSV)"
-duckdb -c data/join_small.duckdb "copy J1_1e7_1e4_0_0 to 'data/J1_1e7_1e4_0_0.csv' (FORMAT CSV)"
-duckdb -c data/join_small.duckdb "copy J1_1e7_1e7_5_0 to 'data/J1_1e7_1e7_5_0.csv' (FORMAT CSV)"
-duckdb -c data/join_small.duckdb "copy J1_1e8_1e2_0_1 to 'data/J1_1e8_1e2_0_1.csv' (FORMAT CSV)"
-duckdb -c data/join_small.duckdb "copy J1_1e8_1e8_0_0 to 'data/J1_1e8_1e8_0_0.csv' (FORMAT CSV)"
-duckdb -c data/join_small.duckdb "copy J1_1e8_NA_5_0 to 'data/J1_1e8_NA_5_0.csv' (FORMAT CSV)"
-duckdb -c data/join_small.duckdb "copy J1_1e7_1e4_0_1 to 'data/J1_1e7_1e4_0_1.csv' (FORMAT CSV)"
-duckdb -c data/join_small.duckdb "copy J1_1e7_NA_0_0 to 'data/J1_1e7_NA_0_0.csv' (FORMAT CSV)"
-duckdb -c data/join_small.duckdb "copy J1_1e8_1e2_5_0 to 'data/J1_1e8_1e2_5_0.csv' (FORMAT CSV)"
-duckdb -c data/join_small.duckdb "copy J1_1e8_1e8_0_1 to 'data/J1_1e8_1e8_0_1.csv' (FORMAT CSV)"
+duckdb data/join_small.duckdb -c "copy J1_1e7_1e1_0_0 to 'data/J1_1e7_1e1_0_0.csv' (FORMAT CSV)"
+duckdb data/join_small.duckdb -c "copy J1_1e7_1e4_5_0 to 'data/J1_1e7_1e4_5_0.csv' (FORMAT CSV)"
+duckdb data/join_small.duckdb -c "copy J1_1e7_NA_0_1 to 'data/J1_1e7_NA_0_1.csv' (FORMAT CSV)"
+duckdb data/join_small.duckdb -c "copy J1_1e8_1e5_0_0 to 'data/J1_1e8_1e5_0_0.csv' (FORMAT CSV)"
+duckdb data/join_small.duckdb -c "copy J1_1e8_1e8_5_0 to 'data/J1_1e8_1e8_5_0.csv' (FORMAT CSV)"
+duckdb data/join_small.duckdb -c "copy J1_1e7_1e1_0_1 to 'data/J1_1e7_1e1_0_1.csv' (FORMAT CSV)"
+duckdb data/join_small.duckdb -c "copy J1_1e7_1e7_0_0 to 'data/J1_1e7_1e7_0_0.csv' (FORMAT CSV)"
+duckdb data/join_small.duckdb -c "copy J1_1e7_NA_5_0 to 'data/J1_1e7_NA_5_0.csv' (FORMAT CSV)"
+duckdb data/join_small.duckdb -c "copy J1_1e8_1e5_0_1 to 'data/J1_1e8_1e5_0_1.csv' (FORMAT CSV)"
+duckdb data/join_small.duckdb -c "copy J1_1e8_NA_0_0 to 'data/J1_1e8_NA_0_0.csv' (FORMAT CSV)"
+duckdb data/join_small.duckdb -c "copy J1_1e7_1e1_5_0 to 'data/J1_1e7_1e1_5_0.csv' (FORMAT CSV)"
+duckdb data/join_small.duckdb -c "copy J1_1e7_1e7_0_1 to 'data/J1_1e7_1e7_0_1.csv' (FORMAT CSV)"
+duckdb data/join_small.duckdb -c "copy J1_1e8_1e2_0_0 to 'data/J1_1e8_1e2_0_0.csv' (FORMAT CSV)"
+duckdb data/join_small.duckdb -c "copy J1_1e8_1e5_5_0 to 'data/J1_1e8_1e5_5_0.csv' (FORMAT CSV)"
+duckdb data/join_small.duckdb -c "copy J1_1e8_NA_0_1 to 'data/J1_1e8_NA_0_1.csv' (FORMAT CSV)"
+duckdb data/join_small.duckdb -c "copy J1_1e7_1e4_0_0 to 'data/J1_1e7_1e4_0_0.csv' (FORMAT CSV)"
+duckdb data/join_small.duckdb -c "copy J1_1e7_1e7_5_0 to 'data/J1_1e7_1e7_5_0.csv' (FORMAT CSV)"
+duckdb data/join_small.duckdb -c "copy J1_1e8_1e2_0_1 to 'data/J1_1e8_1e2_0_1.csv' (FORMAT CSV)"
+duckdb data/join_small.duckdb -c "copy J1_1e8_1e8_0_0 to 'data/J1_1e8_1e8_0_0.csv' (FORMAT CSV)"
+duckdb data/join_small.duckdb -c "copy J1_1e8_NA_5_0 to 'data/J1_1e8_NA_5_0.csv' (FORMAT CSV)"
+duckdb data/join_small.duckdb -c "copy J1_1e7_1e4_0_1 to 'data/J1_1e7_1e4_0_1.csv' (FORMAT CSV)"
+duckdb data/join_small.duckdb -c "copy J1_1e7_NA_0_0 to 'data/J1_1e7_NA_0_0.csv' (FORMAT CSV)"
+duckdb data/join_small.duckdb -c "copy J1_1e8_1e2_5_0 to 'data/J1_1e8_1e2_5_0.csv' (FORMAT CSV)"
+duckdb data/join_small.duckdb -c "copy J1_1e8_1e8_0_1 to 'data/J1_1e8_1e8_0_1.csv' (FORMAT CSV)"
 
 
 cp _control/data_small.csv _control/data.csv

From c64fd3ed2f2ac1c72e4b5a8dd44dae4523430c5f Mon Sep 17 00:00:00 2001
From: Tmonster <tom@ebergen.com>
Date: Thu, 5 Sep 2024 16:05:02 +0200
Subject: [PATCH 13/31] small update

---
 _run/run_groupby_xl.sh   | 3 ---
 _run/run_small_medium.sh | 2 +-
 2 files changed, 1 insertion(+), 4 deletions(-)

diff --git a/_run/run_groupby_xl.sh b/_run/run_groupby_xl.sh
index ddfdda5c..16d20203 100755
--- a/_run/run_groupby_xl.sh
+++ b/_run/run_groupby_xl.sh
@@ -16,6 +16,3 @@ echo "done..."
 echo "removing data files"
 rm data/*.csv
 rm data/*.duckdb
-
-
-/bin:/usr/bin
\ No newline at end of file
diff --git a/_run/run_small_medium.sh b/_run/run_small_medium.sh
index c93d6338..5261ca98 100755
--- a/_run/run_small_medium.sh
+++ b/_run/run_small_medium.sh
@@ -1,7 +1,7 @@
 # first download and expand small data
 
 # get groupby small (0.5GB and 5GB datasets)
-wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/groupby_small.duckdb --output_document=data/groupby_small.duckdb
+wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/groupby_small.duckdb --output-document=data/groupby_small.duckdb
 # get join small (0.5GB and 5GB datasets)
 wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join_small.duckdb --output-document=data/join_small.duckdb
 

From 1179bf4eca4e450fcfa043f9e31fab4836b374bf Mon Sep 17 00:00:00 2001
From: Tmonster <tom@ebergen.com>
Date: Thu, 5 Sep 2024 18:02:17 +0200
Subject: [PATCH 14/31] fix polar src_dataname

---
 polars/groupby-polars.py | 2 +-
 polars/join-polars.py    | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/polars/groupby-polars.py b/polars/groupby-polars.py
index 0deac9e4..9b75f9c3 100755
--- a/polars/groupby-polars.py
+++ b/polars/groupby-polars.py
@@ -27,7 +27,7 @@
     x = (pl.read_csv(src_grp, schema_overrides={"id4":pl.Int32, "id5":pl.Int32, "id6":pl.Int32, "v1":pl.Int32, "v2":pl.Int32, "v3":pl.Float64}, low_memory=True, rechunk=True)
          .with_columns(pl.col(["id1", "id2", "id3"]).cast(pl.Categorical)))
 
-on_disk = 'TRUE' if float(SRC_DATANAME.replace("G1_", "")[:4]) >= 1e10 else 'FALSE'
+on_disk = 'TRUE' if float(data_name.replace("G1_", "")[:4]) >= 1e10 else 'FALSE'
 
 in_rows = x.shape[0]
 x.write_ipc(f"{mount_point}/polars/tmp.ipc")
diff --git a/polars/join-polars.py b/polars/join-polars.py
index f75038d7..fa5470c5 100755
--- a/polars/join-polars.py
+++ b/polars/join-polars.py
@@ -25,7 +25,7 @@
   raise Exception("Something went wrong in preparing files used for join")
 
 
-on_disk = 'TRUE' if float(SRC_DATANAME.replace("J1_", "")[:4]) >= 1e10 else 'FALSE'
+on_disk = 'TRUE' if float(data_name.replace("J1_", "")[:4]) >= 1e10 else 'FALSE'
 print("loading datasets " + data_name + ", " + y_data_name[0] + ", " + y_data_name[2] + ", " + y_data_name[2], flush=True)
 
 with pl.StringCache():

From a637af589a6eb1a3aabc2effc8090f2354788c88 Mon Sep 17 00:00:00 2001
From: Tmonster <tom@ebergen.com>
Date: Thu, 5 Sep 2024 18:11:45 +0200
Subject: [PATCH 15/31] fix polar scale factor again

---
 polars/groupby-polars.py | 3 ++-
 polars/join-polars.py    | 4 +++-
 2 files changed, 5 insertions(+), 2 deletions(-)

diff --git a/polars/groupby-polars.py b/polars/groupby-polars.py
index 9b75f9c3..df60d489 100755
--- a/polars/groupby-polars.py
+++ b/polars/groupby-polars.py
@@ -27,7 +27,8 @@
     x = (pl.read_csv(src_grp, schema_overrides={"id4":pl.Int32, "id5":pl.Int32, "id6":pl.Int32, "v1":pl.Int32, "v2":pl.Int32, "v3":pl.Float64}, low_memory=True, rechunk=True)
          .with_columns(pl.col(["id1", "id2", "id3"]).cast(pl.Categorical)))
 
-on_disk = 'TRUE' if float(data_name.replace("G1_", "")[:4]) >= 1e10 else 'FALSE'
+scale_factor = data_name.replace("G1_","")[:4].replace("_", "")
+on_disk = 'TRUE' if float(scale_factor) >= 1e10 else 'FALSE'
 
 in_rows = x.shape[0]
 x.write_ipc(f"{mount_point}/polars/tmp.ipc")
diff --git a/polars/join-polars.py b/polars/join-polars.py
index fa5470c5..b1e1a2b1 100755
--- a/polars/join-polars.py
+++ b/polars/join-polars.py
@@ -25,7 +25,9 @@
   raise Exception("Something went wrong in preparing files used for join")
 
 
-on_disk = 'TRUE' if float(data_name.replace("J1_", "")[:4]) >= 1e10 else 'FALSE'
+scale_factor = data_name.replace("G1_","")[:4].replace("_", "")
+on_disk = 'TRUE' if float(scale_factor) >= 1e10 else 'FALSE'
+
 print("loading datasets " + data_name + ", " + y_data_name[0] + ", " + y_data_name[2] + ", " + y_data_name[2], flush=True)
 
 with pl.StringCache():

From bcb28312839a8a661aa1eb16ca6ac0b6e9a2b14c Mon Sep 17 00:00:00 2001
From: Tmonster <tom@ebergen.com>
Date: Thu, 5 Sep 2024 18:15:03 +0200
Subject: [PATCH 16/31] neato

---
 polars/join-polars.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/polars/join-polars.py b/polars/join-polars.py
index b1e1a2b1..dd50fcc1 100755
--- a/polars/join-polars.py
+++ b/polars/join-polars.py
@@ -25,7 +25,7 @@
   raise Exception("Something went wrong in preparing files used for join")
 
 
-scale_factor = data_name.replace("G1_","")[:4].replace("_", "")
+scale_factor = data_name.replace("J1_","")[:4].replace("_", "")
 on_disk = 'TRUE' if float(scale_factor) >= 1e10 else 'FALSE'
 
 print("loading datasets " + data_name + ", " + y_data_name[0] + ", " + y_data_name[2] + ", " + y_data_name[2], flush=True)

From 66dc1a681f204ea73a64beea557ea71e1af81f70 Mon Sep 17 00:00:00 2001
From: Tmonster <tom@ebergen.com>
Date: Fri, 6 Sep 2024 10:44:49 +0200
Subject: [PATCH 17/31] modify setup script to be more modular

---
 _utils/format_and_mount.sh            | 90 ---------------------------
 _utils/mount.sh                       | 15 +++++
 _utils/mount_and_install_solutions.sh | 29 +++++++++
 3 files changed, 44 insertions(+), 90 deletions(-)
 delete mode 100755 _utils/format_and_mount.sh
 create mode 100644 _utils/mount.sh
 create mode 100755 _utils/mount_and_install_solutions.sh

diff --git a/_utils/format_and_mount.sh b/_utils/format_and_mount.sh
deleted file mode 100755
index 92eae753..00000000
--- a/_utils/format_and_mount.sh
+++ /dev/null
@@ -1,90 +0,0 @@
-# script to format mount and copy data.
-
-# remove a leftover instance mount
-rm -rf ~/db-benchmark-metal
-
-# format the mount
-sudo mkfs -t xfs /dev/nvme0n1
-
-mkdir ~/db-benchmark-metal
-# mount the nvme volumn
-sudo mount /dev/nvme0n1 ~/db-benchmark-metal
-# change ownsership of the volume
-sudo chown -R ubuntu ~/db-benchmark-metal/
-
-git clone https://github.com/duckdblabs/db-benchmark.git ~/db-benchmark-metal
-
-# if you have an EBS volume, you can generate the data once, save it on the ebs volume, and transfer it
-# each time.
-
-if [[ $# -gt 0 ]]
-then
-	echo "Creating data"
-	mkdir -p ~/db-benchmark-metal/data/
-	cd ~/db-benchmark-metal/data/
-	echo "Creating 500mb group by datasets"
-	Rscript ../_data/groupby-datagen.R 1e7 1e2 0 0
-	Rscript ../_data/groupby-datagen.R 1e7 1e1 0 0
-	Rscript ../_data/groupby-datagen.R 1e7 2e0 0 0
-	Rscript ../_data/groupby-datagen.R 1e7 1e2 0 1
-	Rscript ../_data/groupby-datagen.R 1e7 1e2 5 0
-	echo "Creating 5gb group by datasets"
-	Rscript ../_data/groupby-datagen.R 1e8 1e2 0 0
-	Rscript ../_data/groupby-datagen.R 1e8 1e1 0 0
-	Rscript ../_data/groupby-datagen.R 1e8 2e0 0 0
-	Rscript ../_data/groupby-datagen.R 1e8 1e2 0 1
-	Rscript ../_data/groupby-datagen.R 1e8 1e2 5 0
-	echo "Creating 50gb group by datasets"
-	Rscript ../_data/groupby-datagen.R 1e9 1e2 0 0
-	Rscript ../_data/groupby-datagen.R 1e9 1e1 0 0
-	Rscript ../_data/groupby-datagen.R 1e9 2e0 0 0
-	Rscript ../_data/groupby-datagen.R 1e9 1e2 0 1
-	Rscript ../_data/groupby-datagen.R 1e9 1e2 5 0
-	echo "Creating 500mb join datasets"
-	Rscript ../_data/join-datagen.R 1e7 0 0
-	Rscript ../_data/join-datagen.R 1e7 5 0
-	Rscript ../_data/join-datagen.R 1e7 0 1
-	echo "Creating 5gb join datasets"
-	Rscript ../_data/join-datagen.R 1e8 0 0
-	Rscript ../_data/join-datagen.R 1e8 5 0
-	Rscript ../_data/join-datagen.R 1e8 0 1
-	echo "Creating 50gb join datasets"
-	Rscript ../_data/join-datagen.R 1e9 0 0
-	cd ..
-elif [[ ! -d "~/db-benchark/data" ]]
-then
-	echo "no arguments passed. Copying data..."
-	echo "ERROR: directory ~/db-benchmark/data does not exist"
-else
-	mkdir -p ~/db-benchmark-metal/data/
-	cd ~/db-benchmark-metal/data/
-	echo "Copying data from ~/db-benchark/data"
-	cp ~/db-benchmark/data/*.csv
-	cd ~/db-benchmark-metal
-fi
-
-
-./_launcher/setup.sh
-
-# setup all the solutions on db-benchmark-metal.
-# creates the necessary python virtual environments and creates the r-libraries
-# needed
-source path.env && python3 _utils/install_all_solutions.py all
-
-
-# setup mount for clickhouse spill
-sudo mkfs -t xfs /dev/nvme1n1
-sudo mkdir /var/lib/clickhouse-nvme-mount/
-sudo mount /dev/nvme1n1 /var/lib/clickhouse-nvme-mount/
-# not sure if below is necessary.
-sudo cp -a /var/lib/clickhouse/. /var/lib/clickhouse-nvme-mount/
-# change ownership of new mount to clickhouse
-sudo chown -R clickhouse:clickhouse /var/lib/clickhouse-nvme-mount/
-sudo chown -R clickhouse:clickhouse /dev/nvme1n1
-
-# add config so clickhouse knows to use the mount to spill data
-sudo cp clickhouse/clickhouse-mount-config.xml /etc/clickhouse-server/config.d/data-paths.xml
-
-echo "------------------------------------------"
-echo "------------------------------------------"
-echo "READY TO RUN BENCHMARK. ./run.sh"
diff --git a/_utils/mount.sh b/_utils/mount.sh
new file mode 100644
index 00000000..72c5faea
--- /dev/null
+++ b/_utils/mount.sh
@@ -0,0 +1,15 @@
+# script to format mount and copy data.
+
+# remove a leftover instance mount
+rm -rf ~/db-benchmark-metal
+
+# format the mount
+sudo mkfs -t xfs /dev/nvme1n1
+
+mkdir ~/db-benchmark-metal
+# mount the nvme volumn
+sudo mount /dev/nvme1n1 ~/db-benchmark-metal
+# change ownsership of the volume
+sudo chown -R ubuntu ~/db-benchmark-metal/
+
+git clone https://github.com/duckdblabs/db-benchmark.git ~/db-benchmark-metal
\ No newline at end of file
diff --git a/_utils/mount_and_install_solutions.sh b/_utils/mount_and_install_solutions.sh
new file mode 100755
index 00000000..537f8856
--- /dev/null
+++ b/_utils/mount_and_install_solutions.sh
@@ -0,0 +1,29 @@
+# script to format mount and copy data.
+# mount the data
+./_utils/mount.sj
+
+./_launcher/setup.sh
+
+# setup all the solutions on db-benchmark-metal.
+# creates the necessary python virtual environments and creates the r-libraries
+# needed
+cd ~/db-benchmark-meta && source path.env && python3 _utils/install_all_solutions.py all
+
+
+
+# setup mount for clickhouse spill
+# sudo mkfs -t xfs /dev/nvme1n1
+# sudo mkdir /var/lib/clickhouse-nvme-mount/
+# sudo mount /dev/nvme1n1 /var/lib/clickhouse-nvme-mount/
+# # not sure if below is necessary.
+# sudo cp -a /var/lib/clickhouse/. /var/lib/clickhouse-nvme-mount/
+# # change ownership of new mount to clickhouse
+# sudo chown -R clickhouse:clickhouse /var/lib/clickhouse-nvme-mount/
+# sudo chown -R clickhouse:clickhouse /dev/nvme1n1
+
+# # add config so clickhouse knows to use the mount to spill data
+# sudo cp clickhouse/clickhouse-mount-config.xml /etc/clickhouse-server/config.d/data-paths.xml
+
+echo "------------------------------------------"
+echo "------------------------------------------"
+echo "READY TO RUN BENCHMARK. ./run.sh"

From 39fdd4599cf70085c4ad8d4e47a3ce059d9b66f4 Mon Sep 17 00:00:00 2001
From: Tmonster <tom@ebergen.com>
Date: Fri, 6 Sep 2024 13:48:21 +0200
Subject: [PATCH 18/31] use aws s3 copy and create a _setup_utils specifically
 for setting up aws machines

---
 _run/run_groupby_xl.sh                                  | 2 +-
 _run/run_join_xl.sh                                     | 2 +-
 _run/run_large.sh                                       | 4 ++--
 _run/run_small_medium.sh                                | 4 ++--
 {_utils => _setup_utils}/install_all_solutions.py       | 0
 {_utils => _setup_utils}/mount.sh                       | 0
 {_utils => _setup_utils}/mount_and_install_solutions.sh | 6 ++----
 {_utils => _setup_utils}/prep_solutions.py              | 0
 {_utils => _setup_utils}/setup-small.sh                 | 2 +-
 9 files changed, 9 insertions(+), 11 deletions(-)
 rename {_utils => _setup_utils}/install_all_solutions.py (100%)
 rename {_utils => _setup_utils}/mount.sh (100%)
 mode change 100644 => 100755
 rename {_utils => _setup_utils}/mount_and_install_solutions.sh (87%)
 rename {_utils => _setup_utils}/prep_solutions.py (100%)
 rename {_utils => _setup_utils}/setup-small.sh (96%)

diff --git a/_run/run_groupby_xl.sh b/_run/run_groupby_xl.sh
index 16d20203..438a2cc2 100755
--- a/_run/run_groupby_xl.sh
+++ b/_run/run_groupby_xl.sh
@@ -1,5 +1,5 @@
 # get groupby large (500GB dataset)
-wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/groupby-500gb.duckdb --output-document=groupby-500gb.duckdb
+aws s3 cp s3://duckdb-blobs/data/db-benchmark-data/groupby-500gb.duckdb data/groupby-500gb.duckdb
 
 
 # expand groupby-small datasets to csv
diff --git a/_run/run_join_xl.sh b/_run/run_join_xl.sh
index 67557677..9a211705 100755
--- a/_run/run_join_xl.sh
+++ b/_run/run_join_xl.sh
@@ -1,5 +1,5 @@
 # get join large (500GB dataset)
-wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join-500gb.duckdb --output-document=data/join-500gb.duckdb
+aws s3 cp s3://duckdb-blobs/data/db-benchmark-data/join-500gb.duckdb data/join-500gb.duckdb
 
 
 # expand groupby-small datasets to csv
diff --git a/_run/run_large.sh b/_run/run_large.sh
index 562d46a6..d5fd5730 100755
--- a/_run/run_large.sh
+++ b/_run/run_large.sh
@@ -1,9 +1,9 @@
 # download and expand large data
 
 # get groupby large (0.5GB and 5GB datasets)
-wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/groupby_large.duckdb --output-document=data/groupby_large.duckdb
+aws s3 cp s3://duckdb-blobs/data/db-benchmark-data/groupby_large.duckdb data/groupby_large.duckdb
 # get join small (0.5GB and 5GB datasets)
-wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join_large.duckdb --output-document=data/join_large.duckdb
+aws s3 cp s3://duckdb-blobs/data/db-benchmark-data/join_large.duckdb data/join_large.duckdb
 
 
 # expand groupby-small datasets to csv
diff --git a/_run/run_small_medium.sh b/_run/run_small_medium.sh
index 5261ca98..4b6a14f4 100755
--- a/_run/run_small_medium.sh
+++ b/_run/run_small_medium.sh
@@ -1,9 +1,9 @@
 # first download and expand small data
 
 # get groupby small (0.5GB and 5GB datasets)
-wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/groupby_small.duckdb --output-document=data/groupby_small.duckdb
+aws s3 cp s3://duckdb-blobs/data/db-benchmark-data/groupby_small.duckdb data/groupby_small.duckdb
 # get join small (0.5GB and 5GB datasets)
-wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join_small.duckdb --output-document=data/join_small.duckdb
+aws s3 cp s3://duckdb-blobs/data/db-benchmark-data/join_small.duckdb data/join_small.duckdb
 
 
 # expand groupby-small datasets to csv
diff --git a/_utils/install_all_solutions.py b/_setup_utils/install_all_solutions.py
similarity index 100%
rename from _utils/install_all_solutions.py
rename to _setup_utils/install_all_solutions.py
diff --git a/_utils/mount.sh b/_setup_utils/mount.sh
old mode 100644
new mode 100755
similarity index 100%
rename from _utils/mount.sh
rename to _setup_utils/mount.sh
diff --git a/_utils/mount_and_install_solutions.sh b/_setup_utils/mount_and_install_solutions.sh
similarity index 87%
rename from _utils/mount_and_install_solutions.sh
rename to _setup_utils/mount_and_install_solutions.sh
index 537f8856..75248446 100755
--- a/_utils/mount_and_install_solutions.sh
+++ b/_setup_utils/mount_and_install_solutions.sh
@@ -1,13 +1,11 @@
 # script to format mount and copy data.
 # mount the data
-./_utils/mount.sj
-
-./_launcher/setup.sh
+./_setup_utils/mount.sh
 
 # setup all the solutions on db-benchmark-metal.
 # creates the necessary python virtual environments and creates the r-libraries
 # needed
-cd ~/db-benchmark-meta && source path.env && python3 _utils/install_all_solutions.py all
+cd ~/db-benchmark-meta && source path.env && python3 _setup_utils/install_all_solutions.py all
 
 
 
diff --git a/_utils/prep_solutions.py b/_setup_utils/prep_solutions.py
similarity index 100%
rename from _utils/prep_solutions.py
rename to _setup_utils/prep_solutions.py
diff --git a/_utils/setup-small.sh b/_setup_utils/setup-small.sh
similarity index 96%
rename from _utils/setup-small.sh
rename to _setup_utils/setup-small.sh
index e54fb555..c7130cd2 100755
--- a/_utils/setup-small.sh
+++ b/_setup_utils/setup-small.sh
@@ -14,7 +14,7 @@ sudo apt-get -qq install -y r-base-dev virtualenv
 sudo apt-get -qq install openjdk-8-jdk
 
 sudo apt-get install -y zlib1g-dev
-sudo apt-get install -y pandoc
+sudo apt-get install -y pandoc unzip
 
 # update virtualenv
 python3 -m pip install virtualenv

From 6a4c1bc6c687d114a7acf329268207e5c69339ce Mon Sep 17 00:00:00 2001
From: Tmonster <tom@ebergen.com>
Date: Fri, 6 Sep 2024 16:04:31 +0200
Subject: [PATCH 19/31] fix run.conf and run.sh

---
 _run/partitioned_run.sh | 26 ++++++++++++++++++++++++++
 run.conf                |  6 ++++--
 run.sh                  |  7 +++++++
 3 files changed, 37 insertions(+), 2 deletions(-)
 create mode 100644 _run/partitioned_run.sh

diff --git a/_run/partitioned_run.sh b/_run/partitioned_run.sh
new file mode 100644
index 00000000..9675d644
--- /dev/null
+++ b/_run/partitioned_run.sh
@@ -0,0 +1,26 @@
+# set machine type
+./_run/run_small_medium.sh
+
+./_run/run_large.sh
+
+./_run/run_groupby_xl.sh
+
+./_run/run_join_xl.sh
+
+
+# rename the png files to reflect the machine type that
+# benchmark was run on.
+for f in public/groupby/*; do 
+    ext=".png"; 
+    [[ $f =~ \. ]];
+    mv "$f" "${f%%.*}"_$MACHINE_TYPE$ext; 
+done
+for f in public/join/*; do 
+    ext=".png"; 
+    [[ $f =~ \. ]];
+    mv "$f" "${f%%.*}"_$MACHINE_TYPE$ext; 
+done
+
+
+
+# call code to rename images
\ No newline at end of file
diff --git a/run.conf b/run.conf
index c019b15f..94678ced 100644
--- a/run.conf
+++ b/run.conf
@@ -3,6 +3,8 @@ export RUN_TASKS="groupby join"
 # solution, used in init-setup-iteration.R
 export RUN_SOLUTIONS="collapse data.table juliads juliadf dplyr pandas pydatatable spark dask clickhouse polars R-arrow duckdb duckdb-latest datafusion"
 
+export MACHINE_TYPE="small"
+
 # flag to upgrade tools, used in run.sh on init
 export DO_UPGRADE=false
 # force run, ignore if same version was run already
@@ -16,5 +18,5 @@ export DO_REPORT=true
 export DO_PUBLISH=false
 
 # logging and timing files
-export CSV_LOGS_FILE=logs.csv
-export CSV_TIME_FILE=time.csv
+export CSV_LOGS_FILE="logs_${MACHINE_TYPE}.csv"
+export CSV_TIME_FILE="time_${MACHINE_TYPE}.csv"
diff --git a/run.sh b/run.sh
index 27a7b141..97584d05 100755
--- a/run.sh
+++ b/run.sh
@@ -29,6 +29,13 @@ else
   Rscript -e 'swap_all<-data.table::fread("free -h | grep Swap", header=FALSE)[, -1L][, as.numeric(gsub("[^0-9.]", "", unlist(.SD)))]; swap_off<-!is.na(s<-sum(swap_all)) && s==0; q("no", status=as.numeric(swap_off))' && echo "# Benchmark run $BATCH aborted. swap is enabled, 'free -h' has to report only 0s for Swap, run 'swapoff -a' before calling 'run.sh'" && exit;
 fi
 
+
+if [[ $MACHINE_TYPE != 'small' && $MACHINE_TYPE != 'medium' && $MACHINE_TYPE != 'large' ]]; then
+  echo "Machine type is not valid. Must be \`small\` \`medium\` or \`large\` "
+  exit 1
+fi
+
+
 # ensure directories exists
 mkdir -p ./out
 if [[ ! -d ./data ]]; then echo "# Benchmark run $BATCH aborted. './data' directory does not exists" && exit; fi;

From aef8e50017293b66bca5a6aef740770d083d41ae Mon Sep 17 00:00:00 2001
From: Tmonster <tom@ebergen.com>
Date: Fri, 6 Sep 2024 16:17:21 +0200
Subject: [PATCH 20/31] modify regression benchmark runner

---
 .github/workflows/regression.yml | 16 ++++++++--------
 1 file changed, 8 insertions(+), 8 deletions(-)

diff --git a/.github/workflows/regression.yml b/.github/workflows/regression.yml
index 386a810b..50309f4f 100644
--- a/.github/workflows/regression.yml
+++ b/.github/workflows/regression.yml
@@ -36,7 +36,7 @@ jobs:
 
     - name: Install libraries
       shell: bash
-      run: ./_utils/setup-small.sh
+      run: ./_setup_utils/setup-small.sh
 
     - name: Generate 500mb datasets
       shell: bash
@@ -48,7 +48,7 @@ jobs:
 
     - name: Install all solutions
       shell: bash
-      run: source path.env && python3 _utils/install_all_solutions.py ${{ matrix.solution }}
+      run: source path.env && python3 ./_setup_utils/install_all_solutions.py ${{ matrix.solution }}
 
     - name: Turn swap off
       shell: bash
@@ -68,14 +68,14 @@ jobs:
     - name: Run mini GroupBy benchmark
       shell: bash
       run: |
-        python3 _utils/prep_solutions.py --task=groupby --solution=${{ matrix.solution }}
+        python3 _setup_utils/prep_solutions.py --task=groupby --solution=${{ matrix.solution }}
         source path.env
         TEST_RUN=true TEST_MOUNT_DIR=$GITHUB_WORKSPACE ./run.sh
 
     - name: Run mini Join benchmark
       shell: bash
       run: |
-        python3 _utils/prep_solutions.py --task=join --solution=${{ matrix.solution }}
+        python3 _setup_utils/prep_solutions.py --task=join --solution=${{ matrix.solution }}
         source path.env
         TEST_RUN=true TEST_MOUNT_DIR=$GITHUB_WORKSPACE ./run.sh
 
@@ -123,7 +123,7 @@ jobs:
 
     - name: Install libraries
       shell: bash
-      run: ./_utils/setup-small.sh
+      run: ./_setup_utils/setup-small.sh
 
     - name: Generate 500mb datasets
       shell: bash
@@ -135,7 +135,7 @@ jobs:
 
     - name: Install all solutions
       shell: bash
-      run: source path.env && python3 _utils/install_all_solutions.py all
+      run: source path.env && python3 _setup_utils/install_all_solutions.py all
 
     - name: Turn swap off
       shell: bash
@@ -144,14 +144,14 @@ jobs:
     - name: Run mini GroupBy benchmark
       shell: bash
       run: |
-        python3 _utils/prep_solutions.py --task=groupby --solution=all
+        python3 _setup_utils/prep_solutions.py --task=groupby --solution=all
         source path.env
         TEST_RUN=true TEST_MOUNT_DIR=$GITHUB_WORKSPACE ./run.sh
 
     - name: Run mini Join benchmark
       shell: bash
       run: |
-        python3 _utils/prep_solutions.py --task=join --solution=all
+        python3 _setup_utils/prep_solutions.py --task=join --solution=all
         source path.env
         TEST_RUN=true TEST_MOUNT_DIR=$GITHUB_WORKSPACE ./run.sh
 

From 5b3132125e6683a6bab9fee6d709af968f809ea6 Mon Sep 17 00:00:00 2001
From: Tmonster <tom@ebergen.com>
Date: Fri, 6 Sep 2024 16:21:07 +0200
Subject: [PATCH 21/31] fix some datafusion things

---
 datafusion/groupby-datafusion.py | 2 +-
 datafusion/join-datafusion.py    | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/datafusion/groupby-datafusion.py b/datafusion/groupby-datafusion.py
index 7f7deb65..80f62a60 100755
--- a/datafusion/groupby-datafusion.py
+++ b/datafusion/groupby-datafusion.py
@@ -35,7 +35,7 @@ def ans_shape(batches):
 src_grp = os.path.join("data", data_name + ".csv")
 print("loading dataset %s" % data_name, flush=True)
 
-on_disk = 'TRUE' if float(SRC_DATANAME.replace("G1_", "")[:4]) >= 1e10 else 'FALSE'
+on_disk = 'TRUE' if float(data_name.replace("G1_", "")[:4]) >= 1e10 else 'FALSE'
 
 data = pacsv.read_csv(src_grp, convert_options=pacsv.ConvertOptions(auto_dict_encode=True))
 
diff --git a/datafusion/join-datafusion.py b/datafusion/join-datafusion.py
index 62a72698..ea471559 100755
--- a/datafusion/join-datafusion.py
+++ b/datafusion/join-datafusion.py
@@ -39,7 +39,7 @@ def ans_shape(batches):
   raise Exception("Something went wrong in preparing files used for join")
 
 print("loading datasets " + data_name + ", " + y_data_name[0] + ", " + y_data_name[2] + ", " + y_data_name[2], flush=True)
-on_disk = 'TRUE' if float(SRC_DATANAME.replace("J1_", "")[:4]) >= 1e10 else 'FALSE'
+on_disk = 'TRUE' if float(data_name.replace("J1_", "")[:4]) >= 1e10 else 'FALSE'
 
 
 ctx = df.SessionContext()

From 960c07cf9a16d504589aab51f86a83f84ecf224f Mon Sep 17 00:00:00 2001
From: Tmonster <tom@ebergen.com>
Date: Fri, 6 Sep 2024 16:55:02 +0200
Subject: [PATCH 22/31] datafusion needs better scale factor

---
 datafusion/groupby-datafusion.py | 3 ++-
 datafusion/join-datafusion.py    | 3 ++-
 2 files changed, 4 insertions(+), 2 deletions(-)

diff --git a/datafusion/groupby-datafusion.py b/datafusion/groupby-datafusion.py
index 80f62a60..9d736b93 100755
--- a/datafusion/groupby-datafusion.py
+++ b/datafusion/groupby-datafusion.py
@@ -35,7 +35,8 @@ def ans_shape(batches):
 src_grp = os.path.join("data", data_name + ".csv")
 print("loading dataset %s" % data_name, flush=True)
 
-on_disk = 'TRUE' if float(data_name.replace("G1_", "")[:4]) >= 1e10 else 'FALSE'
+scale_factor = data_name.replace("G1_","")[:4].replace("_", "")
+on_disk = 'TRUE' if float(scale_factor) >= 1e10 else 'FALSE'
 
 data = pacsv.read_csv(src_grp, convert_options=pacsv.ConvertOptions(auto_dict_encode=True))
 
diff --git a/datafusion/join-datafusion.py b/datafusion/join-datafusion.py
index ea471559..b57fe742 100755
--- a/datafusion/join-datafusion.py
+++ b/datafusion/join-datafusion.py
@@ -39,7 +39,8 @@ def ans_shape(batches):
   raise Exception("Something went wrong in preparing files used for join")
 
 print("loading datasets " + data_name + ", " + y_data_name[0] + ", " + y_data_name[2] + ", " + y_data_name[2], flush=True)
-on_disk = 'TRUE' if float(data_name.replace("J1_", "")[:4]) >= 1e10 else 'FALSE'
+scale_factor = data_name.replace("G1_","")[:4].replace("_", "")
+on_disk = 'TRUE' if float(scale_factor) >= 1e10 else 'FALSE'
 
 
 ctx = df.SessionContext()

From 1dce3c658a7717a1bb856ccc6e0a98b2ea871c8c Mon Sep 17 00:00:00 2001
From: Tmonster <tom@ebergen.com>
Date: Fri, 6 Sep 2024 17:05:12 +0200
Subject: [PATCH 23/31] fix datafusion

---
 datafusion/join-datafusion.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/datafusion/join-datafusion.py b/datafusion/join-datafusion.py
index b57fe742..2f4c83d3 100755
--- a/datafusion/join-datafusion.py
+++ b/datafusion/join-datafusion.py
@@ -39,7 +39,7 @@ def ans_shape(batches):
   raise Exception("Something went wrong in preparing files used for join")
 
 print("loading datasets " + data_name + ", " + y_data_name[0] + ", " + y_data_name[2] + ", " + y_data_name[2], flush=True)
-scale_factor = data_name.replace("G1_","")[:4].replace("_", "")
+scale_factor = data_name.replace("J1_","")[:4].replace("_", "")
 on_disk = 'TRUE' if float(scale_factor) >= 1e10 else 'FALSE'
 
 

From 894eeef5ab7ab482e86e62fef405ed6f5b40a19f Mon Sep 17 00:00:00 2001
From: Tmonster <tom@ebergen.com>
Date: Tue, 10 Sep 2024 09:30:27 +0200
Subject: [PATCH 24/31] some more updates to duckdb

---
 _run/run_groupby_xl.sh  | 2 +-
 _run/run_join_xl.sh     | 2 +-
 duckdb/groupby-duckdb.R | 5 +++++
 duckdb/join-duckdb.R    | 5 +++++
 4 files changed, 12 insertions(+), 2 deletions(-)

diff --git a/_run/run_groupby_xl.sh b/_run/run_groupby_xl.sh
index 438a2cc2..7bae1d27 100755
--- a/_run/run_groupby_xl.sh
+++ b/_run/run_groupby_xl.sh
@@ -6,7 +6,7 @@ aws s3 cp s3://duckdb-blobs/data/db-benchmark-data/groupby-500gb.duckdb data/gro
 duckdb data/groupby-500gb.duckdb -c "copy G1_1e10_1e4_10_0 to 'data/G1_1e10_1e4_10_0.csv' (FORMAT CSV)"
 
 
-cp ../_control/data_groupby_xlarge.csv ../_control/data.csv
+cp _control/data_groupby_xlarge.csv _control/data.csv
 
 echo "Running groupby x-large (500GB) datasets"
 ./run.sh
diff --git a/_run/run_join_xl.sh b/_run/run_join_xl.sh
index 9a211705..56e772a6 100755
--- a/_run/run_join_xl.sh
+++ b/_run/run_join_xl.sh
@@ -9,7 +9,7 @@ duckdb data/join-500gb.duckdb  -c "copy medium to 'data/J1_1e7_0_0.csv' (FORMAT
 duckdb data/join-500gb.duckdb  -c "copy small to 'data/J1_1e4_0_0.csv' (FORMAT CSV)"
 
 
-cp ../_control/data_join_xlarge.csv ../_control/data.csv
+cp _control/data_join_xlarge.csv _control/data.csv
 
 echo "Running join x-large (500GB)"
 ./run.sh
diff --git a/duckdb/groupby-duckdb.R b/duckdb/groupby-duckdb.R
index e193dd44..1a2705bc 100755
--- a/duckdb/groupby-duckdb.R
+++ b/duckdb/groupby-duckdb.R
@@ -16,16 +16,21 @@ fun = "group_by"
 cache = TRUE
 
 data_name = Sys.getenv("SRC_DATANAME")
+machine_type = Sys.getenv("MACHINE_TYPE", "large")
 src_grp = file.path("data", paste(data_name, "csv", sep="."))
 cat(sprintf("loading dataset %s\n", data_name))
 
 db_file = sprintf('%s-%s-%s.db', solution, task, data_name)
 
 on_disk = as.numeric(strsplit(data_name, "_", fixed=TRUE)[[1L]][2L])>=1e10
+on_disk = on_disk || (as.numeric(strsplit(data_name, "_", fixed=TRUE)[[1L]][2L])>=1e9 && machine_type == "small")
 uses_NAs = as.numeric(strsplit(data_name, "_", fixed=TRUE)[[1L]][4L])>0
 if (on_disk) {
   print("using disk memory-mapped data storage")
   con = dbConnect(duckdb::duckdb(), dbdir=db_file)
+  if (machine_type == "small") {
+    invisible(dbExecute(con, "pragma memory_limit='50GB'"))
+  }
 } else {
   print("using in-memory data storage")
   con = dbConnect(duckdb::duckdb())
diff --git a/duckdb/join-duckdb.R b/duckdb/join-duckdb.R
index 7da2f26e..afa4af1e 100755
--- a/duckdb/join-duckdb.R
+++ b/duckdb/join-duckdb.R
@@ -15,6 +15,7 @@ solution = "duckdb"
 cache = TRUE
 
 data_name = Sys.getenv("SRC_DATANAME")
+machine_type = Sys.getenv("MACHINE_TYPE", "large")
 src_jn_x = file.path("data", paste(data_name, "csv", sep="."))
 y_data_name = join_to_tbls(data_name)
 src_jn_y = setNames(file.path("data", paste(y_data_name, "csv", sep=".")), names(y_data_name))
@@ -23,6 +24,7 @@ cat(sprintf("loading datasets %s\n", paste(c(data_name, y_data_name), collapse="
 
 duckdb_join_db = sprintf('%s_%s_%s.db', solution, task, data_name)
 on_disk = as.numeric(strsplit(data_name, "_", fixed=TRUE)[[1L]][2L])>=1e9
+
 less_cores = as.numeric(strsplit("J1_1e7_NA_0_0", "_", fixed=TRUE)[[1L]][2L])<=1e7
 
 uses_NAs = as.numeric(strsplit(data_name, "_", fixed=TRUE)[[1L]][4L])>0
@@ -30,6 +32,9 @@ uses_NAs = as.numeric(strsplit(data_name, "_", fixed=TRUE)[[1L]][4L])>0
 if (on_disk) {
   print("using disk memory-mapped data storage")
   con = dbConnect(duckdb::duckdb(), dbdir=duckdb_join_db)
+  if (machine_type == "small") {
+    invisible(dbExecute(con, "pragma memory_limit='50GB'"))
+  }
 } else {
   print("using in-memory data storage")
   con = dbConnect(duckdb::duckdb())

From 293d5d01bfcda38e49cd82acb6ce2ecb03208388 Mon Sep 17 00:00:00 2001
From: Tmonster <tom@ebergen.com>
Date: Tue, 10 Sep 2024 09:57:13 +0200
Subject: [PATCH 25/31] typo

---
 _setup_utils/mount_and_install_solutions.sh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/_setup_utils/mount_and_install_solutions.sh b/_setup_utils/mount_and_install_solutions.sh
index 75248446..54166e27 100755
--- a/_setup_utils/mount_and_install_solutions.sh
+++ b/_setup_utils/mount_and_install_solutions.sh
@@ -5,7 +5,7 @@
 # setup all the solutions on db-benchmark-metal.
 # creates the necessary python virtual environments and creates the r-libraries
 # needed
-cd ~/db-benchmark-meta && source path.env && python3 _setup_utils/install_all_solutions.py all
+cd ~/db-benchmark-metal && source path.env && python3 _setup_utils/install_all_solutions.py all
 
 
 

From a3cba57eef6d25a67cf50bbcb76b7d3bda39deb5 Mon Sep 17 00:00:00 2001
From: Tmonster <tom@ebergen.com>
Date: Thu, 12 Sep 2024 10:41:53 +0200
Subject: [PATCH 26/31] fix merge conflicts

---
 _report/index.Rmd | 128 +++++++++++++++++++++++++++++++---------------
 1 file changed, 86 insertions(+), 42 deletions(-)

diff --git a/_report/index.Rmd b/_report/index.Rmd
index def85cbf..8725e559 100644
--- a/_report/index.Rmd
+++ b/_report/index.Rmd
@@ -97,83 +97,129 @@ loop_benchplot(dt_join, report_name="join", syntax.dict=join.syntax.dict, except
 ```
 
 
-## Task {.tabset .tabset-fade .tabset-pills}
+## Machine Type {.tabset .tabset-fade .tabset-pills}
 
-### groupby {.tabset .tabset-fade .tabset-pills}
+### Small (32 cores / 64GB memory)
 
-#### 0.5 GB
+#### Task {.tabset .tabset-fade .tabset-pills}
 
-##### **basic questions**
+##### groupby {.tabset .tabset-fade .tabset-pills}
 
-![](./groupby/G1_1e7_1e2_0_0_basic.png)
+###### 0.5 GB
 
-##### **advanced questions**
+####### **basic questions**
 
-![](./groupby/G1_1e7_1e2_0_0_advanced.png)
+![](./groupby/G1_1e7_1e2_0_0_basic_small.png)
 
-#### 5 GB
+####### **advanced questions**
 
-##### **basic questions**
+![](./groupby/G1_1e7_1e2_0_0_advanced_small.png)
 
-![](./groupby/G1_1e8_1e2_0_0_basic.png)
+###### 5 GB
 
-##### **advanced questions**
+####### **basic questions**
 
-![](./groupby/G1_1e8_1e2_0_0_advanced.png)
+![](./groupby/G1_1e8_1e2_0_0_basic_small.png)
 
-#### 50 GB
+####### **advanced questions**
 
-##### **basic questions**
+![](./groupby/G1_1e8_1e2_0_0_advanced_small.png)
 
-![](./groupby/G1_1e9_1e2_0_0_basic.png)
+###### 50 GB {.active}
 
-##### **advanced questions**
+####### **basic questions**
 
-![](./groupby/G1_1e9_1e2_0_0_advanced.png)
+![](./groupby/G1_1e9_1e2_0_0_basic_small.png)
 
-#### 500 GB {.active}
+####### **advanced questions**
 
-##### **basic questions**
+![](./groupby/G1_1e9_1e2_0_0_advanced_small.png)
 
-![](./groupby/G1_1e10_1e4_10_0_basic.png)
+###### 500 GB
 
-##### **advanced questions**
+####### **basic questions**
 
-![](./groupby/G1_1e10_1e4_10_0_advanced.png)
+![](./groupby/G1_1e10_1e4_10_0_basic_small.png)
 
+####### **advanced questions**
 
-### join {.tabset .tabset-fade .tabset-pills}
+![](./groupby/G1_1e10_1e4_0_0_advanced_small.png)
 
-#### 0.5 GB
+##### join {.tabset .tabset-fade .tabset-pills}
 
-##### **basic questions**
+###### 0.5 GB
 
-![](./join/J1_1e7_NA_0_0_basic.png)
+####### **basic questions**
 
-<!--
-##### **advanced questions**
+![](./join/J1_1e7_NA_0_0_basic_small.png)
 
-![](./join/J1_1e7_NA_0_0_advanced.png)
--->
+###### 5 GB {.active}
 
-#### 5 GB 
+####### **basic questions**
 
-##### **basic questions**
+![](./join/J1_1e8_NA_0_0_basic_small.png)
 
-![](./join/J1_1e8_NA_0_0_basic.png)
+###### 50 GB
 
+####### **basic questions**
 
-<!--
-##### **advanced questions**
+![](./join/J1_1e9_NA_0_0_basic_small.png)
 
-![](./join/J1_1e8_NA_0_0_advanced.png)
--->
+### X-Large (128 cores / 256GB memory)
 
-#### 50 GB {.active}
+#### Task {.tabset .tabset-fade .tabset-pills}
 
-##### **basic questions**
+##### groupby {.tabset .tabset-fade .tabset-pills}
+
+###### 0.5 GB
+
+####### **basic questions**
+
+![](./groupby/G1_1e7_1e2_0_0_basic_xlarge.png)
+
+####### **advanced questions**
 
-![](./join/J1_1e9_NA_0_0_basic.png)
+![](./groupby/G1_1e7_1e2_0_0_advanced_xlarge.png)
+
+###### 5 GB
+
+####### **basic questions**
+
+![](./groupby/G1_1e8_1e2_0_0_basic_xlarge.png)
+
+####### **advanced questions**
+
+![](./groupby/G1_1e8_1e2_0_0_advanced_xlarge.png)
+
+###### 50 GB {.active}
+
+####### **basic questions**
+
+![](./groupby/G1_1e9_1e2_0_0_basic_xlarge.png)
+
+####### **advanced questions**
+
+![](./groupby/G1_1e9_1e2_0_0_advanced_xlarge.png)
+
+##### join {.tabset .tabset-fade .tabset-pills}
+
+###### 0.5 GB
+
+####### **basic questions**
+
+![](./join/J1_1e7_NA_0_0_basic_xlarge.png)
+
+###### 5 GB {.active}
+
+####### **basic questions**
+
+![](./join/J1_1e8_NA_0_0_basic_xlarge.png)
+
+###### 50 GB
+
+####### **basic questions**
+
+![](./join/J1_1e9_NA_0_0_basic_xlarge.png)
 
 #### 500 GB
 
@@ -183,8 +229,6 @@ loop_benchplot(dt_join, report_name="join", syntax.dict=join.syntax.dict, except
 
 <!--
 ##### **advanced questions**
-
-![](./join/J1_1e9_NA_0_0_advanced.png)
 -->
 
 ---

From a6dbf35a491a4859d36abb5af943a2c196688a01 Mon Sep 17 00:00:00 2001
From: Tmonster <tom@ebergen.com>
Date: Thu, 12 Sep 2024 10:55:33 +0200
Subject: [PATCH 27/31] add new line to path.env

---
 path.env | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/path.env b/path.env
index 86335799..d4368ee1 100644
--- a/path.env
+++ b/path.env
@@ -1,4 +1,4 @@
 export JULIA_HOME=/opt/julia-1.9.2
 export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
 export PATH=$PATH:$JULIA_HOME/bin
-export MOUNT_POINT=$HOME/db-benchmark-metal
\ No newline at end of file
+export MOUNT_POINT=$HOME/db-benchmark-metal

From 7563d4a2ad6a0cb1609049429f69acdb1d428e14 Mon Sep 17 00:00:00 2001
From: Tmonster <tom@ebergen.com>
Date: Thu, 12 Sep 2024 14:55:16 +0200
Subject: [PATCH 28/31] add datafusion ability to go off disk

---
 datafusion/groupby-datafusion.py |  8 ++++++++
 datafusion/join-datafusion.py    | 10 ++++++++++
 2 files changed, 18 insertions(+)

diff --git a/datafusion/groupby-datafusion.py b/datafusion/groupby-datafusion.py
index 9d736b93..ee399376 100755
--- a/datafusion/groupby-datafusion.py
+++ b/datafusion/groupby-datafusion.py
@@ -32,6 +32,7 @@ def ans_shape(batches):
 on_disk = "FALSE"
 
 data_name = os.environ["SRC_DATANAME"]
+mount_point = os.environ["MOUNT_POINT"]
 src_grp = os.path.join("data", data_name + ".csv")
 print("loading dataset %s" % data_name, flush=True)
 
@@ -40,7 +41,14 @@ def ans_shape(batches):
 
 data = pacsv.read_csv(src_grp, convert_options=pacsv.ConvertOptions(auto_dict_encode=True))
 
+
 ctx = df.SessionContext()
+if on_disk:
+    runtime = df.RuntimeConfig().with_temp_file_path(f"{mount_point}/datafusion/")
+    config = (df.SessionConfig())
+    ctx = df.SessionContext(config, runtime)
+
+
 ctx.register_record_batches("x", [data.to_batches()])
 
 in_rows = data.num_rows
diff --git a/datafusion/join-datafusion.py b/datafusion/join-datafusion.py
index 2f4c83d3..d81dfad8 100755
--- a/datafusion/join-datafusion.py
+++ b/datafusion/join-datafusion.py
@@ -32,6 +32,9 @@ def ans_shape(batches):
 on_disk = "FALSE"
 
 data_name = os.environ["SRC_DATANAME"]
+machine_type = os.environ["MACHINE_TYPE"]
+mount_point = os.environ["MOUNT_POINT"]
+
 src_jn_x = os.path.join("data", data_name + ".csv")
 y_data_name = join_to_tbls(data_name)
 src_jn_y = [os.path.join("data", y_data_name[0] + ".csv"), os.path.join("data", y_data_name[1] + ".csv"), os.path.join("data", y_data_name[2] + ".csv")]
@@ -41,10 +44,17 @@ def ans_shape(batches):
 print("loading datasets " + data_name + ", " + y_data_name[0] + ", " + y_data_name[2] + ", " + y_data_name[2], flush=True)
 scale_factor = data_name.replace("J1_","")[:4].replace("_", "")
 on_disk = 'TRUE' if float(scale_factor) >= 1e10 else 'FALSE'
+on_disk = 'TRUE' if machine_type == 'small' else 'FALSE'
 
 
 ctx = df.SessionContext()
 
+if on_disk:
+    runtime = df.RuntimeConfig().with_temp_file_path(f"{mount_point}/datafusion/")
+    config = (df.SessionConfig())
+    ctx = df.SessionContext(config, runtime)
+
+
 x_data = pacsv.read_csv(src_jn_x, convert_options=pacsv.ConvertOptions(auto_dict_encode=True))
 ctx.register_record_batches("x", [x_data.to_batches()])
 small_data = pacsv.read_csv(src_jn_y[0], convert_options=pacsv.ConvertOptions(auto_dict_encode=True))

From 0b0e43f07d8b75740382770f1fb84703bc1d3e9a Mon Sep 17 00:00:00 2001
From: Tmonster <tom@ebergen.com>
Date: Fri, 13 Sep 2024 10:40:42 +0200
Subject: [PATCH 29/31] some updates

---
 collapse/groupby-collapse.R |  2 ++
 collapse/join-collapse.R    |  4 ++++
 dask/setup-dask.sh          |  2 +-
 duckdb/join-duckdb.R        | 28 ++++++++++++++++------------
 polars/groupby-polars.py    |  2 ++
 polars/join-polars.py       |  2 ++
 6 files changed, 27 insertions(+), 13 deletions(-)

diff --git a/collapse/groupby-collapse.R b/collapse/groupby-collapse.R
index 9cdc09b4..4e0e2b5d 100755
--- a/collapse/groupby-collapse.R
+++ b/collapse/groupby-collapse.R
@@ -15,10 +15,12 @@ fun = "group_by"
 cache = TRUE
 
 data_name = Sys.getenv("SRC_DATANAME")
+machine_type = Sys.getenv("MACHINE_TYPE")
 src_grp = file.path("data", paste(data_name, "csv", sep="."))
 cat(sprintf("loading dataset %s\n", data_name))
 
 on_disk = as.numeric(strsplit(data_name, "_", fixed=TRUE)[[1L]][2L])>=1e10
+on_disk = on_disk || (machine_type == "small" && as.numeric(strsplit(data_name, "_", fixed=TRUE)[[1L]][2L])>=1e9)
 
 x = data.table::fread(src_grp, showProgress=FALSE, stringsAsFactors=TRUE, na.strings="", data.table=FALSE)
 print(nrow(x))
diff --git a/collapse/join-collapse.R b/collapse/join-collapse.R
index 534cbe83..c0b4feb8 100755
--- a/collapse/join-collapse.R
+++ b/collapse/join-collapse.R
@@ -15,12 +15,16 @@ cache = TRUE
 on_disk = FALSE
 
 data_name = Sys.getenv("SRC_DATANAME")
+machine_type = Sys.getenv("MACHINE_TYPE")
 src_jn_x = file.path("data", paste(data_name, "csv", sep="."))
 y_data_name = join_to_tbls(data_name)
 src_jn_y = setNames(file.path("data", paste(y_data_name, "csv", sep=".")), names(y_data_name))
 stopifnot(length(src_jn_y)==3L)
 cat(sprintf("loading datasets %s\n", paste(c(data_name, y_data_name), collapse=", ")))
 
+on_disk = as.numeric(strsplit(data_name, "_", fixed=TRUE)[[1L]][2L])>=1e10
+on_disk = on_disk || (machine_type == "small" && as.numeric(strsplit(data_name, "_", fixed=TRUE)[[1L]][2L])>=1e9)
+
 x = data.table::fread(src_jn_x, showProgress=FALSE, stringsAsFactors=TRUE, data.table=FALSE, na.strings="")
 data.table::setDF(x)
 JN = lapply(sapply(simplify=FALSE, src_jn_y, data.table::fread, showProgress=FALSE, stringsAsFactors=TRUE, data.table=FALSE, na.strings=""), as.data.frame)
diff --git a/dask/setup-dask.sh b/dask/setup-dask.sh
index c6fac985..3c24ab07 100755
--- a/dask/setup-dask.sh
+++ b/dask/setup-dask.sh
@@ -1,7 +1,7 @@
 #!/bin/bash
 set -e
 
-virtualenv dask/py-dask --python=python3.10
+virtualenv dask/py-dask --python=python3.12
 source dask/py-dask/bin/activate
 
 # install binaries
diff --git a/duckdb/join-duckdb.R b/duckdb/join-duckdb.R
index afa4af1e..644c0554 100755
--- a/duckdb/join-duckdb.R
+++ b/duckdb/join-duckdb.R
@@ -33,7 +33,7 @@ if (on_disk) {
   print("using disk memory-mapped data storage")
   con = dbConnect(duckdb::duckdb(), dbdir=duckdb_join_db)
   if (machine_type == "small") {
-    invisible(dbExecute(con, "pragma memory_limit='50GB'"))
+    invisible(dbExecute(con, "pragma memory_limit='40GB'"))
   }
 } else {
   print("using in-memory data storage")
@@ -46,7 +46,6 @@ if (less_cores) {
 }
 
 invisible(dbExecute(con, sprintf("PRAGMA THREADS=%d", ncores)))
-invisible(dbExecute(con, "SET memory_limit='220GB'"))
 git = dbGetQuery(con, "SELECT source_id FROM pragma_version()")[[1L]]
 
 invisible({
@@ -103,8 +102,13 @@ question = "small inner on int" # q1
 fun = "inner_join"
 
 
+table_type = ""
+if (on_disk) {
+  table_type = "TEMP"
+}
+
 t = system.time({
-  dbExecute(con, "CREATE TEMP TABLE ans AS SELECT x.*, small.id4 AS small_id4, v2 FROM x JOIN small USING (id1)")
+  dbExecute(con, sprintf("CREATE %s TABLE ans AS SELECT x.*, small.id4 AS small_id4, v2 FROM x JOIN small USING (id1)", table_type))
   print(c(nr<-dbGetQuery(con, "SELECT count(*) AS cnt FROM ans")$cnt, nc<-ncol(dbGetQuery(con, "SELECT * FROM ans LIMIT 0"))))
 })[["elapsed"]]
 m = memory_usage()
@@ -112,7 +116,7 @@ chkt = system.time(chk<-dbGetQuery(con, "SELECT SUM(v1) AS v1, SUM(v2) AS v2 FRO
 write.log(run=1L, task=task, data=data_name, in_rows=in_nr, question=question, out_rows=nr, out_cols=nc, solution=solution, version=ver, git=git, fun=fun, time_sec=t, mem_gb=m, cache=cache, chk=make_chk(chk), chk_time_sec=chkt, on_disk=on_disk)
 invisible(dbExecute(con, "DROP TABLE IF EXISTS ans"))
 t = system.time({
-  dbExecute(con, "CREATE TEMP TABLE ans AS SELECT x.*, small.id4 AS small_id4, v2 FROM x JOIN small USING (id1)")
+  dbExecute(con, sprintf("CREATE %s TABLE ans AS SELECT x.*, small.id4 AS small_id4, v2 FROM x JOIN small USING (id1)", table_type))
   print(c(nr<-dbGetQuery(con, "SELECT count(*) AS cnt FROM ans")$cnt, nc<-ncol(dbGetQuery(con, "SELECT * FROM ans LIMIT 0"))))
 })[["elapsed"]]
 m = memory_usage()
@@ -127,7 +131,7 @@ fun = "inner_join"
 
 
 t = system.time({
-  dbExecute(con, "CREATE TEMP TABLE ans AS SELECT x.*, medium.id1 AS medium_id1, medium.id4 AS medium_id4, medium.id5 AS medium_id5, v2 FROM x JOIN medium USING (id2)")
+  dbExecute(con, sprintf("CREATE %s TABLE ans AS SELECT x.*, medium.id1 AS medium_id1, medium.id4 AS medium_id4, medium.id5 AS medium_id5, v2 FROM x JOIN medium USING (id2)", table_type))
   print(c(nr<-dbGetQuery(con, "SELECT count(*) AS cnt FROM ans")$cnt, nc<-ncol(dbGetQuery(con, "SELECT * FROM ans LIMIT 0"))))
 })[["elapsed"]]
 m = memory_usage()
@@ -135,7 +139,7 @@ chkt = system.time(chk<-dbGetQuery(con, "SELECT SUM(v1) AS v1, SUM(v2) AS v2 FRO
 write.log(run=1L, task=task, data=data_name, in_rows=in_nr, question=question, out_rows=nr, out_cols=nc, solution=solution, version=ver, git=git, fun=fun, time_sec=t, mem_gb=m, cache=cache, chk=make_chk(chk), chk_time_sec=chkt, on_disk=on_disk)
 invisible(dbExecute(con, "DROP TABLE IF EXISTS ans"))
 t = system.time({
-  dbExecute(con, "CREATE TEMP TABLE ans AS SELECT x.*, medium.id1 AS medium_id1, medium.id4 AS medium_id4, medium.id5 AS medium_id5, v2 FROM x JOIN medium USING (id2)")
+  dbExecute(con, sprintf("CREATE %s TABLE ans AS SELECT x.*, medium.id1 AS medium_id1, medium.id4 AS medium_id4, medium.id5 AS medium_id5, v2 FROM x JOIN medium USING (id2)", table_type))
   print(c(nr<-dbGetQuery(con, "SELECT count(*) AS cnt FROM ans")$cnt, nc<-ncol(dbGetQuery(con, "SELECT * FROM ans LIMIT 0"))))
 })[["elapsed"]]
 m = memory_usage()
@@ -149,7 +153,7 @@ question = "medium outer on int" # q3
 fun = "left_join"
 
 t = system.time({
-  dbExecute(con, "CREATE TEMP TABLE ans AS SELECT x.*, medium.id1 AS medium_id1, medium.id4 AS medium_id4, medium.id5 AS medium_id5, v2 FROM x LEFT JOIN medium USING (id2)")
+  dbExecute(con, sprintf("CREATE %s TABLE ans AS SELECT x.*, medium.id1 AS medium_id1, medium.id4 AS medium_id4, medium.id5 AS medium_id5, v2 FROM x LEFT JOIN medium USING (id2)", table_type))
   print(c(nr<-dbGetQuery(con, "SELECT count(*) AS cnt FROM ans")$cnt, nc<-ncol(dbGetQuery(con, "SELECT * FROM ans LIMIT 0"))))
 })[["elapsed"]]
 m = memory_usage()
@@ -157,7 +161,7 @@ chkt = system.time(chk<-dbGetQuery(con, "SELECT SUM(v1) AS v1, SUM(v2) AS v2 FRO
 write.log(run=1L, task=task, data=data_name, in_rows=in_nr, question=question, out_rows=nr, out_cols=nc, solution=solution, version=ver, git=git, fun=fun, time_sec=t, mem_gb=m, cache=cache, chk=make_chk(chk), chk_time_sec=chkt, on_disk=on_disk)
 invisible(dbExecute(con, "DROP TABLE IF EXISTS ans"))
 t = system.time({
-  dbExecute(con, "CREATE TEMP TABLE ans AS SELECT x.*, medium.id1 AS medium_id1, medium.id4 AS medium_id4, medium.id5 AS medium_id5, v2 FROM x LEFT JOIN medium USING (id2)")
+  dbExecute(con, sprintf("CREATE %s TABLE ans AS SELECT x.*, medium.id1 AS medium_id1, medium.id4 AS medium_id4, medium.id5 AS medium_id5, v2 FROM x LEFT JOIN medium USING (id2)", table_type))
   print(c(nr<-dbGetQuery(con, "SELECT count(*) AS cnt FROM ans")$cnt, nc<-ncol(dbGetQuery(con, "SELECT * FROM ans LIMIT 0"))))
 })[["elapsed"]]
 m = memory_usage()
@@ -171,7 +175,7 @@ question = "medium inner on factor" # q4
 fun = "inner_join"
 
 t = system.time({
-  dbExecute(con, "CREATE TEMP TABLE ans AS SELECT x.*, medium.id1 AS medium_id1, medium.id2 AS medium_id2, medium.id4 AS medium_id4, v2 FROM x JOIN medium USING (id5)")
+  dbExecute(con, sprintf("CREATE %s TABLE ans AS SELECT x.*, medium.id1 AS medium_id1, medium.id2 AS medium_id2, medium.id4 AS medium_id4, v2 FROM x JOIN medium USING (id5)", table_type))
   print(c(nr<-dbGetQuery(con, "SELECT count(*) AS cnt FROM ans")$cnt, nc<-ncol(dbGetQuery(con, "SELECT * FROM ans LIMIT 0"))))
 })[["elapsed"]]
 m = memory_usage()
@@ -179,7 +183,7 @@ chkt = system.time(chk<-dbGetQuery(con, "SELECT SUM(v1) AS v1, SUM(v2) AS v2 FRO
 write.log(run=1L, task=task, data=data_name, in_rows=in_nr, question=question, out_rows=nr, out_cols=nc, solution=solution, version=ver, git=git, fun=fun, time_sec=t, mem_gb=m, cache=cache, chk=make_chk(chk), chk_time_sec=chkt, on_disk=on_disk)
 invisible(dbExecute(con, "DROP TABLE IF EXISTS ans"))
 t = system.time({
-  dbExecute(con, "CREATE TEMP TABLE ans AS SELECT x.*, medium.id1 AS medium_id1, medium.id2 AS medium_id2, medium.id4 AS medium_id4, v2 FROM x JOIN medium USING (id5)")
+  dbExecute(con, sprintf("CREATE %s TABLE ans AS SELECT x.*, medium.id1 AS medium_id1, medium.id2 AS medium_id2, medium.id4 AS medium_id4, v2 FROM x JOIN medium USING (id5)", table_type))
   print(c(nr<-dbGetQuery(con, "SELECT count(*) AS cnt FROM ans")$cnt, nc<-ncol(dbGetQuery(con, "SELECT * FROM ans LIMIT 0"))))
 })[["elapsed"]]
 m = memory_usage()
@@ -193,7 +197,7 @@ question = "big inner on int" # q5
 fun = "inner_join"
 
 t = system.time({
-  dbExecute(con, "CREATE TEMP TABLE ans AS SELECT x.*, big.id1 AS big_id1, big.id2 AS big_id2, big.id4 AS big_id4, big.id5 AS big_id5, big.id6 AS big_id6, v2 FROM x JOIN big USING (id3)")
+  dbExecute(con, sprintf("CREATE %s TABLE ans AS SELECT x.*, big.id1 AS big_id1, big.id2 AS big_id2, big.id4 AS big_id4, big.id5 AS big_id5, big.id6 AS big_id6, v2 FROM x JOIN big USING (id3)", table_type))
   print(c(nr<-dbGetQuery(con, "SELECT count(*) AS cnt FROM ans")$cnt, nc<-ncol(dbGetQuery(con, "SELECT * FROM ans LIMIT 0"))))
 })[["elapsed"]]
 m = memory_usage()
@@ -201,7 +205,7 @@ chkt = system.time(chk<-dbGetQuery(con, "SELECT SUM(v1) AS v1, SUM(v2) AS v2 FRO
 write.log(run=1L, task=task, data=data_name, in_rows=in_nr, question=question, out_rows=nr, out_cols=nc, solution=solution, version=ver, git=git, fun=fun, time_sec=t, mem_gb=m, cache=cache, chk=make_chk(chk), chk_time_sec=chkt, on_disk=on_disk)
 invisible(dbExecute(con, "DROP TABLE IF EXISTS ans"))
 t = system.time({
-  dbExecute(con, "CREATE TEMP TABLE ans AS SELECT x.*, big.id1 AS big_id1, big.id2 AS big_id2, big.id4 AS big_id4, big.id5 AS big_id5, big.id6 AS big_id6, v2 FROM x JOIN big USING (id3)")
+  dbExecute(con, sprintf("CREATE %s TABLE ans AS SELECT x.*, big.id1 AS big_id1, big.id2 AS big_id2, big.id4 AS big_id4, big.id5 AS big_id5, big.id6 AS big_id6, v2 FROM x JOIN big USING (id3)", table_type))
   print(c(nr<-dbGetQuery(con, "SELECT count(*) AS cnt FROM ans")$cnt, nc<-ncol(dbGetQuery(con, "SELECT * FROM ans LIMIT 0"))))
 })[["elapsed"]]
 m = memory_usage()
diff --git a/polars/groupby-polars.py b/polars/groupby-polars.py
index df60d489..e5ee24d7 100755
--- a/polars/groupby-polars.py
+++ b/polars/groupby-polars.py
@@ -20,6 +20,7 @@
 
 mount_point = os.environ["MOUNT_POINT"]
 data_name = os.environ["SRC_DATANAME"]
+machine_type = os.environ["MACHINE_TYPE"]
 src_grp = os.path.join("data", data_name + ".csv")
 print("loading dataset %s" % data_name, flush=True)
 
@@ -29,6 +30,7 @@
 
 scale_factor = data_name.replace("G1_","")[:4].replace("_", "")
 on_disk = 'TRUE' if float(scale_factor) >= 1e10 else 'FALSE'
+on_disk = 'TRUE' if on_disk or (machine_type == "small" and float(scale_factor) >= 1e9) else 'FALSE'
 
 in_rows = x.shape[0]
 x.write_ipc(f"{mount_point}/polars/tmp.ipc")
diff --git a/polars/join-polars.py b/polars/join-polars.py
index dd50fcc1..cf3e7d16 100755
--- a/polars/join-polars.py
+++ b/polars/join-polars.py
@@ -18,6 +18,7 @@
 on_disk = "FALSE"
 
 data_name = os.environ["SRC_DATANAME"]
+machine_type = os.environ["MACHINE_TYPE"]
 src_jn_x = os.path.join("data", data_name + ".csv")
 y_data_name = join_to_tbls(data_name)
 src_jn_y = [os.path.join("data", y_data_name[0] + ".csv"), os.path.join("data", y_data_name[1] + ".csv"), os.path.join("data", y_data_name[2] + ".csv")]
@@ -27,6 +28,7 @@
 
 scale_factor = data_name.replace("J1_","")[:4].replace("_", "")
 on_disk = 'TRUE' if float(scale_factor) >= 1e10 else 'FALSE'
+on_disk = 'TRUE' if on_disk or (machine_type == "small" and float(scale_factor) >= 1e9) else 'FALSE'
 
 print("loading datasets " + data_name + ", " + y_data_name[0] + ", " + y_data_name[2] + ", " + y_data_name[2], flush=True)
 

From 31c1f298aa61c74cd6b9bf2c55ffd715fa1f2309 Mon Sep 17 00:00:00 2001
From: Tmonster <tom@ebergen.com>
Date: Wed, 18 Sep 2024 10:24:05 +0200
Subject: [PATCH 30/31] remove code to run 500GB join.

---
 _control/data.csv             |  5 ++---
 _run/partitioned_run.sh       | 17 -----------------
 _run/run_join_xl.sh           | 23 -----------------------
 _utils/download_data.sh       | 31 -------------------------------
 collapse/groupby-collapse.R   |  2 --
 collapse/join-collapse.R      |  2 --
 datafusion/join-datafusion.py |  2 --
 duckdb/groupby-duckdb.R       |  5 -----
 duckdb/join-duckdb.R          |  4 ----
 polars/groupby-polars.py      |  2 --
 polars/join-polars.py         |  4 ----
 run.conf                      |  6 ++----
 run.sh                        |  5 -----
 13 files changed, 4 insertions(+), 104 deletions(-)
 delete mode 100755 _run/run_join_xl.sh
 delete mode 100644 _utils/download_data.sh

diff --git a/_control/data.csv b/_control/data.csv
index 4a874f63..864104d9 100644
--- a/_control/data.csv
+++ b/_control/data.csv
@@ -14,12 +14,11 @@ groupby,G1_1e9_1e1_0_0,1e9,1e1,0,0,1
 groupby,G1_1e9_2e0_0_0,1e9,2e0,0,0,1
 groupby,G1_1e9_1e2_0_1,1e9,1e2,0,1,1
 groupby,G1_1e9_1e2_5_0,1e9,1e2,5,0,1
-groupby,G1_1e10_1e4_10_0,1e10,1e4,10,0,1 
+groupby,G1_1e10_1e4_10_0,1e10,1e4,10,0,1
 join,J1_1e7_NA_0_0,1e7,NA,0,0,1
 join,J1_1e7_NA_5_0,1e7,NA,5,0,1
 join,J1_1e7_NA_0_1,1e7,NA,0,1,1
 join,J1_1e8_NA_0_0,1e8,NA,0,0,1
 join,J1_1e8_NA_5_0,1e8,NA,5,0,1
 join,J1_1e8_NA_0_1,1e8,NA,0,1,1
-join,J1_1e9_NA_0_0,1e9,NA,0,0,1
-join,J1_1e10_NA_0_0,1e10,NA,0,0,1
\ No newline at end of file
+join,J1_1e9_NA_0_0,1e9,NA,0,0,1
\ No newline at end of file
diff --git a/_run/partitioned_run.sh b/_run/partitioned_run.sh
index 9675d644..f29ba9b5 100644
--- a/_run/partitioned_run.sh
+++ b/_run/partitioned_run.sh
@@ -5,22 +5,5 @@
 
 ./_run/run_groupby_xl.sh
 
-./_run/run_join_xl.sh
-
-
-# rename the png files to reflect the machine type that
-# benchmark was run on.
-for f in public/groupby/*; do 
-    ext=".png"; 
-    [[ $f =~ \. ]];
-    mv "$f" "${f%%.*}"_$MACHINE_TYPE$ext; 
-done
-for f in public/join/*; do 
-    ext=".png"; 
-    [[ $f =~ \. ]];
-    mv "$f" "${f%%.*}"_$MACHINE_TYPE$ext; 
-done
-
-
 
 # call code to rename images
\ No newline at end of file
diff --git a/_run/run_join_xl.sh b/_run/run_join_xl.sh
deleted file mode 100755
index 56e772a6..00000000
--- a/_run/run_join_xl.sh
+++ /dev/null
@@ -1,23 +0,0 @@
-# get join large (500GB dataset)
-aws s3 cp s3://duckdb-blobs/data/db-benchmark-data/join-500gb.duckdb data/join-500gb.duckdb
-
-
-# expand groupby-small datasets to csv
-duckdb data/join-500gb.duckdb  -c "copy x to 'data/J1_NA_0_0.csv' (FORMAT CSV)"
-duckdb data/join-500gb.duckdb  -c "copy big to 'data/J1_1e10_0_0.csv' (FORMAT CSV)"
-duckdb data/join-500gb.duckdb  -c "copy medium to 'data/J1_1e7_0_0.csv' (FORMAT CSV)"
-duckdb data/join-500gb.duckdb  -c "copy small to 'data/J1_1e4_0_0.csv' (FORMAT CSV)"
-
-
-cp _control/data_join_xlarge.csv _control/data.csv
-
-echo "Running join x-large (500GB)"
-./run.sh
-
-###
-echo "done..."
-echo "removing data files"
-rm data/*.csv
-rm data/*.duckdb
-
-
diff --git a/_utils/download_data.sh b/_utils/download_data.sh
deleted file mode 100644
index f011ad9a..00000000
--- a/_utils/download_data.sh
+++ /dev/null
@@ -1,31 +0,0 @@
-
-# get small data
-wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/groupby_small.duckdb
-~/duckdb groupby_small.duckdb -c "copy G1_1e7_1e2_0_0 to 'G1_1e7_1e2_0_0.csv' (FORMAT CSV)"
-~/duckdb groupby_small.duckdb -c "copy G1_1e7_1e1_0_0 to 'G1_1e7_1e1_0_0.csv' (FORMAT CSV)"
-~/duckdb groupby_small.duckdb -c "copy G1_1e7_2e0_0_0 to 'G1_1e7_2e0_0_0.csv' (FORMAT CSV)"
-~/duckdb groupby_small.duckdb -c "copy G1_1e7_1e2_0_1 to 'G1_1e7_1e2_0_1.csv' (FORMAT CSV)"
-~/duckdb groupby_small.duckdb -c "copy G1_1e7_1e2_5_0 to 'G1_1e7_1e2_5_0.csv' (FORMAT CSV)"
-~/duckdb groupby_small.duckdb -c "copy G1_1e8_1e2_0_0 to 'G1_1e8_1e2_0_0.csv' (FORMAT CSV)"
-~/duckdb groupby_small.duckdb -c "copy G1_1e8_1e1_0_0 to 'G1_1e8_1e1_0_0.csv' (FORMAT CSV)"
-~/duckdb groupby_small.duckdb -c "copy G1_1e8_2e0_0_0 to 'G1_1e8_2e0_0_0.csv' (FORMAT CSV)"
-~/duckdb groupby_small.duckdb -c "copy G1_1e8_1e2_0_1 to 'G1_1e8_1e2_0_1.csv' (FORMAT CSV)"
-~/duckdb groupby_small.duckdb -c "copy G1_1e8_1e2_5_0 to 'G1_1e8_1e2_5_0.csv' (FORMAT CSV)"
-
-wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join_small.duckdb
-
-# get large data
-wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join_large.duckdb
-
-wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/groupby_large.duckdb
-~/duckdb -c "copy G1_1e9_1e2_0_0 to 'G1_1e9_1e2_0_0.csv' (FORMAT CSV)"
-~/duckdb -c "copy G1_1e9_1e1_0_0 to 'G1_1e9_1e1_0_0.csv' (FORMAT CSV)"
-~/duckdb -c "copy G1_1e9_2e0_0_0 to 'G1_1e9_2e0_0_0.csv' (FORMAT CSV)"
-~/duckdb -c "copy G1_1e9_1e2_0_1 to 'G1_1e9_1e2_0_1.csv' (FORMAT CSV)"
-~/duckdb -c "copy G1_1e9_1e2_5_0 to 'G1_1e9_1e2_5_0.csv' (FORMAT CSV)"
-
-# get 500GB data
-wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/join-500gb.duckdb
-
-# ??? 
-wget https://duckdb-blobs.s3.amazonaws.com/data/db-benchmark-data/groupby-500gb.duckdb
\ No newline at end of file
diff --git a/collapse/groupby-collapse.R b/collapse/groupby-collapse.R
index 4e0e2b5d..9cdc09b4 100755
--- a/collapse/groupby-collapse.R
+++ b/collapse/groupby-collapse.R
@@ -15,12 +15,10 @@ fun = "group_by"
 cache = TRUE
 
 data_name = Sys.getenv("SRC_DATANAME")
-machine_type = Sys.getenv("MACHINE_TYPE")
 src_grp = file.path("data", paste(data_name, "csv", sep="."))
 cat(sprintf("loading dataset %s\n", data_name))
 
 on_disk = as.numeric(strsplit(data_name, "_", fixed=TRUE)[[1L]][2L])>=1e10
-on_disk = on_disk || (machine_type == "small" && as.numeric(strsplit(data_name, "_", fixed=TRUE)[[1L]][2L])>=1e9)
 
 x = data.table::fread(src_grp, showProgress=FALSE, stringsAsFactors=TRUE, na.strings="", data.table=FALSE)
 print(nrow(x))
diff --git a/collapse/join-collapse.R b/collapse/join-collapse.R
index c0b4feb8..4dc18cc7 100755
--- a/collapse/join-collapse.R
+++ b/collapse/join-collapse.R
@@ -15,7 +15,6 @@ cache = TRUE
 on_disk = FALSE
 
 data_name = Sys.getenv("SRC_DATANAME")
-machine_type = Sys.getenv("MACHINE_TYPE")
 src_jn_x = file.path("data", paste(data_name, "csv", sep="."))
 y_data_name = join_to_tbls(data_name)
 src_jn_y = setNames(file.path("data", paste(y_data_name, "csv", sep=".")), names(y_data_name))
@@ -23,7 +22,6 @@ stopifnot(length(src_jn_y)==3L)
 cat(sprintf("loading datasets %s\n", paste(c(data_name, y_data_name), collapse=", ")))
 
 on_disk = as.numeric(strsplit(data_name, "_", fixed=TRUE)[[1L]][2L])>=1e10
-on_disk = on_disk || (machine_type == "small" && as.numeric(strsplit(data_name, "_", fixed=TRUE)[[1L]][2L])>=1e9)
 
 x = data.table::fread(src_jn_x, showProgress=FALSE, stringsAsFactors=TRUE, data.table=FALSE, na.strings="")
 data.table::setDF(x)
diff --git a/datafusion/join-datafusion.py b/datafusion/join-datafusion.py
index d81dfad8..ee106bd2 100755
--- a/datafusion/join-datafusion.py
+++ b/datafusion/join-datafusion.py
@@ -32,7 +32,6 @@ def ans_shape(batches):
 on_disk = "FALSE"
 
 data_name = os.environ["SRC_DATANAME"]
-machine_type = os.environ["MACHINE_TYPE"]
 mount_point = os.environ["MOUNT_POINT"]
 
 src_jn_x = os.path.join("data", data_name + ".csv")
@@ -44,7 +43,6 @@ def ans_shape(batches):
 print("loading datasets " + data_name + ", " + y_data_name[0] + ", " + y_data_name[2] + ", " + y_data_name[2], flush=True)
 scale_factor = data_name.replace("J1_","")[:4].replace("_", "")
 on_disk = 'TRUE' if float(scale_factor) >= 1e10 else 'FALSE'
-on_disk = 'TRUE' if machine_type == 'small' else 'FALSE'
 
 
 ctx = df.SessionContext()
diff --git a/duckdb/groupby-duckdb.R b/duckdb/groupby-duckdb.R
index 1a2705bc..e193dd44 100755
--- a/duckdb/groupby-duckdb.R
+++ b/duckdb/groupby-duckdb.R
@@ -16,21 +16,16 @@ fun = "group_by"
 cache = TRUE
 
 data_name = Sys.getenv("SRC_DATANAME")
-machine_type = Sys.getenv("MACHINE_TYPE", "large")
 src_grp = file.path("data", paste(data_name, "csv", sep="."))
 cat(sprintf("loading dataset %s\n", data_name))
 
 db_file = sprintf('%s-%s-%s.db', solution, task, data_name)
 
 on_disk = as.numeric(strsplit(data_name, "_", fixed=TRUE)[[1L]][2L])>=1e10
-on_disk = on_disk || (as.numeric(strsplit(data_name, "_", fixed=TRUE)[[1L]][2L])>=1e9 && machine_type == "small")
 uses_NAs = as.numeric(strsplit(data_name, "_", fixed=TRUE)[[1L]][4L])>0
 if (on_disk) {
   print("using disk memory-mapped data storage")
   con = dbConnect(duckdb::duckdb(), dbdir=db_file)
-  if (machine_type == "small") {
-    invisible(dbExecute(con, "pragma memory_limit='50GB'"))
-  }
 } else {
   print("using in-memory data storage")
   con = dbConnect(duckdb::duckdb())
diff --git a/duckdb/join-duckdb.R b/duckdb/join-duckdb.R
index 644c0554..aad3a787 100755
--- a/duckdb/join-duckdb.R
+++ b/duckdb/join-duckdb.R
@@ -15,7 +15,6 @@ solution = "duckdb"
 cache = TRUE
 
 data_name = Sys.getenv("SRC_DATANAME")
-machine_type = Sys.getenv("MACHINE_TYPE", "large")
 src_jn_x = file.path("data", paste(data_name, "csv", sep="."))
 y_data_name = join_to_tbls(data_name)
 src_jn_y = setNames(file.path("data", paste(y_data_name, "csv", sep=".")), names(y_data_name))
@@ -32,9 +31,6 @@ uses_NAs = as.numeric(strsplit(data_name, "_", fixed=TRUE)[[1L]][4L])>0
 if (on_disk) {
   print("using disk memory-mapped data storage")
   con = dbConnect(duckdb::duckdb(), dbdir=duckdb_join_db)
-  if (machine_type == "small") {
-    invisible(dbExecute(con, "pragma memory_limit='40GB'"))
-  }
 } else {
   print("using in-memory data storage")
   con = dbConnect(duckdb::duckdb())
diff --git a/polars/groupby-polars.py b/polars/groupby-polars.py
index e5ee24d7..df60d489 100755
--- a/polars/groupby-polars.py
+++ b/polars/groupby-polars.py
@@ -20,7 +20,6 @@
 
 mount_point = os.environ["MOUNT_POINT"]
 data_name = os.environ["SRC_DATANAME"]
-machine_type = os.environ["MACHINE_TYPE"]
 src_grp = os.path.join("data", data_name + ".csv")
 print("loading dataset %s" % data_name, flush=True)
 
@@ -30,7 +29,6 @@
 
 scale_factor = data_name.replace("G1_","")[:4].replace("_", "")
 on_disk = 'TRUE' if float(scale_factor) >= 1e10 else 'FALSE'
-on_disk = 'TRUE' if on_disk or (machine_type == "small" and float(scale_factor) >= 1e9) else 'FALSE'
 
 in_rows = x.shape[0]
 x.write_ipc(f"{mount_point}/polars/tmp.ipc")
diff --git a/polars/join-polars.py b/polars/join-polars.py
index cf3e7d16..3f05f84b 100755
--- a/polars/join-polars.py
+++ b/polars/join-polars.py
@@ -18,17 +18,13 @@
 on_disk = "FALSE"
 
 data_name = os.environ["SRC_DATANAME"]
-machine_type = os.environ["MACHINE_TYPE"]
 src_jn_x = os.path.join("data", data_name + ".csv")
 y_data_name = join_to_tbls(data_name)
 src_jn_y = [os.path.join("data", y_data_name[0] + ".csv"), os.path.join("data", y_data_name[1] + ".csv"), os.path.join("data", y_data_name[2] + ".csv")]
 if len(src_jn_y) != 3:
   raise Exception("Something went wrong in preparing files used for join")
 
-
-scale_factor = data_name.replace("J1_","")[:4].replace("_", "")
 on_disk = 'TRUE' if float(scale_factor) >= 1e10 else 'FALSE'
-on_disk = 'TRUE' if on_disk or (machine_type == "small" and float(scale_factor) >= 1e9) else 'FALSE'
 
 print("loading datasets " + data_name + ", " + y_data_name[0] + ", " + y_data_name[2] + ", " + y_data_name[2], flush=True)
 
diff --git a/run.conf b/run.conf
index 94678ced..f151bf28 100644
--- a/run.conf
+++ b/run.conf
@@ -3,8 +3,6 @@ export RUN_TASKS="groupby join"
 # solution, used in init-setup-iteration.R
 export RUN_SOLUTIONS="collapse data.table juliads juliadf dplyr pandas pydatatable spark dask clickhouse polars R-arrow duckdb duckdb-latest datafusion"
 
-export MACHINE_TYPE="small"
-
 # flag to upgrade tools, used in run.sh on init
 export DO_UPGRADE=false
 # force run, ignore if same version was run already
@@ -18,5 +16,5 @@ export DO_REPORT=true
 export DO_PUBLISH=false
 
 # logging and timing files
-export CSV_LOGS_FILE="logs_${MACHINE_TYPE}.csv"
-export CSV_TIME_FILE="time_${MACHINE_TYPE}.csv"
+export CSV_LOGS_FILE="logs.csv"
+export CSV_TIME_FILE="time.csv"
diff --git a/run.sh b/run.sh
index 97584d05..77337e0b 100755
--- a/run.sh
+++ b/run.sh
@@ -30,11 +30,6 @@ else
 fi
 
 
-if [[ $MACHINE_TYPE != 'small' && $MACHINE_TYPE != 'medium' && $MACHINE_TYPE != 'large' ]]; then
-  echo "Machine type is not valid. Must be \`small\` \`medium\` or \`large\` "
-  exit 1
-fi
-
 
 # ensure directories exists
 mkdir -p ./out

From 30fa0ed29489de1483fe98bb1a9482e22270bcd2 Mon Sep 17 00:00:00 2001
From: Tmonster <tom@ebergen.com>
Date: Wed, 18 Sep 2024 10:27:37 +0200
Subject: [PATCH 31/31] add code to fix report

---
 _report/index.Rmd | 128 +++++++++++-----------------------------------
 _report/report.R  |   1 -
 2 files changed, 31 insertions(+), 98 deletions(-)

diff --git a/_report/index.Rmd b/_report/index.Rmd
index 8725e559..b45a74c3 100644
--- a/_report/index.Rmd
+++ b/_report/index.Rmd
@@ -97,135 +97,69 @@ loop_benchplot(dt_join, report_name="join", syntax.dict=join.syntax.dict, except
 ```
 
 
-## Machine Type {.tabset .tabset-fade .tabset-pills}
+## Task {.tabset .tabset-fade .tabset-pills}
 
-### Small (32 cores / 64GB memory)
+### groupby {.tabset .tabset-fade .tabset-pills}
 
-#### Task {.tabset .tabset-fade .tabset-pills}
+#### 0.5 GB
 
-##### groupby {.tabset .tabset-fade .tabset-pills}
-
-###### 0.5 GB
-
-####### **basic questions**
-
-![](./groupby/G1_1e7_1e2_0_0_basic_small.png)
-
-####### **advanced questions**
-
-![](./groupby/G1_1e7_1e2_0_0_advanced_small.png)
-
-###### 5 GB
-
-####### **basic questions**
-
-![](./groupby/G1_1e8_1e2_0_0_basic_small.png)
-
-####### **advanced questions**
-
-![](./groupby/G1_1e8_1e2_0_0_advanced_small.png)
-
-###### 50 GB {.active}
-
-####### **basic questions**
-
-![](./groupby/G1_1e9_1e2_0_0_basic_small.png)
-
-####### **advanced questions**
-
-![](./groupby/G1_1e9_1e2_0_0_advanced_small.png)
-
-###### 500 GB
-
-####### **basic questions**
-
-![](./groupby/G1_1e10_1e4_10_0_basic_small.png)
-
-####### **advanced questions**
-
-![](./groupby/G1_1e10_1e4_0_0_advanced_small.png)
-
-##### join {.tabset .tabset-fade .tabset-pills}
-
-###### 0.5 GB
-
-####### **basic questions**
-
-![](./join/J1_1e7_NA_0_0_basic_small.png)
-
-###### 5 GB {.active}
-
-####### **basic questions**
-
-![](./join/J1_1e8_NA_0_0_basic_small.png)
-
-###### 50 GB
-
-####### **basic questions**
-
-![](./join/J1_1e9_NA_0_0_basic_small.png)
-
-### X-Large (128 cores / 256GB memory)
-
-#### Task {.tabset .tabset-fade .tabset-pills}
-
-##### groupby {.tabset .tabset-fade .tabset-pills}
+##### **basic questions**
 
-###### 0.5 GB
+![](./groupby/G1_1e7_1e2_0_0_basic.png)
 
-####### **basic questions**
+##### **advanced questions**
 
-![](./groupby/G1_1e7_1e2_0_0_basic_xlarge.png)
+![](./groupby/G1_1e7_1e2_0_0_advanced.png)
 
-####### **advanced questions**
+#### 5 GB
 
-![](./groupby/G1_1e7_1e2_0_0_advanced_xlarge.png)
+##### **basic questions**
 
-###### 5 GB
+![](./groupby/G1_1e8_1e2_0_0_basic.png)
 
-####### **basic questions**
+##### **advanced questions**
 
-![](./groupby/G1_1e8_1e2_0_0_basic_xlarge.png)
+![](./groupby/G1_1e8_1e2_0_0_advanced.png)
 
-####### **advanced questions**
+#### 50 GB {.active}
 
-![](./groupby/G1_1e8_1e2_0_0_advanced_xlarge.png)
+##### **basic questions**
 
-###### 50 GB {.active}
+![](./groupby/G1_1e9_1e2_0_0_basic.png)
 
-####### **basic questions**
+##### **advanced questions**
 
-![](./groupby/G1_1e9_1e2_0_0_basic_xlarge.png)
+![](./groupby/G1_1e9_1e2_0_0_advanced.png)
 
-####### **advanced questions**
+#### 500 GB
 
-![](./groupby/G1_1e9_1e2_0_0_advanced_xlarge.png)
+##### **basic questions**
 
-##### join {.tabset .tabset-fade .tabset-pills}
+![](./groupby/G1_1e10_1e4_10_0_basic.png)
 
-###### 0.5 GB
+##### **advanced questions**
 
-####### **basic questions**
+![](./groupby/G1_1e10_1e4_0_0_advanced.png)
 
-![](./join/J1_1e7_NA_0_0_basic_xlarge.png)
+### join {.tabset .tabset-fade .tabset-pills}
 
-###### 5 GB {.active}
+#### 0.5 GB
 
-####### **basic questions**
+##### **basic questions**
 
-![](./join/J1_1e8_NA_0_0_basic_xlarge.png)
+![](./join/J1_1e7_NA_0_0_basic.png)
 
-###### 50 GB
+#### 5 GB {.active}
 
-####### **basic questions**
+##### **basic questions**
 
-![](./join/J1_1e9_NA_0_0_basic_xlarge.png)
+![](./join/J1_1e8_NA_0_0_basic.png)
 
-#### 500 GB
+#### 50 GB
 
 ##### **basic questions**
 
-![](./join/J1_1e10_NA_10_0_basic.png)
+![](./join/J1_1e9_NA_0_0_basic.png)
 
 <!--
 ##### **advanced questions**
diff --git a/_report/report.R b/_report/report.R
index 910ac1ca..8367e458 100644
--- a/_report/report.R
+++ b/_report/report.R
@@ -18,7 +18,6 @@ get_data_levels = function() {
   in_rows = c("1e7","1e8","1e9")
   k_na_sort = c("NA_0_0","NA_5_0","NA_0_1")
   join = paste("J1", paste(rep(in_rows, each=length(k_na_sort)), k_na_sort, sep="_"), sep="_")
-  join <- c(join, "J1_1e10_NA_10_0")
   ## groupby2014
   in_rows = c("1e7","1e8","1e9")
   k_na_sort = "1e2_0_0"