hardcode-dev · KingeKod · Jun 23, 2024 · spajic · Jun 23, 2024 · spajic
diff --git a/Gemfile b/Gemfile
@@ -0,0 +1,24 @@
+source 'https://rubygems.org'
+
+# ruby-prof
+gem 'ruby-prof'
+# stackprof
+gem 'stackprof'
+# memory-profiler
+gem 'memory-profiler'
+# json
+gem 'json'
+# pry
+gem 'pry'
+# date
+gem 'date'
+# minitest
+gem 'minitest'
+# rspec
+gem 'rspec'
+# benchmark
+gem 'benchmark'
+# memory_profiler
+gem 'memory_profiler'
+# rspec-benchmark
+gem 'rspec-benchmark'
diff --git a/Gemfile.lock b/Gemfile.lock
@@ -0,0 +1,58 @@
+GEM
+  remote: https://rubygems.org/
+  specs:
+    benchmark (0.3.0)
+    benchmark-malloc (0.2.0)
+    benchmark-perf (0.6.0)
+    benchmark-trend (0.4.0)
+    coderay (1.1.3)
+    date (3.3.4)
+    diff-lcs (1.5.1)
+    json (2.7.2)
+    memory-profiler (1.0.3)
+    memory_profiler (1.0.1)
+    method_source (1.1.0)
+    minitest (5.23.1)
+    pry (0.14.2)
+      coderay (~> 1.1)
+      method_source (~> 1.0)
+    rspec (3.13.0)
+      rspec-core (~> 3.13.0)
+      rspec-expectations (~> 3.13.0)
+      rspec-mocks (~> 3.13.0)
+    rspec-benchmark (0.6.0)
+      benchmark-malloc (~> 0.2)
+      benchmark-perf (~> 0.6)
+      benchmark-trend (~> 0.4)
+      rspec (>= 3.0)
+    rspec-core (3.13.0)
+      rspec-support (~> 3.13.0)
+    rspec-expectations (3.13.0)
+      diff-lcs (>= 1.2.0, < 2.0)
+      rspec-support (~> 3.13.0)
+    rspec-mocks (3.13.1)
+      diff-lcs (>= 1.2.0, < 2.0)
+      rspec-support (~> 3.13.0)
+    rspec-support (3.13.1)
+    ruby-prof (1.7.0)
+    stackprof (0.2.26)
+
+PLATFORMS
+  arm64-darwin-23
+  ruby
+
+DEPENDENCIES
+  benchmark
+  date
+  json
+  memory-profiler
+  memory_profiler
+  minitest
+  pry
+  rspec
+  rspec-benchmark
+  ruby-prof
+  stackprof
+
+BUNDLED WITH
+   2.5.9
diff --git a/benchmark_task.rb b/benchmark_task.rb
@@ -0,0 +1,10 @@
+# Deoptimized version of homework task
+
+require_relative 'task-2'
+require 'benchmark'
+
+time = Benchmark.realtime do
+  work('data_large.txt')
+end
+
+puts "Программа выполнилась за #{time.round(2)} секунд"
diff --git a/case-study.md b/case-study.md
@@ -0,0 +1,53 @@
+# Case-study оптимизации
+
+## Актуальная проблема
+В нашем проекте возникла серьёзная проблема.
+
+Необходимо было обработать файл с данными, чуть больше ста мегабайт.
+
+У нас уже была программа на `ruby`, которая умела делать нужную обработку.
+
+Она успешно работала на файлах размером пару мегабайт, но для большого файла она работала слишком долго, и не было понятно, закончит ли она вообще работу за какое-то разумное время.
+
+Я решил исправить эту проблему, оптимизировав эту программу.
+
+## Формирование метрики
+Для того, чтобы понимать, дают ли мои изменения положительный эффект на быстродействие программы я придумал использовать такую метрику: программа должна потреблять < 70Мб памяти при обработке целевого файла data_large.tst в течение всего времени выполнения.
+
+## Гарантия корректности работы оптимизированной программы
+Программа поставлялась с тестом. Выполнение этого теста в фидбек-лупе позволяет не допустить изменения логики программы при оптимизации.
+
+## Feedback-Loop
+Для того, чтобы иметь возможность быстро проверять гипотезы я выстроил эффективный `feedback-loop`, который позволил мне получать обратную связь по эффективности, сделанных измерений за время, которое бы не превышало 10 секунд.
+
+Вот как я построил `feedback_loop`: провел профилирование данной программы на объеме данных, обработка которых не превышала бы 10 сек. Далее по отчету профилировщика смотрю точки роста, правлю их в коде, тестируем, что ничего не поломалось и повторяем процесс заново. Поскольку с каждой итерацией время выполнения на конкретном объеме может уменьшаться, на каждом этапе корректируется(увеличиается) объем данных при профилировании
+
+Вначале взял файл с 30к строк, так как программа отрабатывала с этим объемом данных за 7.32 секунд.
+
+## Вникаем в детали системы, чтобы найти главные точки роста
+Для того, чтобы найти "точки роста" для оптимизации я воспользовался несколькими инструментами: memory_profiler,
+и ruby-prof в режимах flat, graph и callstack.
+valgrind, к сожалению, не удалось применить, так как на процессоре m1 возникли некоторые сложности при сборке образа(
+
+Для начала, рерил попробовать проверить с помощью memory_profiler сколько аллоцируется в целом у нас памяти с 30к строк файла без переписывания на потоковый вход - memory_profiler показал 3.78 GB -  это очень много
+Соответственно, как и было написано в задании, я перевел программу на потоковый подход, чтобы файл читался и записывался построчно
+
+Вот какие проблемы удалось найти и решить
+
+### Ваша находка №1
+- Я сразу воспользовался отчетами нескольких профилировщиков.
+- После увиденного в отчете, что программа потребляет огромное количество памяти при загрузке данных из файла, как и предложено было изначально в задании, переписал програму на построчный подход. Однако такой подход потребовал сильной переделки кода в программе, я попутно сразу переписал методы, где не производительно использовалась работа с массивами и циклами.
+- Метрика изменилась максимально сильно! Сразу же после переписывания программы на потоковый и построчную реализацию результат стал невероятно быстрым и результаты были более чем удовлетворяющими) Для 30000 строк программа отработала за долисекунды, поэтому решил попробовать запустить программу для нужного нам файла data_large.txt, и результаты бенчмарка стали таковы:
+    MEMORY USAGE: 35 MB
+    Программа выполнилась за 8.99 секунд
+Однако, как в пред. задании не получилось последовательно отслеживать на каждом шаге производительность программы при изменении конкретного метода, но удивительно, что с таким подходом изменился в корне результат.
+- Отчёт профилировщика изменился так же сильно! Получилось так, что переписав программу, ничего дополнительно оптимизировать не пришлось, так как полученная метрика более чем устраивает, а остальная оптимизация сводится к тому, чтобы переделать методы IO: <Class::IO>#foreach, write_to_file; split, ну и немного inject.
+По резульатам написал тест  memory_spec.rb, в котором происходит проверка на то, что программа отрабаывает не больше 10 сек, и на то, что программа не потребляет больше 45 Мб памяти при выполнении
+
+### Результаты
+
+Мне удалось обработать необходимый файл data_large.txt. Сколько изначально программа потребляла памяти - сказать затруднительно, но на 30000 строк потребяла 3.78 GB. С 3.78 GB потребление памяти удалось уменьшить до 30 Мб! При обработке всего файла занимает чуть больше, но не выходит за определенный нами в начале бюджет(< 70 Мб).
+Конечный результат времени обработки файла data_large.txt при оптимизации по CPU получился - 24.783419 сек.
+Конечный результат времени обработки файла data_large.txt при оптимизации по памяти получился - 8.99 секунд
+
+Удивительно, но оптимизация по памяти дала гораздо больший прирост по времени, чем по CPU. Т.е в 2,8 раза быстрее!)
diff --git a/memory_profiler.rb b/memory_profiler.rb
@@ -0,0 +1,7 @@
+require_relative 'task-2'
+require 'memory_profiler'
+
+report = MemoryProfiler.report do
+  work('data_large.txt')
+end
+report.pretty_print(scale_bytes: true)
diff --git a/memory_spec.rb b/memory_spec.rb
@@ -0,0 +1,16 @@
+require 'rspec'
+require 'rspec-benchmark'
+require_relative 'task-2'
+
+RSpec.describe 'work' do
+  include RSpec::Benchmark::Matchers
+
+  it 'execute less 10 sec' do
+    expect { work('data_large.txt') }.to perform_under(10).sec
+  end
+
+  it 'memory is busy less 45 Mb' do
+    work('data_large.txt')
+    expect((`ps -o rss= -p #{Process.pid}`.to_i / 1024)).to be < 45
+  end
+end