-
Notifications
You must be signed in to change notification settings - Fork 139
Optimize task 2 #120
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
base: master
Are you sure you want to change the base?
Optimize task 2 #120
Changes from all commits
File filter
Filter by extension
Conversations
Jump to
Diff view
Diff view
There are no files selected for viewing
| Original file line number | Diff line number | Diff line change |
|---|---|---|
| @@ -0,0 +1,6 @@ | ||
| data_large.txt | ||
| data_small.txt | ||
| result.json | ||
|
|
||
| /ruby_prof_reports | ||
| /stackprof_reports |
| Original file line number | Diff line number | Diff line change |
|---|---|---|
| @@ -0,0 +1,7 @@ | ||
| require 'benchmark' | ||
| require_relative 'task-2-with-argument.rb' | ||
|
|
||
| time = Benchmark.realtime do | ||
| work('data_large.txt') | ||
| end | ||
| puts "Finish in #{time.round(2)}" |
| Original file line number | Diff line number | Diff line change |
|---|---|---|
| @@ -0,0 +1,80 @@ | ||
| # Case-study оптимизации | ||
|
|
||
| ## Актуальная проблема | ||
| В нашем проекте возникла серьёзная проблема. | ||
|
|
||
| Необходимо было обработать файл с данными, чуть больше ста мегабайт. | ||
|
|
||
| У нас уже была программа на `ruby`, которая умела делать нужную обработку. | ||
|
|
||
| Она успешно работала на файлах размером пару мегабайт, но для большого файла она работала слишком долго, и не было понятно, закончит ли она вообще работу за какое-то разумное время. | ||
|
|
||
| Я решил исправить эту проблему, оптимизировав эту программу. | ||
|
|
||
| ## Формирование метрики | ||
| Я проверила memory usage на файлах с меньшим числом строк кода, и увидела, что бюджет превышается уже на 8000. | ||
|
|
||
| 1000 MEMORY USAGE: 33 MB | ||
| 2000 MEMORY USAGE: 38 MB | ||
| 4000 MEMORY USAGE: 53 MB | ||
| 8000 MEMORY USAGE: 87 MB | ||
| 16000 MEMORY USAGE: 158 MB | ||
| 32000 MEMORY USAGE: 241 MB | ||
|
|
||
| Для того, чтобы понимать, дают ли мои изменения положительный эффект на быстродействие программы я придумал использовать такую метрику: memory usage в конце выполнения программы с файлом на 16000 строк. | ||
|
|
||
| ## Гарантия корректности работы оптимизированной программы | ||
| Программа поставлялась с тестом. Выполнение этого теста в фидбек-лупе позволяет не допустить изменения логики программы при оптимизации. | ||
|
|
||
| ## Feedback-Loop | ||
| Для того, чтобы иметь возможность быстро проверять гипотезы я выстроил эффективный `feedback-loop`, который позволил мне получать обратную связь по эффективности сделанных изменений за *время, которое у вас получилось* | ||
|
|
||
| Вот как я построил `feedback_loop`: *как вы построили feedback_loop* | ||
|
|
||
| ## Вникаем в детали системы, чтобы найти главные точки роста | ||
| Для того, чтобы найти "точки роста" для оптимизации я воспользовалась memory_profiler, а так же falt, graph и callstack от ruby-prof и cli stackprof | ||
|
|
||
| Вот какие проблемы удалось найти и решить | ||
|
|
||
| Первые отчеты показывали разные точки роста. | ||
| # stackprof: | ||
| 118 (31.6%) 118 (31.6%) String#split | ||
| # rubyprof : | ||
| 31.40 117541.000 117541.000 0.000 0.000 16001 String#split | ||
| # memory-profiler | ||
| 184.23 MB /home/iris/learning/optimization/rails-optimization-task2/task-2-with-argument.rb:55 | ||
| `sessions = sessions + [parse_session(line)] if cols[0] == 'session'` | ||
| /home/iris/learning/optimization/rails-optimization-task2/task-2-with-argument.rb:140 | ||
| `{ 'dates' => user.sessions.map{|s| s['date']}.map {|d| Date.parse(d)}.sort.reverse.map { |d| d.iso8601 } }` | ||
|
|
||
| Я решила на первых этапах пользоваться результатами отчета по количеству памяти от memory-profiler, т.к. он показывает не только аллокации, но и потребляему память | ||
| Кроме того, т.к. первые находки соотвествуют тем, что были в прошлых заданиях, я не буду подробно их расписывать. Исправляю по очереди, когда меняется главная точка роста. | ||
|
|
||
| ### Находки №1-5 | ||
|
Collaborator
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. 👍 👍 👍 👍 👍 |
||
| 184.23 MB `sessions = sessions + [parse_session(line)] if cols[0] == 'session'` | ||
| 66.67 MB `user_sessions = sessions.select { |session| session['user_id'] == user['id'] }` | ||
| 6.48 MB `users = users + [parse_user(line)] if cols[0] == 'user'` | ||
| 6.25 MB `{ 'dates' => user.sessions.map{|s| s['date']}.map {|d| Date.parse(d)}.sort.reverse.map { |d| d.iso8601 } }` | ||
| 6.16 MB `users_objects = users_objects + [user_object]` | ||
|
|
||
| ## Находка 6 | ||
| 3.86 MB и 62770 `cols = line.split(',')` - в данной версии программы особо не изменить, пропускаю пока что | ||
|
|
||
| ## Находки 7-8 | ||
| 3.32 MB `fields = session.split(',')` | ||
| 1.75 MB `user_key = "#{user.attributes['first_name']}" + ' ' + "#{user.attributes['last_name']}"` | ||
| К моменту исправления восьмой проблемы на 16000 строк в конце программы MEMORY USAGE: 46 MB и 85 MB с отключенным GC | ||
| Изменения на этом этапе не значительные, поэтому исходя из находки №6 решаю переписать программу на поточный алгоритм. | ||
|
|
||
| После переписывания программы на поточный алгоритм memory_usage в конце выполнения программы на 1000-32000 строк одинаковый 26 MB. После этого проверяю для полного файла - MEMORY USAGE в конце исполнения такой же - 26 MB. Запускаю benchmark - время выполнения на большом файле - 12,38 секунд! | ||
|
Collaborator
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. топчик, особенно радует, что так любой объём данных можно перемолоть |
||
|
|
||
| На этом этапе добавила треды, чтобы проверить, что memory usage не превышает заданного параметра на всем протяжении работы программы, а не только в конце. Максимальный объем памяти - 42MB | ||
|
Collaborator
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. 👍 |
||
|
|
||
| ## Результаты | ||
| В результате проделанной оптимизации наконец удалось обработать файл с данными. | ||
| Удалось улучшить метрику системы до 27MB в конце выполнения программы и уложиться в заданный бюджет. | ||
|
|
||
| *Какими ещё результами можете поделиться* | ||
|
|
||
| ## Защита от регрессии производительности | ||
| Для защиты от потери достигнутого прогресса при дальнейших изменениях программы *о performance-тестах, которые вы написали* | ||
| Original file line number | Diff line number | Diff line change |
|---|---|---|
| @@ -0,0 +1,14 @@ | ||
| # memory_profiler (ruby 2.3.8+) | ||
| # allocated - total memory allocated during profiler run | ||
| # retained - survived after MemoryProfiler finished | ||
|
|
||
| require 'benchmark' | ||
| require 'memory_profiler' | ||
| require_relative 'task-2-with-argument.rb' | ||
|
|
||
| `head -n #{8000} data_large.txt > data_small.txt` | ||
|
|
||
| report = MemoryProfiler.report do | ||
| work('data_small.txt') | ||
| end | ||
| report.pretty_print(scale_bytes: true) |
| Original file line number | Diff line number | Diff line change |
|---|---|---|
| @@ -0,0 +1,34 @@ | ||
| require_relative 'task-2-with-argument.rb' | ||
|
|
||
| class MemoryUsageError < StandardError; end | ||
|
|
||
| COUNTERS = [1, 2, 4, 8, 16, 32] | ||
|
|
||
| COUNTERS.each do |counter| | ||
| `head -n #{counter*1000} data_large.txt > data_small.txt` | ||
| work('data_small.txt') | ||
| end | ||
|
|
||
| thread1 = Thread.new do | ||
| work('data_large.txt') | ||
| end | ||
|
|
||
| Thread.new do | ||
| loop do | ||
| memory = `ps -o rss= -p #{Process.pid}`.to_i / 1024 | ||
| puts "MEMORY USAGE: %d MB" % (memory) | ||
| sleep 1 | ||
| raise MemoryUsageError if memory >= 70 | ||
| end | ||
| end | ||
|
|
||
| thread1.join | ||
|
|
||
| # initial | ||
|
|
||
| # 1000 MEMORY USAGE: 33 MB | ||
| # 2000 MEMORY USAGE: 38 MB | ||
| # 4000 MEMORY USAGE: 53 MB | ||
| # 8000 MEMORY USAGE: 87 MB | ||
| # 16000 MEMORY USAGE: 158 MB | ||
| # 32000 MEMORY USAGE: 241 MB |
| Original file line number | Diff line number | Diff line change |
|---|---|---|
| @@ -0,0 +1,24 @@ | ||
| # RubyProf Flat report | ||
| # ruby 12-ruby-prof-flat.rb | ||
| # cat ruby_prof_reports/flat.txt | ||
| require 'ruby-prof' | ||
| require_relative 'task-2-with-argument.rb' | ||
|
|
||
| RubyProf.measure_mode = RubyProf::ALLOCATIONS | ||
| `head -n #{16000} data_large.txt > data_small.txt` | ||
|
|
||
| result = RubyProf.profile do | ||
| work("data_small.txt") | ||
| end | ||
|
|
||
| flat_printer = RubyProf::FlatPrinter.new(result) | ||
| flat_printer.print(File.open("ruby_prof_reports/flat.txt", "w+")) | ||
|
|
||
| dot_printer = RubyProf::DotPrinter.new(result) | ||
| dot_printer.print(File.open('ruby_prof_reports/graphviz.dot', 'w+')) | ||
|
|
||
| graph_printer = RubyProf::GraphHtmlPrinter.new(result) | ||
| graph_printer.print(File.open("ruby_prof_reports/graph.html", "w+")) | ||
|
|
||
| printer_callstack = RubyProf::CallStackPrinter.new(result) | ||
| printer_callstack.print(File.open('ruby_prof_reports/callstack.html', 'w+')) |
| Original file line number | Diff line number | Diff line change |
|---|---|---|
| @@ -0,0 +1,14 @@ | ||
| # Stackprof report | ||
| # ruby 16-stackprof.rb | ||
| # cd stackprof_reports | ||
| # stackprof stackprof.dump | ||
| # stackprof stackprof.dump --method Object#work | ||
|
|
||
| require 'stackprof' | ||
| require_relative 'task-2-with-argument.rb' | ||
|
|
||
| `head -n #{16000} data_large.txt > data_small.txt` | ||
|
|
||
| StackProf.run(mode: :object, out: 'stackprof_reports/stackprof.dump', interval: 1000) do | ||
| work("data_small.txt") | ||
| end |
| Original file line number | Diff line number | Diff line change |
|---|---|---|
| @@ -0,0 +1,96 @@ | ||
| require 'json' | ||
|
Collaborator
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more.
|
||
| require 'oj' | ||
|
|
||
| class User | ||
| attr_accessor :session_stats, :sessions, :first_name, :last_name | ||
|
|
||
| def initialize(id, first_name, last_name, age) | ||
| @id = id | ||
| @first_name = first_name | ||
| @last_name = last_name | ||
| @age = age | ||
| @sessions = [] | ||
| @session_stats = {} | ||
| end | ||
| end | ||
|
|
||
| def parse_session(fields) | ||
| { | ||
| 'user_id' => fields[0], | ||
| 'session_id' => fields[1], | ||
| 'browser' => fields[2], | ||
| 'time' => fields[3], | ||
| 'date' => fields[4] | ||
| } | ||
| end | ||
|
|
||
| def collect_stats_from_user(user) | ||
| return {} unless user | ||
|
|
||
| stats = { | ||
| 'sessionsCount' => user.sessions.count, | ||
| 'totalTime' => user.sessions.map {|s| s['time']}.map {|t| t.to_i}.sum.to_s + ' min.', | ||
| 'longestSession' => user.sessions.map {|s| s['time']}.map {|t| t.to_i}.max.to_s + ' min.', | ||
| 'browsers' => user.sessions.map {|s| s['browser']}, | ||
| 'dates' => user.sessions.map { |s| s['date'] }.sort.reverse | ||
| } | ||
|
|
||
| stats['usedIE'] = stats['browsers'].any? { |b| b =~ /INTERNET EXPLORER/ } | ||
| stats['alwaysUsedChrome'] = stats['browsers'].all? { |b| b =~ /CHROME/ } | ||
| stats['browsers'] = stats['browsers'].sort.join(', ') | ||
| stats['dates'].sort!.reverse! | ||
| stats | ||
| end | ||
|
|
||
| def write_user(user, stream_writer) | ||
| stream_writer.push_key("#{user.first_name} #{user.last_name}") | ||
| stream_writer.push_object | ||
| user.session_stats.each { |key, value| stream_writer.push_value(value, key.to_s) } | ||
| stream_writer.pop | ||
| end | ||
|
|
||
| def work(file_name) | ||
| total_users = 0 | ||
| total_sessions = 0 | ||
| unique_browsers = Set.new | ||
| user = nil | ||
|
|
||
| result_file = File.open('result.json', 'w') | ||
|
|
||
| stream_writer = Oj::StreamWriter.new(result_file) | ||
|
Collaborator
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. да-да, так покрасивее чем json руками собирать 👍 |
||
| stream_writer.push_object | ||
| stream_writer.push_key('usersStats') | ||
| stream_writer.push_object | ||
|
|
||
| File.foreach(file_name) do |line| | ||
| type, *info = line.strip!.split(',') | ||
| if type == 'user' | ||
| total_users += 1 | ||
| user.session_stats = collect_stats_from_user(user) if user | ||
| write_user(user, stream_writer) if user | ||
| user = User.new(*info) | ||
| end | ||
|
|
||
| if type == 'session' | ||
| total_sessions += 1 | ||
| session = parse_session(info) | ||
| user.sessions << session | ||
| unique_browsers << session['browser'].upcase! | ||
| end | ||
| end | ||
|
|
||
| user.session_stats = collect_stats_from_user(user) if user | ||
| write_user(user, stream_writer) if user | ||
|
|
||
| stream_writer.pop | ||
|
|
||
| stream_writer.push_value(total_users, 'totalUsers') | ||
| stream_writer.push_value(unique_browsers.count, 'uniqueBrowsersCount') | ||
| stream_writer.push_value(total_sessions, 'totalSessions') | ||
| stream_writer.push_value(unique_browsers.sort.join(','), 'allBrowsers') | ||
|
|
||
| stream_writer.pop_all | ||
| result_file.close | ||
|
|
||
| puts "MEMORY USAGE: %d MB" % (`ps -o rss= -p #{Process.pid}`.to_i / 1024) | ||
| end | ||
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
👍