Skip to content
Open
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
6 changes: 6 additions & 0 deletions .gitignore
Original file line number Diff line number Diff line change
@@ -0,0 +1,6 @@
data_large.txt
data_small.txt
result.json

/ruby_prof_reports
/stackprof_reports
7 changes: 7 additions & 0 deletions benchmark.rb
Original file line number Diff line number Diff line change
@@ -0,0 +1,7 @@
require 'benchmark'
require_relative 'task-2-with-argument.rb'

time = Benchmark.realtime do
work('data_large.txt')
end
puts "Finish in #{time.round(2)}"
80 changes: 80 additions & 0 deletions case-study.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,80 @@
# Case-study оптимизации

## Актуальная проблема
В нашем проекте возникла серьёзная проблема.

Необходимо было обработать файл с данными, чуть больше ста мегабайт.

У нас уже была программа на `ruby`, которая умела делать нужную обработку.

Она успешно работала на файлах размером пару мегабайт, но для большого файла она работала слишком долго, и не было понятно, закончит ли она вообще работу за какое-то разумное время.

Я решил исправить эту проблему, оптимизировав эту программу.

## Формирование метрики
Я проверила memory usage на файлах с меньшим числом строк кода, и увидела, что бюджет превышается уже на 8000.
Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

👍


1000 MEMORY USAGE: 33 MB
2000 MEMORY USAGE: 38 MB
4000 MEMORY USAGE: 53 MB
8000 MEMORY USAGE: 87 MB
16000 MEMORY USAGE: 158 MB
32000 MEMORY USAGE: 241 MB

Для того, чтобы понимать, дают ли мои изменения положительный эффект на быстродействие программы я придумал использовать такую метрику: memory usage в конце выполнения программы с файлом на 16000 строк.

## Гарантия корректности работы оптимизированной программы
Программа поставлялась с тестом. Выполнение этого теста в фидбек-лупе позволяет не допустить изменения логики программы при оптимизации.

## Feedback-Loop
Для того, чтобы иметь возможность быстро проверять гипотезы я выстроил эффективный `feedback-loop`, который позволил мне получать обратную связь по эффективности сделанных изменений за *время, которое у вас получилось*

Вот как я построил `feedback_loop`: *как вы построили feedback_loop*

## Вникаем в детали системы, чтобы найти главные точки роста
Для того, чтобы найти "точки роста" для оптимизации я воспользовалась memory_profiler, а так же falt, graph и callstack от ruby-prof и cli stackprof

Вот какие проблемы удалось найти и решить

Первые отчеты показывали разные точки роста.
# stackprof:
118 (31.6%) 118 (31.6%) String#split
# rubyprof :
31.40 117541.000 117541.000 0.000 0.000 16001 String#split
# memory-profiler
184.23 MB /home/iris/learning/optimization/rails-optimization-task2/task-2-with-argument.rb:55
`sessions = sessions + [parse_session(line)] if cols[0] == 'session'`
/home/iris/learning/optimization/rails-optimization-task2/task-2-with-argument.rb:140
`{ 'dates' => user.sessions.map{|s| s['date']}.map {|d| Date.parse(d)}.sort.reverse.map { |d| d.iso8601 } }`

Я решила на первых этапах пользоваться результатами отчета по количеству памяти от memory-profiler, т.к. он показывает не только аллокации, но и потребляему память
Кроме того, т.к. первые находки соотвествуют тем, что были в прошлых заданиях, я не буду подробно их расписывать. Исправляю по очереди, когда меняется главная точка роста.

### Находки №1-5
Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

👍 👍 👍 👍 👍

184.23 MB `sessions = sessions + [parse_session(line)] if cols[0] == 'session'`
66.67 MB `user_sessions = sessions.select { |session| session['user_id'] == user['id'] }`
6.48 MB `users = users + [parse_user(line)] if cols[0] == 'user'`
6.25 MB `{ 'dates' => user.sessions.map{|s| s['date']}.map {|d| Date.parse(d)}.sort.reverse.map { |d| d.iso8601 } }`
6.16 MB `users_objects = users_objects + [user_object]`

## Находка 6
3.86 MB и 62770 `cols = line.split(',')` - в данной версии программы особо не изменить, пропускаю пока что

## Находки 7-8
3.32 MB `fields = session.split(',')`
1.75 MB `user_key = "#{user.attributes['first_name']}" + ' ' + "#{user.attributes['last_name']}"`
К моменту исправления восьмой проблемы на 16000 строк в конце программы MEMORY USAGE: 46 MB и 85 MB с отключенным GC
Изменения на этом этапе не значительные, поэтому исходя из находки №6 решаю переписать программу на поточный алгоритм.

После переписывания программы на поточный алгоритм memory_usage в конце выполнения программы на 1000-32000 строк одинаковый 26 MB. После этого проверяю для полного файла - MEMORY USAGE в конце исполнения такой же - 26 MB. Запускаю benchmark - время выполнения на большом файле - 12,38 секунд!
Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

топчик, особенно радует, что так любой объём данных можно перемолоть


На этом этапе добавила треды, чтобы проверить, что memory usage не превышает заданного параметра на всем протяжении работы программы, а не только в конце. Максимальный объем памяти - 42MB
Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

👍


## Результаты
В результате проделанной оптимизации наконец удалось обработать файл с данными.
Удалось улучшить метрику системы до 27MB в конце выполнения программы и уложиться в заданный бюджет.

*Какими ещё результами можете поделиться*

## Защита от регрессии производительности
Для защиты от потери достигнутого прогресса при дальнейших изменениях программы *о performance-тестах, которые вы написали*
14 changes: 14 additions & 0 deletions memory-profiler.rb
Original file line number Diff line number Diff line change
@@ -0,0 +1,14 @@
# memory_profiler (ruby 2.3.8+)
# allocated - total memory allocated during profiler run
# retained - survived after MemoryProfiler finished

require 'benchmark'
require 'memory_profiler'
require_relative 'task-2-with-argument.rb'

`head -n #{8000} data_large.txt > data_small.txt`

report = MemoryProfiler.report do
work('data_small.txt')
end
report.pretty_print(scale_bytes: true)
34 changes: 34 additions & 0 deletions memory_usage.rb
Original file line number Diff line number Diff line change
@@ -0,0 +1,34 @@
require_relative 'task-2-with-argument.rb'

class MemoryUsageError < StandardError; end

COUNTERS = [1, 2, 4, 8, 16, 32]

COUNTERS.each do |counter|
`head -n #{counter*1000} data_large.txt > data_small.txt`
work('data_small.txt')
end

thread1 = Thread.new do
work('data_large.txt')
end

Thread.new do
loop do
memory = `ps -o rss= -p #{Process.pid}`.to_i / 1024
puts "MEMORY USAGE: %d MB" % (memory)
sleep 1
raise MemoryUsageError if memory >= 70
end
end

thread1.join

# initial

# 1000 MEMORY USAGE: 33 MB
# 2000 MEMORY USAGE: 38 MB
# 4000 MEMORY USAGE: 53 MB
# 8000 MEMORY USAGE: 87 MB
# 16000 MEMORY USAGE: 158 MB
# 32000 MEMORY USAGE: 241 MB
24 changes: 24 additions & 0 deletions ruby-prof.rb
Original file line number Diff line number Diff line change
@@ -0,0 +1,24 @@
# RubyProf Flat report
# ruby 12-ruby-prof-flat.rb
# cat ruby_prof_reports/flat.txt
require 'ruby-prof'
require_relative 'task-2-with-argument.rb'

RubyProf.measure_mode = RubyProf::ALLOCATIONS
`head -n #{16000} data_large.txt > data_small.txt`

result = RubyProf.profile do
work("data_small.txt")
end

flat_printer = RubyProf::FlatPrinter.new(result)
flat_printer.print(File.open("ruby_prof_reports/flat.txt", "w+"))

dot_printer = RubyProf::DotPrinter.new(result)
dot_printer.print(File.open('ruby_prof_reports/graphviz.dot', 'w+'))

graph_printer = RubyProf::GraphHtmlPrinter.new(result)
graph_printer.print(File.open("ruby_prof_reports/graph.html", "w+"))

printer_callstack = RubyProf::CallStackPrinter.new(result)
printer_callstack.print(File.open('ruby_prof_reports/callstack.html', 'w+'))
14 changes: 14 additions & 0 deletions stackprof.rb
Original file line number Diff line number Diff line change
@@ -0,0 +1,14 @@
# Stackprof report
# ruby 16-stackprof.rb
# cd stackprof_reports
# stackprof stackprof.dump
# stackprof stackprof.dump --method Object#work

require 'stackprof'
require_relative 'task-2-with-argument.rb'

`head -n #{16000} data_large.txt > data_small.txt`

StackProf.run(mode: :object, out: 'stackprof_reports/stackprof.dump', interval: 1000) do
work("data_small.txt")
end
96 changes: 96 additions & 0 deletions task-2-with-argument.rb
Original file line number Diff line number Diff line change
@@ -0,0 +1,96 @@
require 'json'
Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

# frozen_string_literal: true бы не помешало

require 'oj'

class User
attr_accessor :session_stats, :sessions, :first_name, :last_name

def initialize(id, first_name, last_name, age)
@id = id
@first_name = first_name
@last_name = last_name
@age = age
@sessions = []
@session_stats = {}
end
end

def parse_session(fields)
{
'user_id' => fields[0],
'session_id' => fields[1],
'browser' => fields[2],
'time' => fields[3],
'date' => fields[4]
}
end

def collect_stats_from_user(user)
return {} unless user

stats = {
'sessionsCount' => user.sessions.count,
'totalTime' => user.sessions.map {|s| s['time']}.map {|t| t.to_i}.sum.to_s + ' min.',
'longestSession' => user.sessions.map {|s| s['time']}.map {|t| t.to_i}.max.to_s + ' min.',
'browsers' => user.sessions.map {|s| s['browser']},
'dates' => user.sessions.map { |s| s['date'] }.sort.reverse
}

stats['usedIE'] = stats['browsers'].any? { |b| b =~ /INTERNET EXPLORER/ }
stats['alwaysUsedChrome'] = stats['browsers'].all? { |b| b =~ /CHROME/ }
stats['browsers'] = stats['browsers'].sort.join(', ')
stats['dates'].sort!.reverse!
stats
end

def write_user(user, stream_writer)
stream_writer.push_key("#{user.first_name} #{user.last_name}")
stream_writer.push_object
user.session_stats.each { |key, value| stream_writer.push_value(value, key.to_s) }
stream_writer.pop
end

def work(file_name)
total_users = 0
total_sessions = 0
unique_browsers = Set.new
user = nil

result_file = File.open('result.json', 'w')

stream_writer = Oj::StreamWriter.new(result_file)
Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

да-да, так покрасивее чем json руками собирать 👍

stream_writer.push_object
stream_writer.push_key('usersStats')
stream_writer.push_object

File.foreach(file_name) do |line|
type, *info = line.strip!.split(',')
if type == 'user'
total_users += 1
user.session_stats = collect_stats_from_user(user) if user
write_user(user, stream_writer) if user
user = User.new(*info)
end

if type == 'session'
total_sessions += 1
session = parse_session(info)
user.sessions << session
unique_browsers << session['browser'].upcase!
end
end

user.session_stats = collect_stats_from_user(user) if user
write_user(user, stream_writer) if user

stream_writer.pop

stream_writer.push_value(total_users, 'totalUsers')
stream_writer.push_value(unique_browsers.count, 'uniqueBrowsersCount')
stream_writer.push_value(total_sessions, 'totalSessions')
stream_writer.push_value(unique_browsers.sort.join(','), 'allBrowsers')

stream_writer.pop_all
result_file.close

puts "MEMORY USAGE: %d MB" % (`ps -o rss= -p #{Process.pid}`.to_i / 1024)
end