-
Notifications
You must be signed in to change notification settings - Fork 34
Open
Description
learn/experiment.py의 _load_exist_checkpoints 함수를 통해 checkpoint를 load할 시에 learn/trainer.py 에서 이를 활용하는 것에 대해 건의할 점이 있습니다.
왜냐하면, trainer.py 에서 학습 시에 load를 한 내용에 대한 부분을 활용해야
기존 진행된 학습을 중복하여 진행하지 않을 수 있을 것 같기 때문입니다.
구체적으로는
trainer.py 내용에서
self.metric_logs = {"best_epoch": 0, "best_global_step": 0, "best": None, "best_score": 0} 로 되어 있는 초기화를
load된 내용을 기반으로 넣어주어야 하며,
train 함수처럼 학습을 진행 시키는 함수에서
'for epoch in range(1, self.num_epochs+1)' 를
'for epoch in range(self.train_counter.epoch+1, self.epochs +1)'와
비슷하게 수정해야 한다고 생각합니다.
부정확할 수 있지만 도움이 되면 좋겠습니다.
그리고 typo로
Trainer Class 의 주석에 maximun 에서 maximum입니다.
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels