Conversation
andrewprzh
left a comment
There was a problem hiding this comment.
В целом все ок, тестов бы парочку добавить, типа где пропускаем экзон похожий на то что по краям интрона и не похожий, можно отсюда взять примеры прямо:
https://docs.google.com/presentation/d/1ePEny-uQo9UruXdrqHFyDIe2jagxKkunfW-N2ByyIIM/edit#slide=id.g84bc58e478_0_445
| read_left, read_right = read_junctions[read_cpos] | ||
| l, r = isoform_cregion | ||
| iso_left, iso_right = isoform_junctions[l][0], isoform_junctions[r][1] | ||
| exon_left, exon_right = isoform_junctions[l][1], isoform_junctions[r][0] |
There was a problem hiding this comment.
Что если мы пропустили два экзона подряд?
| score, size = 0, 1 | ||
| for a in pairwise2.align.globalms(seq, ref_seq, *self.scores): | ||
| score, size = a[2], a[4] | ||
| if score > 0.7 * size: |
There was a problem hiding this comment.
Если у нас система скора +2, -1, -1, -0.2 как я вижу выше, это достаточно маленькая отсечка.
максимальный скор при полном совпадении как я понимаю будет тогда 2*size
0.7 * size это примерно 57% совпадения символов, достаточно мало. можно ли сделать более классическую систему 1,-1,-1, -0.2? и оставить отсечку примерно такую же, для 0.7 это будет тогда примерно 85% совпадения (что неплохо соответствует количеству ошибок в нанопорах). так как эти регионы плохо выровнялись, значит там может быть больше ошибок, можно поставить отсечку 0.6
No description provided.