Hw5 modules #1

Alisa411 · 2023-10-08T12:38:33Z

No description provided.

…for cycle

…an_wunsch

…ctions

…'T' nucleotides

pavlovanadia · 2023-10-13T23:02:01Z

data_processing_scripts/das_protein_tools.py

+import protein_dict as prd
+from random import choice


Вот тут все супер, protein_dict лежит в той же директории. что и программа, все импортируется, красота

pavlovanadia · 2023-10-13T23:02:02Z

data_processing_scripts/das_protein_tools.py

+    seq = seq.upper()
+    sequence = "".join(prd.AA_ONE_TO_THREE_LETTER[aa] for aa in seq)
+    return sequence[:-1]


Тоже нет улучшения, но при этом в словаре "-" в конце каждой а\к отсутствует, получается, от последней а\к будет откусываться буква?...

pavlovanadia · 2023-10-13T23:02:05Z

data_processing_scripts/dna_rna_tools.py

@@ -0,0 +1,95 @@
+# Import dna_rna_dict.py containing dictionaries for working with dna and rna sequences
+import dna_rna_dict as drd


Вот тут все тоже сработает, тк словарь лежит в той же директории. что и программа, все импортируется

pavlovanadia · 2023-10-13T23:02:07Z

data_processing_scripts/dna_rna_tools.py

+    action = args[-1].lower()
+    sequences = args[:-1]
+    results = []


ой, а где улучшение кода (не критично)

pavlovanadia · 2023-10-13T23:02:09Z

data_processing_scripts/fastq_tools.py

+    """
+    total_offset = 0
+    for char in quality_string:
+        offset = ord(char) - 33  # Assuming 33 as the default encoding offset


отлично!

pavlovanadia · 2023-10-13T23:02:10Z

data_processing_scripts/fastq_tools.py

+    if not isinstance(gc_bounds, tuple):
+        gc_bounds = (0, gc_bounds)
+
+    if not isinstance(length_bounds, tuple):
+        length_bounds = (0, length_bounds)


Отличная проверка!

pavlovanadia · 2023-10-13T23:02:12Z

data_processing_scripts/fastq_tools.py

+        if not all(letter in drd.DNA_LETTERS for letter in sequence):
+            print(f"Skipping non-fastq sequence: {seq_name}")
+            continue


Хорошая проверка! В целом, когда потом будет туда подгружать fastq-файлы, она не столь обязательна (но можно оставить), вообще хорошая идея проверять все и вся

pavlovanadia · 2023-10-13T23:02:13Z

data_processing_scripts/fastq_tools.py

+    print(filtered_seqs)
+
+    return filtered_seqs


Ой, а зачем нам и выводить, и возвращать? В задании же только вернуть словарь надо

pavlovanadia · 2023-10-13T23:02:16Z

main_script.py

+from data_processing_scripts.dna_rna_tools import main_dna_rna_tools
+from data_processing_scripts.das_protein_tools import main_protein_tools
+from data_processing_scripts.fastq_tools import main_fastq_tools


импорты корректные, даже после отделены двумя пустыми строками. все по PEP8, здорово

А вот дальше когда вызываются функции, то они обращаются к словарям и пытаются их импортировать. а в этой папке словарей нет, и все падает

То есть сюда же нужно прописать импорт словарей? Или же словари поднять на директорию выше, где лежит скрипт вызова функций?

pavlovanadia · 2023-10-13T23:02:18Z

main_script.py

+result = main_dna_rna_tools("ATcg", "reverse")
+print(result)
+
+# Call the main_protein_tools function with the necessary arguments.
+result = main_protein_tools("ACDE", "protein_mass")
+print(result)
+
+# Call the main_fastq_tools function with the necessary arguments.
+EXAMPLE_FASTQ = {
+    '@SRX079804:1:SRR292678:1:1101:21885:21885': (
+        'ACAGCAACATAAACATGATGGGATGGCGTAAGCCCCCGAGATATCAGTTTACCCAGGATAAGAGATTAAATTATGAGCAACATTATTAA',
+        'FGGGFGGGFGGGFGDFGCEBB@CCDFDDFFFFBFFGFGEFDFFFF;D@DD>C@DDGGGDFGDGG?GFGFEGFGGEF@FDGGGFGFBGGD'),
+}
+filtered_sequences = main_fastq_tools(
+    seqs=EXAMPLE_FASTQ,
+    gc_bounds=(0, 80),  # GC content от 40% до 60%
+    length_bounds=(10, 100),  # Длина последовательности от 10 до 100
+    quality_threshold=0  # Порог качества
+)
+
+print(filtered_sequences)


Но даже если бы не падало - пользователь при запуске скрипта сразу получит... Выводы тестовых запусков? Зачем?

Это было скорее для примера работы, чтобы при проверке посмотреть. Как это лучше оформить?

pavlovanadia · 2023-10-13T23:02:29Z

Комментарии:

README в ветке отсутствует
Структура репозитория, откровенно говоря, так себе. То есть в целом если скрипт со словарями лежит в папке - ээто допустимо, но почему один из словарей оказался на уровень выше? Выглядит непродуманно. к тому же один и тот же словарь повторяется на обоих уровнях...
Основной скрипт, видимо, не был протестирован - при первой же попытке запуска ошибка выдает неправильную структуру импортов словарей (подробнее далее)
Из основного скрипта верно импортируются три главные функции вспомогательных скриптов (и это здорово!). по идее главные функции Никита просил написать в основном скрипте - сам по себе этот факт я ошибкой не считаю, но именно нынешний вариант решения, а не как советовал Никита, приводит в дальнейшем в ошибке
Три главные функции используют словари, лежащие в той же папке, что и сами функции. НО вызываются они в главном скрипте. И - соответственно - при импорте словарей происходит ошибка, потому что словари не были импортированы в скрипт предварительно, а код их теперь, при вызове главных функций из основного скрипта, будет ожидать видеть в той же папке, что и основной скрипт. Поэтому с ошибкой падает все (ну кроме импорта словаря для нуклеиновых кислот, который почему-то оказался в одной директории с основным скриптом). Подробнее оставила комменты у импортов во всех скриптах, надеюсь, поможет разобраться в этом
В основном скрипте написан код для вызова тестовых запусков, непонятно, зачем
В целом функции работают не так, как задано в задании. Предполагалось, что каждая функция будет делать фильтрацию - конечно, баллы за это не снижаю, т.к. все получается, но лучшее понимание взаимодействия функций и структуры кода получилось бы, если следовать инструкциям Никиты

Итог:

За каждую из 3-x фильтраций fastq - 1 балл.
За главную функцию fastq-фильтратора - 0.3 балла, не работает из главного скрипта
За README - 0 баллов
За улучшения кода ДНК/РНК и белковых тулов - 0.8 балла
За структуру репозитория и качество кода - 2 балла

Бонусы и штрафы:

+0.1 за хорошую проверку в главной функции на режим границ для фильтрафии по длине и ГЦ-составу
+0.1 за проверку на послед-ть в fastq-файлах
+0.1 за хороший расчет качества рида

Итог: 6.4

Alisa411 and others added 30 commits October 8, 2023 15:26

Initial commit

0f4d9a9

add gc_content function

ed1312f

add seq_length function

d3316d0

add comment for seq_length function

4bafafa

add mean_encoding_offset function

a777063

fix return in seq_length function

862ae1a

fix var in gc_content function and add main function

b3e5d9f

delete example of usage

40e7678

move file from fast_seqs to data_processing_script folder

88c6097

fix bags in transcribe, complement, reverse_complement functions and …

bb73cd0

…for cycle

move fastq.py to the data_processing_script directory

2916b38

add das_protein_tools.py file

4029176

fix bugs in the functions and delete build_scoring_matrix and needlem…

d032f19

…an_wunsch

add dictionaries as protein_dict.py file

517c30f

add set of letters corresponding to amino acids

cea8cba

correct the name of AA_LETTERS set

63ce202

fix bugs corresponded to import protein_dict.py

939fa7b

create a new dictionary for dna/rna sequences

03d00be

add dictionaries for transcribe and complement functions

74c3c87

delete dictionaries

f5c0e56

add import of dna_rna_dict

477a767

add dictionaries for dna and rna letters

9f96328

delete function determining protein sequence

ede9207

add dockstrings to each function

f85eea1

correct input as only dna or rna sequences in main and transcribe fun…

bf40edd

…ctions

fix bug in main function: now cannot take sequence with both 'U' and …

6574845

…'T' nucleotides

add import of dna_rna_dict module

0ed9813

add main_script.py file for writing main functions

33526e0

correct the main function

d8918a2

change the name file to fastq_tools.py

b5cf7bd

Alisa411 added 6 commits October 8, 2023 15:26

change the name of main function

6b24a18

change the name of the main function

678e3ed

change the name of the main function

65c162d

fix bugs

c5d152e

add a blank row at the end of file

43e5743

add dna_rna_dict.py in fast_seqs directory

d4cc9af

pavlovanadia reviewed Oct 13, 2023

View reviewed changes

Update README.md file

5fe8b0f

		@@ -0,0 +1,95 @@
		# Import dna_rna_dict.py containing dictionaries for working with dna and rna sequences
		import dna_rna_dict as drd

Hw5 modules #1

Are you sure you want to change the base?

Hw5 modules #1

Uh oh!

Conversation

Alisa411 commented Oct 8, 2023

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

pavlovanadia commented Oct 13, 2023

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants