Hw5 by dadaist2001 · Pull Request #2 · dadaist2001/BioToolkit

dadaist2001 · 2025-10-12T20:22:00Z

Added FASTQ reading and file processing functions

…created

eksytnik

Хорошая работа! Есть мелочи, которые не добиты в самых сложных функциях, постаралась расписать логику, как это можно исправить и в чём конкретно возникли ошибки. Но в целом здорово, проделана отличная работа.

По мелочи по оформлению: уж очень минималистичный ридми, не везде хватает аннотаций типов, докстринги не все соответствуют функциям.

Распределение баллов:

Добработка FASTQ-модуля : 15 баллов + 5 доп баллов за реализацию фильтрации.

Часть B: за каждую из двух функций (из трех предложенных)

convert_multiline_fasta_to_oneline: 35 баллов

parse_blast_output: 30 баллов
Результат в итоге не корректный, но очень разумное направление мысли и реализации.

Третья функция была не обязательна, но она также большей частью реализована - 7 доп баллов.

Обновление ридми: 8 баллов (уж очень минималистично, без версий, и упоминание функций для fastq пропало).

Общее: -5б за чтение всего файла разом.

Итоговые баллы за задание: 83 + 12 дополнительно.

eksytnik · 2025-10-26T19:41:37Z

bio_files_processor.py

+    if output_fasta is None:
+        output_fasta = "converted_" + input_fasta.split("/")[-1]


Да, хороший способ справиться. Единственное что на свой вкус я бы подписала как "oneline" или еще с каким-то более явным указанием на то, что конвертед то.

eksytnik · 2025-10-27T11:34:24Z

bio_files_processor.py

+        output_fasta (str, optional): path for the converted file.
+
+    Returns:
+        str: path to the converted FASTA file.


Неправда, не возвращает такое.

eksytnik · 2025-10-27T11:47:15Z

bio_files_processor.py

+    results = []
+
+    with open(input_file, "r") as f:
+        lines = f.readlines()


Для файлов BLAST это может быть большим объемом, не стоить загружать их целиком в память.

eksytnik · 2025-10-27T11:47:53Z

bio_files_processor.py

+        None
+    """
+
+    results = []


Список вместо множества. Возможны дубликаты при нескольких QUERY с одинаковым топ-хитом.

eksytnik · 2025-10-27T11:48:22Z

bio_files_processor.py

+            if i + 1 < len(lines):
+                next_line = lines[i + 1].strip()
+                if next_line:
+                    results.append(next_line)


В задании нужен только Description, а тут добавится полная строка, в которой есть и другие вещи (даже если исправить комментарий выше).

eksytnik · 2025-10-27T12:05:29Z

bio_files_processor.py

+        if line.startswith("/gene="):
+            gene = line.split('"')[1]
+        elif line.startswith("/translation="):
+            translation = line.split('"')[1]


А в таком формате потеряется всегда, потому что в строке просто не будет закрывающей кавычки.

eksytnik · 2025-10-27T12:06:09Z

bio_files_processor.py

+    translation = ""
+
+    for line in all_lines:
+        line = line.rstrip()


rstrip это rights strip, он не удалит отступы слева и строка никогда не будет начинаться с того, что ищется дальше.

eksytnik · 2025-10-27T12:10:11Z

BioToolkit.py

+    mode = "w" if overwrite else "a"

-    return filtered
+    with open(output_fastq, mode) as out:


Она принимает из главной фунции сиквенсы на запись и output_fastq, и сохраняет отфильтрованные данные в папку filtered (ее может и не быть) по имени output_fastq.

Не реализована часть задания. Совсем для красоты было бы еще проверить, output_fastq уже .fastq или нет, но это так.

eksytnik · 2025-10-27T12:11:22Z

tools/read_tools.py

+            seq = f.readline().rstrip()
+            f.readline()  # plus line
+            qual = f.readline().rstrip()
+            yield name[1:], seq, qual  # remove '@' from name


👍 лайк что тут не чтение всего сразу, хорошая реализация.

eksytnik · 2025-10-27T12:21:29Z

README.md

-
+# BioToolkit
+
+This is a small bioinformatics toolkit for working with DNA and RNA sequences be dadaist2001.


Suggested change

This is a small bioinformatics toolkit for working with DNA and RNA sequences be dadaist2001.

This is a small bioinformatics toolkit for working with DNA and RNA sequences by dadaist2001.

dadaist2001 added 5 commits October 11, 2025 23:46

HW4: functions have simplified, a common utility for DNA and RNA has …

6c194e8

…created

HW5: add bio_files_processor

2b7aa28

HW5: add read_tools for FASTA

0f8cabf

HW5: update filter_fastq

ea45dab

HW5: update information

243ca38

eksytnik reviewed Oct 27, 2025

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Hw5#2

Hw5#2
dadaist2001 wants to merge 5 commits intohw4from
hw5

dadaist2001 commented Oct 12, 2025

Uh oh!

eksytnik left a comment •

edited

Loading

Uh oh!

eksytnik Oct 26, 2025

Uh oh!

eksytnik Oct 27, 2025

Uh oh!

eksytnik Oct 27, 2025

Uh oh!

eksytnik Oct 27, 2025

Uh oh!

eksytnik Oct 27, 2025

Uh oh!

eksytnik Oct 27, 2025

Uh oh!

eksytnik Oct 27, 2025

Uh oh!

eksytnik Oct 27, 2025

Uh oh!

eksytnik Oct 27, 2025

Uh oh!

eksytnik Oct 27, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

		if output_fasta is None:
		output_fasta = "converted_" + input_fasta.split("/")[-1]


		# BioToolkit

		This is a small bioinformatics toolkit for working with DNA and RNA sequences be dadaist2001.

Conversation

dadaist2001 commented Oct 12, 2025

Uh oh!

eksytnik left a comment • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

eksytnik left a comment •

edited

Loading