remove redundant imports + commented out sections

tom-bbc · tom-bbc · commit fc3b77e8feed · 2023-04-25T09:30:23.000+01:00
diff --git a/rpunct/number_recoverer.py b/rpunct/number_recoverer.py
@@ -4,9 +4,9 @@
 Module supporting punctuation recovery and post-processing of raw STT output.
 """
 import re
+import decimal
 from num2words import num2words
 from number_parser import parse as number_parser, parse_number as individual_number_parser
-import decimal
 
 try:
     from rpunct.utils import *
diff --git a/rpunct/punctuate.py b/rpunct/punctuate.py
@@ -5,15 +5,10 @@
 __email__ = "daulet.nurmanbetov@gmail.com"
 
 import re
-import os
 import json
 import warnings
-from time import time
-from tqdm import tqdm
 from simpletransformers.ner import NERModel
 
-from langdetect import detect
-
 # VALID_LABELS = ["OU", "OO", ".O", "!O", ",O", ".U", "!U", ",U", ":O", ";O", ":U", "'O", "-O", "?O", "?U"]
 # PUNCT_LABELS = ['O', '.', ',', ':', ';', "'", '-', '?', '!', '%']
 PUNCT_LABELS = ['O', '.', ',', ':', ';', "'", '-', '?', '!']
diff --git a/rpunct/rpunct_recoverer.py b/rpunct/rpunct_recoverer.py
@@ -327,24 +327,6 @@ def itemise_segment(self, original_segment:list, recovered_segment:list) -> list
             index_orig += 1
             index_rec += 1
 
-        # # Verify all recovered words have been itemised
-        # try:
-        #     assert index_rec == len(recovered_segment), \
-        #         f"While reconstructing segment structure, one or more recovered words have been missed. \
-        #             \n Original text: {[item.content for item in original_segment]} \
-        #             \n Recovered text: {[item.content for item in recovered_segment]}"
-        # except AttributeError:
-        #     assert index_rec == len(recovered_segment), \
-        #         f"While reconstructing segment structure, one or more recovered words have been missed. \
-        #             \n Original text: {[item.content for item in original_segment]} \
-        #             \n Recovered text: {[item for item in recovered_segment]}"
-
-        # # Verify that the reconstructed segment is the same length as original (excluding words removed by hyphenation)
-        # assert len(recovered_segment) == (len(original_segment) - total_fewer_words), \
-        #     f"While reconstructing segment structure, a mistake has occured. \
-        #         \n Original text: {[item.content for item in original_segment]} \
-        #         \n Recovered text: {[item.content for item in recovered_segment]}"
-
         # Return new itemised segment to the list of segments
         return output_segment
 
@@ -378,15 +360,6 @@ def calc_end_item_index(self, plaintext_items_lst, recovered_words_lst, position
             orig_text_removals = original_segment_words.index('pence')
             punct_text_removals = 0
 
-        # elif recovered_word.startswith('£') and not original_segment_words[0].startswith('£'):
-        #     numerical_removals = self.find_subword_index(['pound', 'pounds'], original_segment_words, recovered_words_lst, position)
-        # elif recovered_word.startswith('$') and not original_segment_words[0].startswith('$'):
-        #     numerical_removals = self.find_subword_index(['dollar', 'dollars'], original_segment_words, recovered_words_lst, position)
-        # elif recovered_word.startswith('€') and not original_segment_words[0].startswith('€'):
-        #     numerical_removals = self.find_subword_index(['euro', 'euros'], original_segment_words, recovered_words_lst, position)
-        # elif recovered_word.startswith('¥') and not original_segment_words[0].startswith('¥') and original_segment_words.count('yen') > 0:
-        #     numerical_removals = original_segment_words.index('yen')
-
         else:
             # Align original natural language numbers to recovered digits
             mapping = align_texts(original_segment_words, recovered_words_lst, position)