In [25]:
import math
import string
from collections import Counter

Этап 1: Чтение текста из файла

In [26]:
with open('some_text.txt', 'r', encoding='utf-8') as file:
 text = file.read()

Этап 2: Привести все слова к нижнему регистру, удалить знаки препинания и пробелы

In [27]:
text = text.lower() # Приведение к нижнему регистру
text = text.translate(str.maketrans('', '', string.punctuation + '\n')) # Удаление знаков препинания
text = text.replace(" ", "") # Удаление пробелов

In [28]:
with open('new_text.txt', 'w', encoding='utf-8') as file:
 file.write(text)

Этап 3: Подсчитать частоту появления однобуквенных и двухбуквенных сочетаний

In [29]:
def calculate_frequencies(text):
 single_char_freq = Counter(text) # Частоты однобуквенных сочетаний
 bigrams = [text[i:i+2] for i in range(len(text)-1)] # Двухбуквенные сочетания
 bigram_freq = Counter(bigrams)
 return single_char_freq, bigram_freq

In [30]:
single_char_freq, bigram_freq = calculate_frequencies(text)

Этап 4: Определение энтропии

In [31]:
def calculate_entropy(freq_dict, total_count):
 entropy = 0
 for freq in freq_dict.values():
 p = freq / total_count
 entropy -= p * math.log2(p)
 return entropy

In [32]:
single_char_entropy = calculate_entropy(single_char_freq, len(text))
bigram_entropy = calculate_entropy(bigram_freq, len(text)-1)

print(f"Энтропия на одну букву: {single_char_entropy}")
print(f"Энтропия на двухбуквенное сочетание: {bigram_entropy}")

Энтропия на одну букву: 3.9961505474490147
Энтропия на двухбуквенное сочетание: 7.389736513198184


Этап 5: Длина кода и избыточность

In [33]:
alphabet_size = len(single_char_freq)
uniform_code_length = math.log2(alphabet_size)
redundancy = uniform_code_length - single_char_entropy

print(f"Длина кода при равномерном кодировании: {uniform_code_length}")
print(f"Избыточность: {redundancy}")

Длина кода при равномерном кодировании: 4.459431618637297
Избыточность: 0.46328107118828266


Этап 6: Удаление 20% наиболее частых символов

In [34]:
num_to_remove = int(len(single_char_freq) * 0.2)
most_common = [char for char, _ in single_char_freq.most_common(num_to_remove)]
text_without_frequent = ''.join([char for char in text if char not in most_common])

new_single_char_freq, _ = calculate_frequencies(text_without_frequent)
new_single_char_entropy = calculate_entropy(new_single_char_freq, len(text_without_frequent))

print(f"Энтропия после удаления 20% самых частых символов: {new_single_char_entropy}")

Энтропия после удаления 20% самых частых символов: 3.7022435891926633


Этап 7: Удаление 20% наиболее редких символов

In [35]:
num_to_remove = int(len(single_char_freq) * 0.2)
least_common = [char for char, _ in single_char_freq.most_common()[:-num_to_remove-1:-1]]
text_without_rare = ''.join([char for char in text if char not in least_common])

new_single_char_freq, _ = calculate_frequencies(text_without_rare)
new_single_char_entropy = calculate_entropy(new_single_char_freq, len(text_without_rare))

print(f"Энтропия после удаления 20% самых редких символов: {new_single_char_entropy}")

Энтропия после удаления 20% самых редких символов: 3.9045244598725413
