Теория:
Текстовая информация представляет собой набор символов, которыми могут быть буквы, цифры, знаки препинания. В компьютерной технике символы закодированы с помощью чисел, каждый символ кодируется своим набором цифр — кодом.
Существуют специальные таблицы кодировок, в которых хранятся такие наборы кодов символов.
Кодовая таблица — это представление символов в компьютерной технике на внутреннем уровне.
Базой для компьютерных стандартов кодирования является кодировка ASCII. Однако этот стандарт рассчитан на передачу текстовой информации, которая состоит из букв английского алфавита. Таблица ASCII-кодов состоит из двух частей: стандартная (содержит коды от \(0\) до \(127\)) и расширенная (содержит символы с кодами от \(128\) до \(255\)).
\(0\)–\(31\) | Управляющие коды (для управления выводом данных) |
\(32\)–\(127\) | Интернациональные символы (символы английского алфавита, знаки препинания, цифры, арифметические символы) |
\(128\)–\(255\) | Символы национальных алфавитов, научные символы |
Для русского языка используют чаще всего однобайтовые кодовые таблицы КОИ-\(8\), CP-\(866\), ISO \(8859\)-\(5\). Первые \(128\) символов идентичны с таблицей ASCII-кодов, следующие символы (с \(128\) по \(255\)) предназначены для русских букв.
Стандарт Unicode кодирует все алфавиты современных, мёртвых и вымышленных языков. Современная компьютерная техника и операционные системы работают на базе \(16\)-битной версии Unicode.
Форматы текстовых файлов
Наиболее распространённый и простой формат текстовых файлов:
- .txt.
Усовершенствованный формат, который позволяет хранить форматирование:
- .rtf.
Позволяет работать с презентациями, формами, анимацией, аудио и видео:
- .pdf.
Для документов OpenOffice:
- .odt.
Для чтения электронных книг:
- .fb2;
- .djvu;
- .mobi;
- .epub.