Утилита конвертирующая базу вопросов в текстовом формате ( https://gitlab.com/b4tman/db_chgk , в ZIP архиве) в файлы в формате JSON
You cannot select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
|
8 months ago | |
---|---|---|
src | 8 months ago | |
.gitignore | 9 months ago | |
Cargo.lock | 9 months ago | |
Cargo.toml | 9 months ago | |
LICENSE | 8 months ago | |
README.md | 8 months ago |
README.md
chgk_txt2json
Конвертер текстовых файлов с вопросами в JSON формат.
Исходные файлы вопросов должны находиться в ZIP файле baza_utf8.zip
, результат будет записан в файл json.zip
.
Особенности
Кодировка исходных файлов
В оригинальных файлах базы используется кодировка KOI8-R
.
Но из за того что tokio::AsyncBufReadExt::lines работает только с UTF-8
, эта утилита работает с файлами которые уже в кодировке UTF-8
.
Алгоритм сжатия выходного архива
Для сжатия файлов в выходном архиве используется метод Zstandard
, т.к. он достаточно быстр и по степени сжатия сопоставим с обычным Deflate
.
Но для просмотра содержимого таких ZIP файлов нужно использовать ПО c поддержкой Zstandard
, например:
Ссылки
- Исходная база вопросов: http://db.chgk.info
- Копия файлов базы вопросов: https://gitlab.com/b4tman/db_chgk
- Утилита конвертации кодировки текстовых файлов в ZIP архиве: https://gitea.b4tman.ru/temp/ztb_recode