Тут показані розбіжності між вибраною ревізією та поточною версією сторінки.
— |
multitran [2013/02/26 22:25] (поточний) wombat створено |
||
---|---|---|---|
Рядок 1: | Рядок 1: | ||
+ | 1. Распаковываем словарь | ||
+ | gunzip -c -S .dz ~/Downloads/torrents/multitran/multitran_ruen.dsl.dz > multitran_ruen.dsl | ||
+ | 2. Измеряем число строк: | ||
+ | wc -l multitran_ruen.dsl | ||
+ | |||
+ | 3. Записываем заголовок в отдельный файл: | ||
+ | head -n1 multitran_ruen.dsl > ruen-head | ||
+ | |||
+ | 4. Редактируем заголовок, дообавляя в него цифру "1" и обращая внимание на кодировку текста в файле (UTF-16, кажется), в которой каждый второй байт "0x00". Поэтому цифру дописываем вместе с соответствующим "нулём". | ||
+ | |||
+ | 5. Записываем верхушку в первую половину словаря: | ||
+ | cat ruen-head > multitran_ruen-part1.dsl | ||
+ | |||
+ | 6. Записываем первую половину словаря без первой строки заголовка в целевой файл: | ||
+ | например | ||
+ | head -n 6908499 multitran_ruen.dsl >> multitran_ruen-part1.dsl | ||
+ | |||
+ | 7. Создаём маленький файлик с корректным окончанием словаря: | ||
+ | например | ||
+ | tail -n2 multitran_ruen.dsl > ruen-foot | ||
+ | |||
+ | 8. Дописываем эту концовку к файлу первой половины словаря: | ||
+ | cat ruen-foot >> multitran_ruen-part1.dsl | ||
+ | |||
+ | 9. Пакуем словарь dictzip'ом: | ||
+ | dictzip multitran_ruen-part1.dsl | ||
+ | |||
+ | 10. Записываем заголовок с именем словаря в файл второй половины: | ||
+ | cat ruen-head > multitran_ruen-part2.dsl | ||
+ | |||
+ | 11. Редактируем его так, чтобы в названии фигурировала цифра "2". Проще всего - открыть редактором и заменить цифру "1" на "2", не затрагивая окружающих байт. | ||
+ | |||
+ | 12. Дописать во вторую половину 2-ю и 3-ю строки заголовка исходного словаря: | ||
+ | head -n 3 multitran_ruen.dsl | tail -n2 >> multitran_ruen-part2.dsl | ||
+ | |||
+ | 13. Записать текст второй половины словаря в целевой файл: | ||
+ | tail -n 6000000 multitran_enru.dsl >> multitran_enru-part2.dsl | ||
+ | |||
+ | 14. Запаковать словарь dictzip'ом: | ||
+ | dictzip multitran_ruen-part2.dsl | ||
+ | |||
+ | Словари готовы к использованию. | ||
+ | Приятного аппетита! | ||
+ | | ||
+ | |