Ви є тут

Удосконалення процесу додрукарської підготовки видань на підставі побудови і дослідження його моделей

Автор: 
Калиній Ірина Василівна
Тип роботи: 
Дис. канд. наук
Рік: 
2005
Артикул:
3405U003382
129 грн
Додати в кошик

Вміст

РОЗДІЛ 2
МОДЕЛІ ІНФОРМАЦІЙНОГО ЗАБЕЗПЕЧЕННЯ
КОМП'ЮТЕРНОГО ОПРАЦЮВАННЯ
ТЕКСТОВОЇ ІНФОРМАЦІЇ

2.1.Модель структурної ідентифікації складних книжкових видань

Враховуючи положення, поняття і засоби, що стосуються загальної теорії систем [52,53,55-57] зокрема одного з її напрямів - теорії ієрархічних багаторівневих систем [54], запропонуємо спосіб розв'язання проблеми багаторівневого перетворення тексту і одержання сторінок складних видань у комп'ютерних видавничих системах. Використаємо при цьому стратифікований спосіб описання даних.
Основним і визначальним об'єктом перетворення у видавничих системах у загальному випадку служить текстова інформація. Поняття "текстова інформація" об'єднує собою саме текст, формули (математичні, хімічні), таблиці, рисунки, графіки і т.п. Абстрагуючись від змісту тексту, розглядатимемо тільки числові характеристики елементів видання, параметри його формування і стани інформації на різних етапах опрацювання. Сукупність різних відомостей про текстову інформацію назвемо тезаурусом інформаційного забезпечення видавничих систем. В процесі опрацювання текстової інформації тезаурус інформаційного забезпечення змінюється, формуються додаткові масиви, програмним способом утворюються спеціальні команди, необхідні для приймання результуючих даних фото-, чи іншою вивідною секцією та наступного одержання друкарських форм.
Застосування багаторівневого аналізу для всієї системи вимагає створення засобів і методів аналізу на окремих рівнях. Кінцевою метою аналізу є одержання такої сукупності алгоритмів перетворення вхідної текстової інформації, які б забезпечили одержання якісної складальної і, як результат, друкарської форми. Цю глобальну проблему треба розділити на підпроблеми. Спочатку зробимо такий поділ на інформаційному рівні.
Введемо поняття рівня структурної ідентифікації видання, в ролі якого виступатиме логічно і структурно завершена його частина, а саме: символ, слово, рядок, формула, таблиця, ілюстрація, абзац, сторінка, розділ. Очевидно, що між ними існує ієрархічна залежність і взаємозв'язок як за структурою, так і за змістом. Стан сформованості тексту чи готовності інших (нетекстових) елементів на кожному з рівнів в даному випадку суттєвого значення не має.
Не вникаючи у внутрішню будову рівнів, розглянемо теоретичні і технологічні вимоги, що пред'являються до локальних перетворень елементів на кожному з них. З усього переліку вимог виділимо ті, які мають відношення до етапу алгоритмізації та програмування задач опрацювання текстової інформації.
Почнемо з найнижчого рівня, яким є символ. Тут опрацювання тексту здійснюється за допомогою різних перетворень, які проводяться над символами. Основними параметрами, які аналізуються при цьому, є код символа, сукупність його ознак, управляючі сигнали або команди, які вказують на характер дій, що стосуються символа. В процесі початкової трансляції символи переводяться в коди внутрішнього алфавіту системи. Додаткові ознаки (буква, голосна, приголосна) в основному використовуються алгоритмами знаходження переносів у слові. До управляючих сигналів (команд), які містять інформацію про майбутній вигляд тексту, належать: "шрифтове виділення", що визначає графічне насичення і нахил рисунку знаку; "верхній регістр" - для одержання великих букв; "нижній регістр" - для малих букв; "гарнітура", "кегель" - визначають тип і висоту рисунку знаку.
Прикладом системних дій над символами може бути програмна реалізація правил складання, де на основі аналізу кодів символів і їх логічного порівняння приймається рішення про занесення у відповідне місце тексту коду проміжку.
Найбільш повно дії над символами виражені в процесі розділення слів на склади, або пошуку місць переносів у слові. Цей вид маніпуляцій над символами використовує не тільки код символа, але й різні ознаки, якими він супроводжується. Адже для формалізації правил граматичних переносів в українській мові необхідно розрізняти букви від "не букв", голосні від приголосних; знати, чи можна відривати букву від решти слова, чи обов'язково залишати її в попередньому рядку; вміти виділяти префікси та інші частини слова.
Наступний рівень - слово. Ця інформаційна структура бере участь у перетвореннях, пов'язаних з формуванням рядків, в яких вона виступає як складова частина ієрархічно вищого рівня. Слово - основний елемент для реалізації переносів, де аналізуються частини слова - буквосполучення, склади, букви. Поділ слів на склади здійснюється на основі граматичних правил орфографії. Додатково використовуються різні методи і методики, які вдосконалюють машинний пошук переносів. До основних методів відносять метод логічних правил, метод словника, метод поділу слів по звучності, ймовірнісний метод, матричний метод задання місць переносів [13].
Для одержання потрібної точності переносів слів недостатнім є використання тільки перерахованих методів. Найбільш придатний для формалізованого опису і досить ефективний метод логічних правил доповнюється різними методиками аналізу слова і його частин. Це методики виділення слова, яке містить тільки букви; визначення довжини слова; пошуку префікса. Їх можна використовувати як сумісно, так і окремо для підготовки, наприклад, комп'ютерних словників.
Опрацювання тексту на рівні рядка вимагає реалізації більш складних вимог, продиктованих відповідною логікою текстових перетворень. Кінцева мета цих перетворень полягає в забезпеченні рівності сумарної ширини деякої множини символів (включаючи проміжки між словами і літерами та частину слова, яка помістилася в рядку при наявності переносів) величині заданого горизонтального формату, яка може бути записана у вигляді наступного співвідношення [28]:

, (2.1)

де - кількість слів у рядку;
- ширина -го символа в -му слові;
- кількість символів у -му слові;
- ширина -го символу частини слова, яка розмістилася в рядку;
- мінімальна ширина проміж