Компютърен коректор на правописа за български езикстраница1/3
Дата22.02.2017
Размер372.73 Kb.
#15516
  1   2   3
Дипломна работа
Тема:

Компютърен коректор на правописа за български език

Автор:

Иван Иванов Кремов

Специалност: Информатика


Факултетен номер:32275

Ръководител: ст.н.с. Сергей Върбанов


Рецензент: доц. Николай Киров
Комисия:

1.

2.3.

Бакалавърски факултет

Департамент информатика

София, 2006 г.


Съдържание

Увод

Глава І: Построяване на речници с приложението DictBuilder. • GNU\GPL license

 • BgOffice-4.0

 • Характерни особености и структура на речниковите ресурси

 • Как се построява речник от списъци с приложен регулярен израз

 • Коректност на резултатните файлове

Глава ІІ: Текстов редактор с вграден коректор на правопис • MFC application model

 • Обектен модел на редактора

 • Зареждане и съхранение на данните

 • Търсене и достъп до данните

 • Кога се прави проверка на текста

 • Откриване на грешки

  • Търсене в стандартния речник

  • Търсене в потребителския речник

  • Търсене сред поправяните думи

  • Търсене сред игнорираните думи неподлежащи на проверка

 • Визуализиране на грешки

  • Представяне на грешките като обектен модел

  • Локализиране на грешка спрямо потребителските действия

 • Взаимодействие на потребителя със системата в случаи на откриване на грешки

  • Промяна на изписаният низ

  • Добавяне на дума в потребителския речник

  • Игнориране на дума

 • Откриване на близки думи до сгрешената дума

  • Филтриране на дубликати

 • Особени конструкции – словосъчетания на съюзите ”с” , ”със”, ”в”,”във”

 • Откриване на близки конструкции до сгрешена конструкция

 • Самообучение на системата със скрито описване на поправяните думи.

 • Заключение

Приложения:

 • План за тестване

 • Често задавани въпроси

Използвана литература

Увод

Компютърният коректор на правопис е едно изключително удобно помощно средство при създаване на компютърни текстове. Със заложената му функционалност за подчертаване на сгрешените думи, редакторът извършва автоматична проверка и показва своевременно допуснатите (според неговата спецификация) грешки. По този начин въвеждането на текст става по-бързо и по-лесно, отпада нуждата от повишено внимание и постоянно препрочитане на написаното. При откриване на неточности, корекцията им е лек, удобен и интуитивен процес за потребителя. Редакторът намира и предлага възможни, правилни варианти на сгрешения елемент чрез редица алгоритми за изследване на близки думи, които дават изключително добри резултати. Ефективността на този съвременен инструмент за правопис, се доказва от наличието на множество негови аналози, които успешно се използват от масовия потребител на текстообработващи програми.

Изключително сложна задача е да се правят опити за цялостно гарантиране на коректността на текста, тъй като за това е необходимо не само да се извършва синтактичен разбор на изречението (какъвто е реализиран тук), но също така и семантичен. В тази разработка не е заложена семантична проверка (отчитане на съгласуваност между отделните части на речта), а вместо това се правят лексикографски проверки на отделните думи и синтактични проверки на определени типове словосъчетания. Програмата следи за коректното изписване на думите, но не и за тяхната смислена съгласуваност.

Създаденият текстов редактор с коригиращи функции е отворен – предвидена е възможност за разширяване на речниковия му фонд, при положение, че се спазват определени правила при оформянето на речниците. За построяването им са използвани публично достъпните ресурси на BgOffice4.0. Те са списъци от категоризирани думи с приложени регулярни изрази. Това позволява с едно правило за дадена категория думи да се създаде списък от всички техни производни форми.

Уникалното в представената разработка е реализацията на проверка за синтактична коректност на части от текста, както и интегрираният елемент на самообучение при грешно изписани думи, системно поправяни по еднакъв начин. Осъществява се проверка за правилното изписване на съюзите ”с”, ”със”, ”в” и ”във”, съобразно правилата на българския език. Въведеният елемент на самообучение на системата, коригира автоматично конкретни грешки без потребителска намеса.

Актуалност на разглежданата тема

Необходимост от подобен вид софтуерни решения безспорно има, тъй като многоезичната поддръжка на съвременните компютърни операционни системи е факт. Ако в миналото потребителите са били възпрепятствани от технологична гледна точка, да използват кирилица в персоналните си компютри и заради това са избягвали да пишат текстове на български език, то това вече не е проблем. С възможността да се пише на кирилица се появява и нуждата от използване на коректори за правопис за български език.

Първите стъпки в технологичната ниша на текстовото коригирани са направени отдавна и в момента броят на потребителите, използващи коректори като комерсиални продукти е изключително голям. Тенденцията, обаче, е това да се промени, като потребителите се преориентират към многофункционални и безплатни технологични решения, каквото е и представеното тук. От чисто “пазарна” гледна точка – наличието на конкурентни продукти довежда до тяхната модернизация и развитие.

Разглежданото тук софтуерно решение е актуално и от друга гледна точка – то предоставя коректорни възможности каквито досега не са представяни от сходните му продукти – а именно проверката на словосъчетания с характерните за българския език съюзи ”с”, ”със”, ”в” и ”във”, както и анализирането на потребителските действия и взимането на решения при дадени техни прояви.

Оригинална е и технологията за търсене на сходни по изписване думи, която дава изключително добри резултати, често пъти по добри от аналогичните съществуващи коректори.
Какво практически може да се постигне с представената система ?
На първо място, технически погледнато – това е един пълнофункционален текстов редактор. Той обслужва всички стандартни операции за обработка на текстови файлове: създаване, отваряне, редактиране, записване, копиране, изтриване. На този етап се поддържат файлови формати от тип обикновени текстове, като тенденцията е в бъдеще да се поддържа и файловият формат RTF (Rich Text Format). Особеност на настоящата система е, че ако потребителят греши дадена дума по един и същ начин и респективно я редактира неколкократно по един и същ начин, то това е белег, че при написването на даден текстов низ всъщност се има предвид съвсем друг низ. Програмата счита този белег за сигурен и след даден момент нататък автоматично променя сгрешената дума с нейната използвана замяна.

Системни Изисквания и ограничения

Текстовият редактор, демонстриран тук, е проектиран да работи с всички Windows операционни системи, като задължително условие е те да имат инсталирани шрифтове с поддръжка на кирилица.

Системата е тествана върху платформи Windows 2000 Professional и Windows 2003 Server. Препоръчително е да се стартира върху NT базирани операционни системи с процесор минимум 500MHz и оперативна памет не по-малко от 128 мегабайта.

Стандартният речник се състои от близо 870.000 думи като най-дългата от тях е 25 символа. Това се счита и за максимална допустима дължина на думите и затова се заделят по 25 байта оперативна памет за съхраняването на всяка от тях. Така този речник заема около 20 мегабайта от RAM паметта и максимумът на използвана памет от програмата е 24 мегабайта. Според съвременните разбирания за обем на изразходваните системни ресурси, това е напълно приемливо число и е едно от предимствата на речника.Системни изисквания

OS

Windows 2000,XP,2003

Fonts

Cyrillic encoding must be supported

CPU

500 MHz or better

RAM

128MB or more

Keyboard

Standard

Mouse

Standard
Сподели с приятели:
  1   2   3
©obuch.info 2024
отнасят до администрацията

    Начална страница