ИВАНКА ПЕТРОВА

 

МОДЕЛИРАНЕ НА МНОГОЗНАЧНОСТТА ПРИ АВТОМАТИЧНИЯ

СИНТАКТИЧЕН АНАЛИЗ

 

 

IVANKA PETROVA

 

MODELLING AMBIGUITY FOR THE NEEDS OF THE AUTOMATIC

SYNTACTIC ANALYSIS

(Summary)

 

The paper comments on the types of ambiguity which are relevant to automatic syntactic analysis. The peculiarities of categorial, lexical and structural ambiguty are examined in brief and different approaches to their description and disambiguation are presented. The problem is discussed from both a theoretical and a practical perspective.

 

Многозначността е едно от свойствата на естествeния език, които правят трудно постижимо създаването на ефективни електронни системи за неговия автоматичен анализ и генериране. На този етап от научното развитие снемането на многозначността при работата на една такава система е възможно само частично поради факта, че носителите на даден език откриват актуалния смисъл на езиковите съобщения не само на базата на непосредствения контекст и на знанията си за езика, но и с помощта на своя опит, на знанията си за света и за конкретната езикова ситуация. Все още обаче не е намерен начин за адекватно представяне и обработване на извънлингвистичната информация, необходима, за да се определи при автоматичния лингвистичен анализ и генериране точният смисъл на дадено езиково съобщение

 

В статията се разглеждат няколко вида многозначност и възможностите за моделирането им във връзка с изграждането на програма за автоматичен синтактичен анализ. Коментирани са както концептуалната, така и техническата страна на въпроса. Изложението не претендира за изчерпателност и има по-скоро обзорен характер.

 

За по-голяма яснота ще започнем с обща характиристика на примерен парсер, който е изграден от два модула – граматика и речник.

 

Граматиката представлява система от правила (и ограниченията върху тяхното приложение), които описват как словоформите се съчетават помежду си, за да образуват граматически правилни синтактични единици – фрази и изречения.

 

Правилата в граматиката са фразово-структурни и са от вида XàY, където Х е нетерминален символ, а Y е поредица от терминални и нетерминални символи. Нетерминалните символи са фразите, а терминалните символи са думите.Правилата работят на принципа „презапиши символа отляво със символите отдясно”.

 

Речникът може да се разглежда като множество от декларативни правила, представящи особеностите на терминалните символи. Анализът се извършва след „допитване” до речника, като по този начин се приписват на думите съответните им морфологични и семантични характеристики, необходими, за да се удовлетворят правилата в граматиката и да се извърши парсирането.

 

Ако граматиката включва например следните правила:

SàNP VP

NPàN

VPàV NP

за изречението Иван целуна Мария парсирането според тази граматика ще протече най-общо както следва:

Иван целуна Мария

N(sg, 3p) целуна Мария

NP(sg, 3p) целуна Мария

NP(sg, 3pV (sg, 3p) Мария

NP(sg, 3p) VP (sg, 3p) Мария

NP(sg, 3p) VP (sg, 3p) N

NP(sg, 3p)_agreement_ VP (sg, 3p)

S

 

Както се вижда от примера, в резултат на анализа се определят границите на фразите, вътрешната им структура и отношенията между тях.

Пълния текст четете в кн. 2/2006 г. на сп. “Български език”.

 

 

Обратно

Начало