Back | Home | Up | Next

EDICT5 RO

ANNA  K5

@

Home
Up
Glossary
Objectives
Formalism
Morphology
Physiology
Connectors
Serialization
Traits
Methods
Claims
Relations
Dictionary
Core UML
Tiger Server
Features
History
ToDo
Authors
API
Images
ToDo
DNA Declarations
Physiology RO
Real Time RO
ANNA as an Eco System RO
HMM Generator
ERP

 

Istoria reviziilor

Date/Reviser

Comment

Sept 25, 2005

Alexandru Mihail

S-a pornit lucrul la document

Sept 30,2005

 

Diagrama obiectivului sistemului EDICT. Descrierea obiectivului.

Oct 01,2005

 

Discutia procesului de invatare. Alfabet, vocabular, limbaj, gramatica, definitia dictionarului.

Oct 03, 2005

 

Introdus interfata grafica a editorului. Explicatii generale. Explicatia barei de instrumente a editorului.

Oct 08, 2005

 

Inlocuit interfata grafica cu ultima versiune a prototipului.

Revizuit discutia despre limbaje. Adaugat un exemplu de dictionar cu termeni biologici. Descris procesul de inferenta.

Oct 09, 2005

 

Adaugat mini-dictionarul demonstrativ de dictie. Descris filtrul de intrare si natura textelor juridice. Definita gramatica superficiala. Discutia sistemului primar de invatare.

Oct 10, 2005

 

Principiile codificarii textului. Explicarea automatului de rejectie. Codificarea. Exemplul “acesta este test” si “test de dictie”.

Oct 11, 2005

 

Introdusa histograma sortarilor indexului dictionarului.

Adaugata o sectiune privind mosorul intelegerii  REF _Ref117119373 \r \h 6.10

Oct 12, 2005

 

Adaugat automatul general al dictionarului.  REF _Ref117119942 \r \h 6.12 Ample discutii despre derivare prin cod.

 

Rectificat intreg documentul. Explicarea celor 3 nivele de dictionar.

Discutia axelor xyz. O mai buna descriere a procesului de compresie.

Brain-scan. Zona lichida.

Oct 15, 2005

Alexandru Mihail

Adaugat discutia despre derivarea vocala.

Capitolul despre dictionarul morfic. Descrise elementele de interfata: indexul general, lista legaturilor, lista rezultatelor, vizualizorul de text. Explicat sistemul de corelare a interactiunilor. Dictionarul Juridic Roman - scurta prezentare. Rama globala de sistem.

Oct 16, 2005

Alexandru Mihail

Corectii.Discutie despre erorile de intelegere ale dictionarelor.

 Qvod erat demonstrandum.

 

Cuprins

 TOC \o "1-3" \h \z 1      Note importante privind legea. PAGEREF _Toc117356420 \h 4

1.1       Proprietatea intelectuala. PAGEREF _Toc117356421 \h 4

1.2       Marci inregistrate sau in curs de inregistrare. PAGEREF _Toc117356422 \h 4

1.3       Patente. PAGEREF _Toc117356423 \h 4

1.4       Acord de confidentialitate. PAGEREF _Toc117356424 \h 4

2      Preambul PAGEREF _Toc117356425 \h 5

3      Obiectivele sistemului EDICT-GAIUS. PAGEREF _Toc117356426 \h 6

4      Procesul de invatare. PAGEREF _Toc117356427 \h 8

4.1       Problema transferului de cunoastere intre doi subiecti PAGEREF _Toc117356428 \h 8

4.2       Limbaj, alfabet, gramatica, vocabular, semantica, dictionare. PAGEREF _Toc117356429 \h 8

4.3       Ierarhia limbajelor PAGEREF _Toc117356430 \h 9

4.4       Compilatorul PAGEREF _Toc117356431 \h 9

4.5       Iregularitatea, problema de fond a limbajului natural PAGEREF _Toc117356432 \h 10

4.6       Iregularitatea si redundanta mijloace de asigurare a integritatii in transmisie. PAGEREF _Toc117356433 \h 10

4.7       Despre dictionare in general PAGEREF _Toc117356434 \h 10

4.7.1        Un exemplu de dictionar PAGEREF _Toc117356435 \h 11

4.7.2        Deficientele dictionarelor PAGEREF _Toc117356436 \h 12

4.7.3        Diferenta intre DEX si EDICT. PAGEREF _Toc117356437 \h 13

5      Sistemul primar de invatare. PAGEREF _Toc117356438 \h 14

5.1       Structura fizica si logica generala a textului de import PAGEREF _Toc117356439 \h 14

5.2       Filtrele de import ale sistemului Edict PAGEREF _Toc117356440 \h 15

5.3       Procesul de formare a dictionarelor Edict prin invatare. PAGEREF _Toc117356441 \h 15

5.4       Sistemul primar de invatare sau achizitie. PAGEREF _Toc117356442 \h 16

5.4.1        O ilustrare a problemei invatarii PAGEREF _Toc117356443 \h 16

5.4.2        Analiza textului PAGEREF _Toc117356444 \h 16

5.4.3        Monitorizarea procesului de invatare. PAGEREF _Toc117356445 \h 17

6      Centrul vorbirii PAGEREF _Toc117356446 \h 18

6.1       Reteaua neuronala. PAGEREF _Toc117356447 \h 18

6.2       Constituirea automatului de recunoastere. PAGEREF _Toc117356448 \h 19

6.3       Automatul de acceptare. PAGEREF _Toc117356449 \h 20

6.4       Automatul de invatare. PAGEREF _Toc117356450 \h 20

6.5       Istoria automatului (arhiva codificarii) PAGEREF _Toc117356451 \h 20

6.6       Codificarea si decodificarea textului PAGEREF _Toc117356452 \h 21

6.7       Principiile codificarii gramaticale. PAGEREF _Toc117356453 \h 21

6.8       Definitia "definitiilor". PAGEREF _Toc117356454 \h 22

6.9       Structura unui dictionar PAGEREF _Toc117356455 \h 22

6.10     Mosorul intelegerii PAGEREF _Toc117356456 \h 23

6.10.1      Miezul lichid. PAGEREF _Toc117356457 \h 23

6.10.2      Alocatorul de memorie "lichida". PAGEREF _Toc117356458 \h 23

6.10.3      Un dezavantaj relativ al segregarii PAGEREF _Toc117356459 \h 24

6.10.4      Monitorizarea activitatii dictionarului in zona sinaptica. PAGEREF _Toc117356460 \h 24

6.11     Edict este un dictionar recursiv pe mai multe nivele. PAGEREF _Toc117356461 \h 24

6.11.1      Alfabetul PAGEREF _Toc117356462 \h 25

6.11.2      Vocabularul PAGEREF _Toc117356463 \h 25

6.11.3      Biblioteca. PAGEREF _Toc117356464 \h 25

6.11.4      Definitia simbolurilor PAGEREF _Toc117356465 \h 25

6.12     Dictionarul recursiv. PAGEREF _Toc117356466 \h 26

6.12.1      Axa simbolurilor X.. PAGEREF _Toc117356467 \h 27

6.12.2      Axa legaturilor gramaticale Y.. PAGEREF _Toc117356468 \h 27

6.12.3      Axa arhivei Z.. PAGEREF _Toc117356469 \h 27

6.12.4      Exceptiile de codificare. PAGEREF _Toc117356470 \h 28

6.12.5      Derivarea textuala in arhiva dictionarului PAGEREF _Toc117356471 \h 28

6.12.6      Derivarea vocala. PAGEREF _Toc117356472 \h 29

6.12.7      Masina de codificare Edict vorbeste. PAGEREF _Toc117356473 \h 29

6.12.8      Compresia gramaticala a textului PAGEREF _Toc117356474 \h 30

6.12.9      Statistica procesului de compresie gramaticala. PAGEREF _Toc117356475 \h 30

7      Dictionarul morfic. PAGEREF _Toc117356476 \h 31

7.1       Natura problemei compresiei si invatarii simultane. PAGEREF _Toc117356477 \h 31

7.2       Recodificarea arhivei PAGEREF _Toc117356478 \h 31

7.3       Morfismul structural al arhivei PAGEREF _Toc117356479 \h 32

7.4       Scara efortului de recodificare. PAGEREF _Toc117356480 \h 32

7.5       Limitele morfismelor arhivei PAGEREF _Toc117356481 \h 32

7.6       Dictionarul morfic comprimat PAGEREF _Toc117356482 \h 33

7.7       "Electorencefalograma" procesului morfic de recodificare. PAGEREF _Toc117356483 \h 34

8      Corectarea dictionarelor PAGEREF _Toc117356484 \h 36

8.1       Cazuri frecvente de eroroare. PAGEREF _Toc117356485 \h 36

8.2       Intelegerea gresita. PAGEREF _Toc117356486 \h 36

8.2.1     Disjunctia. PAGEREF _Toc117356487 \h 36

8.2.2        Confuzia. PAGEREF _Toc117356488 \h 37

8.2.3        Contradictia. PAGEREF _Toc117356489 \h 37

8.2.4        Inaccesibilitatea. PAGEREF _Toc117356490 \h 37

8.2.5        Dezordinea. PAGEREF _Toc117356491 \h 37

8.2.6        Irelevanta. PAGEREF _Toc117356492 \h 38

8.3       Modificarea dictionarului PAGEREF _Toc117356493 \h 38

8.3.1        Orice invat are si dezvat PAGEREF _Toc117356494 \h 39

8.3.2        Modificare prin debobinare si rebobinare. PAGEREF _Toc117356495 \h 39

8.3.3        Principiul santinelei PAGEREF _Toc117356496 \h 39

8.3.4        Stergerea unui simbol PAGEREF _Toc117356497 \h 40

8.3.5        Inlocuirea unui simbol PAGEREF _Toc117356498 \h 40

8.3.6        Principiile stergerii PAGEREF _Toc117356499 \h 40

8.4       Alte mijloace de modificare a dictionarelor PAGEREF _Toc117356500 \h 41

9      Interfata de editare a dictionarelor Edict PAGEREF _Toc117356501 \h 42

9.1       Bara de instrumente a lui Edict PAGEREF _Toc117356502 \h 43

9.1.1        Filtrul si reinprospatarea indexului PAGEREF _Toc117356503 \h 43

9.1.2        Lectorul de text PAGEREF _Toc117356504 \h 43

9.1.3        Semnul de carte. PAGEREF _Toc117356505 \h 43

9.1.4        Optiuni generale. PAGEREF _Toc117356506 \h 43

9.1.5        Salvarea si incarcarea ordinii de lista. PAGEREF _Toc117356507 \h 43

9.1.6        Optiuni aplicabile fiecarui cuvant PAGEREF _Toc117356508 \h 44

9.1.7        Deschiderea textelor selectate. PAGEREF _Toc117356509 \h 45

9.1.8        Bara de cautare si optiunile sale. PAGEREF _Toc117356510 \h 45

9.1.9        Butonul de generare a schemei gramaticale de inchidere. PAGEREF _Toc117356511 \h 45

9.2       Indexul general al dictionarului PAGEREF _Toc117356512 \h 45

9.3       Lista legaturilor gramaticale. PAGEREF _Toc117356513 \h 46

9.4       Lista definitiilor PAGEREF _Toc117356514 \h 46

9.5       Vizualizorul textelor explicative. PAGEREF _Toc117356515 \h 47

9.6       Sistemul de corelare a selectiilor PAGEREF _Toc117356516 \h 47

10    Dictionarul roman juridic. PAGEREF _Toc117356517 \h 49

11    Interactiunea sistemelor Edict, Gaius si Browser in rama globala. PAGEREF _Toc117356518 \h 50


Note importante privind legea

Proprietatea intelectuala

Acest document contine un material sensibil, cu potential eceonomic, care ramane sub toate aspectele in proprietatea autorului si a S.C. Proxima Centauri Romania S.R.L.

 

Copierea in tot sau in parte precum si publicarea acestui material fara permisiunea expresa a autorului este interzisa de legile romane si de tratatele internationale privind drepturile de autor.

 

Marci inregistrate sau in curs de inregistrare

ANNA K5, GAIUS 5 si EDICT sunt marci inregistrate sau in curs de inregistrare ale societatii Proxima Centauri.

 

Patente

Metodele, procesele, si modelele descrise in acest document sunt pe caale de a fi patentate in Romania, Australia, UE si SUA.

 

Acord de confidentialitate

Cititorul va fi obligat sa ne protejeze prin nedivulgarea catre terti si prin neinsusirea materialului care urmeaza. El va parasi acest document de indata ce considera ca ar putea avea un interes contrar cu Proxima Centauri. Cititorul care nu se considera in conflict de interese cu noi isi va continua lectura sub acesta clauza de confidentialitate. Acordul dumneavoastra este prezumat.

 


Preambul

Diferenta esentiala dintre fiinta vie si obiect este capacitatea primeia de a asimila un model informatic din mediu inconjurator, a-l interpreta si retransmite. Toate fiintele sunt, inainte de orice, automate de recunoastere. Aceasta virtute este atat de importanta incat, daca am putea privi toate lucrurile de la distanta cuvenita pentru a le intelege, am realiza ca ceea ce ne aseamana cu celelalte fiinte eclipseaza aproape in totalitate diferentele.

 

Unitatea de masura a informatiei este cuvantul. In ziua de azi, in lumina noilor descoperiri si marilor eforturi de formalizare desfasurate in lumea stiintei, materia insasi ne apare ca fiind pura informatie, si prin urmae o insiruire de cuvinte. Asa stand lucrurile, sunt uluit de clarvizinea Sfantului Ioan care isi incepea lucrarea sa astfel:

 

“La inceput a fost Cuvantul. Iar cuvantul era Dumnezeu.”

 

In lucrarea de fata vom parcurge un drum invers catre clasa I-a primara, spre originea si fundamantele vorbirii, sa vedem ce sunt cu adevarat cuvintele, dupa care ne vom intoarce la problema speciala a codificarii dreptului, insa pe un alt drum si inzestrati cu arma deosebit de puternica a Dictionarului Morfic.

 

Dedic aceasta cercetare memoriei tatalui meu vitreg Anatol Pedestrasu caruia ii datorez orice notiune despre sintaxa, gramatica si morfologie. In momentele cele mai grele ale dezvoltarii acestei lucrari, i-am simtit intotdeauna ajutorul venind printr-un canal pe care stiinta nu-l va putea niciodata deslusi. 

 


Obiectivele sistemului EDICT-GAIUS

EDICT este un acronim pentru Editor de Dictionare. Acest system este un nou membru in familia de componente ale sistemului de operare ANNA K5 avand ca obiectiv crearea aoutomata a dictionarelor si exploatarea acestora. EDICT este primul nivel de inteligenta artificiala intr-un lant logic in care Gaius este nivelul cel mai inalt. In alti termeni, Gaius este sprijinit in functionarea sa de dictionarele produse de catre Edict. Vom vedea in cele ce urmeaza cum si de ce.

 

        Documente straine

Lg1

Lg2

Lg3

LgN

        Documente generate

Art1

Art2

Art3

ArtN

10

10

Functia

Edict-Gaius

  Import

     Export

1

2

3a

4

5

6

7

8

9

11

 Audio Out

  Audio In

12

Sistemul primar de invatare

EDICT

 

Editorul de Dictionare

EDICT

Sistemul de referentiere notionala si adnotari   GAIUS

Filtre

 

Generatorul Vocal

Analizorul Vocal

P

 

Centrul vorbirii

EDICT

3b

Dictionarul Roman Juridic

Diagnostic

status


Sistemul Edict-Gaius opereaza intre o materie de import si una de export. Materia de import a sistemului este textul brut, textul de lege, care poate proveni fie de la Monitorul Oficial, Ministerul Justitiei, fie din orice alt izvor de format electronic. Materia exportata de sistem este articolul, comentariul, doctrina, proiectul de lege, corectura, sau orice alt text aflat, dar nu neaparat, intr-o legatura de dependenta cu materia importata.

La centrul functiei sale interne se afla o componenta numita Centrul Vorbirii, insarcinata cu constituirea unui dictionar de cuvinte si legaturi gramaticale. Aici sunt arhivate intr-o forma speciala toate textele importate de-alungul istoriei de functionare a sistemului. Sistemul constituie acest dictionar (tranzitia 3) printr-un sistem primar de invatare prin preluarea si interpretarea textului importat (tranzitiile 1 si 2). Dictionarul central se afla sub presiunea exercitata de doua forte antagonice: prima este cea de rafinare si organizare influentata de utilizator prin intermediul Editorului de dictionar (4,5), a doua este o forta de dispersie si re-amestec exercitata de importul continuu de material strain sistemului (1,2,3). Acestea sunt functiile specifice lui Edict, la care se adauga cele ale lui Gaius. Gaius preia textul de lege din dictionarul legislativ central si urmeaza calea sa proprie de post procesare.

 

Functia sistemului Gaius este discutata amanuntit in raportul Gaius ro.DOC. Reamintim doar ca in principal Gaius este un compilator de nivel inalt de text legislativ care descompune un text pe parti, titluri, sectiuni, capitole, articole si in final paragrafe, putand apoi compara continutul fiecatui nod din arborescenta astfel obtinuta cu struturile sale ierarhice si itretesute de notiuni deja existente pentru crearea de noi legaturi. Gaius este deci un sistem de cros referentiere la nivel de notiuni, si o unealta de adnotare a acestora.

 

Edict este motorul primar de cautare folosit de Gaius pentru a obtine noi texte de lege (tranzitia 6). Modificarile pe care Gaius le aduce textului, precum si adnotarile juristului se vor intoarce in dictionarul central prin calea inversa Gaius-Edict (tranzitia 7), formand astfel un circuit informatic simetric.

 

Gaius produce documente in formatul sau specific, care este axat pe umplerea cat mai puternica a spatiului vizual cu informatie cu grad descrescator de interes de la notiunea centrala catre periferia spatiului vizual. Acest format este similar paginii de ziar, unde editorialul are pe margini, jur imprejur articole adiacente. In cazul lui Gaius insa, articolele adiacente au o puternica legatura cu cel central. Documentele astfel produse si exportate din sistem pot face cale intoarsa din diverse motive externe si pot sa apara din nou la poarta de import a sistemului Edict-Gaius (tranzitia 10).

 

Dictionarele sunt structuri de date complexe ce ridica problemele lor specifice. In dezvoltarea sistemului Edict ne-am preocupat de rezolvarea problemelelor usuale legate de forma si continutul dictionarului generic, dar in special de foarte gravele probleme legate de constituirea lor automata, de manipularea unui volumul urias de cuvinte, de stocarea acestor dictionare intr-un spatiu limitat, si utilizarea lor in concordanta cu obiectivul nostru in plan juridic.

 

In cele ce urmeaza vom discuta cateva aspecte teoretice ale procesului general de invatare, de transmisie a informatiei intre doi poli ai unei comunicatii, vom prezenta unele notiuni fundamentale in domeniu precum alfabet, gramatica si limbaj, vom introduce si defini notiunea de dictionar, apoi vom discuta aspectele teoretice si practice ale sistemului Edict in detaliu, pozitia sa in practica actuala si viitorul sau.

 


Procesul de invatare

Stim cu totii ce inseamna un dictionar. Le-am folosit permanent in procesul continuu de educare. Putem spune ca un dictionar este o suma de cuvinte explicate, cuvinte in aflate intr-o oarecare forma de interdependenta. Realitatea este ca, inafara de specialistii in domeniu, cu totii am uitat primii nostri pasi in cursul primar, si n-am reflectat asupra semificatiei acelui tip de invatare. Am invatat atunci ABC-ul, sa citim si sa scriem, sa comunicam in termeni comuni societatii noastre. Erau pasi dificili pentru momentul respectiv, din fericire bine dozat de institutiile de invatamant.

 

Suntem acum confruntati din nou cu aceeasi problema dar la alta scara: avem de cuprins vaste biblioteci de concepte pe care omenirea le-a acumulat printr-un efort colectiv. Este un nou tip de abecedar pe care omul modern trebuie sa-l invete in a doua etapa a vietii sale aspirand la profesionism itr-un anume domeniu al cunoasterii. Datorite volumului de informatie, acest efort poate fi coplesitor daca nu este bine structurat.

Problema transferului de cunoastere intre doi subiecti

Circuitul comunicarii intre orice entitati inteligente este urmatorul: model (Ma) in reprezentarea interna a subiectului A -----scriere---> hartie (H) ----citire----> model (Mb) in reprezentarea interna a subiectului B. Procedura de transfer a modelelor se face in acelasi mod indiferent de mediumul prin care se transfera. A scrie modelul M pe hartie, iar B il citeste. Hartia in sine nu echivaleaza cu intreg modelul, ci este o schita la un anume nivel de detaliu suficient lui B pentru a-l citi si intelege. Citirea este perfecta numai in cazul ideal in care B cunoaste toti termenii in care A s-a exprimat. Pentru eventualele diferente intre pregatirea lui A si cea a lui B se recurge la o procedura de nivelare, in care B cere explicatii suplimentare lui A. Procesele cognitive sunt complexe. Legatura intre scriitor si cititor este de cele mai multe ori unidirectionala, astfel incat B este nevoit sa recurga la C pentru acele explicatii. Intreg acest proces se numeste educatie. Intreg modelul nu poate fi transmis in inregistrare, deoarece face parte dintr-o structura semantica mult mai extinsa decat pare la prima vedere, un text facand in fapt referire la notiuni presupus cunoscute cititorului.

Limbaj, alfabet, gramatica, vocabular, semantica, dictionare

Cheia invatarii este comunicarea. Comunicarea consta intr-o metoda de transfer a unei stiinte din mintea unuia catre mintea altuia, nu neaparat contemporani. Scrisul si cititul sunt procese de serializare, inscriere a informatiei, de transfer a unui model subiectiv propriu unui individ catre un alt individ printr-un procedeu invers, de citire. Pentru stabilirea acestui transfer este necesar ca transmitatorul si receptorul sa se poata intelege unul cu celalat. Intelegerea implica o identitate, sau macar o similaritate adecvata, a limbajului celor doi.

 

Prin limbaj comun se inteleg urmatorele:

  1. Alfabetul comun folosit la codificarea simbolurilor transmise
  2. Vocabularul comun de simboluri, cuvintele folosite in transmisie
  3. Reguli gramaticale de concatenare a cuvintelor folosite la fel pentru codificare si decodificare.
  4. O semantica identica sau suficient de apropiata a cuvintelor si frazelor transmise.

Comunicarea intre doi subiecti nu este posibila in absenta unuia dintre elementele enumerate.

 

Ce este deci limbajul? Limbajul este o multime abstracta, potential infinita de siruri numite fraze, purtatore de semantica, formate din simboluri numite cuvinte apartinand unui vocabular finit, si inseilate in raport cu o serie de reguli numita gramatica.

 

Din definitia data trebuie subliniat faptul ca aceste siruri de simboluri trebuie sa poarte o incarcatura semantica. Semantica unui limbaj este extrinseca acestuia, ea existand numai in psihicul transmitatorului si receptorului unei transmisii. Purtatorul semanticii unui limbaj este dictionarul de concepte ale speciei aflate in comunicare.

 

Un dictionar este un vocabular atributat. Un dictionar poate avea mai multe vocabulare, iar un vocabular poate fi sustinut semantic de mai multe dictionare axate pe multimi semantice diferite. Astfel se ajunge ca printr-un dictionar notional comun, indivizii vorbitori in limbi diferite sa se poata eventual intelege invatandu-si reciproc numai limba. Alfabetul este o recursiune a notiunii de limbaj la un nivel mai scazut. Cuvintele, simbolurile majore ale respectivului limbaj, sunt constituite din alte simboluri - litere, apartinand unui alt limbaj de nivel scazut. Nu toate limbile au un alfabet. Chineza, japoneza, de exemplu nu au alfabet ci au direct un vocabular. In teoria de operare a sistemului EDICT, dupa cum vom vedea, prin dictionar se vor uniformiza atat alfabetul, vocabularul, cat si frazele limbii, intr-un meta-vocabular.

Ierarhia limbajelor

Teoria limajelor ii are ca promotori pe Turing, Cheomsky, si Greybach. Din formalizmul introdus de acestia am retinut ca limbajele se impart in patru mari categorii, intre cele mai simple catre cele mai compexe. Cele mai simple sunt asa numitele expresii regulate care, dupa cum le sugereaza numele, sunt generate de niste reguli precise si suficient de simple astfel incat receptorul unui text codificat in acest fel sa nu aibe nevoie de memorie. Cu un grad de complexitate mai crescut este clasa L2 a limbajelor zise independente de context, din care fac parte majoritatea limbajelor de programare actuale. Pe o treapta superioara a complexitatii, dar la mare distanta, stau limbajele naturale de clasa L1 folosite de noi oamenii, si mai mult decat probabil si de catre animale. In sfarsit, teoria admite prin reducere la absurd existenta limbajelor L0, pe care le numesc amorfe, care nu pot fi generate in totalitatea lor de reguli stricte.

Compilatorul

Sunt de parere ca dincolo de complexitatea inimaginabila a multor programe si sisteme de operare, in lumea ciberneticii actuale raman, ca si acum 40 de ani, numai doua specii de program cu adevarat inteligente. Acestea sunt compilatoarele si optimizoarele. Compilatorul este un automat de recunoastere a textului scris, optimizorul fiind un motor de interpretare a celor citite de catre unitatea artificiala de compilare in vederea reduceri simbolice a redundantei. Aceasta specie de programe este singura care manifesta trasatura fundamentala a fiintelor vii, aceea de a-si intelege intr-un fel sau altul mediul.

EDICT este un compilator multiplu de limbaj natural, precum si un asemenea optimizor, aceste trasaturi conferindu-i calitatea de centru de inteligenta artificiala.

Iregularitatea, problema de fond a limbajului natural

Dependenta de context a unui limbaj consta in posibilitatea aparitiei mai multor intelesuri a aceleiasi propozitii in functie de intelesul contextual anterior si ulterior. Aceasta este una dintre posibilele forme de iregularitate ale limbajului natural. Iregularitatea este considerata de stiinta ca o mare deficienta si un obstacol in calea dezvoltarii informaticii, oamenii neputandu-se intelege la un grad suficient de inalt de calitate cu masinile pe care le-au creat, nu din pricina neajunsurilor masinilor, ci din pricina propriilor noastre obiceiuri, in primul rand felului nostru de a comunica. Limbajele formale, cele artificial construite de stiinta, inlature problema iregularitatii dar atrag problema factorului uman al invatarii si adaptarii la aceste noi limbaje care sunt in general deosebit de criptice. O “specie” noua de oameni este pe cale sa se desprinda de gen, specia programatorului. O metafora, de sigur, dar una menita sa ajute la intelegerea problemei pe care Edict o are de rezolvat: a contitui un dictionar de cuvinte legate intre ele potrivit gramaticii limbii romane, si a bobina pe acest “mosor” imense cantitati de text.

Iregularitatea si redundanta mijloace de asigurare a integritatii in transmisie

Desi privita ca un defect, iregularitatea unei limbi este o manifestare a evolutiei in jurul respecivei forme. O formula neregulata se separa de restul limbii devenind inconfundabila in inteles cu o alta regulata si asemenatoare. Formele neregulate sunt de obicei scurte si frecvente. Redundanta in comunicare pe de alta parte este mijlocul prin care transmitatorul codifica acelasi inteles in doua forme diferite, si are ca obiect imbunatatirea sanselor ca receptorul transmisiei sa gaseasca in una din cele doua forme elementele de vocabular proprii intelegerii sale, sau sa poata reconstitui cu mai multa acuratete modelul transmis. Redundanta este inutila in cazul in care acelasi lucru este spus de doua ori in exact aceiasi termeni, si este ineficienta daca va conduce prin imperfectiuni la formarea a doua modele disjuncte in loc de unu singur si bun.

Ne framanta aceste subiecte deoarece avem de-a face cu legislatie care vine in diverse reviziuni ale aceluiasi text, sau spune doua lucruri oarecum diferite dar mai mult similare. Dictionarul EDICT va trebui sa stie sa asculte intr-un mod care sa-i permita eliminarea drastica a redundantei informatice inutile, si sa comprime cu exactitate diferentele utile de inteles in textele introduse.

Despre dictionare in general

In principiu, un dictionar este o structura de date formata dintr-o lista de cuvinte in care fiecare cuvant are atasat o explicatie. Explicatia cuvantului face referire la alte cuvinte. Dictionarul este astfel o structura care leaga un cuvant de o fraza, iar fraza de fiecare cuvant continut, inchizand astfel un circuit recursiv. Fraza descriptiva este pe intelesul cititorului numai cata vreme acesta cunoste atat cuvintele individuale ale explicatiei, cat si regurile gramaticale pe care se constituie explicatia.


Un exemplu de dictionar

Introducem cu titlu de exemplu un dictionar de termeni biologici cu urmatoarele cuvinte: animal, insecta, magar, planta, si tantar.

Vocabular

1

animal

2

insecta

3

magar

4

planta

5

tantar

 

Explicatii

animalul

nu este o

planta

 

 

o insecta

este un

animal

 

magarul

este un

animal

dar nu o

insecta

 

planta

nu este un

animal

 

tantarul

este o

insecta

zburatoare

 

trimiteri


In acest dictionar cu termeni biologici care poate starneste amuzamentul (prematur) al cititorului, gasim cinci termeni si explicatii legate de fiecare. Pentru a explica fiecare notiune, partea explicativa a dictionarului face trimitere la alte notiuni existente in dictionar. Trebuie sa observam urmatoarele:

  1. Explicatiile cuvintelor incearca sa se mentina in vocabularul dictionarului.
  2. Explicatiile introduc unele notiuni straine, neregasite in dictionar, presupuse a fi cunoscute de catre cititor. In exemplul dat, acestea sunt:
    1. verbul "a fi"
    2. articolele nehotarate "un" si "o"
    3. substantivul "zburatoare"
    4. disjunctia "dar"
  3. Dictionarul face apel implicit la o serie de mecanisme logice pe care cititorul trebuie sa le stapaneasca:
    1. procedeul negatiei logice "nu este o..."
    2. asociativitatea operatiilor booleene "este un...", dar nu o ...".
    3. distributivitatea operatiilor booleene demonstrata de magar. Acesta este un animal, dar nu o insecta, ceea ce prin evaluarea in profunzime a trimiterilor se extinde la expresia: "magarul nu este o planta, dar nu este nici o insecta".
    4. procedeul generalizarii si specializarii prin care utilizatorul deduce ca daca o insecta este un animal, inseamna ca ea mosteneste toate atributele generale ale insectei, dar aduce si caractere noi care o diferentiaza de gen.
    5. procedeul recursiunii pentru a efectua ciclurile corecte prin dictionar si a desprinde ca daca tantarul este o insecta, iar insecta este un animal, atunci tantarul este un animal.
    6. procedeul logic al backtracking-ului recursiv, prin care cititorul realizeaza ca in cazul tantarului, trebuie totusi aplicata si regula ca nu este o planta.
    7. procedeul logic al eliminarii drumurilor redundante, cel mai dificil proces cortical, prin care cititorul descinde o retea de explicatii alegand drumurile cele mai scurte, eliminand prin operatii logice buclele identice. Un intelect nu tocmai dezvoltat ar putea recurge perpetuu in definitia circulara "animalul nu este planta, planta nu este animal".
    8. procedeul logic al insatisfactiei, prin care cititorul trebuie sa retina nedumeriri pe care urmareste a si-le satisfaca. Lista se reduce pe masura definirii termenilor.
  4. Termenii definiti de catre dictionarul dat raman totusi neclari. Dictionarul trebuie astfel sa adauge articole explicative numeroase fiecarei notiuni, introducand astfel si o multitudine de notiuni noi cum ar fi miscare, zbor, independenta, mediu, aripa, aer, etc. pana ce cuvantul "tantar" capata un inteles adecvat.

Deficientele dictionarelor

Orice dictionar are o limita unde face apel la cunostintele generale ale cititorului. Aceste forme extrinseci devin axiome ale dictionarului. Un dictionar tehnic se va limita la definirea termenilor tehnici in sine insusi si in termenii generali ai limbii. Un dictionar englez roman va explica in termeni comuni romanesti pe cei englezesti. In ambele cazuri, termenii comuni sunt prsupusi a fi cunoscuti cititorului, in caz contrar, acesta avand la dispozitie DEX-ul.

 

DEX-ul, pe de alta parte are ambitia de a se auto-explica in intregime, neputand face vre-o trimitere la alta autoritate. Dar lucrurile nu stau asa de loc, cititorul avand nevoie de un bagaj semantic pre-existent. Acesta se va fi format prin experiment si educatie.

Dictionarele sufera de urmatoarele mari probleme:

  1. Volumul de cuvinte explicate nu poate fi disociat de un volum de cuvinte explicative, insumand potential o lista lunga.
  2. Fraza explicativa se constituie pe o gramatica in general mult prea complexa ca sa poata fi incorporata in dictionarul insusi, obligativitatea cunoasterii acestei gramatici revenindu-i creatorului si cititorului respectivului dictionar.
  3. Sinonimele, antonimele si paronimele unei limbi impun exercitiul unor functii logice de disjunctie, conjunctie, filtrare din partea atat a creatorului cat si a cititorului.
  4. Variantii lexicali: plural, articol, declinare, conjugare, etc. adauga un numar mare de cuvinte la dictionarul fundamental.

Daca pentru problema ciclicitatii, a recursiunii termenilor, a sinonimiei, antinomiei si a paronimiei, se pot gasi diverse solutii tehnice, o foarte grava problema in constituirea si intelegerea unui dictionar o constituie gramatica limbajului folosit in explicatii si cea a realitatii semanticii notiunilor. Prin aceasta din urma problema subliniem ca nici un dictionar, oricat de bun si complex, nu poate recrea o lume daca cititorul nu are experienta directa a unui numar de calitati elementare la care se face referire. Termeni precum lumina, caldura, durere, raman simple abstractiuni algebrice pentru cititorul ne-experimentat.

Diferenta intre DEX si EDICT

DEX-ul (dictionarul explicativ) este o structura inghetata pe hartie, EDICT este o structura vie in perpetua schimbare si crestere. Desigur, la origine, DEX-ul este de asemenea crescut intr-un sistem informatic similar cu EDICT, inainte de a ajunge la tipar.

DEX-ul este insa o structura creata de sus in jos, de catre lingvisti, adaugandu-se manual cate un cuvant la arhiva si atasandu-i-se o explicatie. Edict, pe de alta parte se constituie de jos in sus, cum am mai spus, printr-un sistem expert de invatare. DEXul presupune gramatica limbii romane cunoscuta, de vreme ce EDICT o inmagazineaza si o completeaza pe masura ce creste. DEXul este o structura care evolueaza numai prin interventia nemijlocita si efortul sustinut al omului, iar Edict creste singur atata vreme cat are cu ce se hrani de pe banda de intrare. Rezultatele DEX-ului sunt corecte, ale lui Edict pot fi eronate functie de calitatea inregistrarilor bobinate. In ambele cazuri factorul uman trebuie sa intervina pentru corectarea problemelor. Si unul si celalat merg pana la nivel de alfabet, insa in cazul nostru alfabetul este si el o structura vie ca si vocabularul.

Informatia inclusa in DEX este utila si foarte utila chiar, doar cat priveste explicarea cuvantului. Explicatiile continute de Edict reprezinta suma tuturor aparitiilor cunoscute ale acelui cuvant in raport cu istoria de intrari ale sistemului.

 

Diferentele esentiale, pe scurt:

  1. EDICT este un dictionar recursiv pe trei nivele idempotente,
    1. Alfabetul,
    2. Lexicul si gramatica,
    3. Biblioteca de documente
  2. EDICT contine intreaga gramatica a limbii romane obtinuta prin invatare, si poate valida sau invalida un nou text in functie de aceasta statistica in raport cu ce s-a invatat pana in prezent.
  3. Biblioteca de documente este acesibila, fiind stocata intr-un format comprimat gramatical ce poate reduce dimensiunile textului cu un factor intre 2 si 7. Formatul intern al acestei arhive este net superior textului insusi in ceea ce priveste extractia si cautarea.

Sistemul primar de invatare

Dupa cum am aratat in sectiunea  REF _Ref117072697 \r \h 3, Edict are patru componente majore:

  1. sistemul primar de invatare,
  2. centrul vorbirii,
  3. arhiva dictionarului, si
  4. editorul.

La acestea se adauga o piesa generica si numai tangential legata cu Edict: filtrul de import sau pre-procesorul.

Structura fizica si logica generala a textului de import

La poarta de import a sistemului textele se prezinta intr-un format electronic fizic bine stabilit: codificarea ASCII. Prin aceasta conventie textul este o insiruire de atomi numiti caractere, numere intre 0 si 255. Fiecare asemenea cod reprezinta cate o litera, cifra, spatiu sau punctuatie, intr-o corespondenta biunivoca, si ocupa 8 biti (1 byte). Tipul acesta de codificare sta la baza arhitecturii actualelor memorii in computere. Textul astfel codificat nu este auto-definit, cititorului revenindu-i obligatia de a extrage intelesul celor scrise. Este forma cea mai simpla de text.

 

Din punct de vedere logic, textul este o insiruire cu o structura generala data de urmatoarea gramatica (descrisa in formalizmul Bacus-Naur):

 

Tabelul  SEQ Figure \* ARABIC 1: Gramatica superficiala a unui text de limbaj natural

<text logic>

::=

<titlu> nl <corp>;

<titlu>

::=

<paragraf>

<corp>

::=

<paragraf> nl <corp> | 0;

<paragraf>

::=

<propozitie> punct <paragraf> | 0

<propozitie>

::=

<cuvant> separator <propozitie> | 0;

<cuvant>

::=

(litera | cifra) <cuvant> | 0;

 

Altfel spus, un text este o insiruire de paragrafe intre care primul se poate distinge ca titlu. Fiecare paragraf este o insiruire de propozitii, propozitia este o insiruire de cuvinte, iar acestea sunt la randul lor o insiruire de litere si cifre din alfabetul general al limbii.

 

Cititorul poate parcurge textul aplicand regurile gramaticale amintite si sa identifice propozitii si cuvinte. Pentru a reconstitui intelesul textului insa, cititorul va trbui sa aplice gramatica completa a limbii romane.

 

Textul juridic circula in acest format sau poate fi adus la acest format prin diverse procedee cum ar fi: dactilografia, sacanarea urmata de opto-caractero-recunoastere, conversia din alte formate.

 

Organizarea logica prezentata a devenit insuficienta din urmatoarele motive:

1.      Unele texte de lege trebuie sa organizeze informatia atat orizontal cat si vertical. Este astfel necesara redactarea textului in casetele diverselor tabele. Un exemplu concludent de asemenea text este legea bugetului de stat. Tabelele legii privesc distribuirea veniturilor prin cheltuieli in tabele. Uneori tabelele contin sub-tabele, complicand astfel problema recunoasterii textului codificat. Tabelele sunt mijloace de a directiona atentia cititorului pe o arborescenta ordonata de posibilitati.

2.      Unele texte sunt complexe si din motive logice sau tehnice trebuiesc impartite in diverse alte documente, care numai impreuna alcatuiesc un intreg coerent. Acest tip de text contine legaturi fizice la alte texte, formand astfel o retea pe care cititorul o poate naviga.

3.      Alte texte fac apel la imagine pentru a-si completa semnificatia. Un exemplu de astfel de lege este codul rutier care contine toate semnele de circulatie ca imagini atasate.

Filtrele de import ale sistemului Edict

Edict se ocupa in principal cu intelegerea textului scris. Dintre formatele amintite anterior desigur ca cel mai comod este si cel mai comun si simplu: textul codificat ASCII. Acestea intra direct in sistemul primar de invatare. Pentru celelalte tipuri de document cum sunt formatul HTML (WEB), sau XML, filtrul de import opereaza in cativa pasi o interpretare a continutului in concordanta cu regurile respectivului tip de document. Interpretarea acestor formate implica cunoasterea unui anume sistem de codificare, numit meta-limbaj, prin care paragrafele sunt incapsulate in alte unitati logice pe gustul si intelesul programelor de afisare grafica. Din punctul nostru actual de vedere, imaginile continute in diversele texte, sunt un element neesential fie de cosmetica, fie de semantica adiacenta. Filtrele de intrare elimina toate imaginile din documente, reorganizeaza tabelele, includ toate sub-documentele intretesute, elimina duplicarea triviala, atfel ca iesirea filtrului sa fie cmpatibila si acceptabila sistemului primar de invatare.

Procesul de formare a dictionarelor Edict prin invatare

Dictionarele produse si manipulate de sistemul EDICT sunt dictionare fundamentale. Ele pornesc de la nimic, si aspira catre intelegere totala, acesta fiind desigur un deziderat teoretic. Pornind de la un "nimic" calificat, si vom vedea in sectiunile urmatoare ce trebuie sa stie EDICT ca sa porneasca, sistemul asculta si invata pana in momentul in care poate sa inceapa propriile sale evaluari de notiuni.

 

Strategia folosita de EDICT este aparent simpla: inghite orice text de intrare si invata cuvintele noi. In perioada de invatare, dictionarul manipulat de catre centrul vorbirii crede tot ceea ce aude. Este responsabilitatea noastra sa educam sistemul in mod corespunzator, cu informatie pertinenta si corecta. In aceasta perioada de invatare, Edict descopera alfabetul folosit, vocabularul limbii, si legaturile gramaticale permise de catre limba. Dictionarul de acest nivel contine doar sintaxa, gramatica, si un vocabular, lipsindu-i insa semantica cuvintelor. Dictionarul este o masina de recunoastre primara.

 

In etapa a doua a vietii, EDICT se preocupa de semantica limbajului. Acum incepe procedura de bobinare a textelor juridice potrivit cu gramatica invatata si cu vocabularul invatat. Sistemul primar de invatare continua sa evolueze, insa de data asta textele vor fi comparate, retinute, reduse intr-un proces numit codificare. Din punctul nostru de vedere, al utilizatorilor, arhivele EDICT devin acesibile si exploatabile prin procedurile de cautare pe care le putem lansa in Editor.

Sistemul primar de invatare sau achizitie

Aceasta componenta are rolul de prelua textul de import si a-l fractiona in structuri din ce in ce mai marunte pana la nivelul cuvintelor. Rezultatul activitatii acestui sistem este apoi transmis centrului vorbirii care va face analiza exhaustiva a cuvintelor si va dirija in continuare procesul de invatare sau achizitie. Nivelul de inteligenta necesar acestui sub-sistem este limitat la a intelege gramatica descrisa in  REF _Ref117072788 \h Tabelul 1: Gramatica superficiala a unui text de limbaj natural, si a conlucra cu centrul vorbirii. Acest sistem este automatul care intelege structurarea unui text in paragrafe, propozitii si cuvinte. Segregarea aceasta intre procesor de cuvinte si procesor gramatical este bine cunoscuta in teoria compilatoarelor, procesorul de cuvinte purtand numele de analizor lexical. Exista insa o mare diferenta conceptuala intre modelul perechii analizor lexical (tokener) - analizor gramatical (compiler) si modelul Edict al perechii sistem primar de invatare - centrul vorbirii. Diferenta consta in faptul ca in modelul tokener->compiler comunicarea este unidirectionala, analizorul lexical prezentand rezultatul sau compilatorului. In modelul Edict, acest analizor lexical se afla in legatura bidirectionala cu centrul vorbirii preluand de la acesta serii intregi de constructii verbale pe care urmareste a le identifica pe banda sa de intrare. Pe scurt, analizorul nostru lexical face apel la cele invatate pentru a recunoaste redundanta. De aici provine numele de sistem primar de invatare, pe motivul ca invata, dar si aplica cele invatate in "meseria" sa.

O ilustrare a problemei invatarii

Fie urmatorul text de trei propozitii inainte de a fi inteles:

Nume

Continut

Dimensiune

Textul 1

Acesta este un test de dictie

29 bytes

Textul 2

Si acesta este tot un test

26 bytes

Textul 3

Dictia este testata

23 bytes

 

 

78 bytes total

Analiza textului

Cu privire la cuvintele folosite se observa urmatoarele:

  1. cuvintele “acesta”, “este”, “test”, “un” apar de cate doua ori fiecare.
  2. cuvintele “si”, “de”, “testat” apar o singura data in text.
  3. Textul nu acopera intreg vocabularul limbii.

Cu privire la alfabetul folosit se observa urmatoarele:

  1. Textul acopera 10 litere ale alfabetului.
  2. Literele noi apar in urmatoarea ordine: acestundio
  3. In ordinea frecventei cu care apar literele sunt: teaiscdnou
  4. Propozitia 3 nu aduce nimic nou in materia alfabetului folosit de intregul text.
  5. Textul nu acopera intreg alfabetul limbii.
  6. Alfabetul folosit poate fi acumulat pe masura ce noi litere apar in text.

Cu privire la morfologie:

  1. Cuvantul “testat” provine din “test” iar “dictia” deriva din “dictie” prin articulare.
  2. Expresia “acesta este un X test” reapare cu o variatie la pozitia X=“tot”.

Monitorizarea procesului de invatare

In principiu, odata pornit, procesul de invatare se desfasoara silentios, fara interventia utilizatorului, si se termina atunci cand la poarta de import a sistemului nu se mai prezinta documente noi. In realitate insa, procesul de invatare nu se termina niciodata, sistemul fiind gata oricand sa absoarba texte noi.  Sistemul monitorizeaza permanent unele surse de documente in cautarea noilor veniti. In schema de ansamblu a sistemului de operare din care Edict face parte, exista si o componenta de descarcare unor retele intregi de Internet. Este asa-numita “ventuza” de WEB-situri, care poate fi cuplata la intrarea Filtrului, si ea devine sursa de text pentru sistemul primar de invatare.

 

Sistemul Edict recunoaste insa dreptul utilizatorului de a afla care este starea masinii de codificare in orice moment, si la orice nivel de detaliu. Starea sistemului este accesibila prin intermediul Profilatorului Generalizat al sistemului. Aceasta componenta este o registratura pentru toate contoarele care au fost definite in module. Utilizatorul poate incepe o masuratoare incarcand unul sau mai multe asemenea contoare intr-unul sau mai multe osciloscoape.

 

Curba legaturilor gramaticale
 

Curba cuvintelor testate
 

Curba noilor texte importate
 

Rata de acumulare a cuvintelor noi
 

Axa timpului 1/5sec
 

In cursul derularii unui proces de asimilare a unui volum mare de documente de intrare, vom fi invariabil interesati de numarul celor admise, de numarul de cuvinte si legaturi nou create, de gradientul invatarii, de factorul de compresie, de efortul de recodificare si multe alte aspecte specifice mentinerii unui proces in functiune la o calitate adecvata. Daca histograma arata spre exemplu ca rata cuvintelor noi ar fi in crestere abrupta, putem fi aproape siguri ca s-a intalnit un document scris in alta limba si vom dori sa oprim procesul de absorbtie.

 

Parametrii specifici sistemului primar de invatare sunt cei animati pe histograma alaturata. Scara axei verticale este logaritmica pentru ca exista diferente de magnitudine intre parametri, cel mai inalt fiind al legaturilor gramaticale. Se observa pe diagrama ca in decursul a aproape 12 ore au fost analizate circa 1000 de documente insumand circa 8 milioane de cuvinte, ce au avut ca rezultat crearea a circa 50 milioane de legaturi gramaticale in dictionar. Rata de testare a cuvintelor a fost in descrestere, fenomen normal la inceputul unui proces de invatare cand memoria este libera, si s-a stabilizat in jurul cifrei de 100/secunda. La aceasta viteza de intelegere, se ridica insa mari semne de intrebare in ce priveste viitorul urmatoarelor 25.000 de texte inca neinterpretate. Vom raspunde acestor chestiuni in sectiunile dedicate codificarii.

 

Centrul vorbirii

Centrul vorbirii este piesa de baza a acestui concept, fara de care automatizarea intelegerii textului nu ar fi posibila. Centrul vorbirii este deopotriva o structura si un algoritm cu urmatoarele caracteristici:

  1. Este automatul general de recunoastere
  2. Este o structura neuronala in continua metamorfoza
  3. Este o structura de noduri intretesute prin conexiuni
  4. Este structura fundamentala care defineste gramatica limbii
  5. Este mototul care animeaza un dictionar recursiv pe trei nivele: alfabet, lexic, si biblioteca de documente.
  6. Este compresorul si decompresorul fractal gramatical al textului de intrare.
  7. Detinatorul inteligentei artificiale necesare traversarii notionale relative.

Reteaua neuronala

Procesul de codificare a informatiei incepe la nivelul Sistemului Primar de Invatare, si se desavarseste aici la centrul vorbirii, prin legarea, intreteserea tuturor simbolurilor intr-o structura complexa de o natura esential diferita textului prin faptul ca este traversabila. Traversabilitatea este aptitudinea unei structuri de a directiona traficul unor entitati extrinseci. Exemplu de structuri traversabile:

  1. Sistemul nervos, de unde se si desprinde acest concept. Factor extrinsec: gandul.
  2. Strazile. Factor extrinsec: masinile si pietonii.
  3. Reteaua feroviara. Factor extrinsec: trenurile.
  4. Reteaua electrica. Factor extrinsec de trafic: curentul.
  5. Reteaua telefonica: Factor extrinsec de trafic: convorbirea
  6. Sistemul cardio-vascular. Factor extrinsec: plasma.
  7. O infinitate de asemenea retele traversabile pot fi date drept exemplu.

Intelegerea dobandita prin procesul de invatare se constituie deci intr-un obiect concret putand de-acum fi identificata si numarata: o intelegere, doua intelegeri.

 

Structura semantica are urmatoarele caracteristici:

  1. Are un simbol primar de la care pornesc, de care se leaga oricare altul. Acest simbol de inceput poarta numele de simbolul NUL notat cu litera greceasca l. pentru a-l diferentia de alfabetul nostru uzual.
  2. Orice simbol se leaga de unul anterior si unul ulterior prin legaturi atomice numite sinapse, formand in acest fel drumuri numite si lanturi semantice.
  3. Lanturile semantice sunt continue si inchise. Aceasta este conditia de baza a traversabilitatii.
  4. Orice simbol poate avea mai multi predecesori si mai multi succesori in aceste lanturi semantice, constituind in acest fel jonctiuni.
  5. Sinapsele sunt unidirectionale si unice. Intre doua simboluri A si B poate exista o singura legatura de la A catre B si numai una de la B catre A.
  6. O grupare de simboluri mai dens intretesute si relativ slab legata la celelalte simboluri se numeste concept.
  7. Conceptele sunt si ele recursiv simboluri.
  8. Conceptul care nu este legat sau care si-a pierdut legatura la NUL este netraversabil. Asemenea simboluri sunt zise pierdute.

Pentru “testul de dictie” descris in sectiunea  REF _Ref117119107 \r \h 5.4.1, reteaua neuronala care se formeaza ca urmare a invatarii este urmatoarea:


Figure  SEQ Figure \* ARABIC 2: Retea neuronala pentru testul de dictie

Se va remarca constituirea unor subsisteme de intrtesere a literelor corespunzand fiecarui cuvant, cuvintele devenind in felul acesta concepte in sensul descris de pct.  REF _Ref117174255 \r \h 6 .

 

Se va remarca existenta a doua simboluri nule corespunzand celor doua nivele ierarhice ale dictionarului: alfabet (cu simbolul <null>) si vocabular (cu simbolul <lambda>). Vom reveni cu explicatii in sectiunea  REF _Ref117119942 \r \h 6.12.

Constituirea automatului de recunoastere

Reteaua descrisa la  REF _Ref117119162 \r \h 6.1 si  REF _Ref117119199 \r \h 5.4.1 este dictionarul insusi pentru cuvintele “acesta”, “este”, “un”, “test”, “de”, “dictie”, “si”, “tot”, “dictia”, “testata”.

Datorita proprietatii de traversabilitate  REF _Ref117119266 \r \h 6.1 aceasta structura este si automatul de recunoastere al unui limbaj in sensul descris in sctiunea  REF _Ref117119312 \r \h 4.2 si urmatoarele.

 

Automatul de recunoastere este un procesor cu o stare interna variabila care consuma o banda de intrare potrivit unei gramatici stiute intrinseca procesorului si decide daca o anumita secventa de simboluri de intrare apartin sau nu limbajului generat de gramatica data. Optional, automatul de recunoastere produce un rezultat la iesire numit cod.

 

Acest automat generic a fost descoperit de matematicianul englez Albert Turing in cursul tentativelor facute de englezi de a sparge codul masinii de codificare germana Enigma. Trebuie mentionat ca masina Turing era un dispozitiv mecanic la fel ca si Enigma.

 

Compilatorul modern este o extensie a masinii Turing. Urmarind pe termen indelungat evolutia limbajelor si compilatoarele lor, m-am familiarizat si cu deficientele acestor masini, care de altminteri sunt si cele mai inteligente programe.

 

Desi discutia depaseste scopul lucrarii de fata, trebuie subliniat ca modelul actual de compilator trebuie sa-si contina gramatica integral, mecanizmele prin care un utilizator ar putea largi gramatica unui limbaj fiind extrem de limitate. O alta mare problema, de fapt adevarata problema este faptul ca oricat de destepte ar fi, compilatoarele moderne nu cunosc cu adevarat semantica programelor pe care le compileaza, acest tip de inteligenta fiind atributul exclusiv al programatorului, adica al vorbitorului acelui limbaj.

 

 

α

 

a

 

c

 

e

 

s

 

t

 

 

1

2

3

4

5

6

7

8

9

10

11

12

Sistemul EDICT mosteneste toata istoria acestor masini dar diverge pe parcurs pentru a produce rezultatul sau propriu si unic: Dictionarul Morfic.

Automatul de acceptare

Automatul EDICT de recunoastere a benzii de intrare este un derivat al masinii Turing. Fiecare cuvant invatat este un automat care accepta acel cuvant si respinge altele.

 

Sa luam un exemplu: Sirul de intrare "acesta este test" a format tabelul de litere (alfabetul) si sistemul de sinapse din figura alaturata. Este un set redus din structura descrisa de  REF _Ref117119344 \r \h 5.4.1.

 

Punctul de intrare al oricarei traversari (derivari) incepe cu α. Cuvantul "acesta" a fost recunoscut deoarece exista un drum 1,2,3,4,5,6,7 incepand si terminand cu α. Cuvantul "este" va fi de asemenea recunoscut pe drumul 8,4,5,9,10. Cuvantul "test" va fi recunoscut pe drumul 11,9,4,5,12. Astfel a fost acceptat de catre automat intreg conceptul de intrare.

Automatul de invatare

Trebuie sa observam insa ca automatul [α, acest,1-12] accepta si multe alte siruri datorita sinapselor formate. De exemplu: 1,2,3,10 genereaza cuvantul "ace", apartinand limbii romane, dar niciodata introdus in sistem, deci neapartinand limbajului sau intern.. Drumul 8,4,5,9,4,5,12 genereaza cuvantul "estest" care nici n-a fost introdus, nici nu se regaseste in limba romana. Automatul de recunoastere EDICT trebuie sa stie sa disocieze intre cuvintele pe care deja le cunoaste si cele noi. In prima faza, automatul edict va trebui sa respinga cuvintele inexistente, apoi sa le adauge la vocabular. In acest scop si nu numai automatul va pastra sirurile de derivare a cuvintelor intr-o zona a sa numita arhiva.

Istoria automatului (arhiva codificarii)

Istoria automatului Edict este o arie de memorie seriala formata din celule de dimensiune variabila fiecare dintre aceste celule identificand cate o jonctiune sinaptica. Pentru textul “acesta este test” arhiva istorica va avea urmatorul continut.

1

2

3

4

5

6

7

8

4

5

9

10

11

4

9

5

12

zona libera

 

 

 

 


Orice cuvinte noi vor fi codificate in continuarea istoriei in zona ramasa libera.

Codificarea si decodificarea textului

Codificarea este procesul de “intelegere” a unui text, de recreare a semanticii acestuia, de reprezentare a unui model strain si importat intr-un sistem de persistenta intern.

Obiectivele codificarii sunt:

  1. Constituirea si perfectarea retelei neuronale sau automatul de recunoastere.
  2. Memorarea in arhiva a drumurilor semantice.
  3. Reducerea volumului de date de intrare prin bobinare pe “mosorul intelegerii”.
  4. Contituirea unei sfere de continut itretesut.
  5. Reducerea acestei sfere prin micsorarea razei si marirea densitatii proprii.
  6. Reducerea greutatii sferei prin compresie.

Obiectivele decodificarii:

  1. Reproducerea fidela a textului initial din formatul intern al arhivei.
  2. Decompresia gramaticala a arhivei
  3. Extractia unei regiuni izolate de informatie
  4. Traversarea intregii arhive in regim de cautare
  5. Cautarea relativa si orientata gramatical.

Principiile codificarii gramaticale

Am aratat ca Centrul Vorbirii este o retea neuronala de simboluri intretesute intr-o anume ordine codificata in arhiva. In cele discutate in exemplele anterioare am observat urmatoarele:

  1. Alfabetul este o lista finita si scurta.
  2. Exista o ordine de aparitie a literelor in cuvinte.
  3. Unele tranzitii intre litere sunt neconforme cu limba romana, in special intre consoane: jk, mb, rv nu apar in textul scris decat ca acronime.
  4. Codurile neliterale si necifrice (%, #, ^, &, etc.) sunt necesare, dar rar intalnite.

si generalizand pentru cuvinte:

  1. Vocabularul este o lista a carei lungime depinde de educatie.
  2. Gramatica este o plasa a carei raza creste odata cu educatia, iar densitate creste odata cu efortul sustinut de conceptualizare al subiectului.
  3. Unele inseilari de cuvinte nu sunt permise in limba.
  4. Unele cuvinte sunt rar folosite, altele foarte des.
  5. Unele cuvinte sunt obligatoriu urmate de altele, formand expresii: “ceea ce”.
  6. Punctuatia introduce o serie de exceptii in ce priveste formarea drumurilor.

Enuntam urmatorele principii:

  1. Se vor codifica legaturile intre simboluri, iar nu simbolurile insele.
  2. La prima sa aparitie definitia unei particule verbale va fi codificata in forma unui sir de jonctiuni sinaptice incepand si terminand cu simbolul nul pentru tipul respectiv de particula verbala.
  3. Jonctiunile sinaptice triviale nu se vor codifica. Triviale sun trecerile obligatorii de la o particula verbala la alta.
  4. La orice aparitie ulterioara a unei particule verbale se va codifica doar referinta la definitia sa.
  5. Definitiile se mentin in ordinea aparitiiei lor.

Definitia "definitiilor"

Titlul este confuz? Sa vedem. Primul cuvant al acestui titlu este intrinsec limbajului in care este scris documentul, iar al doilea este intrinsec obiectului descris: dictionarul, fiind vorba de definitia termenilor in dictionar. Limbajul acestui document este un meta-limbaj fata de continutul sau. In transmisie se utilizeaza frecvent coduri ce servesc exclusiv procesului de codificare dar care pot sa apara chiar in continutul transmisiei. Este responsabilitatea proiectantului unui asemenea sistem de comunicatii sa asigure separarea intre limbajul transmisiei (metalimbaj) si limbajul transmis, prin reguli si exceptii. Transmisia telegrafica se exprima itr-un limbaj cu doua simboluri: linie si punct. Ce se intampla insa daca A ii telegrafiaza lui B sa vina sa faca un gard in linie dreapta intre punctul de demarcatie X si Y? Cuvintele linie si punct apartinand metalimbajului telegrafului au aparut si in transmisie. Nu exista nici un pericol de confuzie deoarece linia si punctul nu sunt vorbite ci sunt semnale electrice. Lucrurile nu stau de loc asa in transmisiile textuale unde mediumul transmisiei si mediumul transmis sunt de aceeasi natura. De exemplu, A ii transmite lui B ce-a zis C. Problema se rezolva prin ghilimele de citatie. Acestea constituie un metalimbaj insuficient pentru citarea unor structuri compuse unde poate C, la randul lui a citat pe altcineva, A fiind acum obligat sa descompuna in spusele lui C intr-un context mai larg. A si B - oameni se inteleg pana la urma in ce-l priveste pe C ca urmare a unor deosebit de puternice si subtile procese rationale in care redundanta si experienta au un rol de compensare a neajunsurilor limbajului folosit. Am explicat sper titlul acestui paragraf. Asadar:

 

O definitie intr-un dictionar este codificarea unui sir de legaturi intre simbolurile acestuia.

 

Astfel, definitia unui cuvant este arhiva automatului sau de recunoastere.

Prin generalizare deriva din definitia data o serie de consecinte:

  1. Definitia unui intreg dictionar este prin generalizare intreg textul sau explicativ serializat.
  2. Daca se schimba definitia unui singur cuvant intr-un dictionar, rezulta un intreg dictionar nou cu o alta definitie globala.

Structura unui dictionar

Un dictionar EDICT este un automat de invatare. Automatul de invatare este un automat de recunoastere plus arhiva codificarii. Automatul de recunoastere este o tabela de simboluri cu o zona a legaturilor intre acestea. Dupa distribuirea factorilor rezulta ca dictionarul are in structura sa tabla de simboluri, zona legaturilor, si banda codului. Dictionarul Edict este deci o structura tridimensionala in spatiul avand axele: simboluri (x), legaturi gramaticale (y) si arhiva sau cod (z). Un dictionar este o relatie in acest spatiu XYZ. Relatia este o multime de puncte de coordonate (x,y,z) numite tranzitii verbale. Tranzitiile decurg unele din celelalte, pentru ca au fost constituite in secventa in cursul procesului de invatare. Elementele relatiei sunt ordonate prin procesul de evolutie. Fiind ordonate, toate aceste puncte ale relatiei pot fi serializate in persistenta. Ajungem astfel sa vizualizam un dictionar nu ca o carte (DEX) ci ca pe un mosor (EDICT). Pe acest mosor este bobinata toata istoria sistemului, toate simbolurile, conexiunile, definitiile si aplicatiile cuvintelor. Numim acest mosor "sfera de cuprindere".

Mosorul intelegerii

 

I0

I1

I2

I3

I4

I5

I6

I7

I8

I9

 

P0

P1

P2

P3

P4

P5

 

Cunostinte in serviciul altora

Zona lichida

Fire bobinate

Firul rosu al educatiei

Concepte in curs de asimilare

Dictionarul Edict este un mosor pe care se bobineaza banda de codificare zisa si istorie. Din punct de vedere fizic exista o singura banda de codificare si prin urmare un singur fir al cunoasterii (firul rosu). Din punct de vedere logic insa, volumele intra si se bobineaza fara a-si pierde unitatea logica. Prin urmare mosorul dictionarului permite o multitudine de fire logice. Invatarea este unul dintre aspecte, redarea cunostintelor continute fiind aspectul complementar. Este posibila derularea simultana a mai multor fire de cunoastere de pe bobina dictionarului. Situatia este infatisata in desenul urmator.

Aceasta bobina a cunoasterii este in principiu solida si traversabila intr-o singura directie dat fiind inceputul unui fir. S-a remarcat insa ca la inceputul bobinei au fost identificate cuvintele cele mai frecvente in limba. Acestea sunt cel mai des comparate si declinate constituind centrul Centrului Vorbirii discutat in sectiunea  REF _Ref117250464 \r \h 6. Se remarca de asemenea ca legaturile intre simboluri sunt cu mult mai frecvent traversate decat sunt modificate.

Miezul lichid

Pentru imbunatatirea performantei dictionarului, zona de legaturi a dictionarului este mentinuta intr-o arie de memorie speciala care permite cresterea rapida a automatelor. Se separa in acest fel un miez al bobinei unde sunt pastrate sinapsele automatulului de invatare. Aceasta zona galbena este manevrata de un alocator de memorie capabil de realocare.

Alocatorul de memorie "lichida"

Problema realocarii este bine-cunoscuta si consta in a mari spatiul dedicat unui bloc de legaturi (atunci cand se adauga noi legaturi) fara insa a-i deranja pe vecini, adica fara a muta in memorie toate celelalte cuvinte care urmeaza. Alocatorul de memorie, parte componenta a dictionarului, va largi sau micsora un cuvant reducand la minimum mutarile de cuvinte din aceasta zona. Datorita faptului ca se adauga mereu noi cuvinte in zona de centru a bobinei, cuvintele vor fi frecvent mutate (insa intr-un numar minim) dand astfel impresia unei arii foarte volatile, in perpetua schimbare. De-aici numele de zona lichida a bobinei dictionarului. 

Un dezavantaj relativ al segregarii

Dezavantajul  acestei metode de stocare a zonei sinaptice deriva din insasi segregarea facuta: zona lichida si zona solida. Amandoua aceste volume trebuiesc alocate in spatiu si dimensiunile lor maxime trebuiesc cunoscute si fixate in avans. Daca una dintre arii este prea mica, procesul de invatare se va opri prematur prin saturatie. Metoda sistemului Edict prevede posibilitatea suspendarii procesului de instruire permitand unui factor uman sa salveze dictionarul format, sa redimensioneze capacitatea de memorare a automatului, si sa reporneasca procesul.

Monitorizarea activitatii dictionarului in zona sinaptica

Cuvinte foarte "grele"

Zona de memorie libera

Zona dens populata cu cuvinte mai putin folosite

Zona slab populata cu cuvinte

Gradul general de ocupare a memoriei


In evolutia unui dictionar vor aparea situatii limita cum ar fi saturarea miezului lichid. In general dictionarele finale, cele care se apropie de sfarsitul procesului de invatare, ar trebui sa-si rezerve exact atata spatiu de miez cat le este suficient pentru a-si mentine automatul. Cele in curs de formare vor structura aceasta materie de miez prin crearea de noi automate. Un diagnostician al sistemului va dori sa "vada" gradul de ocupare al miezului, si chiar harta de ansamblu a acestuia. Sistemul Edict raspunde acestei necesitati de diagnostic prin apartul prezentat in urmatoarea diagrama:

Acest "Cartograf" este un mecanizm general care desi nu are o legatura directa cu problema de fata a dictionarelor, ne poate ajuta prin metoda sa grafica sa lamurim natura acestui miez si a proceselor care il "lichefiaza". Cartograful este o componenta a sistemului de operare ANNA K5 din care Edict si Gaius sunt parte. Aceasta interfata grafica este "chipul" alocatorului de memorie la care dictionarul face apel pentru a-si mentine miezul in stare lichida.

Edict este un dictionar recursiv pe mai multe nivele

Am aratat in paragrafele anterioare ca dictionarul Edict este o structura 3D pe axele x: simboluri, y: legaturi, z: arhiva de cod. Am aratat de asemenea ca limbajul natural pe care il interpretam este structurat pe 3 nivele: alfabet, vocabular, si biblioteca documentelor. Cele trei nivele constituie de asemenea si clasele de echivalenta ale simbolurilor limbii.  Doua simboluri sunt comparabile numai daca ele apartin aceleiasi clase de echivalenta, comparatia fiind de fapt insusi criteriul de formare a unei clase de echivalenta. Doua simboluri apartinand unor clase diferite sunt incomparabile. Consecinta practica este ca nu se pot constitui legaturi gramaticale intre membrii a doua clase diferite. Astfel, o litera nu este comparabila cu un cuvant, implicand ca nici un cuvant nu poate sa urmeze unei litere si nici o litera nu poate sa urmeze unui cuvant. In expresii de tipul "m-a solicitat intr-o anume privinta", sau "mi-a dat-o in pastrare", "ti s-a mai spus", etc, literele 'm', 'a',

a

b

z

α

a

b

c

a

a

b

c

i

a

b

e

o

2

4

7

9

acesta

este

testat

δ

este

 

S

 

 

 

 

 

2

4

7

9

Acesta este un

Si acesta este tot

Dictia este testat

β

Bara

 

Or

 

 

.

 

 

1

2

3

4

'o' si 's' care apar izolat sunt de fapt cuvinte monoliterale.

Alfabetul

Este un dictionar care are ca simboluri toate literele folosite, gramatica consta in toate concatenarile valide intre fiecare litera cu toate celalalte plus sine, iar istoria acestui dictionar este un sir care codifica aparitia legaturilor in ordinea descrisa de cuvinte. Cititorul ar fi indreptatit sa opuna rezistenta ideii de "gramatica" a unui vocabular, fiind obisnuit cu gramatica de nivel inalt a limbii care opereaza cu cuvinte. In teoria limbajelor insa, prin gramatica se intelege orice formula care aranjaza simboluri, acoperind in acest fel si chestiunea concatenarii literelor in cuvinte.

Vocabularul

Este un dictionar care are ca simboluri toate cuvintele invatate, gramatica este multimea tuturor legaturilor intre cuvinte, iar istoria vocabularului este un sir care codifica aparitia legaturilor gramaticale in ordinea descrisa de documentele de intrare.

Biblioteca

Este un dictionar care are ca simboluri textele intrate, gramatica bibliotectii este simpla succesiune a acestor texte, iar istoria bibliotecii este encodarea acestor legaturi. In biblioteca documentele sunt pastrate in unicat, iar daca unele au fost intalnite din nou in procesul de invatare, se vor codifica istoric numai referintele la original.

Definitia simbolurilor

Intre cele trei dictionare se stabilesc urmatoarele relatii de dependenta: Vocabularul depinde de Alfabet, iar Biblioteca depinde de Vocabular. Relatia de dependenta a Vocabularului de Alfabet consta in necesitatea ca fiecare cuvant sa fie definit in baza vocabularului. Aceasta relatie se concretizeaza la nivelul Vocabularului printr-un camp de trimitere asociat fiecarui cuvant din tabela de simboluri numit Definitie. Acest camp numeric leaga exact un cuvant de exact o definitie a sa in istoria Alfabetului. Mecanizmul este profund legat de ordinea de formare a acestor dictionare, unde, inainte de formarea unui cuvant, trebuie sa se creeze o serie alfabetica corespunzatoare numita masca. Masca unui cuvant este, in esenta, "fata" grafica (sau audio) a cuvantului descrisa printr-o succesiune de litere (sau de sunete). Asadar, fiecare cuvant face trimitere la o masca corespunzatoare bobinata in Alfabet. Situatia este echivalenta si pentru relatia intre Biblioteca si Vocabular, unde fiecare text face trimitere la un sir istoric de pe bobina Vocabularului, si care defineste acel text.

Dictionarul recursiv

In sectiunea precedenta am explorat posibilitatea structurarii unui dictionar pe trei nivele.

α

3

0

a

3

1

c

1

2

d

1

3

e

2

4

i

2

5

n

0

6

o

0

7

s

1

8

t

3

9

u

0

10

δ

3

11

P1

1

12

acesta

1

13

este

2

14

un

1

15

test

2

16

de

1

17

dictie

1

18

P2

1

19

si

1

20

tot

1

21

P3

1

22

dictia

1

23

testata

1

24

 

i

0

3

6

7

8

11

14

15

17

18

21

24

25

26

27

29

32

34

35

38

40

42

43

44

45

48

49

l

δ

δ

 

acesta

α

a

c

e

s

t

a

acesta

P1

 

este

α

e

s

t

e

este

acesta

 

un

α

u

n

un

este

E

0

2

S

0

0

0

0

0

0

0

1

0

1

S

0

1

0

0

1

1

0

1

S

0

2

0

0

0

1

r

δ

P1

 

α

a

c

e

s

t

a

acesta

α

acesta

 

α

e

s

t

e

este

α

este

 

α

u

n

un

α

un

 

i

51

52

54

57

60

62

63

66

68

69

70

71

74

75

77

78

80

81

82

85

86

87

88

91

93

95

96

97

98

l

 

test

α

t

e

s

t

test

un

 

de

α

d

e

de

test

 

dictie

α

d

i

c

t

i

e

dictie

dictie

 

P1

E

S

0

3

1

0

0

2

0

1

S

0

4

0

2

0

1

S

0

4

1

0

1

3

1

3

0

1

S

0

r

 

α

t

e

s

t

test

α

test

 

α

d

e

de

α

de

 

α

d

i

c

t

i

e

dictie

α

P1

 

δ

 

i

99

101

2

3

4

6

7

8

9

110

11

112

14

15

16

19

22

 

25

126

38

 

 

 

 

 

 

 

l

δ

 

si

α

s

i

si

P2

 

si

 

acesta

 

tot

α

t

o

t

tot

este

 

tot

 

un

 

test

P2

 

E

3

S

0

5

1

2

0

1

S

1

S

1

S

0

3

4

0

2

5

2

S

1

S

1

S

2

0

 

r

P2

 

α

s

i

si

α

si

 

acesta

 

este

 

α

t

o

t

tot

α

tot

 

un

 

test

 

P2

δ

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

l

δ

 

dictia

α

d

i

c

t

i

e

dictia

P3

 

dictia

 

testata

α

t

e

s

t

a

t

a

testata

este

 

testata

P3

 

E

4

S

0

4

1

0

1

3

1

3

0

1

S

1

S

0

0

0

0

0

0

0

0

1

0

1

S

1

0

 

r

P3

 

α

d

i

c

t

i

e

dictia

α

dictia

 

este

 

α

t

e

s

t

a

t

a

testata

α

testata

 

P3

δ

 

 

a

e

u

t

d

s

c

acesta

dictia

t

testata

 

e

t

 

 

 

 

e

i

 

 

 

 

s

este

de

dictie

 

 

c

e

si

a

 

 

un

 

 

 

 

 

t

 

 

 

 

 

t

i

 

 

 

 

a

e

test

i

o

tot

n

 

 

 

 

 

α

δ

P1

P2

P3

 

δ

acesta

 

 

 

 

α

este

 

 

 

 

α

un

tot

 

 

 

α

test

 

 

 

 

α

de

P2

 

 

 

α

dictie

 

 

 

 

α

P1

 

 

 

 

δ

si

 

 

 

 

α

acesta

 

 

 

 

α

un

 

 

 

 

δ

dictia

 

 

 

 

α

este

 

 

 

 

α

P3

 

 

 

 

 

legaturi gramaticale y

x simboluri

originea O

z cod

0

1

2

3

4

5

 

ρ definitii

In discutia  REF _Ref117119373 \r \h 6.10 privind mosorul cunoasterii, am explicat avantajele mari ai unui dictionar cu miez lichid, subliniind insa dezavantajul principal: pre-alocarea statica a celor doua zone. Acest dezavantaj s-ar compune daca am folosi cate un asemenea dictionar pentru fiecare din cele trei nivele ale limbii. Ajungem astfel la urmatoarea rezolutie: toate cele trei dictionare sunt intercalate intr-unul singur cu miez lichid.

 

In figura alaturata am reprezentat in intregime dictionarul format ca urmare a "testului de dictie" din sectiunea  REF _Ref117119390 \r \h 5.4.1. si  REF _Ref117119408 \r \h 6.1.

 

Automatele finite ale tuturor celor trei nivele de dictionar sunt inchideri coerente si nu prezinta dificultati in aceasta intercalare. Problema majora insa este coerenta codului, care acum trebuie sa ingaduie intercalarea fragmentelor de istorie a claselor superioare in istoria claselor inferioare.

 

Automatul de invatare Edict rezolva problema intercalarii codului printr-un sistem foarte special de codificare si de constituire a gramaticilor care permite recunoasterea unei definittii recursive sau a unei referinte la o definitie existenta apartinand unei clase superioare de simbol. Prin exceptie (aparenta) la cele spuse la  REF _Ref117119556 \r \h 6.11 literele au iesiri (legaturi) la unele cuvinte, iar unele cuvinte au iesiri la unele texte. Cheia consta in a considera ca o litera conduce catre toate cuvintele ale caror masti se termina cu acea litera, de exemplu dupa litera 'a' vor urma, pe langa literele alfabetului care prin concatenare formeaza cuvinte valide, si toate cuvintele care se termina in aceasta litera. Toate aceste cuvinte sunt, in logica interna a Centrului Vorbirii, echivalente cu simbolul alfabetic de inceput si de sfarsit α. Discutia se va purta la fel pentru cuvintele terminate in texte, care toate sunt considerate ca fiind echivalente cu simbolul de inceput si sfarsit de secventa in vocabular: δ.

Axa simbolurilor X

Axa simbolurilor are o structura compusa, fiind la randul ei un vector in mai multe dimensiuni. Pe langa numarul de ordine axa mai prezinta si magnitudinea indexului legaturilor gramaticale. De exemplu, litera a este legata de alte litere 'c' si 't', dar termina si cuvintele "acesta", "dictia", "testata". Numarul legaturilor este deci 5, care se codifica binar in maximum 3 biti. Pe langa acest factor de grosime a legaturilor, axa y mai pastreaza si definitia fiecarui simbol in sensul discutat la  REF _Ref117119659 \r \h 6.11.4. Definitia cuvintelor este o trimitere simbolizata grafic prin firele de par intre pozitiile de pe axa y si pozitiile de cod de pe axa z. Sectiunea  REF _Ref117267909 \r \h 9.2 descrie in detaliu aceasta axa numita si Indexul General.

Axa legaturilor gramaticale Y

Aceasta axa are un singur camp de lungimea fixa data de magnitudinea cardinalitatii multimii simbolurilor.

Axa arhivei Z

Zisa si axa codului sau a istoriei de derivare. Aici se pastreaza secventa tuturor trecerilor prin gramatica adica a derivarilor. Reamintim ca traversarea jonctiunilor sinaptice discutata in  REF _Ref117119712 \r \h 6.1 lasa urme istorice pe mosor, adica pe axa z. Codul este doar o secventa numerica unde fiecare numar ocupa tot spatiul maxim necesar celui mai mare index de jonctiune sinaptica. De exemplu: pornind de la litera 't', 0 ar alege drumul spre 'a' (in cursul derivarii cuvantului "acesta", 1 ar alege drumul spre 'e' (probabil derivand prin cuvantul "test"), codul 2 ar alege cuvantul "test" (echivalent cum am spus cu simbolul de sfarsit de cuvant α), codul 3 ar alege un drum spre 'i', codul 4 un drum spre 'o', si codul 5 ar alege un drum spre cuvantul "tot", din nou echivalent cu α. Pentru a se putea reface aceste drumuri, dimensiunea fiecarei inregistrari atomice de pe banda codului trebuie sa aibe o dimensiune fixa suficienta pentru a stoca intr-o baza numerica data (baza 2 in cazul nostru, baza 10 poate pentru cititor)  orice valoare concreta de index. Daca lucrurile sunt inca neclare, atunci cititorul ar putea privi celula de cod ca pe o aptitudine de a pastra un numar. Spatiul celulelor trebuie sa fie ales suficient de mare pentru ca nu se poate sti in avans cu ce numere vor fi ocupate in concret.

Exceptiile de codificare

Pe langa codurile numerice identificand jonctiuni, pe banda istoriei z se observa si prezenta unor coduri S. Acestea sunt zise speciale.si codifica orice exceptie de la regurile de codificare enuntate in acest document. Codul S este un bit latime in general avand valoarea 0. Daca bitul S este setat, atunci pe banda codului urmeaza o structura binara care descrie exceptia de la regurile codificarii. Exceptiile de codificare sunt de doua tipuri: separare sau majuscule. Pentru a fi codificat "normal" textul de intrare ar trebui sa respecte urmatorele reguli:

1.      Propozitiile incep cu litera mare.

2.      Cuvintele in interiorul propozitiei apar cu litera mica.

3.      Propozitiile se termina cu '.'

4.      Orice punct sau virgula este urmat de spatiu.

5.      O serie de alte asemenea reguli care constituie detalii neesentiale ale implementarii.

Orice derogare de la aceste reguli este explicata pe banda codului, si costa bineinteles mai mult spatiu decat bitul de normalitate. Sistemul de exceptii al dictionarului Edict este gandit in asa fel, incat codificarea exceptiei sa nu consume mai mult spatiu decat originalul, garantand in acest fel un factor de compresie supraunitar.

Derivarea textuala in arhiva dictionarului

Banda codului este reprezentata in diagrama ca un tabel cu 4 linii. Semnificatia graficului este urmatoarea:

i

70

71

74

75

77

78

l

de

α

d

e

de

test

E

0

4

0

2

0

1

r

α

d

e

de

α

de

-          i indexul pozitiei.

-          l simbolul curent inainte de codificare sau decodificare.

-          E encodarea propriu zisa, si singurul camp real, celelalte fiind doar explicative.

-          r simbolul ulterior codificarii sau decodificarii.

Sa luam exemplul pozitiei z70. Cum se citeste diagrama:

1.      Exita un fir de par care uneste simbolul x17 cu istoria de la pozitia z70. Orice derivare are nevoie de un context, adica de un simbol initial. Nu se poate intra pur si simplu in istorie la orice pozitie si citi. Aceasta este o diferenta de esenta intre textul de intrare care poate fi citit pornindu-se din orice punct si o arhiva codificata in care informatia a fost minutios impaturita.

2.      Asadar, la aceasta pozitie incepe codificarea cuvantului de index x17 ("de").

3.      Urmarind gramatica liniei x17 pentru tranzitia 0 citita de pe banda de cod z70 se gaseste la y0 simbolul α. Noul simbol curent este α in locul lui "de". Am efectuat un prim pas de derivare gramaticala.

4.      Dar α este simbolul nul al alfabetului..Deoarece "de" apartine vocabularului iar α apartine alfabetului, se va interpreta ca urmeaza o definitie de cuvant, iar nu o referinta la un cuvant deja existent. Se va parasi modul vocabular si se va intra in modul alfabet (s-a trecut dintr-un dictionar in cel superior ierarhic).

5.      Se vor toca acum codurile z71-z77 pana ce se intalneste simbolul alfabetic de sfarsit α.

6.      Din α prin legatura y4 se ajunge in litera 'd', din d prin tranzitia y0 se ajunge la litera 'e'. Avem pana acum seria de litere "de".

7.      Din 'e' pe drumul y2 se ajunge la x17 care de fapt a fost si simbolul cu care am inceput derivarea. L-am regasit. Masca alfabetica "de" acumulata pana acum este completa.

8.      De la "de" pe tranzitia z77 care contine 0 se ajunge din nou la α - simbolul de sfarsit al tuturor cuvintelor. Aceasta tranzitie poate parea a fi in plus, cata vreme s-a gasit deja masca alfabetica "de" a simbolului x17. Tranzitia este insa necesara readucerii automatului din modul alfabet din nou in modul Vocabular. Acest aspect este deosebit de important pentru ca metoda Edict in felul acesta permite intrarea in cod la orice pozitie aliniata, indiferent de tipul simbolului cu care se incepe, si poate deriva pana la sfarsitul absolut al istoriei, zigzagand intre nivelele dictionarului recursiv. Importanta deosebita a acestei scheme de codificare consta de asemenea in faptul ca automatul de codificare / decodificare nu are nevoie de stiva.

9.      In mod vocabular de data asta, la pozitia z78 pe banda arhivei, din simbolul "de" suntem instruiti sa urmam drumul y1 care, dupa cum spune tabela gramaticii, duce catre simbolul x18 care va avea masca "dictie".

N-a spus nimeni ca masinile de codificare sunt simple.

Derivarea vocala

S-a observat in sectiunea prcedenta ca legatura intre cuvinte si litere tine mai mult de "aspectul" cuvintelor. Inseilarea de litere care formeaza "fata" unui cuvant, nu este in sine transmitatoare de inteles, ci doar cuvantul format poate transmite. Din aceste motive sustinem ca masca literala a cuvintelor este o chestiune de forma, una insa foarte importanta in parcurgerea automatelor de recunoastere care functioneaza dupa cum am vazut incepand cu nivelul alfabetului. Fiind o chestiune de forma, iar nu de substanta, cuvintele unui dictionar ar putea exista si in absenta formei literale, sau in orice alta forma de reprezentare. Dupa cum am subliniat in  REF _Ref117119814 \r \h 4.2 limba chineza nu are alfabet ci direct vocabular, codificand cuvintele in imagini unice, atomice, indivizibile.

 

O asemenea alta forma de codificare permisa si intrebuintata de sistemul Edict este forma audio. Astfel, fiecarui simbol alfabetic ii poate corespunde un sunet. Derivand prin gramatica, automatul de redare (acelasi cu cel de invatare doar operand in directie inversa) poate fi programat sa culeaga sunetele asociate literelor rostind astfel cuvinte. Desi fonetica, limba noastra cunoaste multe exceptii de pronuntare, ducand la o interpretare eronata a textului. Sistemul Edict insa, prin forta sa de generalizare, rezolva aceasta problema ingaduind ca orcarui simbol sa-i fie asociat un sunet. Daca in procesul de redare (derivare) Centrul Vorbirii constata existenta unei inregistrari audio pentru un text de biblioteca, atunci acesta va fi redat in intregime. In caz contrar, automatul descinde la nivelul cuvintelor cautand inregistrari pentru fiecare cuvant in parte. Cuvintele care dispun de inregistrari audio vor permite automatului sa renunte la a mai cobora un nivel spre litere, iar pentru cuvintele fara inregistrare automatul va sintetiza sunetul vocii din inregistrarile literelor care formeaza cuvantul. Rezultate satisfacatoare se pot obtine fie numai cu inregistrarile audio ale literelor. O varianta vocala superioara implica inregistrarea celor mai frecvente cuvinte utilizate in limba.

Masina de codificare Edict vorbeste

Problema inversa, cea a recunoasterii vocale, apartine desigur scopului pe care sistemul Edict si l-a propus, insa necesita un modul initial foarte sofisticat de analiza spectrala a sunetului, si care depaseste cadrul acestei lucrari.

Compresia gramaticala a textului

Automatul de invatare Edict duce codificarea arhivei un pas important inainte observand ca pentru simboluri diferite acel maxim al celulei de cod discutat in  REF _Ref117119906 \r \h 6.12.3 este si el diferit. De pilda, pentru codificarea oricarei tranzitii din litera 't' vor fi intotdeauna necesari 3 biti, dar pentru litera 's' care este mai slab legata, va fi intotdeauna suficient 1 bit. Cu aceasta observatie se trece la schema encodarii adaptive, prin care celulele axei z sunt de dimensine variabila. Banda codului nu poate fi insa citita decat cunoscandu-se atat simbolul curent cat si gradul sau de corelare.

Principiile fundamentale ale compresiei in sistemul Edict sunt:

  1. In loc sa se pastreze particulele verbale, se vor pastra legaturile intre acestea.
  2. Tranzitiile triviale nu se codifica. In diagrama  REF _Ref117119942 \r \h 6.12 sunt triviale tranzitiile de la E48 intre 'u'->'n'->"un", de la z122 pentru formarea cuvantului "tot", etc.
  3. Dimensiunea codului curent este data de magnitudinea numarului de legaturi ale simbolului curent.

Numarul de legaturi care pleaca din oricare simbol este mai mic decat numarul total de simboluri sau legaturi. Una din trasaturile limbajului natural este de a-si lega slab simbolurile dar a folosi in schimb multe.

Statistica procesului de compresie gramaticala

Compresia, ca dealtfel toata operatia Centrului Vorbirii, este silentioasa, si deci nu necesita interventie din partea utilizatorului. Cu toate astea, unii dintre noi, in general creatorii de dictionare, vom fi foarte interesati in parametrii de stare ai masinii de codificare. Acestia sunt multipli si destul de subtili. Histograma urmatoare prezinta patru dintre cei mai importanti, si pe care personal ii urmaresc cel mai adesea.

Curba de compresie locala
 

Curba noilor texte importate
 

Curba de compresie globala
 

Axa timpului 1/5sec
 


Curbele sunt culese concomitent cu cele din sectiunea  REF _Ref117119964 \r \h 5.4.3 privind  REF _Ref117120003 \r \h 6.12 referindu-se la acelasi proces de invatare a 1000 de texte cu continut juridic.

 

Din encefalograme similare culese in exemplul testului de dictie din sectiunea  REF _Ref117120030 \r \h 5.4.1 in care dimensiunea textului era de 78 de caractere (bytes) reiese ca dimensiunea encodarii a ajuns la 1192+2-966=228 bit = 28.5 bytes, adica 78 de caractere au fost comprimate prin procedeul gramatical la 28.5, reprezentand un factor de compresie de 273% (aproape 3X) fata de original.

Dictionarul morfic

Odata ce am intrevazut posibilitatea comprimarii arhivei, am si devenit dependenti de acest concept astfel incat a mai arhiva ceva fara compresie a devenit inacceptabil. Dar am trecut sub tacere in dicutia  REF _Ref117120108 \r \h 6.12, si asa dificila, o problema deosebit de grava ce priveste conflictul dintre compresia gramaticala si asimilarea perpetua de noi documente.

Natura problemei compresiei si invatarii simultane

Enuntul problemei este relativ simplu acum, dupa ce au fost descrise toate principiile dictionarului recursiv: pentru a se infaptui o compresie a arhivei, latimea domeniilor numerice ale legaturilor trebuie cunoscuta pentru fiecare simbol in parte. Pe de alta parte, procesul de absorbtie conduce la crearea de noi legaturi, si deci la marirea acestor domenii numerice. Nesiguranta acestor dimensiuni ar face astfel compresia imposibila.

Recodificarea arhivei

Raspunsul la problema consta in instituirea unei przumtii de fixitate a acestor indici, si rezolvarea exceptiei de schimbare a oricaruia dintre acestia. Codificarea comprimata si invatarea devin astfel simultan posibile. Indicii de dimensiune ai simbolurilor sunt presupusi a fi stabili si compresia se gideaza dupa valorile lor curente. Atunci cand datorita adaugarii de noi sinapse dimensiunea unui simbol se schimba intervine exceptia care impune recodificarea arhivei. Orice adaugare de legatura noua intre doua simboluri sunt o amenintare cu recodificarea. Reamintim ca legaturile intre simboluri constituie axa  y a dictionarului, si ca vectorul de legaturi ai simbolurilor sunt administrati in miezul "lichid" al dictionarului. Cresterea numarului de legaturi duce la un proces de reordonare a spatiului in interiorul alocatorului de memorie lichida, fara insa a valora cu o recodificare a tuturor legaturilor. Se explica acum pe deplin necesitatea segregarii operate in sectiunea  REF _Ref117120152 \r \h 6.10.1. Acest proces de recodificare afecteaza doar arhiva dictionarului si se lanseaza doar daca noua legatura adaugata duce intr-adevar la schimbarea magnitudinii indicelui, iar nu prin simpla adaugare a noii legaturi.

 

Factorul care provoaca recodificarea este noua legatura de la un simbol S (sursa) catre un simbol D (destinatie). Recodificarea urmareste gasirea in arhiva a tuturor aparitiilor simbolului S, si marirea celulei de alocare a indexului legaturilor lui S catre urmasii sai. In exemplul testului de dictie, cuvantul "este" introdus de propozitia 1 in contextul "...este un test..." si aparut din nou in P2 in contextul "...este tot un..." provoaca o astfel de recodificare a arhivei pentru legaturile cuvantului "este". Se decodifica astfel la pozitia z49 tranzitia de la "este" catre cuvantul "un". Celula cu continutul 1 de la z49 trebuie sa-si schimbe dimensiunea de la 1 la 2 biti, pentru a ingadui ca la pozitia curenta z126 sa se poata inscrie numarul 2 cu o magnitudine de 2 biti. Toate celulele care codifica tranzitii ale aceluiasi simbol trebuie sa aibe aceeasi dimensiune - criteriul coerentei.

 

Recodificarea este deci un act de traversare a intreg dictionarului de la inceputul istoriei sale si pana in prezent, in vederea extragerii oricarei aparitii a unei legaturi din particula sursa catre orice alt simbol legat, si reinserarea legaturii cu noua dimensiune.

Morfismul structural al arhivei

Actul de recodificare a arhivei datorat unei schimbari in structura unui simbol se numeste morfism structural. Prin morfism se intelege o schimbare de structura intr-un ansablu functional coerent in timp ce acest ansamblu isi continua activitatea. Cresterea in legaturi a unui simbol induce asemenea morfisme structurale care afecteaza atat zona lichida a dictionarului cat si zona sa solida - arhiva.

Scara efortului de recodificare

Daca cuvintele unui dictionar sunt in permanenta intretesere datorita procesului de instruire, atunci encodorul va reveni frecvent asupra tuturor aparitiilor cuvantului in arhiva si va insera noi spatii. A insera un spatiu in mosorul arhivei inseamna a o debobina si apoi rebobina. Odata gasit un punct de insertie I intre O (origine) si Z(sfarsitul momentan al arhivei), memoria seriala a arhivei de la I la Z trebuie mutata cu un factor de crestere Δ catre Z. Daca simbolul in crestere este "vechi" lungimea memoriei care trebuie mutata poate fi apropiata de intreaga arhiva. S-ar ajunge in acest fel la mutarea progresiva a unor zone mari de arhiva pentru fiecare aparitie a cuvantului, pentru fiecare noua legatura a sa, si pentru fiecare cuvant care isi schimba astfel dimensiunile. Recodificarea va depune un efort substantial in urmatoarele directii:

  1. Decodificarea arhivei pentru a se afla toate aparitiile cuvantului morfic
  2. Mutarea repetata a memoriei pentru a insera codurile cu noua dimensiune.
  3. Adaptarea tuturor definitiilor simbolurilor la noua structura a arhivei.

In absenta unei inteligente deosebite din partea Centrului Vorbirii, efortul de recodificare ar fi deci cubic in dimensiunea arhivei.

Limitele morfismelor arhivei

Automatul Edict calculeaza limitele exacte ale zonelor de memorie ce vor trebui mutate pentru a satisface o schimbare in dimensiunea indexului unui simbol. Se vor aplica in acest sens urmatoarele principii:

  1. Limitele cresterii se evalueaza in ordinea naturala a arhivei pe directia origine catre limita sa curenta.
  2. Limita inferioara sub care nu poate opera vre-o mutare este punctul de definire al simbolului S (zis simbol morfic), pozitie consemnata in indexul general al dictionarului (axa x) in campul "Definitie" discutat in sectiunea  REF _Ref117119659 \r \h 6.11.4.
  3. Limita superioara a mutarii este insasi limita arhivei.
  4. Numarul de segmente de memorie ce trebuiesc mutate este dat de numarul N de aparitii ale simbolului S, factor consemnat in structura axei x a dictionarului discutata in sectiunea  REF _Ref117120541 \r \h 6.12.1.
  5. Lungimea unui segment de memorie supus relocatarii este cea data de distanta intre doua aparitii consecutive ale simbolului morfic S.
  6. Distantele cu care segmentele trebuiesc mutate se compun din factorul de crestere Δ discutat in sectiunea  REF _Ref117257057 \r \h 7.4 si indicele de aparitie al cuvantului. Ultimul segment trebuind a fi mutat din pozitia sa initiala cu distanta N * Δ.
  7. Odata gasita ultima aparitie a cuvantului, toata informatia necesara efectuarii propriu-zise a mutarilor este cunoscuta.
  8. Toate definitiile simbolurilor introduse ulterior in dictionar sunt mutate si ele catre Z cu un factor compus din diferenta necesara ori segmentul incident. Prin segment incident trebuie inteles segmentul care se muta si in interiorul caruia sunt codificate definitii ale simbolurilor care-i urmeaza lui S pe axa X. Acest segment are incidenta asupra definitiilor ulterioare simbolului morfic S.
  9. Mutarea blocurilor din memoria arhivei se face in ordine inversa aparitiei cuvintelor. Din acest motiv automatul va necesita o stiva cu adancimea data de numarul maxim de aparitii ai simbolului morfic S, factor cunoscut in avans.

Procesul de mutare propriu-zisa a unui bloc de memorie este dat in slujba unui rotator de biti de constructie speciala care poate muta rapid cate 24 de biti odata. Acest rotator este un algoritm care copiaza sau compara intre doua regiuni de memorie adresate la granulatia unui bit (nu byte). Pentru administrarea arhivei, automatul Edict face apel la memorii de granulatia bitului. Acest tip de memorie poate fi emulat pe memoriile curente de granulatie byte prin intermediul acestui algoritm numit Rotator. Vom reveni cu precizari privind performanta proceselor morfice care afecteaza arhiva dictionarului.

Dictionarul morfic comprimat

Compresorul gramatical face apel la toate principiile de functionare ale dictionarului pe care le-am enuntat si explicat in acest document. Compresia este indisolubil legata de structura tri-dimensionala a dictionarului, de sistemul de ierarhizare, de metoda de bobinare, de sistemul de codificare, de metoda automatelor de recunoastere, etc, toate la un loc formand un tot unitar: dictionarul morfic. Acest dictionar este zis a fi "morfic" deoarece se gaseste intr-o perpetua schimbare structurala. Morfismele dictionarului se vor mai numi pe scurt mutatii. Mutatiile datorate instruirii afecteaza, dupa cum am aratat la  REF _Ref117120196 \r \h 6.10 foarte frecvent miezul lichid si mai putin frecvent, dar pe lungimi incomparabil mai mari, arhiva.


"Electorencefalograma" procesului morfic de recodificare

Morfoza arhivei este un proces silentios care se desfasoara implicit odata cu asimilarea de noi cunostinte. Acest proces devine vizibil prin intermediul osciloscopului prin monitorizarea unora dintre parametrii interni ai Centrului Vorbirii. Cei mai relevanti in acest sens sunt: limita inferioara si superioara a zonei morfice care exprima distanta intre punctul de definitie al unui simbol aflat in crestere si limita teoretica a arhivei, spre deosebire de limita sa reala care este mai mica datorita eliminarii redundantei. Rotorul recodificarii morfice este punctul intre cele doua limite la care a ajuns algoritmul de recodificare prin mutari de zone.

Curba noilor texte importate
 

Axa timpului 1/5sec
 

Limita inferioara a zonei morfice
 

Limita superioara a zonei morfice
 

Rotorul recodificarii morfice

Limita superioara a codificarii
 

Un moment de acalmie de 2 secunde
 

Cea de-a doua diagrama este un detaliu al zonei morfice selectate in prima. Pe diagrama se observa frcventa aproape constanta de aparitie a mutatiilor in arhiva dictionarului. Aceasta frcventa a schimbarii depinde de gradul de cunoastere al dictionarului si de gradul de dispersie a informatiei in curs de asimilare.

 

Lucrurile stau foarte prost la inceput potrivit zicalei "primii patru ani sunt grei pana treci in anul trei". Materia, desi poate nu multa, nu are pe ce sa se aseze, procesul de constituire a sferei de cunoastere fiind dificile si provocand frecvent acea exceptie de recodificare discutata la  REF _Ref117120364 \r \h 7.2. Trecand insa in "anul 3" lucrurile trebuie sa se imbunatateasca. Volumul de material asimilat poate sa creasca ne mai rezultand in reorganizari substantiale.

 

Se agunge astfel la o rata relativ constanta sau chiar descrescatoare a morfismului structural in sfera intelegerii.

Diagrama alaturata descrie pe scara liniara de aceasta data limitele si rotorul morfic intr-un proces de instruire de cateva mii de texte. Se observa o relativa stabilitate a zonei fierbinti catre zona de inceput a arhivei  dictionarului, unde sunt cele mai vechi cuvinte. Cele mai vechi insemnand si cele mai frecvente, este normal ca aceste cuvinte sa fie tinta tuturor noilor legaturi sinaptice.

 

La limita ideala, oricate texte noi s-ar introduce in sistemul primar de invatare, nu se vor mai forma cuvinte noi - indicand astfel ca vocabularul este acum complet. De asemenea nici legaturi gramaticale noi nu s-ar mai forma indicand faptul ca toata gramatica limbii a fost deslusita. Factorul de compresie al dictionarului ar incepe sa creasca potential spre valori spectaculoase. In unele experimente am obtinut unele valori de 7x.

 

In aceste conditii, morfismele structurale vor diminua in intensitate pana la a inceta cu desavarsire. Aceasta situatie este doar teoretica, dar poate fi atinsa in cazul unor domenii tehnice bine structurate si formalizate unde libertatea de expresie a autorilor ar fi limitata.

 

De asemenea, un dictionar poate fi considerat finalizat, si marcat ca atare, in momentul in care histograma gradientului cuvintelor noi si cel al legaturilor noi ajunge la zero, iar morfismele structurale inceteaza.

 

Corectarea dictionarelor

Datorita gradului inalt de interdependente, arhiva dictionarului morfic nu este o structura pe care s-o poti corecta "la repezeala".  Mai intai trebuie identificata eroarea survenita, apoi trebuiesc evaluate manifestarile sau implicatiile erorii, vor trebui considerati factorii care au determinat aparitia erorii. In sfarsit trebuie studiate implicatiile corecturii dorite. Procesul de corectie intr-un dictionar se va face cu tact si cu un plan prealabil, pentru a nu distruge - corectand local ceva - un intreg segment din semantica acumulata pe mosor.

Cazuri frecvente de eroroare

Sa urmarim cateva cauze frecvente de eroare.

  1. Eroarea de tehnoredactare este cea mai frecventa.
  2. Documente intr-o limba straina
  3. Silabisirea in documente la sfarsit de rand sau in coloane de tabel.
  4. Redactarea chipurile pentru infrumusetare a titlurilor sub forma spatiata de genul:

"M O N I T O R U L   O F I C I A L   A L   R O M A N I E I" sau "I N T A M P I N A R E" sau "D E C I Z I E" care au distrus complet coerenta cuvintelor si au introdus o serie intreaga de cuvinte monoliterale care nu s-ar regasi in alt context.

  1. Cuvinte scrise cu acrilice care nu pot fi asimilate automat corespondentelor lor neacrilate.
  2. Greseli gramaticale.
  3. Introducerea de nume proprii.
  4. Aliasarea termenilor.

Intelegerea gresita

Intelegerea gresita este situatia in care un dictionar in urma acumularilor de erori incepe sa degenereaze unele concepte inmagazinate. In automatele artificial inteligente - ca si in cazul oamenilor presupun, recunoastem urmatoarele tipuri de intelegere gresita:

Disjunctia

Aceasta este starea in care un concept unitar este memorat de catre dictionar ca doua concepte distincte. Cele doua concepte pot forma sau nu un oarecare grad de intretesere.

 

Figura alaturata infatisaza un dictionar in care unele concepte au inceput sa fie clonate. Aceasta dispersie poate conduce la segregarea propriu-zisa a doua dictionare distincte. Segregarea in sine nu este neaparat o eroare, poate fi chiar un avantaj. In capul acestei pere se poate forma o arhiva intr-o alta limba de pilda care ar putea eventual fi taiata in jurul gatului.

 

Dictionarele EDICT sufera de disjunctie. Disjunctia poate fi introdusa de acrilarea textului. Multe legi sunt redactate cu textul acrilat. Unele sunt acrilate potrivit regurilor lexicale dinainte de Revolutie, altele potrivit regurilor de dupa. Se nasc astfel mai multe familii de cuvinte si un numar si mai mare de intreteseri disjuncte. Unii tehnoredactori doresc sa fie “ortodocsi” si sunt foarte metodici in folosirea acrilicelor, altii (cei mai multi) considera ca legea ramane lege romana chiar daca e scrisa pe o tastatura americana, de esenta fiind transmisibilitatea ei catre orice mijloc de publicitate. Personal sunt de parere ca viitorul acrilicelor in limba noastra nu este foarte luminos.

Confuzia

Aceasta este situatia in care doua concepte realmente independente sunt intelese de catre dictionar ca fiind unul singur. Dictionarele EDICT pot suferi de confuzie. Sursa principala de confuzie in dictionar este tehnoredactarea fara acrilice a textului care duce la aliasare. O alta sursa de confuzie o costituie unele nume proprii, aceasta insa fiind de natura limbajului natural. Confuzia pare a fi un defect suportabil prin comparatie cu disjunctia.

Contradictia

Este situatia in care un concept este explicat in doua moduri diferite care au insa o ramura explicativa comuna si una disjuncta. La contradictie in definirea unui termen se ajunge printr-un inceput de disjunctie a notiunilor primare. Contradictia solutionata duce in final la disjunctie, iar nesolutionata duce la confuzie. Dictionarele EDICT nu pot suferi in mod direct de contradictie, ci doar materialul de import poate sau nu fi contradictoriu. Pe taram juridic, se va remarca un oarecare grad de contradictorialitate provenind din adoptari si abrogari succesive.

Inaccesibilitatea

Este situatia in care ajunge un concept prin pierderea tuturor referintelor din directia celorlalti termeni. Conceptul este inaccesibil daca nu este prin sine insusi o notiune clara de export, si daca nu participa la definirea altor termeni direct sau indirect accesibili. Conceptele devenite inaccesibile sunt zone pierdute in constiinta, pe care numai un proces aleator de tipul visului il poate readuce in constientul accesibil. Dictionarele EDICT exporta intreg indexul de simboluri si nu poate suferi de inaccesibilitate.

Dezordinea

Este situatia la care ajunge un termen definit prin mult prea numeroase explicatii disjuncte si de relativ mica dimensiune. Orice intelect lupta impotriva dezordinii printr-o combinatie de metode de structurare:

  1. Ierarhizarea duce la gruparea acelor explicatii numeroase pe aspecte.
  2. Conceptualizarea duce la identificarea de factori primi intr-o multitudine de definitii si extragerea lor din context ca termeni de sine statatori. Efortul de conceptualizare poate reduce dramatic un sir de explicatii prin simplificarea acestora.
  3. Reductia opereaza asupra unor definitii aparent disjuncte care insa dupa un efort de conceptualizare isi manifesta similaritatea.

 

Cun sunt deci dictionarele Edict sub aspectul dezordinii? Trebuie notat ca sistemul EDICT isi asuma obligatia pastrarii textului de intrare in forma nealterata. Din acest motiv, procesele de reductie sunt limitate la a nu modifica nicicum intelesul textului. Ce defineste un dictionar? Dictionarul este (definit de) suma tuturor termenilor pe care ii contine si de sirul explicatiilor cuprinse. Dictionarul roman juridic contine in indexul de export 273,000 de cuvinte fapt care sugereaza un grad inalt de dezordine. Daca se considera insa ca la aceasta cifra s-a ajuns prin intelegerea a 47,865,076 de cuvinte se observa un factor considerabil de structurare de 47,865,076 / 273,000 = 17,532%. Sub aspectul arhivei nu se poate constata nici o structurare pentru ca am obligat sistemul sa retina absolut tot ce invata pentru uzul nostru propriu.

 

Procesele de conceptualizare si reductie sunt posibile si promit rezultate numai in conditiile unor ample libertati de restructurare a textelor originale. In modelul Edict-Gaius aceste libertati sunt prerogativul lui Gaius, acest sistem putand ajunge la recodificari severe asupra legislatiei existente. Edict pe de alta parte va trebui sa asigure oricand posibilitatea intoarcerii la original. Gaius ia de pilda doua (trei sau patru) redactari ale Codului Penal si le diferentiaza la nivel de paragraf, reducand astfel toate paragrafele identice din redactari diferite. Unele expresii comune cum sunt “Tentativa se pedepseste” vor fi reduse la o singura definitie. Prin legatura inversa Gaius-Edict, vor fi adaugate la dictionar toate fragmentele astfel propuse de Gaius. Edict raspunde printr-un proces dificil dar benefic de recodificare a intregii arhive pentru reducerea aparitiilor noului termen.

Irelevanta

Irelevant in raport cu un termen este orice text care nu reuseste sa-l defineasca. A folosi un termen fara a-l cunoaste trebuie sa fie un viciu de intelegere. Edict poate suferi de irelevanta in conditiile in care nici unul din textele de intrare nu defineste cuvintele folosite. Relevanta unui dictionar Edict este dependenta de domeniu. Un dictionar juridic se va procupa fara dubiu de explicarea unor termeni precum prescriptie, infractiune, proprietate, obligatie, contract, vinovatie, etc. dar va folosi si deci explica fara prea mare relevanta termeni precum germinatie, inmultire, pistil, care ar fi insa bine explicati de un dictionar agricol. Particula cu definitiile cele mai irelevante in orice dictionar sunt tot acelea care sunt si cel mai des folosite: conjunctia “si” fiind principalul meu dusman.

 

Sunt insa de remarcat unele fenomene care tin de arhivele de termen lung cum e cazul arhivei juridice.

  1. Daca un termen e sa fie definit, atunci definitia lui va veni foarte devreme in istoria sa de utilizare.
  2. Daca un termen este prea des utilizat, atunci el poate fi considerat cunoscut.
  3. Daca un termen este des utilizat, atunci el va fi definit in repetate randuri, si poate chiar in diferite forme, dar in general aceleasi. Codul de procedura penala reia de pilda multe din definitiile introduse de Codul penal.
  4. Ultimele definitii ar putea fi in contradictie cu primele, reflectand in acest fel o schimbare de optica petrecuta in timp cu privire la acel termen. Notiunea de comerciant de pilda desemna la origine o persoana fizica, iar referintele actuale in majoritatea contextelor desemneaza o persoana juridica.

Edict este un mecanizm de monitorizare a relevantei prin procedeul rating-ului si sortarii.

Modificarea dictionarului

Modificarile pot fi de urmatoarele tipuri: adaugari de termeni noi, crearea de noi legaturi, corecturi de termeni existenti, stergerea de termeni existenti, stergerea de legaturi existente. Sub alt aspect modificarile pot fi atomice daca afecteaza strict un simbol sau o legatura, sau de grup daca afecteaza mai multe simboluri sau mai multe legaturi. In realitate orice modificare se reduce fie la o adaugare fie la o stergere atomica. Dintre tipurile de modificari enuntate, au fost deja explicate cele de adaugare de simboluri si de legaturi in grup si atomic prin explicarea procesului de instruire. Ne ramane a explica stergerea unui simbol sau ruperea unei legaturi.

Orice invat are si dezvat

O vorba populara, buna poate doar ca indemn. Mi-a luat o singura zi sa-nvat cum sa aprind tigara, acum 20 de ani, si de-atunci pentru mine sintagma este un fals absolut. In procesul de formare, primele notiuni deprinse au calitate de axiome. Ele vor sta la baza intregii intelegeri ulterioare sub forma de repere. Daca o notiune n-a fost initial asimilata bine, va fi aproape imposibil de indreptat ulterior din motive foarte bine intemeiate. Intre asimilarea – cu valoare de prima definitie – a unei notiuni si demonstrarea ei in fals a trecut timp. In acest rastimp pe notiunea falsa s-au constituit o serie de alte notiuni devenite acum dependente. Notiunile derivate pot fi chiar corecte si conforme cu realitatea pentru ca in structura lor utilizeaza negatarea acelui concept initial fals. Este insa prea greu de restructurat aceast intreg esafodaj, devenit prin diverse procedee functional, doar pentru corectarea unui viciu initial. Intelectul aplica in acest sens un soi de “carpeala” si merge mai departe, prosta intelegere ramanand – criteriul eficientei. Deasemenea, demonstratia in fals, desi coerenta si simpla, este inacceptabila subiectului care are chiar o reactie de posesivitate in ce priveste intelegerea sa gresita si cea ulterioara dependenta. Aceste mecanizme tin, cred, de biologie.

Modificare prin debobinare si rebobinare

Am putea fi tentati sa tragem urmatoarea concluzie: modificarea unui anume concept gresit apartinand unei intelegeri malformate necesita debobinarea firului rosu al cunoasterii pana la definitia notiunii, schimbarea definitiei, si rebobinarea firului. Ar echivala insa cu a ma intoarce cu 20 de ani in urma sa optez pentru limba franceza in loc de engleza, si sa ma astept ca intreaga mea experienta profund marcata acum de BBC, Discovery si National Geographic sa se poata rebobina identic.

Principiul santinelei

Deci nu asa se aplica o corectie. Intelectul va putea insa porni din prezent catre trecut cautand toate aparitiile in constiinta ale notiunii gresite si-o va inlocui cu notiunea corecta. Din motive de eficienta, descinderea nu se va face in fapt decat catre prima sau a doua aparitie a notiunii, pentru o verificare, si-apoi se va renunta. Psihicul va instala o asa-zisa santinela in constientul imediat, care va fi in masura sa corecteze orice aparitie a conceptului gresit cu noua sa forma corecta, dar numai atunci cand un context care-l contine este actualizat. Problema care se naste din acest mod de operare a mintilor noastre este faptul ca nu vom reevalua in profunzime toti arborii de cunostinte incidente care ar putea beneficia de ample reduceri si imbunatatiri ca urmare a corectiei. De exemplu, daca as fi avut acum un deceniu o anume pricepere pe care o am acum, as fi structurat materia cu totul altfel cu rezultate mult mai bune. Dar aceasta din urma este o problema oarecum gresit pusa pentru ca intelegerea mea de-acum este exact lantul avand originea acum zece ani, origine ce nu poate fi schimbata fara a se schimba si rezultatul sau. Procedeul ramane teoretic posibil, chiar si-acum aplicat retroactiv, dar este recursiv, dificil, si cu efecte greu de anticipat, asa ca sistemul santinelei ramane cel mai adecvat.

Stergerea unui simbol

A sterge un simbol inseamna a-l distruge in toate contextele in care el apare. Cuvantul “tipar” poate sa apara de sute de ori in arhiva dictionarului in texte care vorbesc despre drepturi de autor, despre intreprinderi de tipografie, despre publicarea legilor, etc. A sterge pur si simplu un cuvant din dictionar ar atrage si coruperea tuturor textelor care-l definesc, o solutie inacceptabila. Sa luam acum exemplul de confuzie introdus de aliasarea termenilor “tipar” si “ţipar” ca fiind ambele “tipar”.

P1: “... se va trimite la tipar cu cel mult 6 zile inainte de ...”

P2: “... este interzis pescuitul de calcan si tipar in Marea Neagra ...”

P2 atrage formarea unei sinapse intre “tipar” si “Marea Neagra” care nu poate avea vre-o logica. Am dori sa stergem aceasta legatura. A sterge legatura intre “tipar” si “Marea Neagra” ar compromite insa arhiva in ce priveste chestiunea pescuitului. Intreg textul privind pescuitul va trebui astfel eliminat.

Inlocuirea unui simbol

Inlocuire unui simbol cu altul se poate face fie prin confuzionare fie prin disjungere.

Dupa exemplul de confuzie P2 dat anterior, introducem un exemplu similar de disjunctie:

P3: “pescuitul de ţipar este permis numai cu autorizatie”.

Observam ca in dictionar exista deja termenul confuz de “tipar” iar acum apare unul nou “ţipar”. Dorim sa rezolvam disjunctia intre P2 si P3. Putem trage P3 la P2 sau P2 la P3. Tragand P3 peste P2 se mentine insa confuzia P1-P2. Oricare dintre cele doua optiuni duc la modificarea unui text original. In cazul mutarii P2-P3 modificarea va fi spre bine, adica s-a imbunatatit tehnoredactarea textului P2 prin acrilare. Prim mutarea P3-P2 schimbarea este in detrimentul textului P3 acum ceva mai inexact, dar in beneficiul dictionarului care mentine mai putine cuvinte. In oricare aceaste schimbari vor fi implicate urmatoarele contexte: “la tipar cu”, “si tipar in”, “de ţipar este”.

 

Pentru rezolvarea problemei dictionarul Edict permite echivalarea de termeni cu consecinta maririi gradului de confuzie. Acesta este mecanizmul prin care un simbol isi muta legaturile gramaticale asupra altuia, si isi instruieste toti predecesorii sa se lege la acela. Concomitent, arhiva este recodificata de la cuvantul sursa la cel destinatie, si in totalitate pentru actualizarea dimensiunii indicelui de legaturi.

 

Chestiunea inlocuirii unui cuvant “ţipar” sau “tipar” cu unul dintre cele doua – asta inseamnand inlocuire prin disjungere – nu poate fi automatizat. Este optiunea unui factor uman sa decida cum ar vrea fiecare text sa fie scris la aparitia unuia dintre cuvinte. Edict ajuta operatorul sa localizeze toate aceste texte si apoi fiacare aparitie in text, permitandu-i editarea si inlocuire in arhiva a textului corectat. Edict nu va substitui insa codificarea originala a textului cu noua codificare, stipuland ca este de esenta oricarei modificari sa echivaleze cu stergerea originalului din istorie si aducerea sa in prezent.

Principiile stergerii

Enuntam urmatoarele principii al “dezvatului”:

  1. Odata cu stergerea unui simbol din indexul dictionarului, se vor sterge si toate definitiile sale.
  2. Automatul cuvantului sters va fi la randul lui distrus
  3. Spatiul eliberat de definitiile sterse pe masura ce legaturile gramaticale ale automatului se desfac se va inchide prin mutari succesive pe axa Z catre origine. Acestea sunt tot mutatii in sensul descris de  REF _Ref117344231 \r \h Error! Reference source not found. dar in sens invers..
  4. Pozitia eliberata pe axa X de stergerea cuvantului se va inchide prin mutarea tuturor succesorilor acestui cuvant cu o pozitie mai aproape de origine.
  5. Toate legaturile tuturor simbolurilor din dictionar vor fi re-evaluate si actualizate in cazul in care se refera la simbolul sters sau la succesorii acestuia acum mutati.
  6. Stergerea simbolurilor este recursiva catre nivelele inferioare ale dictionarului ierarhic.
  7. Un cuvant se sterge din dictionar prin stergerea tuturor definitiilor sale.
  8. Un cuvant subsista in dictionar cata vreme este folosit.

In materie de stergere, implementarea curenta a sistemului Edict permite doar stergerea definitiilor unui cuvant. Indicele de utilizare al cuvantului scade odata cu fiecare text sters. Cuvantul continua sa existe in dictionar si dupa ce toate referintele aou fost sterse, anticipandu-se in acest fel revenirea lui in textele de import. Utilizatorul care doreste sa scape de o eroare de dactilografie va marca acest cuvant drept Eroare informand astfel Sistemul Primar de Invatare sa opreasca importul oricarui text care l-ar contine.

Alte mijloace de modificare a dictionarelor

Masina Edict poate fi instructionata sa “uite”. Operatia se refera numai la arhiva nu si la miezul lichid al dictionarului. Se comanda masinii ca intre doua puncte aliniate determinate de definitiile a doua simboluri selectate sau prin al mijloc, sa se stearga toata arhiva. Masina de codificare va raspunde numai partial la aceasta solicitare, pastrand orice definitie de simboluri in aceasta zona daca ele ar continua sa fie utilizate si dupa stergere. Uitarea pare a fi singurul mijloc prin care realmente un intelect poate fi dezvatat.

Din moment ce un dictionar poate acumula notiuni si definitiile lor, este elementar ca doua dictionare aflate in contact sa-si poata face schimburi de cuvinte. Se disting astfel doua tipuri de manevra posibile intre doua dictionare: mutarea si sincronizarea. Prin mutare intre doua dictionare intelegem o tranzactie atomica prin care un text este importat si invatat de catre unul dintre dictionare si apoi uitat de catre celalalt. Prin sincronizare se intelege compararea indexului unui dictionar si a tuturor definitiilor fiecarui cuvant cu indexul si definitiile celuilalt, avand ca rezultat o serie de sincronizari atomice de la unul catre celalalt. O sincronizare atomica este procesul prin care un dictionar invata o definitie provenind din celalalt.

 

Dintre toate mecanizmele discutate in aceasta sectiune cea mai importanta ramane stergerea de simboluri si inlocuirea prin confuzionare. Impotriva erorilor se lupta cu o alta componenta a sitemului Edict enuntat in  REF _Ref117072697 \r \h 3 care este de fapt si mijlocul de exploatare propriu-zisa la indemana utilizatorului, si anume Editorul.

 


Interfata de editare a dictionarelor Edict

Sistemul Edict interactioneaza cu utilizatorul prin intermediul unei interfete grafice complexe si inteligente avand urmatorul model:

2. Bara de cautare in text

1. Bara de instrumente

3. Lista legaturilor gramaticale

Sistemul de corelare a selectiilor

5. Filtrul indexului

4. Indexul general

7. Lista de definitii sau rezultate

8. Vizualizorul definitiei

6. Bara de stare

Componenta centrala a dictionarului este indexul general de simboluri. Acesta este o tabela care cuprinde toate simbolurile continute in dictionar impreuna cu atributele fiecaruia. Indexul general detaliaza axa x a dictionarului explicata la  REF _Ref117120541 \r \h 6.12.1. Panourile adiacente indexului afisaza informatia necesara si complementara fiecarui cuvant. Urmatorii gramaticali sunt toate cuvintele ce pot urma unui cuvant selectat in index, potrivit gramaticii dictionarului. Lista corespunde axei y a dictionarului descrisa la  REF _Ref117264213 \r \h 6.12.2. Lista definitiilor in sensul explicat de  REF _Ref117264331 \r \h 6.8 si  REF _Ref117119659 \r \h 6.11.4 se formeaza prin cautarea in dictionar, potrivit regulilor de derivare stabilite la  REF _Ref117264392 \r \h 6.12.5, a tuturor aparitiilor cuvantului selectat in index. Vizualizorul unei definitii este un text complet adus din dictionar pentru indexul dat sau pentru explicatia selectata in lista definitiilor. Bara de stare ofera utilizatorului indicii privind starea curenta si activitatea centrului vorbirii. Toate aceste elemente conlucreaza pentru a asigura utilizatorului o navigare coerenta prin dictionar, si o maxima vizibilitate asupra unui grup de cuvinte selectate sau legate logic.

Bara de instrumente a lui Edict


Interactiunile panourilor lui Edict sunt regulate, de tipul selectiei (LClick), dublei selectii (DblClick) si selectiei inverse (RClick). Aceste interactiuni vor fi discutate in sectiunea  REF _Ref117264660 \r \h 9.6. Bara de instrumente, pe de alta parte, colecteaza toate actiunile la indemana utilizatorului care nu pot fi catalogate in mod direct drept selectii, desi in final ajuta la selectare, produc selectii, sau utilizeaza selectii. Aspectul barei este urmatorul:

Filtrul si reinprospatarea indexului

Acest instrument este util si necesar in cazul in care sistemul de invatare este pornit si proceseaza documentele de import. Procesul de invatare conduce la formarea de noi cuvinte, legaturi gramaticale si explicatii in dictionarul deschis pentru vizualizare. Butonul de improspatare va actualiza indexul general si panourile adiacente in concordanta cu cea mai recenta stare a centrului vorbirii. In meniul acestui instrument se regasesc toate tipurile de particule verbale utilizate in prezent de dictionarele Edict. Utilizatorul va selecta sau deselecta aceste butoane operand astfel filtrarea indexului general sa listeze numai tipurile bifate. Utilizatorul n-ar avea de ce sa includa in index litere sau silabe, ar putea fi interesat doar in biblioteca dictionarului (vezi  REF _Ref117120405 \r \h 6.11.3) ignorand astfel si cuvintele, sau, dinpotriva, ar putea fi interesat exclusiv in vocabular.

Lectorul de text

Aceasta unealta programeaza interfata vocala a sistemului si incepe reproducerea vocala a textului selectat in indexul general. Detaliile sunt descrise in  REF _Ref117120462 \r \h 6.12.6. Acest proces este de lunga durata, reproducerea vocala a unui text trebuind sa fie suficient de lenta pentru urechea ascultatorului. Procesul de lectura se desfasoara pe un fir de executie separat initiat de catre centrul vorbirii, si poate fi terminat prematur de catre utilizator prin apasarea a doua oara a acestui buton.

Semnul de carte

Dictionarele sunt structuri largi, cu mii de cuvinte in indexul general. Dictionarul roman juridic are circa 270.000 de intrari. Este imperativ ca utilizatorul sa aiba la dispozitie instrumentul semnului de carte. Acest control acumuleaza cuvintele sau textele pe care utilizatorul le-a inspectat, si asupra carora va putea reveni. Semele de carte se acumuleaza automat ori de cate ori s-a operat o selectie dubla in index. Utilizatorul poate de asemenea lasa semne de carte tragand un cuvant din index asupra acestui control dolosind mausul.

 Optiuni generale

Guverneaza unele aspecte ale functionarii interfetei grafice care ar putea fi inadecvate unui dictionar dat. Utilizatorul poate opta aici pentru suprimarea corelatiei intre indexul general si lista explicatiilor, astfel ca dubla selectie a unui index sa nu initieze o procedura scumpa de cautare a explicatiilor prin intreg dictionarul.

  Salvarea si incarcarea ordinii de lista

Sortarea dictionarului este o operatiune dificila, mare consumatoare de timp prin natura sa. Analiza combintorica arata ca sortarea unei liste de N elemente este un proces patratic, care se va desfasura in maximum N*(N-1)/2 iteratii. Pentru a sorta un dictionar de mari dimensiuni precum Dictionarul Roman Juridic vor fi necesari maximum 70 miliarde de comparatii a cate doua cuvinte. Depinzand de puterea de calcul a computerului pe care este instalat, Edict va rula un asemenea proces de sortare zile la rand. Indexul poate fi sortat dupa atatea criterii cate coloane sunt in tabel, apasand cu mausul pe respectiva coloana in capul de tabel.

 

Histograma alturata reflecta evolutia catorva procese de sortare intr-un dictionar de 270,000 de cuvinte dupa nume, pondere, intretesere, si tip. Centrul vorbirii a facut un efort considerabil timp de 48 de ore pentru a sorta indexul in ordine alfabetica. Dupa cum o sugereaza si histograma, sortarile sunt procese patratice in numarul de elemente sortate.

 

Procesul de sortare se lanseaza pe un fir de executie separat si intreruptibil prin re-apasare. Utilizatorul poate sorta dictionarul in mod repetat dupa criterii suprapuse, de exemplu mai intai dupa greutatea cuvintelor, apoi dupa numarul lor de legaturi. Inima sistemului nu poate anticipa varietatea de criterii pe care utilizatorul le va alege, altminteri ar fi putut pre-constitui aceste ordini. Edict stocheaza dictionarele numai in ordinea naturala a aparitiei cuvintelor noi in textele importate. Editorul grafic insa, ingaduie salavarea si incrcarea ordinei in fisiere separate.

 Optiuni aplicabile fiecarui cuvant

Fiecare cuvant din indexul general al dictionarului are un numar de atribute pe care utilizatorul le poate schimba cu ajutorul acestui editor de mini-switchuri. Atributele bifate apar cu X in lista indexului general. Definitia campurilor este urmatoarea:

  1. S – Cuvantul este Selectat. Optiunea are ca efect secundar marcarea cuvantului in banda galbena in lista indexului general. Selectia in galban este deosebit de importanta, ea constituind rezultatul final al operarii in cadrul editorului. Textele marcate prin aceasta selectie vor putea fi deschise catre nivelele superiare ale intreg systemului Edict-Gaius. Selectarea cuvintelor poate fi facuta mai rapid prin intermediul mausului si tasta ALT.
  2. E – Eroare de ortografie. Dictionarul trebuie periodic inspectat. Utilizatorul trebuie sa vaneze si sa marcheze erorile de ortografie care invariabil apar in documentele de intrare.
  3. R – Raspunsul procedurii de cautare a unui text in dictionar. Cautarea raspunde prin inversarea starii de bifare in acest camp R.
  4. U – Camp de manevra la dispozitia utilizatorului.
  5. C – Cuvant Comun. Intrucat sistemul de invatare nu poate face diferenta intre un cuvant comun si un nume propriu cu care se incepe o propozitie, utilizatorul va explica natura cuvantului bifand acest camp.

In aceste cinci coloane se acumuleaza diverse setari. Datorita numarului mare de cuvinte devine absolut necesar ca aceste coloane sa poata fi vidate in totalitate prin RClick, inversate prin ALT+RClick, amestecate cu alta coloana, etc. Editorul permite aceste operatii prin drag&drop al uneia dintre casetele de bifare asupra alteia.

 Deschiderea textelor selectate

Butonul de deschidere lanseaza o procedura de export prin care pentru fiecare text selectat se va crea un nod de informatie in ierarchia dictionarului. Fiecare nod are ca titlu primele 100 de caractere din textul debobinat de pe mosorul dictionarului (vezi  REF _Ref117119373 \r \h 6.10), si va contine intregul text. Importanta deosebita a acestui buton este faptul ca face jonctiunea intre sistemele Edict si Gaius descrisa in sectiunea  REF _Ref117072697 \r \h 3. Gaius va putea opera cu mijloacele sale proprii asupra acestor noduri, preluate prin intermediul unui Scope Browser. O privire de ansamblu a unei asemenea jonctiuni va fi descrisa in sectiunea  REF _Ref117265586 \r \h 11.

 Bara de cautare si optiunile sale

Cautarea unui fragment de text in intreg dictionarul se face prin intermediul acestui control. Cautatorul retine criteriile anterioare ajutand utilizatorul sa revina asupra lor. Cautarea este declansata apasand binoclul. Cautarea poate dura o bucata mai lunga de vreme in functie de dimensiunea dictionarului. Utilizatorul poate suspenda procedura de cautare apasand din nou butonul. Rezultatele cautarii sunt bifate in coloana R a cuvintelor in indexul general, si listate pe masura ce sunt produse in lista definitiilor descrisa in sectiunea  REF _Ref117268419 \r \h 9.4. Sistemul prevede 4 optiuni care afecteaza viteza si criteriul de cautare:

  1. Cautare in intreg textul. Regula generala este sa se caute numai in primele 255 de caractere ale textului, aplicand prezumtia ca ceea ce se cauta va putea fi gasit in titlul si preambulul textelor de lege. Bifand aceasta optiune, insa, cautarea se va face in intreg textul dictionarului, ingreunandu-se astfel corespunzator procedura.
  2. Cautare ignorand majusculele.
  3. Cautare ignorand spatiile albe din text.
  4. Cautare gramaticala relativa.

Butonul de generare a schemei gramaticale de inchidere

Pe langa jonctiunea Edict-Gaius enuntata ca obiectiv in  REF _Ref117072697 \r \h 3 este posibila si jonctinea Edict-SE, SE fiind Editorul Schematic al sistemului ANNA K5. Reamintim ca si sistemul Gaius permite o asemenea jonctiune cu Editorul Schematic. Interactiunea modulelor este posibila in mai multe moduri, cel mai simplu fiind prin intermediul navigatorului de scop - Scope Browser. Edict poate genera prin intermediul acestui instrument o retea nodala care urmareste gramatica dictionarului pe inchiderea simbolului selectat. Automatul reprezentat in  REF _Ref117120511 \r \h 6.1 este o asemenea retea generata prin procedul enuntat.

Indexul general al dictionarului

Indexul este lista tuturor simbolurilor continute in dictionar: litere, cuvinte si documente. Acest tabel este axa x descrisa in profunzime in  REF _Ref117120541 \r \h 6.12.1. Se remarca urmatoarele coloane:

  1. Numele simbolului. Notiunea de "nume" a unui simbol este oarecum delicata. Prin nume, Edict intelege masca simbolului respectiv formata din simbolurile dictionarului ierarhic superior. Detalii privind masca unui simbol sunt discutate in sectiunea  REF _Ref117119659 \r \h 6.11.4. Pentru cuvinte, numele consta in masca lor literala decodificata. Numele unui document este secventa de cuvinte din care este format. Literele sunt terminale abstracte ale caror masca este chiar numarul lor de index in forma ASCII. Pentru detalii privind structura ierarhica si dependenta intre Biblioteca, Vocabular si Alfabet vezi  REF _Ref117120567 \r \h 6.11.

  1. Gradul de utilizare al simbolului (vezi  REF _Ref117120541 \r \h 6.12.1). Exprima numarul de aparitii ale unui cuvant in textele bibliotecii, sau ale unei litere in cuvinte. Conjunctia "si" se evidentiaza ca cea mai des intrebuintata in limba.
  2. Numarul de legaturi (sinapse) pe care cuvantul le face cu alte cuvinte. Conjunctia "si" se evidentiaza din nou ca cel mai puternic legata.
  3. Tipul simbolului. Intr-un dictionar neprelucrat acesta poate fi litera, cuvant sau text, dar si silaba, propozitie si paragraf, intr-un dictionar prelucrat.
  4. Selectat, Eroare, Rezultat, Utilizator, Comun sunt atribute bifabile ale symbolului si au fost discutate in detaliu la  REF _Ref117120591 \r \h 9.1.6
  5. sz este magnitudinea indexului de legaturi ce pornesc dintr-un simbol. Chestiunea este discutata la capitolul compresie  REF _Ref117120627 \r \h 6.12.8.
  6. Definitia simbolului este pozitia in biti pe axa Z a arhivei unde incepe codificarea acelui simbol. Aici apare simbolul pentru prima oara in istoria dictionarului. Vezi  REF _Ref117119659 \r \h 6.11.4 pentru detalii privind definitia unui simbol.

  1. ID este numarul de ordine naturala stabilita la aparitia simbolurilor in urma procesului de absorbtie efectuat de Sistemul primar de invatare  REF _Ref117120665 \r \h 5.

Lista legaturilor gramaticale

Dupa cum am lamurit in sectiunile  REF _Ref117120721 \r \h 6.1 simbolurile sunt intretesute. Aceasta lista prezinta toate simbolurile la care se poate ajunge din cel selectat in Indexul General. Figura alaturata infatisaza cateva dintre miile de cuvinte la care s-ar putea ajunge din cuvantul "de". Aceste legaturi sunt ramuri ale automatului de recunoastere si invatare descris la  REF _Ref117268066 \r \h 6.3 si care sta la baza dictionarului Edict.

Lista definitiilor

Acest panou prezinta rezultatele cautarilor textuale sau relationare. Cautarile incep fie datorita unei duble selectii a unui cuvant in indexul general, fie de la butonul de cautare a textului in arhiva . In cazul selectiei unui cuvant, interfata va interoga dictionarul pentru toate documentele care folosesc acel cuvant. Aceste texte constituie explicatia cuvantului in sensul general descris de  REF _Ref117121090 \r \h 4.7. Cautarea se lanseaza pe fir propriu de executie urmand ca lista sa se umple progresiv fara a bloca interfata. Depinzand de dimensiunea arhivei si frecventa cuvantului, procesul poate fi unul lung. Edict prevede posibilitatea intreruperii unui astfel de proces printr-o alta asemenea dubla selectie care insa nu va face nimic decat sa intrerupa cautarea curenta. Lista afisaza pe langa un extract de text (numele simbolului) si numarul de aparitii ale cuvantului-criteriu in respectivul text. Sistemul raspunde astfel la intrebari de tipul "de cate ori apare X in arhiva, si unde apare cel mai des?". In figura introductiva  REF _Ref117268317 \r \h 9 lista definitiilor s-a umplut ca urmare a cautarii textului "prescriptie extinctiva" folosind bara de cutare. Au aparut o multitudine de documente care definesc notiunea, intre care unele decizii ale Curtii Constitutionale.

Vizualizorul textelor explicative

Este locul in care vor fi deschise documentele din biblioteca dictionarului. Textele se pot deschide prin dubla selectie in Indexul General, lista legaturilor, sau in lista definitiilor. Vizualizorul are cateva trasaturi importante: subliniaza in trei culori si stiluri diferite aparitiile cuvantului simplu selectat in indexul general  REF _Ref117268532 \r \h 9.2, a cuvantului simplu selectat in lista legaturilor  REF _Ref117268552 \r \h 9.3, si ingrosat toata expresia aflata in bara de cautare  REF _Ref117268574 \r \h 9.1.8. Vizualizorul retine cine l-a incarcat si din ce context, putandu-l astfel intoarce pe solicitant in focus la pozitia care a condus la incarcare. Masura este necesara pentru a permite listelor sa evolueze in voie, dar a se intoarce la punctul care a determinat incarcarea textului. Vizualizorul raspunde progresiv la selectiile de cuvinte in listele adiacente localizand urmatoarea aparitie a cuvantului in text si aducand-o in campul vizual. Aceasta metoda este necesara cautarii repetate a unui cuvant in text.

Sistemul de corelare a selectiilor

Interfata cu utilizatorul reflecta natura sferica a unui dictionar si permite utilizatorului descinderi orientate gramatical, cautari de text, cautari de cuvinte, si sortari. Cele cinci elemente ale interfetei sunt strans legate functional, formand un intreg coerent. Diagrama din aceasta sectiune prezinta sistemul de interactiuni intre componentele discutate anterior. Unele sunt suficient de subtile cat sa se cuvina expicate.

 

Pe diagrama se observa ca toate panourile au o poarta de reincarcare unde li se spune ce simbol sa incarce. Indexul general permite astfel semnului de carte  REF _Ref117268725 \r \h 9.1.3 si barei de cautare  REF _Ref117268574 \r \h 9.1.8 sa selecteze simboluri. Vizualizorul  REF _Ref117268796 \r \h 9.5 permite tuturor celorlalte componente sa sublinieze. Unele selectii dure (selectie dubla) provoaca un lant intreg de evenimente. Dubla selectie in Indexul general provoaca pe tranzitia 6a reincarcarea listei de explicatii cu textele gasite sa contina cuvantul initial. In acelasi timp, insa este reincarcat si vizualizorul cu textul dublu selectat. O selectie dubla acopera insa si o selectie simpla care opereaza in prealabil. Astfel se va reincarca lista legaturilor cu noul cuvant (tranzitia 4b pe figura), se va reincarca bara de instrumente cu atributele cuvantului (5a). Intra in functiune acum mecanizmul de subliniere a textului si aducere in camp vizual pornind de la semnul de carte (2b), de la bara de cautare (4b), de la elementul selectat in lista legaturilor (7b) si de la cuvantul selectat in indexul general (5c) de la care a si pornit tot acest proces. Selectia simpla in lista rezultatelor va localiza automat respectivul simbol in indexul general, pe tranzitiile 6a, iar selectia in lista legaturilor va localiza si selecta respectivul simbol in index pe tranzitia 6a. Modul in care elementele interfetei interactioneaza este configurabil din optiunile generale discutate la  REF _Ref117121008 \r \h 9.1.4. Selectia inversa se realizeaza prin RClick cu mausul si semnifica dorinta de a afla care a fost simbolul cu care s-a incarcat o lista sau Vizualizorul textului. Interfata raspunde selectand simbolul respectiv in Indexul general.

 

Pe diagrama urmatoare sunt evidentiate: in linie simpla circuitul selectiilor simple, in albastru ingrosat circuitul selectiilor duble, iar in linie punctata circuitul selectiei inverse.

Lista urmatorilor gramaticali ai cuvantului selectat in index

 cuvantul selectat

Reincarcare

Selectie

Bara de instrumente cu

Improspatare

Semnul de carte

Ordinea

Atributele cuvantului

Cautare

 

Lista explicatiilor cuvantului selectat in index

  Explicatia selectata

Reincarcare

Indexul general al elementelor din dictionar

cuvantul/textul selectat

Reincarcare

Selectie

Vizualizorul textului explicativ complet

Reincarcare

Subliniere

textul selectat

1

5

5b

5a

5c

6

6a

6b

3

2

4a

4

7a

7b

6r

2a

2b

4b

6r

8

8a

8b


Ca orice editor, vizualizorul textului explicativ discutat la  REF _Ref117268991 \r \h 9.5 permite marcarea unui text. Actul de a selecta invers si avand un text marcat va fi interpretat de catre interfata ca o intentie de a cauta in dictionar legatura gramaticala marcata. Se va localiza primul cuvant marcat in Indexul general  REF _Ref117269251 \r \h 9.2, se vor incarca legaturile acestui cuvant in lista legaturilor  REF _Ref117269264 \r \h 9.3, apoi se va localiza al doilea cuvant in lista de legaturi. Selectia inversa multipla va roti cuvintele marcate in perechi. Sa lucram pe urmatorul exemplu: "Raspunderea penala opereaza pentru toti infractorii...". Dupa ce s-au marcat primele trei cuvinte si s-a apasat RClick, interfata va localiza cuvantul "respunderea" in indexul general, si va localiza "penala" in lista de cuvinte legate. Apasand RClick a doua oara, interfata va lua urmatoarea pereche de cuvinte marcate si va localiza "penala" in index, apoi "opereaza" in lista legaturilor. In fine, daca se mai apasa RClick din nou, interfata va lua si localiza cuvantul "opereaza" si tranzitia lui spre "raspunderea".

 

Toate acestea sunt mijloace relationare rapide de cautare a cuvintelor si grupelor de cuvinte in arhiva dictionarului, care speculeaza natura sa sferica.

Dictionarul roman juridic

Acest dictionar este rezultatul practic concret al acestui efort de cercetare si al tuturor metodelor expuse in acest document.

 

Dictionarul contine 40431 acte normative de urmatoarele tipuri:

  1. Constitutii,
  2. legi,
  3. decrete,
  4. ordonante,
  5. ordonante de urgenta,
  6. ratificari de tratate,
  7. ordine ministeriale,
  8. decizii ale Curtii Constitutionale si alte consilii,
  9. hotarari,
  10. norme metodologice, etc.

 

Arhiva dictionarului contine

  1. 378,106,014 bytes text crud de intrare codificat in
  2. 130,911,015 bytes dimensiunea reala a arhivei.
  3. 288% factor de compresie obtinut prin compresie aliasata la 8,16,24 si 32 biti de esenta la formarea dictionarului fiind viteza de codificare.
  4.   47,865,076 cuvinte de intrare conducand la un index de 273,000 simboluri
  5. 384,925,810 legaturi gramaticale conducand la formarea a 4,018,707 sinapse
  6. 23MB dimensiunea miezului lichid al dictionarului.

 

Efortul de constituire: 7 zile de analiza.

Viteza de traversare a arhivei de la un cap la celalalt pentru cuvantul "si" este de 21s.

Ultima rata cunoscuta de comparare a cuvintelor: 255/secunda. (in dubiu)

 

Problemele dictionarului:

  1. Clonarea acrilica
  2. Titulatura neuniforma, consecinta a tehnoredactarii eterogene.
  3. Numerale mari (numere de cont, masuratori, sume de bani, etc) codificate in cuvinte independente.
  4. Un numar imens de nume proprii.
  5. Cuvinte imaginare provenite din silabisire la capat de rand sau coloana
  6. Folosirea unor caractere speciale din domeniul ASCII.

 

Gradul de intelegere al dictionarului este dat de raportul intre numarul de legaturi si numarul de cuvinte 9:1, insa nu stim inca sa interpretam aceasta cifra. Orice limba ar trebui sa aibe un rport constant. Cifra reprezinta densitatea sferei de cunoastere. Nu stim inca ce coeficient general are limba romana.

 

Una peste alta insa, dictionarul rezista testelor, si pare in marea lui majoritate corect.

 

Interactiunea sistemelor Edict, Gaius si Browser in rama globala

Sistemul Edict 5

Sistemul Gaius5

Modul primar de informare rapida

Scope Browser,

liantul tuturor modulelor.

Figura urmatoare infatisaza sistemele Edict si Gaius la lucru impreuna in rama globala a sistemului nostru de operare ANNA Kernel 5. Edict a selectat si deschis prin butonul de deschidere  REF _Ref117270093 \r \h 9.1.7 legile 21/1924, 26/1967, 19/1971, si 58/1974, care au aparut in nodul Selectiei curente sub Dictionarul Roman Juridic. Documentele astfel deschise devin independente de arhiva dictionarului. Edict le deschide o singura data sub nodul selectiei.

Gaius a preluat legea 21/1924 pe care a compilat-o potrivit gramaticii sale de proprii si a descompus-o in capitole si articole. Acestea au fost cros-referentiate cu ele insele formand o intretesere conceptuala de nivel inalt acum incarcata in navigatorul ierarhic de traversare conceptuala orizontala.

 

Am incheiat astfel un circuit de prezentare a obiectivului enuntat in sectiunea  REF _Ref117072697 \r \h 3.

QVOD ERAT DEMONSTRANDUM

 

Hit Counter Created on 10/17/2005,  modified on 05/27/2009 06:38:47 AM

Home
Up

Home | Up | Feedback | Contents | Search

Send mail to webmaster@ProximaCentauri.ro with questions or comments about this web site.
All principles and artwork exposed on this site or by our software products is our intellectual property. 
Copyright 2006 Proxima Centauri Romania SRL. Last modified: 05/27/09