FLEX(1)                                                   FLEX(1)


NAZWA
       flex - szybki generator analizatora leksykalnego

SKŁADNIA
       flex  [-bcdfhilnpstvwBFILTV78+? -C[aefFmr] -ooutput -Ppre
       fix -Sskeleton] [--help --version] [filename ...]

WPROWADZENIE
       Podręcznik ten opisuje narzędzie flex.  Jest ono przeznac
       zone  do generowania programów, dokonywuj±cych dopasowywa
       nia wzorców na tek¶cie. Podręcznik zawiera zarówno  sekcje
       przewodnikowe jak i informacyjne.

           Opis
            krótki przegl±d możliwo¶ci narzędzia

           Proste Przykłady

           Format Pliku Wej¶ciowego

           Wzorce
            rozszerzone wyrażenia regularne używane przez flex

           Sposób Dopasowywania Wej¶cia
            reguły okre¶lania, co dopasowano

           Akcje
            jak podawać, co robić po dopasowaniu wzorca

           Generowany Skaner
            szczegóły o skanerze, tworzonym przez fleksa; jak kontrolować Ľródło
            wej¶ciowe

           Warunki Startowe
               wprowadzanie do skanerów kontekstu i obsługa "mini-skanerów"

           Wielokrotne Bufory Wej¶ciowe
            jak obsługiwać wiele Ľródeł wej¶ciowych; jak skanować z łańcuchów
            zamiast z plików

           Reguły Końca Pliku
            specjalne reguły dopasowywane do końca wej¶cia

           Różne Makra
            ogół makr dostępnych z poziomu akcji

           Warto¶ci Dostępne Użytkownikowi
            ogół warto¶ci dostępnych z poziomu akcji

           Ł±czenie z Yacc
            ł±czenie skanerów flex z analizatorami yacc

           Opcje
            opcje linii poleceń fleksa i dyrektywa "%option"



Wersja 2.5                Kwiecień 1995                         1





FLEX(1)                                                   FLEX(1)


           Kwestie wydajno¶ciowe
            jak przyspieszać skanery

           Generowanie Skanerów C++
            eksperymentalna wła¶ciwo¶ć generowania klas skanerów C++

           Niezgodno¶ci z Lex i POSIX
            czym flex różni się od standardów AT&T lex i POSIX lex

           Diagnostyka
            obja¶nienie komunikatów o błędach, generowanych przez flex (lub
            skanery)

           Pliki
            pliki używane przez flex

           Niedostatki / Błędy
            znane problemy fleksa

           Zobacz Także
            pozostała dokumentacja i zwi±zane z fleksem narzędzia

           Autor
            informacja kontaktu z autorem


OPIS
       flex   jest   narzędziem   przeznaczonym   do  generowania
       skanerów: programów, rozpoznaj±cych wzorce leksykalne tek
       stu.  flex odczytuje podane pliki wej¶ciowe (lub stdin gdy
       nie s± podane) i pobiera z nich opis generowanego skanera.
       Opis  składa  się z par wyrażeń regularnych i kodu C. Pary
       te nazywane s± regułami.  flex jako wyj¶cie generuje  plik
       Ľródłowy  C  o  nazwie  lex.yy.c.   Definiuje  on  funkcję
       yylex().  Plik ten musi kompilowany i konsolidowany z bib
       liotek±  -lfl.   Po uruchomieniu pliku wykonywalnego, pro
       gram analizuje wej¶cie w poszukiwaniu wyrażeń regularnych.
       Gdy  tylko  takie się znajdzie, wykonywany jest odpowiedni
       fragment kodu C.

PROSTE PRZYKŁADY
       Przedstawmy teraz trochę prostych przykładów aby obyć  się
       z używaniem flex.  Następuj±cy plik wej¶ciowy flex okre¶la
       skaner, który za każdym razem gdy napotka  łańcuch  "user
       name", podmieni go nazw± użytkownika:

           %%
           username    printf( "%s", getlogin() );

       Domy¶lnie  tekst,  którego  flex  nie  może dopasować jest
       kopiowany na wyj¶cie. Skaner  będzie  więc  kopiował  swój
       plik  wej¶ciowy  na  wyj¶cie, podmieniaj±c wszelkie pojaw
       ienia "username".  W tym przykładzie  wej¶cia  mamy  tylko
       jedn±  regułę.  Wzorcem  jest  "username",  a  akcj±  jest



Wersja 2.5                Kwiecień 1995                         2





FLEX(1)                                                   FLEX(1)


       "printf".  Znaki "%%" oznaczaj± pocz±tek reguł.

       Oto kolejny prosty przykład:

                   int num_lines = 0, num_chars = 0;

           %%
           \n      ++num_lines; ++num_chars;
           .       ++num_chars;

           %%
           main()
                   {
                   yylex();
                   printf( "# of lines = %d, # of chars = %d\n",
                           num_lines, num_chars );
                   }

       Ten skaner zlicza liczbę znaków i liczbę  linijek  swojego
       wej¶cia  (nie  daje  żadnego wyj¶cia, nie licz±c końcowego
       raportu). Pierwsza linia deklaruje dwie zmienne  globalne,
       "num_lines"  i  "num_chars",  które  s±  dostępne wewn±trz
       funkcji yylex() i main(), zadeklarowanej po  drugim  "%%".
       Mamy  tu  dwie  reguły:  pierwsza  dopasowuje się do nowej
       linii ("\n") i inkrementuje  licznik  linii  oraz  znaków;
       druga  dopasowuje  się  do dowolnego znaku innego niż nowa
       linia (wyrażenie regularne ".") i zwiększa licznik  liczby
       znaków.

       A oto trochę bardziej skomplikowany przykład:

           /* skaner dla zabawkowego Pascalo-podobnego języka */

           %{
           /* potrzebujemy tego do wywołania atof() */
           #include <math.h>
           %}

           DIGIT    [0-9]
           ID       [a-z][a-z0-9]*

           %%

           {DIGIT}+    {
                       printf( "Liczba całkowita: %s (%d)\n", yytext,
                               atoi( yytext ) );
                       }

           {DIGIT}+"."{DIGIT}*        {
                       printf( "Liczba zmiennoprzecinkowa: %s (%g)\n", yytext,
                               atof( yytext ) );
                       }

           if|then|begin|end|procedure|function        {



Wersja 2.5                Kwiecień 1995                         3





FLEX(1)                                                   FLEX(1)


                       printf( "Słowo kluczowe: %s\n", yytext );
                       }

           {ID}        printf( "Identyfikator: %s\n", yytext );

           "+"|"-"|"*"|"/"   printf( "Operator: %s\n", yytext );

           "{"[^}\n]*"}"     /* zjedz jednolinijkowe komentarze */

           [ \t\n]+          /* zjedz białe spacje */

           .           printf( "Nierozpoznany znak: %s\n", yytext );

           %%

           main( argc, argv )
           int argc;
           char **argv;
               {
               ++argv, --argc;  /* pomiń nazwę programu */
               if ( argc > 0 )
                       yyin = fopen( argv[0], "r" );
               else
                       yyin = stdin;

               yylex();
               }

       S±  to  pocz±tki  prostego skanera dla języka podobnego do
       Pascala. Rozróżnia poszczególne rodzaje tokenów  i  infor
       muje co zobaczył.

       Szczegóły  tego  przykładu zostan± wyja¶nione w następnych
       sekcjach.

FORMAT PLIKU WEJ¦CIOWEGO
       Plik  wej¶ciowy  fleksa  składa  się  z   trzech   sekcji,
       rozdzielanych liniami z łańcuchem %%:

           definicje
           %%
           reguły
           %%
           kod użytkownika

       Sekcja   definicji   zawiera   definicje   prostych  nazw,
       upraszczaj±cych póĽniej specyfikację skanera. Zawiera  też
       deklaracje  warunków pocz±tkowych, które obja¶niono w dal
       szej sekcji.

       Definicje nazw maj± postać:

           nazwa definicja




Wersja 2.5                Kwiecień 1995                         4





FLEX(1)                                                   FLEX(1)


       gdzie "nazwa" jest słowem, rozpoczynaj±cym się  od  litery
       lub  podkre¶lenia  ('_').   Pozostałe  znaki mog± być lit
       erami, cyframi, podkre¶leniami lub my¶lnikami.   Definicja
       jest pobierana od momentu pojawienia się pierwszego znaku,
       który nie jest spacj±  i  który  znajduje  się  za  nazw±.
       Definicja rozci±ga się do końca linii. Do takiej definicji
       można  się  następnie  odwoływać  przy  użyciu   konwencji
       "{nazwa}",    która   jest   automatycznie   rozwijana   w
       "(definicję)". Na przykład

           DIGIT    [0-9]
           ID       [a-z][a-z0-9]*

       definiuje "DIGIT" jako wyrażenie  regularne,  pasuj±ce  do
       pojedynczej   cyfry,   a  "ID"  jako  wyrażenie  regularne
       odpowiadaj±ce literze z doklejonymi ewentualnymi  literami
       lub cyframi.  PóĽniejsze odniesienie do

           {DIGIT}+"."{DIGIT}*

       jest równoważne

           ([0-9])+"."([0-9])*

       i  dopasowuje  jedn± lub więcej cyfr, po których występuje
       kropka i ewentualnie następne cyfry.

       Sekcja  reguł  wej¶cia  fleksa  zawiera  szereg  reguł   w
       postaci:

           wzorzec   akcja

       Przed  wzorcem  nie  może  wyst±pić  wcięcie, a akcja musi
       rozpoczynać się w tej samej linii.

       Dla dalszego opisu akcji patrz dalej.

       W końcu, sekcja kodu użytkownika jest zwyczajnie kopiowana
       do  lex.yy.c  (bez  dokonywania  w  niej  zmian).  Jest to
       używane do  funkcji  pomocniczych,  które  wołaj±  lub  s±
       wołane  przez skaner. Obecno¶ć tej sekcji jest opcjonalna;
       je¶li nie istnieje, to ostatni %% pliku  wej¶ciowego  może
       być pominięty.

       Je¶li  w  sekcjach  definicji lub reguł znajduje się jaki¶
       wcięty (indentowany) tekst lub tekst ujęty w %{ i  %},  to
       jest on kopiowany dosłownie na wyj¶cie (po usunięciu %{}).
       Znaki %{} musz± pojawić się  samodzielnie  w  liniach  bez
       wcięć.

       W sekcji reguł, tekst wcięty lub tekst %{}, znajduj±cy się
       przed pierwsz± reguł± może służyć  deklarowaniu  zmiennych
       lokalnych  dla procedury skanuj±cej oraz (po deklaracjach)
       kodu, który ma  być  wywoływany  za  każdym  uruchomieniem



Wersja 2.5                Kwiecień 1995                         5





FLEX(1)                                                   FLEX(1)


       procedury skanuj±cej.  Pozostałe przypadki wciętego tekstu
       lub tekstu %{} sekcji reguł s± nadal kopiowane na wyj¶cie,
       lecz  ich znaczenie nie jest dokładnie zdefiniowane i mog±
       spowodować błędy kompilacji (wła¶ciwo¶ć ta jest obecna dla
       zgodno¶ci   z   POSIX;   zobacz   niżej   inne  tego  typu
       wła¶ciwo¶ci).

       W sekcji definicji na wyj¶cie kopiowane  s±  również  nie-
       wcięte bloki komentarza, ujęte między znaki "/*" i "*/".

WZORCE
       Wzorce wej¶ciowe s± pisane z użyciem rozszerzonego zestawu
       wyrażeń regularnych. S± to:

           x          dopasowuje znak 'x'
           .          dowolny znak poza now± lini±
           [xyz]      "klasa znaków"; w tym przypadku wzorzec odpowiada
                        zarówno 'x', 'y' jak i 'z'
           [abj-oZ]   "klasa znaków" z zakresem; odpowiada ona
                        'a', 'b', dowolnej literze od 'j' do 'o' oraz 'Z'
           [^A-Z]     zanegowana "klasa znaków" tj. dowolny znak poza
                        wymienionymi w klasie. W tym wypadku dowolny znak oprócz
                  dużych liter
           [^A-Z\n]  dowolny znak oprócz dużych liter lub nowej linii
           r*         zero lub więcej r'ów, gdzie r jest wyrażeniem regularnym
           r+         jeden lub więcej r'ów
           r?         zero lub jeden r (tj. "opcjonalny r")
           r{2,5}     od dwu do pięciu r
           r{2,}      dwa lub więcej r
           r{4}       dokładnie 4 r
           {nazwa}    rozwinięcie definicji "nazwa" (patrz wyżej)
           "[xyz]\"foo"
                      łańcuch literalny: [xyz]"foo
           \X        Je¶li X to 'a', 'b', 'f', 'n', 'r', 't' lub 'v',
                  to następuje interpretacja ANSI-C \x. W przeciwnym
                  wypadku używany jest literalny 'X' (używane do cytowania
                  operatorów--np. '*').
           \0        znak NUL (kod ASCII 0)
           \123      znak o warto¶ci ósemkowej 123
           \x2a      znak o warto¶ci szesnastkowej 2a
           (r)        dopasuj r; nawiasy s± używane do przeci±żania priorytetów
                     (patrz niżej)


           rs         wyrażenie regularne r, za którym następuje wyrażenie
                  regularne s; nazywa się to "ł±czeniem"


           r|s        r lub s


           r/s        r, lecz tylko je¶li za nim następuje s. Tekst dopasowywany
                  przez s jest zał±czany do okre¶lania czy ta reguła miała
                  "najdłuższe dopasowanie", lecz potem jest zwracany do



Wersja 2.5                Kwiecień 1995                         6





FLEX(1)                                                   FLEX(1)


                  wej¶cia przed wykonaniem akcji. Tak więc akcja widzi tylko
                  tekst dopasowany przez r. Ten rodzaj wzorca jest nazywany
                  "doklejonym kontekstem". (Istniej± pewne kombinacje r/s,
                  których flex nie potrafi wła¶ciwie dopasować; zobacz uwagi
                  w dalszej sekcji Niedostatki / Błędy w okolicach
                  "niebezpiecznego kontekstu doklejonego".)
           ^r         r, lecz tylko na pocz±tku linii (tj. zaraz po rozpoczęciu
                  skanowania, lub po wyskanowaniu nowej linii).
           r$         r, lecz tylko na końcu linii (tj. tuż przed now± lini±).
                  Równoważne "r/\n".

                   Zauważ, że notacja nowej linii fleksa jest dokładnie tym,
                   co było używane jako '\n' przez kompilator C, użyty do
                   kompilacji fleksa; w praktyce na niektórych systemach DOS
                   musisz wyfiltrować \r lub jawnie używać r/\r\n zamiast
                   "r$".


           <s>r       r, lecz tylko dla warunku pocz±tkowego s (zobacz niżej
                  dyskusję o warunkach pocz±tkowych)
           <s1,s2,s3>r
                      to samo, lecz je¶li dowolny z warunków pocz±tkowych s1,
                        s2 lub s3
           <*>r       r w dowolnym warunku pocz±tkowym, nawet wykluczaj±cym


           <<EOF>>    koniec pliku
           <s1,s2><<EOF>>
                      koniec pliku w warunkach pocz±tkowych s1 lub s2

       Zauważ, że w  obrębie  klasy  znaków  wszystkie  operatory
       wyrażeń  regularnych  trac± swoje znaczenie specjalne (nie
       licz±c cytowania '\', znaków klasy '-',

       Wymienione wyżej wyrażenia regularne s± pogrupowane  zgod
       nie  z  priorytetami, licz±c od najwyższego do najniższego
       (z góry na dół). Te, które zgrupowano razem maj± jednakowy
       priorytet. Na przykład,

           foo|bar*

       jest równoważne

           (foo)|(ba(r*))

       ponieważ  operator '*' ma wyższy priorytet niż ł±czenie, a
       ł±czenie  ma  wyższy  priorytet  niż  alternatywa   ('|').
       Wzorzec  ten  pasuje  więc  albo do łańcucha "foo" albo do
       "ba", po którym może nast±pić zero lub więcej r.   W  celu
       dopasowania "foo" lub zero lub więcej "bar"'ów, użyj:

           foo|(bar)*

       a żeby dopasować zero lub więcej "foo"-lub-"bar"'ów:



Wersja 2.5                Kwiecień 1995                         7





FLEX(1)                                                   FLEX(1)


           (foo|bar)*


       Poza  znakami  i  zakresami  znaków, klasy znaków mog± też
       zawierać specjalne wyrażenia.  Wyrażenia te s± ujmowane  w
       ograniczniki  [:  i :] (które musz± dodatkowo pojawiać się
       wewn±trz '[' i ']' klasy znaków; inne  elementy  w  klasie
       znaków  też  mog±  się pojawić).  Prawidłowymi wyrażeniami
       s±:

           [:alnum:] [:alpha:] [:blank:]
           [:cntrl:] [:digit:] [:graph:]
           [:lower:] [:print:] [:punct:]
           [:space:] [:upper:] [:xdigit:]

       Wyrażenia  te  oznaczaj±  zestaw   znaków,   odpowiadaj±cy
       równoważnemu   standardowi   funkcji   isXXX   języka   C.
       Przykładowo [:alnum:] oznacza wszystkie znaki, dla których
       isalnum(3) zwraca prawdę - tj. wszelkie znaki alfabetyczne
       lub  numeryczne.   Niektóre   systemy   nie   udostępniaj±
       isblank(3).  Flex definiuje [:blank:] jako spację lub tab
       ulację.

       Na przykład następuj±ce klasy s± sobie równoważne:

           [[:alnum:]]
           [[:alpha:][:digit:]
           [[:alpha:]0-9]
           [a-zA-Z0-9]

       Je¶li twój skaner  jest  niewrażliwy  na  wielko¶ć  znaków
       (flaga  (flaga -i), to [:upper:] i [:lower:] s± równoważne
       [:alpha:].

       Trochę uwag o wzorcach:

       -      Zanegowana klasa znaków, taka jak wyżej  wymienione
              przykładowe "[^A-Z]" będzie pasować do nowej linii,
              chyba że "\n" (lub równoważna sekwencja  specjalna)
              jest  jednym z jawnie obecnych w klasie znaków (np.
              "[^A-Z\n]").  Odbiega  to  od  sposobu  traktowania
              zanegowanych  klas znaków przez inne narzędzia ope
              ruj±ce na wyrażeniach  regularnych,  lecz  niestety
              niespójno¶ć  jest  ugruntowana historycznie.  Dopa
              sowywanie nowej linii oznacza, że wzorzec w rodzaju
              [^"]*  może  dopasować się do całego wej¶cia, chyba
              że istnieje w nim drugi cudzysłów.

       -      Reguła   może   mieć   najwyżej   jedn±   instancję
              dowi±zanego   kontekstu  (operatory  się  tylko  na
              pocz±tku wzorca i dodatkowo,  podobnie  jak  '/'  i
              '$',  nie  mog±  być grupowane w nawiasy. Znak '^',
              który nie pojawia się na pocz±tku reguły, lub  '$',
              nie  znajduj±cy  się na końcu traci swoje specjalne



Wersja 2.5                Kwiecień 1995                         8





FLEX(1)                                                   FLEX(1)


              znaczenie.

              Następuj±ce wzorce s± niedozwolone:

                  foo/bar$
                  <sc1>foo<sc2>bar

              Zauważ, że pierwszy z nich może być  zapisany  jako
              "foo/bar\n".

              Następuj±ce  wzorce  powoduj±,  że  '$'  lub '^' s±
              traktowane jak zwykłe znaki:

                  foo|(bar$)
                  foo|^bar

              Je¶li oczekiwan± warto¶ci± jest "foo"  lub  "bar-z-
              now±-lini±",  to  użyć  można  następuj±cego wzorca
              (akcja specjalna | jest wyja¶niona niżej):

                  foo      |
                  bar$     /* tu rozpoczyna się akcja */

              Podobna sztuczka powinna zadziałać dla  dopasowywa
              nia foo lub bar-na-pocz±tku-linii.

JAK DOPASOWYWANE JEST WEJ¦CIE
       Po  uruchomieniu  skanera,  analizuje  on  swoje wej¶cie w
       poszukiwaniu łańcuchów  odpowiadaj±cych  któremu¶  z  jego
       wzorców. Je¶li znajdzie więcej niż jeden pasuj±cy wzorzec,
       wybiera ten, który pasuje do największej ilo¶ci tekstu  (w
       regułach  z  dowi±zanym  kontekstem oznacza to też długo¶ć
       czę¶ci dowi±zanej, mimo faktu, że zostanie ona zwrócona na
       wej¶cie.  Je¶li  znajdzie  dwa  lub więcej dopasowań o tej
       samej długo¶ci, to wybierana jest pierwsza reguła.

       Po okre¶leniu dopasowania, tekst dopasowania (zwany  dalej
       tokenem)  jest udostępniany we wskaĽnikowej zmiennej glob
       alnej  yytext,  a  jego  długo¶ć  w   globalnej   zmiennej
       całkowitej  yyleng.   Wykonywana  jest  też  odpowiadaj±ca
       wzorcowi akcja (szczegółowy  opis  akcji  jest  dalej),  a
       następnie  pozostała  czę¶ć  wej¶cia  jest dopasowywana do
       kolejnego wzorca.

       Je¶li  dopasowanie  nie  zostanie   znalezione,   wykonana
       zostanie  reguła  domy¶lna:  następny  znak  wej¶cia  jest
       uważany za dopasowany i kopiowany  na  stdout.   Tak  więc
       najprostszym poprawnym plikiem wej¶ciowym fleksa jest:

           %%

       Generuje  to skaner, który po prostu kopiuje swoje wej¶cie
       (jeden znak naraz) na wyj¶cie.




Wersja 2.5                Kwiecień 1995                         9





FLEX(1)                                                   FLEX(1)


       Zauważ, że yytext może być  definiowane  na  dwa  sposoby:
       jako wskaĽnik do znaków lub jako tablica znaków.  Używanie
       konkretnej definicji można kontrolować, wł±czaj±c do pliku
       wej¶ciowego   w   pierwszej   sekcji  specjalne  dyrektywy
       %pointer lub %array.   Domy¶lnie  używana  jest  dyrektywa
       %pointer, chyba że używa się opcji -l zgodno¶ci z leksem i
       wtedy yytext staje  się  tablic±.   Korzy¶ci±  z  używania
       %pointer  jest zwiększenie szybko¶ci skanowania i zlikwid
       owanie  przepełnień  bufora  przy   dopasowywaniu   dużych
       tokenów  (chyba  że  zabraknie pamięci dynamicznej).  Wad±
       jest ograniczenie sposobu modyfikowania przez akcje zmien
       nej  yytext  (zobacz  następn±  sekcję) i to, że wywołania
       funkcji unput() niszcz± aktualn± zawarto¶ć yytext, co może
       przyprawiać o ból głowy podczas portowania skanerów między
       różnymi wersjami lex.

       Zalet± %array jest możliwo¶ć modyfikowania yytext i to, że
       wołanie  unput() nie niszczy yytext.  Poza tym, istniej±ce
       programy lex czasami zewnętrznie zagl±daj± do yytext  przy
       użyciu deklaracji w postaci:
           extern char yytext[];
       Definicja  ta  jest  błędna  przy  użyciu z %pointer, lecz
       prawidłowa dla %array.

       %array definiuje yytext jako  tablicę  YYLMAX  znaków,  co
       domy¶lnie   jest  do¶ć  duż±  warto¶ci±.  Możesz  zmieniać
       rozmiar przez proste #definiowanie YYLMAX na inn±  warto¶ć
       w pierwszej sekcji wej¶ciowego pliku fleksa.  Jak wspomni
       ano wyżej, dla %pointer  yytext  wzrasta  dynamicznie,  by
       przechowywać  duże  tokeny.  Chociaż oznacza to, że skaner
       %pointer może zbierać duże  tokeny  (jak  np.  całe  bloki
       komentarzy),  to zakop sobie w pamięci, że za każdym razem
       gdy  skaner  zmienia  rozmiar  yytext  to   musi   również
       reskanować cały token od pocz±tku, więc może się to okazać
       powolne.  yytext w chwili obecnej nie zwiększa dynamicznie
       rozmiaru  je¶li  wywołanie  unput() powoduje wepchnięcie z
       powrotem zbyt dużego bloku tekstu.  Zamiast  tego  pojawia
       się bł±d wykonania.

       Zauważ  też,  że postaci %array nie można używać z klasami
       skanerów C++ (zobacz opcję c++ poniżej).

AKCJE
       Każdy wzorzec reguły ma odpowiadaj±c± mu akcję, która może
       być  dowoln±  instrukcj±  języka  C. Wzorzec kończy się na
       pierwszym niecytowanym znaku białej spacji; reszta linijki
       jest  akcj±.  Je¶li  akcja  jest pusta, to token wej¶ciowy
       jest  zwyczajnie  odrzucany.  Na  przykład  oto   program,
       kasuj±cy wszystkie pojawienia łańcucha "wytnij mnie":

           %%
           "wytnij mnie"

       (Wszystkie  pozostałe  znaki wej¶cia zostan± skopiowane na



Wersja 2.5                Kwiecień 1995                        10





FLEX(1)                                                   FLEX(1)


       wyj¶cie, gdyż dopasuj± się do reguły domy¶lnej.)

       Oto program, który kompresuje wielokrotne spacje  i  tabu
       lacje  do pojedynczej spacji. Program wycina też wszystkie
       białe spacje z końca linii:

           %%
           [ \t]+        putchar( ' ' );
           [ \t]+$       /* ignoruj ten token */


       Je¶li akcja zawiera znak '{', to rozci±ga się  ona  aż  do
       zamykaj±cego  '}', nawet na przestrzeni wielu linii.  flex
       ma pewne wiadomo¶ci o łańcuchach C  i  komentarzach,  więc
       nie zostanie ogłupione przez klamry, które mog± się w nich
       znajdować. Poza tym dozwolone s± też akcje,  które  zaczy
       naj± się od %{ i zawieraj± tekst akcji aż do następnego %}
       (niezależnie od zwyczajnych klamer wewn±trz akcji).

       Akcja składaj±ca się wył±cznie  z  pionowej  kreski  ('|')
       oznacza  "taka  sama,  jak  akcja  następnej  reguły". Dla
       zobrazowania patrz niżej.

       Akcje mog± zawierać  kod  C,  wł±czaj±c  w  to  instrukcje
       return,  przeznaczone  do zwracania warto¶ci do procedury,
       która wywołała yylex().   Przy  każdym  wywołaniu  yylex()
       kontynuuje  przetwarzanie  tokenów  od  miejsca,  w którym
       ostatnio  przerwał  aż  do  osi±gnięcia  końca  pliku  lub
       wywołania return.

       Akcje  mog± spokojnie modyfikować zmienn± yytext; nie mog±
       jej jednak wydłużać (dodawanie znaków do  jej  końca  nad
       pisze dalsze znaki strumienia wej¶ciowego). Odmiennie jest
       natomiast przy używaniu %array (patrz wyżej); wtedy yytext
       można spokojnie modyfikować w dowolny sposób.

       Podobnie  do  powyższej  zmiennej,  można  spokojnie mody
       fikować yyleng, lecz należy uważać by nie robić tego je¶li
       akcja używa yymore() (patrz niżej).

       Istnieje wiele dyrektyw specjalnych, które można zawrzeć w
       akcji:

       -      ECHO kopiuje wej¶cie yytext na wyj¶cie skanera.

       -      BEGIN  z  doklejon±  nazw±   warunku   pocz±tkowego
              umieszcza  skaner w odpowiednim warunku pocz±tkowym
              (patrz niżej).

       -      REJECT  Kieruje  skaner  na  działanie  w  "drugiej
              najlepszej"  regule,  która  została  dopasowana do
              wzorca wej¶ciowego (lub prefiksu  wej¶cia).  Reguła
              jest  wybierana według zasad opisanych w "Jak dopa
              sowywane   jest   wej¶cie",   po   czym   następuje



Wersja 2.5                Kwiecień 1995                        11





FLEX(1)                                                   FLEX(1)


              odpowiednie ustawienie yytext oraz yyleng.  Może to
              być albo ta reguła, która dopasowała się do  takiej
              samej ilo¶ci tekstu, jak poprzednia, lecz wyst±piła
              póĽniej w pliku wej¶ciowym fleksa, albo taka, która
              dopasowała  się  do  mniejszej  ilo¶ci  tekstu.  Na
              przykład, następuj±cy przykład będzie liczył  słowa
              wej¶ciowe  i  wołał  funkcję  special() dla każdego
              "frob":

                          int word_count = 0;
                  %%

                  frob        special(); REJECT;
                  [^ \t\n]+   ++word_count;

              Bez dyrektywy  REJECT,  słowa  "frob"  wej¶cia  nie
              byłyby  zliczane  jako słowa, gdyż skaner normalnie
              wykonuje tylko jedn± akcję  na  token.  Dozwolonych
              jest wiele komend REJECT, z których każda wyszukuje
              najbardziej  pasuj±cego   następcę.   Na   przykład
              poniższy  skaner  skanuj±c  token "abcd" zapisze na
              wyj¶ciu "abcdabcaba":

                  %%
                  a        |
                  ab       |
                  abc      |
                  abcd     ECHO; REJECT;
                  .|\n     /* zjedz nietrafione znaki */

              (Pierwsze trzy reguły maj± wspóln± akcję z czwart±,
              gdyż  używaj±  akcji  specjalnej '|'.)  REJECT jest
              do¶ć kosztown± wła¶ciwo¶ci± je¶li  chodzi  o  wyda
              jno¶ć skanera; je¶li jest używane w której¶ z akcji
              skanera, to spowolni wszystkie dopasowania skanera.
              Co  więcej,  REJECT  nie może być używany z opcjami
              -Cf i -CF (zobacz niżej).

              Zauważ też, że, w przeciwieństwie do  innych  akcji
              specjalnych,  REJECT  jest odgałęzieniem; kod akcji
              występuj±cy bezpo¶rednio po nim nie zostanie  wyko
              nany.

       -      yymore()  mówi  skanerowi,  że przy następnym dopa
              sowaniu reguły, odpowiadaj±cy  token  powinien  być
              doklejony   do   bież±cej   warto¶ci   yytext.   Na
              przykład,  przy  wej¶ciu  "mega-kludge",   poniższy
              przykład na wyj¶ciu wypisze "mega-mega-kludge":

                  %%
                  mega-    ECHO; yymore();
                  kludge   ECHO;

              Pierwsze  "mega-"  jest dopasowane i wydrukowane na



Wersja 2.5                Kwiecień 1995                        12





FLEX(1)                                                   FLEX(1)


              wyj¶cie. Następnie dopasowane jest  "kludge",  lecz
              poprzednie  "mega-"  wci±ż znajduje się na pocz±tku
              yytext i komenda  ECHO  dla  "kludge"  wydrukuje  w
              rzeczywisto¶ci "mega-kludge".

       Dwie  uwagi  na  temat  yymore().   Po  pierwsze, yymore()
       zależy  od  warto¶ci  yyleng,  odzwierciedlaj±cej  rozmiar
       bież±cego  tokenu. Zatem je¶li używasz yymore(), nie mody
       fikuj tej zmiennej.  Po drugie, obecno¶ć yymore() w  akcji
       skanera wpływa na pewne pogorszenie wydajno¶ci w szybko¶ci
       dokonywania przez skaner dopasowań.

       -      yyless(n)  zwraca  wszystkie  poza   pierwszymi   n
              znakami  bież±cego  tokenu z powrotem do strumienia
              wej¶ciowego,    sk±d    zostan±    one    powtórnie
              przeskanowane przy dopasowywaniu następnego wzorca.
              yytext i  yyleng  s±  odpowiednio  dostrajane  (tj.
              yyleng  będzie  teraz  równe n).  Na przykład, przy
              wej¶ciu "foobar", następuj±cy kod wypisze  "foobar
              bar":

                  %%
                  foobar    ECHO; yyless(3);
                  [a-z]+    ECHO;

              Podanie    yyless   argumentu   zerowego   powoduje
              reskanowanie całego obecnego łańcucha  wej¶ciowego.
              O  ile nie zmienisz sposobu kolejnego przetwarzania
              przez skaner  wej¶cia  (przy  użyciu  np.   BEGIN),
              spowoduje to nieskończon± pętlę.

       Zwróć  uwagę,  że  yyless  jest  makrem i może być używane
       tylko z pliku wej¶ciowego fleksa, a nie  z  innych  plików
       Ľródłowych.

       -      unput(c)  wstawia  znak  c z powrotem do strumienia
              wej¶ciowego. Będzie  to  następny  skanowany  znak.
              Poniższa  akcja pobierze bież±cy token i spowoduje,
              że zostanie reskanowany po ujęciu w nawiasy.

                  {
                  int i;
                  /* Kopiuj yytext, gdyż unput() niszczy jego zawarto¶ć */
                  char *yycopy = strdup( yytext );
                  unput( ')' );
                  for ( i = yyleng - 1; i >= 0; --i )
                      unput( yycopy[i] );
                  unput( '(' );
                  free( yycopy );
                  }

              Zwróć uwagę, że skoro każdy  unput()  wstawia  dany
              znak  na  pocz±tek strumienia, to wstawianie znaków
              musi odbywać się tyłem-na-przód.



Wersja 2.5                Kwiecień 1995                        13





FLEX(1)                                                   FLEX(1)


       Ważnym potencjalnym problemem używania unput() jest  fakt,
       że  je¶li używasz dyrektywy %pointer (domy¶lne), wywołanie
       unput() niszczy  zawarto¶ć  yytext,  poczynaj±c  od  znaku
       najbardziej  z  prawej,  id±c w lewo za każdym wywołaniem.
       Je¶li potrzebujesz zachować warto¶ć yytext po  użyciu  tej
       funkcji,  (jak  w powyższym przykładzie), musisz skopiować
       jej zawarto¶ć gdzie indziej lub zbudować skaner z  użyciem
       %array.

       Na  koniec,  zauważ też, że nie możesz wstawiać tak znaków
       EOF.  Nie można t± metod± zaznaczać końca pliku w strumie
       niu.

       -      input()   odczytuje  następny  znak  ze  strumienia
              wej¶ciowego. Na przykład, poniższe jest  jednym  ze
              sposobów pożerania komentarzy języka C:

                  %%
                  "/*"        {
                              register int c;

                              for ( ; ; )
                                  {
                                  while ( (c = input()) != '*' &&
                                          c != EOF )
                                      ;    /* zeżryj tekst komentarza */

                                  if ( c == '*' )
                                      {
                                      while ( (c = input()) == '*' )
                                          ;
                                      if ( c == '/' )
                                          break;    /* znalazłem koniec */
                                      }

                                  if ( c == EOF )
                                      {
                                      error( "EOF w komentarzu" );
                                      break;
                                      }
                                  }
                              }

              (Zauważ,   że  je¶li  skaner  jest  skompilowany  z
              użyciem C++, to input() nazywa się yyinput().  Jest
              tak w celu zapobieżenia zderzeniu nazwy ze strumie
              niem C++ poprzez nazwę input.)

       -      YY_FLUSH_BUFFER wypróżnia wewnętrzny bufor skanera.
              Przy  następnym razie gdy skaner będzie dopasowywał
              się do tokenu, najpierw napełni  na  nowo  bufor  z
              użyciem  YY_INPUT (zobacz niżej Generowany Skaner).
              Akcja  ta  jest  szczególnym  przypadkiem  bardziej
              ogólnej funkcji yy_flush_buffer(), opisanej niżej w



Wersja 2.5                Kwiecień 1995                        14





FLEX(1)                                                   FLEX(1)


              sekcji Wielokrotne Bufory Wej¶ciowe.

       -      yyterminate() może być używane  zamiast  instrukcji
              return  akcji.  Kończy działanie skanera i zwraca 0
              do wywołuj±cego  skaner,  wskazuj±c,  że  "wszystko
              zrobione".      Domy¶lnie,    yyterminate()    jest
              wywoływane również po napotkaniu końca pliku.  Jest
              to makro i może być redefiniowane.

GENEROWANY SKANER
       Wynikiem  działania fleksa jest plik lex.yy.c, zawieraj±cy
       procedurę skanuj±c± yylex() oraz zestaw tablic,  używanych
       przez  niego  do  dopasowywania  tokenów i parę procedur i
       makr. Domy¶lnie yylex() jest deklarowany jako

           int yylex()
               {
               ... tu różne definicje i akcje ...
               }

       (Je¶li twoje ¶rodowisko obsługuje  prototypy  funkcji,  to
       będzie to "int yylex( void )".) Definicję tę można zmienić
       definiuj±c makro "YY_DECL". Na przykład

           #define YY_DECL float lexscan( a, b ) float a, b;

       informuje fleksa, by  nadać  procedurze  skanuj±cej  nazwę
       lexscan  i że procedura ta ma zwracać typ float i pobierać
       dwa argumenty (też typu  float).  Zwróć  uwagę,  że  je¶li
       podajesz   argumenty   procedurze   skanuj±cej,   używaj±c
       deklaracji  w  niezaprototypowanym   stylu   K&R,   musisz
       zakończyć definicję ¶rednikiem (;).

       Przy   każdym   wywołaniu  yylex(),  następuje  skanowanie
       tokenów  z  globalnego  pliku  wej¶ciowego   yyin   (który
       domy¶lnie  wskazuje  na  stdin).  Wczytywanie  trwa  aż do
       osi±gnięcia końca pliku, lub aż do napotkania w której¶  z
       akcji instrukcji return.

       Je¶li  skaner osi±ga koniec pliku, to kolejne wywołania s±
       niezdefiniowane.   Sposobem  na  skorygowanie  tego   jest
       przekierowanie  yyin na nowy plik wej¶ciowy (w tym wypadku
       skanowanie  następuje  z  nowego  pliku)   lub   wywołanie
       yyrestart().  yyrestart() pobiera jeden argument: wskaĽnik
       FILE * (który może być nil, je¶li  ustawiłe¶  YY_INPUT  na
       skanowanie ze Ľródła innego niż yyin), i inicjalizuje yyin
       na pocz±tek tego pliku. W zasadzie nie ma  różnicy  między
       zwykłym  przypisaniem  yyin  do  nowego  pliku  i  użyciem
       yyrestart(); Procedura ta jest dostępna z  uwagi  na  kom
       patybilno¶ć  z poprzednimi wersjami flex, a także dlatego,
       że może być używana do przeł±czania plików  wej¶ciowych  w
       ¶rodku  skanowania.   Może  być  też używana do porzucania
       bież±cego bufora wej¶ciowego  poprzez  wywołanie  z  argu
       mentem  yyin;  lepszym  rozwi±zaniem  jest  jednak  użycie



Wersja 2.5                Kwiecień 1995                        15





FLEX(1)                                                   FLEX(1)


       YY_FLUSH_BUFFER (patrz wyżej).  Zauważ, że yyrestart() nie
       resetuje  warunku  pocz±tkowego  na  INITIAL (zobacz niżej
       Warunki Pocz±tkowe).

       Je¶li  yylex()  kończy  skanowanie  z   powodu   wywołania
       instrukcji return w jednej z akcji, skaner może być wołany
       ponownie i wznowi działanie tam, gdzie skończył.

       Domy¶lnie (i dla celów wydajno¶ci)  skaner  zamiast  poje
       dynczych  getc()  wykonuje odczyty blokowe z yyin.  Sposób
       pobierania wej¶cia  może  być  kontrolowany  przez  defin
       iowanie  makra YY_INPUT.  Sekwencja wywołuj±ca YY_INPUT to
       "YY_INPUT(buf,wynik,max_rozmiar)".   Jej   wynikiem   jest
       umieszczenie  co  najwyżej  max_rozmiar  znaków  w tablicy
       znakowej buf i zwrócenie w zmiennej całkowitej wynik  albo
       liczby  wczytanych  znaków  albo  stałej YY_NULL (0 w sys
       temach uniksowych), okre¶laj±cej EOF. Domy¶lnie,  YY_INPUT
       czyta z globalnego wskaĽnika "yyin".

       Przykładowa  definicja  YY_INPUT (w sekcji definicji pliku
       wej¶ciowego):

           %{
           #define YY_INPUT(buf,wynik,max_rozmiar) \
               { \
               int c = getchar(); \
               wynik = (c == EOF) ? YY_NULL : (buf[0] = c, 1); \
               }
           %}

       Definicja ta zmieni przetwarzanie wej¶cia  tak,  by  naraz
       pojawiał się tylko jeden znak.

       W  momencie,  gdy  skaner uzyska od YY_INPUT warunek końca
       pliku, to woła funkcję yywrap().   Je¶li  yywrap()  zwróci
       zero, to zakłada, że funkcja poszła dalej i skonfigurowała
       yyin do wskazywania na nowy plik, a skanowanie trwa dalej.
       Je¶li  zwróci  warto¶ć niezerow±, skaner kończy działanie,
       zwracaj±c 0 do funkcji wywołuj±cej.  Zauważ, że  w  każdym
       przypadku  warunek  pocz±tkowy pozostaje niezmieniony; nie
       przechodzi on w INITIAL.

       Je¶li nie  chcesz  podawać  własnej  wersji  yywrap(),  to
       musisz  albo  użyć  opcji  %option  noyywrap (wtedy skaner
       zachowuje się, jakby yywrap() zwracało 1), albo  konsolid
       ować z -lfl, uzyskuj±c tak domy¶ln± wersję funkcji, zawsze
       zwracaj±cej 1.

       Do skanowania z buforów  pamięciowych  (a  nie  z  plików)
       przeznaczone    s±   trzy   procedury:   yy_scan_string(),
       yy_scan_bytes()  oraz  yy_scan_buffer().    Zobacz   niżej
       dyskusję w sekcji Wielokrotne Bufory Wej¶ciowe.

       Swoje   wyj¶cie   ECHO   skaner   zapisuje  do  globalnego



Wersja 2.5                Kwiecień 1995                        16





FLEX(1)                                                   FLEX(1)


       strumienia   yyout   (domy¶lnie   stdout),   który   można
       przedefiniować dzięki zwykłemu przypisaniu tej zmiennej do
       innego wskaĽnika FILE.

WARUNKI POCZˇTKOWE
       flex daje mechanizm  warunkowej  aktywacji  reguł.  Reguły
       rozpoczynaj±ce się od "<sc>" wł±cz± się tylko je¶li skaner
       znajduje się w warunku pocz±tkowym "sc". Na przykład,

           <STRING>[^"]*        { /* zjedz ciało łańcucha ... */
                       ...
                       }

       będzie  aktywne  tylko  je¶li  skaner   jest   w   warunku
       pocz±tkowym "STRING", a

           <INITIAL,STRING,QUOTE>\.        { /* obsłuż cytowanie ... */
                       ...
                       }

       będzie  aktywne  tylko je¶li obecnym warunkiem pocz±tkowym
       jest albo "INITIAL", albo "STRING" albo "QUOTE".

       Warunki  pocz±tkowe  s±  deklarowane  w  sekcji  definicji
       wej¶cia  przy  użyciu niewciętych linii, zaczynaj±cych się
       od %s lub %x, za którymi następuje lista  nazw.   Pierwsza
       postać  deklaruje  wł±czaj±ce  warunki pocz±tkowe, a druga
       wykluczaj±ce.  Warunek pocz±tkowy wł±cza się  przy  użyciu
       akcji BEGIN.  Reguły używaj±ce danego warunku pocz±tkowego
       będ± aktywne aż do wywołania następnej akcji BEGIN.  Je¶li
       warunek   pocz±tkowy  jest  wł±czaj±cy  ,  to  reguły  bez
       warunków pocz±tkowych będ± również  aktywne.   Je¶li  jest
       wykluczaj±cy,    to    wykonywane    będ±   tylko   reguły
       odpowiadaj±ce  warunkowi   pocz±tkowemu.    Zestaw   reguł
       opieraj±cych   się  na  tym  samym  wykluczaj±cym  warunku
       pocz±tkowym, opisuje  skaner,  który  jest  niezależny  od
       wszelkich  innych  reguł  wej¶cia  fleksa.  Z uwagi na to,
       warunki wykluczaj±ce ułatwiaj± tworzenie  "mini-skanerów",
       które  skanuj±  czę¶ci  wej¶cia, odmienne syntaktycznie od
       reszty (np.  komentarze).

       W rozróżnieniu warunków wł±czaj±cych i wykluczaj±cych ist
       nieje  wci±ż  pewna  niejasno¶ć: oto przykład, ilustruj±cy
       ich powi±zanie. Zestaw reguł:

           %s przyklad
           %%

           <przyklad>foo  rob_cos();

           bar            cos_innego();

       jest równoważny




Wersja 2.5                Kwiecień 1995                        17





FLEX(1)                                                   FLEX(1)


           %x przyklad
           %%

           <przyklad>foo   rob_cos();

           <INITIAL,przyklad>bar    cos_innego();

       Bez użycia kwalifikatora <INITIAL,przyklad>, wzorzec bar w
       drugim  przykładzie nie byłby aktywny (tj. nie dopasowałby
       się) w warunku pocz±tkowym przyklad.  Je¶li użyliby¶my  do
       kwalifikowania  bar  tylko  <przyklad>,  to byłoby aktywny
       tylko w warunku pocz±tkowym przyklad, ale nie  w  INITIAL,
       podczas gdy w pierwszym przykładzie jest aktywny w obydwu,
       gdyż warunek pocz±tkowy przyklad  jest  w  nim  wł±czaj±cy
       (%s).

       Zauważ też, że specjalny specyfikator <*> pasuje do dowol
       nego  warunku  pocz±tkowego.  Tak  więc,  powyższe   można
       zapisać również następuj±co:

           %x przyklad
           %%

           <przyklad>foo   rob_cos();

           <*>bar    cos_innego();


       Reguła domy¶lna (wykonywania ECHO na każdym niedopasowanym
       znaku) pozostaje aktywna w warunkach  pocz±tkowych.   Jest
       to w sumie równoważne:

           <*>.|\n     ECHO;


       BEGIN(0) zwraca do stanu oryginalnego, w którym aktywne s±
       tylko reguły  bez  warunku  pocz±tkowego.  Stan  ten  jest
       oznaczany jako warunek pocz±tkowy "INITIAL", więc można go
       ustawić również poprzez  BEGIN(INITIAL).   (Nawiasy  wokół
       nazwy  warunku  pocz±tkowego  nie  s±  wymagane, lecz s± w
       dobrym tonie.)

       Akcje BEGIN mog± być podawane jako kod wcięty na  pocz±tku
       sekcji  reguł.  Na przykład, następuj±cy kod spowoduje, że
       skaner wejdzie w warunek pocz±tkowy  "SPECIAL"  za  każdym
       razem,  gdy  wywołane  zostanie yylex() a zmienna globalna
       enter_special będzie ustawiona na prawdę:

                   int enter_special;

           %x SPECIAL
           %%
                   if ( enter_special )
                       BEGIN(SPECIAL);



Wersja 2.5                Kwiecień 1995                        18





FLEX(1)                                                   FLEX(1)


           <SPECIAL>blahblahblah
           ...i kolejne ruguły...


       Dla zilustrowania wykorzystania warunków pocz±tkowych, oto
       skaner,  który  daje  dwie  różne  interpretacje  łańcucha
       "123.456". Domy¶lnie będzie traktował go jako 3  elementy,
       liczbę  całkowit±  123,  kropkę  i liczbę całkowit± "456".
       Je¶li jednak łańcuch zostanie poprzedzony lini± z  napisem
       "expect-floats",  to  będzie  go traktował jako pojedynczy
       element zmiennoprzecinkowy (123.456).

           %{
           #include <math.h>
           %}
           %s expect

           %%
           expect-floats        BEGIN(expect);

           <expect>[0-9]+"."[0-9]+      {
                       printf( "znalazłem zmiennoprzecinkow±, = %f\n",
                               atof( yytext ) );
                       }
           <expect>\n           {
                       /* jest to koniec linii, więc
                        * potrzebujemy kolejnego "expect-number"
                        * przed rozpoznawaniem dalszych liczb
                        */
                       BEGIN(INITIAL);
                       }

           [0-9]+      {
                       printf( "znalazłem całkowit±, = %d\n",
                               atoi( yytext ) );
                       }

           "."         printf( "znalazłem kropkę\n" );

       Oto skaner, który rozpoznaje komentarze C podczas  zlicza
       nia linii.

           %x comment
           %%
                   int line_num = 1;

           "/*"         BEGIN(comment);

           <comment>[^*\n]*        /* zjedz wszystko, co nie jest '*'     */
           <comment>"*"+[^*/\n]*   /* zjedz '*'-ki, po których nie ma '/' */
           <comment>\n             ++line_num;
           <comment>"*"+"/"        BEGIN(INITIAL);

       Skaner  ten  może mieć problemy z dopasowaniem maksymalnej



Wersja 2.5                Kwiecień 1995                        19





FLEX(1)                                                   FLEX(1)


       ilo¶ci tekstu w każdej z reguł. Ogólnie, przy pisaniu szy
       bkich  skanerów,  próbuj dopasowywać w każdej regule tyle,
       ile się da.

       Zauważ, że nazwy warunków  pocz±tkowych  s±  tak  naprawdę
       warto¶ciami  całkowitymi i mog± być tak przechowywane. Tak
       więc powyższe można rozwin±ć w następuj±cym stylu:

           %x comment foo
           %%
                   int line_num = 1;
                   int comment_caller;

           "/*"         {
                        comment_caller = INITIAL;
                        BEGIN(comment);
                        }

           ...

           <foo>"/*"    {
                        comment_caller = foo;
                        BEGIN(comment);
                        }

           <comment>[^*\n]*        /* zjedz wszystko co nie jest '*'   */
           <comment>"*"+[^*/\n]*   /* zjedz '*', po których nie ma '/' */
           <comment>\n             ++line_num;
           <comment>"*"+"/"        BEGIN(comment_caller);

       Co  więcej,  możesz  mieć  dostęp  do  bież±cego   warunku
       pocz±tkowego    poprzez   makro   YY_START   (o   warto¶ci
       całkowitej).  Na przykład, powyższe  przypisania  do  com
       ment_caller można by zapisać jako

           comment_caller = YY_START;

       Flex  jako  alias  do  YY_START daje YYSTATE (gdyż jest to
       nazwa, używana przez AT&T lex).

       Zauważ, że warunki pocz±tkowe nie maj± własnej przestrzeni
       nazw; %s i %x-y deklaruj± nazwy podobnie jak #define.

       Na  deser, oto przykład dopasowywania cytowanych w stylu C
       napisów przy użyciu wykluczaj±cych warunków  pocz±tkowych,
       wł±cznie  z  rozwijanymi sekwencjami specjalnymi (lecz bez
       sprawdzania czy łańcuch nie jest za długi):

           %x str

           %%
                   char string_buf[MAX_STR_CONST];
                   char *string_buf_ptr;




Wersja 2.5                Kwiecień 1995                        20





FLEX(1)                                                   FLEX(1)


           \"      string_buf_ptr = string_buf; BEGIN(str);

           <str>\"        { /* zobaczyłem zamykaj±cy cytat - gotowe */
                   BEGIN(INITIAL);
                   *string_buf_ptr = '\0';
                   /* zwróć typ i warto¶ć tokenu stałej łańcuchowej do
                    * analizatora
                    */
                   }

           <str>\n        {
                   /* bł±d - niezakończona stała łańcuchowa */
                   /* generuj komunikat o błędzie */
                   }

           <str>\\[0-7]{1,3} {
                   /* ósemkowa sekwencja specjalna */
                   int result;

                   (void) sscanf( yytext + 1, "%o", &result );

                   if ( result > 0xff )
                           /* bł±d, stała poza zakresem */

                   *string_buf_ptr++ = result;
                   }

           <str>\\[0-9]+ {
                   /* generuj bł±d - zła sekwencja specjalna; co¶ jak
                    * '\48' lub '\0777777'
                    */
                   }

           <str>\\n  *string_buf_ptr++ = '\n';
           <str>\\t  *string_buf_ptr++ = '\t';
           <str>\\r  *string_buf_ptr++ = '\r';
           <str>\\b  *string_buf_ptr++ = '\b';
           <str>\\f  *string_buf_ptr++ = '\f';

           <str>\\(.|\n)  *string_buf_ptr++ = yytext[1];

           <str>[^\\\n\"]+        {
                   char *yptr = yytext;

                   while ( *yptr )
                           *string_buf_ptr++ = *yptr++;
                   }


       Często,  np.  w  niektórych  przykładach   powyżej   można
       skończyć  pisz±c grupę reguł, rozpoczynaj±cych się od tych
       samych  warunków   pocz±tkowych.   Flex   ułatwia   cało¶ć
       wprowadzaj±c pojęcie zakresu warunku pocz±tkowego.  Zakres
       rozpoczyna się od:



Wersja 2.5                Kwiecień 1995                        21





FLEX(1)                                                   FLEX(1)


           <SCs>{

       gdzie  SCs  jest  list±  jednego   lub   więcej   warunków
       pocz±tkowych.  Wewn±trz zakresu warunku pocz±tkowego każda
       reguła  dostaje  automatycznie  przedrostek  <SCs>  aż  do
       napotkania  '}',  który  odpowiada  startowemu '{'.  W ten
       sposób na przykład

           <ESC>{
               "\\n"   return '\n';
               "\\r"   return '\r';
               "\\f"   return '\f';
               "\\0"   return '\0';
           }

       jest równoważne:

           <ESC>"\\n"  return '\n';
           <ESC>"\\r"  return '\r';
           <ESC>"\\f"  return '\f';
           <ESC>"\\0"  return '\0';

       Zakresy warunków pocz±tkowych mog± być zagnieżdżane.

       Do obsługi stosów warunków  pocz±tkowych  s±  przeznaczone
       trzy procedury:

       void yy_push_state(int new_state)
              wrzuca  bież±cy warunek pocz±tkowy na stos warunków
              pocz±tkowych i  przeł±cza  się  w  stan  new_state,
              zupełnie  jak  po użyciu BEGIN new_state (pamiętaj,
              że nazwy warunków pocz±tkowych s± również  liczbami
              całkowitymi).

       void yy_pop_state()
              zdejmuje  warto¶ć  ze  stosu i przeł±cza się na ni±
              przez BEGIN.

       int yy_top_state()
              zwraca  wierzchołek  stosu  bez  zmiany  zawarto¶ci
              stosu.

       Stos  warunków  pocz±tkowych  ro¶nie  dynamicznie i nie ma
       żadnych wbudowanych ograniczeń.  Po  wyczerpaniu  pamięci,
       wykonywanie programu jest przerywane.

       Aby korzystać ze stosów warunków pocz±tkowych, skaner musi
       zawierać dyrektywę %option stack  (zobacz  niżej  rozdział
       Opcje).

WIELOKROTNE BUFORY WEJ¦CIOWE
       Niektóre   skanery   (te,   obsługuj±ce   pliki  doł±czane
       "include") wymagaj± odczytu z wielu strumieni wej¶ciowych.
       Ponieważ  skanery  flex  wykonuj±  sporo  buforowania, nie



Wersja 2.5                Kwiecień 1995                        22





FLEX(1)                                                   FLEX(1)


       można  jednoznacznie  zdecydować  sk±d  będzie  wykonywany
       następny  odczyt  przez  proste  napisanie YY_INPUT, które
       jest wrażliwe na kontekst skanowania.  YY_INPUT wywoływane
       jest  tylko gdy skaner osi±ga koniec swojego bufora, który
       może być daleko  po  wyskanowaniu  instrukcji  takiej  jak
       "include", wymagaj±cej przeł±czenia Ľródła wej¶cia.

       Aby  załatwić  niektóre z tych problemów, flex daje mecha
       nizm  tworzenia  i   przeł±czania   między   wielokrotnymi
       buforami  wej¶ciowymi.  Bufor  wej¶ciowy  jest  tworzony z
       użyciem funkcji

           YY_BUFFER_STATE yy_create_buffer( FILE *file, int size )

       która pobiera wskaĽnik FILE i rozmiar  size,  a  następnie
       tworzy bufor zwi±zany z danym plikiem, którego wielko¶ć (w
       znakach) jest okre¶lona  parametrem  rozmiaru.   (w  razie
       w±tpliwo¶ci   użyj  YY_BUF_SIZE  jako  rozmiaru).  Funkcja
       zwraca  uchwyt  YY_BUFFER_STATE,  który  może  być   potem
       przekazywany   do  innych  procedur  (zobacz  niżej).  Typ
       YY_BUFFER_STATE  jest  wskaĽnikiem  do  struktury   struct
       yy_buffer_state  więc można bezpiecznie inicjalizować zmi
       enne YY_BUFFER_STATE na ((YY_BUFFER_STATE)  0)  i  odnosić
       się  do struktury w celu poprawnego zadeklarowania buforów
       wej¶ciowych w plikach Ľródłowych innych niż ten od twojego
       skanera.  Zauważ,  że  wskaĽnik  FILE  w wywołaniu yy_cre
       ate_buffer jest używany tylko jako warto¶ć yyin widzianego
       przez YY_INPUT; je¶li redefiniujesz YY_INPUT tak, żeby nie
       używało yyin, to  możesz  spokojnie  przekazać  tu  zerowy
       wskaĽnik  FILE.  Zadany bufor do skanowania wybiera się za
       pomoc±:

           void yy_switch_to_buffer( YY_BUFFER_STATE new_buffer )

       co przeł±cza  bufor  wej¶ciowy  skanera  tak,  że  kolejne
       tokeny  będ±  pochodziły  z bufora new_buffer.  Zauważ, że
       yy_switch_to_buffer() może być używane przez  yywrap()  do
       zestawiania  różnych rzeczy we wznowionym skanowaniu zami
       ast otwierania nowego pliku  i  ustawiania  na  nim  yyin.
       Zauważ  też,  że  przeł±czanie  Ľródeł  wej¶ciowych  przez
       yy_switch_to_buffer() lub  yywrap()  nie  zmienia  warunku
       pocz±tkowego.

           void yy_delete_buffer( YY_BUFFER_STATE buffer )

       używane  jest do odzyskania miejsca zwi±zanego z buforem (
       buffer może być warto¶ci± nil, ale wtedy  funkcja  ta  nic
       nie  robi.)   Można  też czy¶cić bież±c± zawarto¶ć bufora,
       stosuj±c:

           void yy_flush_buffer( YY_BUFFER_STATE buffer )

       Funkcja ta niszczy zawarto¶ć bufora, więc  przy  następnej
       próbie   dopasowania  tokenu  z  bufora,  skaner  najpierw



Wersja 2.5                Kwiecień 1995                        23





FLEX(1)                                                   FLEX(1)


       wypełni bufor na nowo używaj±c YY_INPUT.

       yy_new_buffer()   jest    synonimem    yy_create_buffer(),
       udostępnionym  dla  zgodno¶ci  z  C++  narzędziami  new  i
       delete,  służ±cymi  do  tworzenia  i  niszczenia  obiektów
       dynamicznych.

       Na    koniec   makro   YY_CURRENT_BUFFER   zwraca   uchwyt
       YY_BUFFER_STATE do bież±cego bufora.

       A oto  przykład  używania  tych  wła¶ciwo¶ci  w  skanerze,
       rozwijaj±cym  pliki  zał±czane  (wła¶ciwo¶ć  <<EOF>>  jest
       opisywana niżej):

           /* stan "incl" jest używany do wybierania nazwy zał±czanego pliku
            */
           %x incl

           %{
           #define MAX_INCLUDE_DEPTH 10
           YY_BUFFER_STATE include_stack[MAX_INCLUDE_DEPTH];
           int include_stack_ptr = 0;
           %}

           %%
           include             BEGIN(incl);

           [a-z]+              ECHO;
           [^a-z\n]*\n?        ECHO;

           <incl>[ \t]*      /* zjedz biał± spację */
           <incl>[^ \t\n]+   { /* mam nazwę pliku zał±cznika */
                   if ( include_stack_ptr >= MAX_INCLUDE_DEPTH )
                       {
                       fprintf( stderr, "Zbyt zagnieżdżone zał±czniki" );
                       exit( 1 );
                       }

                   include_stack[include_stack_ptr++] =
                       YY_CURRENT_BUFFER;

                   yyin = fopen( yytext, "r" );

                   if ( ! yyin )
                       error( ... );

                   yy_switch_to_buffer(
                       yy_create_buffer( yyin, YY_BUF_SIZE ) );

                   BEGIN(INITIAL);
                   }

           <<EOF>> {
                   if ( --include_stack_ptr < 0 )



Wersja 2.5                Kwiecień 1995                        24





FLEX(1)                                                   FLEX(1)


                       {
                       yyterminate();
                       }

                   else
                       {
                       yy_delete_buffer( YY_CURRENT_BUFFER );
                       yy_switch_to_buffer(
                            include_stack[include_stack_ptr] );
                       }
                   }

       Do  zestawiania   buforów   wej¶ciowych   dla   skanowania
       łańcuchów  z  pamięci  zamiast plików istniej± trzy proce
       dury. Każda z nich tworzy nowy bufor wej¶ciowy do skanowa
       nia łańcucha i zwraca odpowiadaj±cy uchwyt YY_BUFFER_STATE
       (który powiniene¶ skasować stosuj±c yy_delete_buffer()  po
       zakończeniu  działania). Przeł±czaj± one też przetwarzanie
       na nowy  bufor  przy  użyciu  yy_switch_to_buffer(),  więc
       następne wywołanie yylex() rozpocznie skanowanie łańcucha.

       yy_scan_string(const char *str)
              skanuje łańcuch zakończony zerem.

       yy_scan_bytes(const char *bytes, int len)
              skanuje len bajtów  (dopuszczalne  zera  w  ¶rodku)
              pocz±wszy od pozycji bytes.

       Zauważ,  że  obydwie funkcje tworz± i skanuj± kopie orygi
       nalnych danych. (Jest to poż±dane, gdyż yylex() modyfikuje
       zawarto¶ć  skanowanego  bufora.) Kopiowania można unikn±ć,
       stosuj±c:

       yy_scan_buffer(char *base, yy_size_t size)
              które skanuje bufor na miejscu, zaczynaj±c od base,
              a w długo¶ci size bajtów, z których dwa bajty musz±
              być  znakami  YY_END_OF_BUFFER_CHAR  (ASCII   NUL).
              Ostatnie  dwa  bajty  nie  s±  skanowane;  tak więc
              skanowanie przebiega  od  base[0]  do  base[size-2]
              wł±cznie.

              Je¶li    nie    ustawisz    odpowiednio   base   to
              yy_scan_buffer()  zwraca   wskaĽnik   nil   zamiast
              tworzyć nowy bufor wej¶ciowy.

              Typ  yy_size_t jest typem całkowitym, na który rzu
              tuje się wyrażenie całkowite,  okre¶laj±ce  rozmiar
              bufora.

REGUŁY END-OF-FILE
       Specjalna  reguła  "<<EOF>>"  okre¶la  akcje, które należy
       wykonać po osi±gnięciu końca pliku i gdy  yywrap()  zwraca
       zero (tj. wskazuje brak dalszych plików do przetworzenia).
       Akcja musi się  zakończyć  zrobieniem  jednej  z  czterech



Wersja 2.5                Kwiecień 1995                        25





FLEX(1)                                                   FLEX(1)


       rzeczy:

       -      przypisaniem  yyin  do  nowego pliku wej¶ciowego (w
              poprzednich wersjach fleksa po dokonaniu  przypisa
              nia  należało  wywołać specjaln± akcję YY_NEW_FILE;
              nie jest to już wymagane);

       -      wywołaniem instrukcji return;

       -      wywołaniem specjalnej akcji yyterminate();

       -      przeł±czeniem   na    nowy    bufor    za    pomoc±
              yy_switch_to_buffer().

       Reguły  <<EOF>>  nie  mog±  być używane z innymi wzorcami;
       mog±  one  być  kwalifikowane   jedynie   list±   warunków
       pocz±tkowych.  Je¶li  podana  jest niekwalifikowana reguła
       <<EOF>>, to dotyczy ona wszystkich warunków  pocz±tkowych,
       które  nie  maj±  jeszcze  akcji <<EOF>>. Aby podać regułę
       <<EOF>> tylko dla pocz±tkowego warunku pocz±tkowego użyj

           <INITIAL><<EOF>>


       Te reguły przydatne  s±  do  łapania  rzeczy  takich,  jak
       niezamknięte cytaty. Przykład:

           %x quote
           %%

           ...inne reguły cytatowe...

           <quote><<EOF>>   {
                    error( "nie zamknięty cytat" );
                    yyterminate();
                    }
           <<EOF>>  {
                    if ( *++filelist )
                        yyin = fopen( *filelist, "r" );
                    else
                       yyterminate();
                    }


RÓŻNE MAKRA
       Można  zdefiniować  makro  YY_USER_ACTION,  które służy do
       podania akcji wykonywanej zawsze przed  akcj±  dopasowanej
       reguły.  Na  przykład może być #definiowane do wywoływania
       procedury  konwertuj±cej  yytext  na  małe  litery.    Gdy
       wywoływane  jest  YY_USER_ACTION,  zmienna  yy_act okre¶la
       numer dopasowanej reguły  (reguły  s±  numerowane  od  1).
       Załóżmy,  że  chcesz  wyprofilować jak często jest używana
       każda z reguł. Rozwi±zaniem jest następuj±cy kawałek kodu:




Wersja 2.5                Kwiecień 1995                        26





FLEX(1)                                                   FLEX(1)


           #define YY_USER_ACTION ++ctr[yy_act]

       gdzie  ctr  jest  tablic±  przechowuj±c± zawarto¶ć różnych
       reguł. Zauważ, że makro YY_NUM_RULES  daje  ogóln±  liczbę
       reguł (ł±cznie z reguł± domy¶ln±, nawet je¶li używasz -s),
       więc poprawn± deklaracj± ctr jest:

           int ctr[YY_NUM_RULES];


       Makro YY_USER_INIT służy do podania  akcji,  która  będzie
       wykonywana   zawsze   przed   pierwszym  skanem  (i  przed
       wewnętrznymi inicjalizacjami skanera). Na  przykład  można
       to  wykorzystać  do  wołania  procedury czytaj±cej tablice
       danych lub otwieraj±cej plik raportowy.

       Makro yy_set_interactive(is_interactive) może być  używane
       do sterowania czy bież±cy bufor jest uważany za interakty
       wny.  Bufor interaktywny jest przetwarzany  wolniej,  lecz
       musi  być używany gdy wej¶cie rzeczywi¶cie jest interakty
       wne. Zapobiega to problemom zwi±zanym  z  oczekiwaniem  na
       wypełnienie  buforów  (zobacz  niżej  dyskusję  flagi -I).
       Warto¶ć niezerowa w wywołaniu makra  zaznacza  bufor  jako
       interaktywny,  a  zero  to wył±cza. Zauważ, że użycie tego
       makra przesłania  %option  always-interactiv  lub  %option
       never-interactive    (zobacz    niżej    Opcje).     Przed
       rozpoczęciem skanowania bufora, który jest (lub nie  jest)
       interaktywny, należy wywołać funkcję yy_set_interactive().

       Makro  yy_set_bol(at_bol)  może  być   wykorzystywane   do
       sterowania  czy  bież±cy  kontekst  skanuj±cy  bufora  dla
       następnego dopasowania tokena jest dokonywany jak gdyby od
       pocz±tku  linii.  Niezerowa warto¶ć argumentu powoduje, że
       reguły zakotwiczone w '^' staj±  się  aktywne,  a  warto¶ć
       zerowa je dezaktywuje.

       Makro  YY_AT_BOL()  zwraca  prawdę  je¶li  następny  token
       skanowany z bież±cego bufora będzie  miał  aktywne  reguły
       '^'. W przeciwnym wypadku zwraca fałsz.

       W  niektórych  generowanych  skanerach  akcje  s±  zebrane
       wszystkie  w  jedn±  wielk±   instrukcję   switch   i   s±
       rozdzielone  makrem  YY_BREAK,  które  można redefiniować.
       Domy¶lnie  jest  to  po  prostu  "break".   Redefiniowanie
       YY_BREAK  umożliwia  użytkownikom  C++  zadeklarowanie, by
       makro nie robiło niczego (uważaj±c przy  tym  szczególnie,
       by  każda  reguła  kończyła  się  instrukcj±  "break"  lub
       "return"!). Można tak  zapobiec  cierpieniom  spowodowanym
       ostrzeżeniami  o  tym,  że  przez zakończenie akcji reguły
       instrukcj± return, YY_BREAK jest nieosi±galne.

WARTO¦CI DOSTĘPNE DLA UŻYTKOWNIKA
       Sekcja ta zestawia różne warto¶ci dostępne dla użytkownika
       w akcjach regułowych.



Wersja 2.5                Kwiecień 1995                        27





FLEX(1)                                                   FLEX(1)


       -      char *yytext zawiera bież±cy tekst tokenu. Może być
              modyfikowany, lecz  nie  może  być  wydłużany  (nie
              można doklejać dodatkowych znaków na końcu).

              Je¶li  w  pierwszej sekcji opisu skanera pojawi się
              dyrektywa  specjalna  %array  to  yytext   zostanie
              zadeklarowane jako charyytext[YYLMAX], gdzie YYLMAX
              jest makrodefinicj±, któr± można  przedefiniować  w
              pierwszej sekcji (warto¶ć domy¶lna to ogólnie 8KB).
              Używanie  %array  daje  wolniejsze  skanery,   lecz
              warto¶ć  yytext  staje  się  odporna  na  wywołania
              input() i unput(), które potencjalnie niszcz±  jego
              warto¶ć  kiedy  yytext  jest  wskaĽnikiem znakowym.
              Przeciwn± dyrektyw± do %array jest %pointer,  która
              jest dyrektyw± domy¶ln±.

              Dyrektywy  %array  nie  można używać do generowania
              klas skanera C++ (flaga -+).

       -      int yyleng przechowuje długo¶ć bież±cego tokenu.

       -      FILE *yyin jest plikiem, z którego  flex  domy¶lnie
              odczytuje  wej¶cie.  Może  być  redefiniowany, lecz
              taki  zabieg  ma  sens  tylko  nim  rozpocznie  się
              skanowanie  lub  po  napotkaniu EOF. Zmienianie tej
              warto¶ci w ¶rodku skanowania może dać nieoczekiwane
              rezultaty spowodowane buforowaniem wej¶cia. Zamiast
              tego  użyj  wtedy  yyrestart().    Po   zakończeniu
              skanowania  przez  napotkanie  końca  pliku,  można
              przypisać warto¶ć yyin do nowego pliku  wej¶ciowego
              i  wywołać ponownie skaner by dokończył skanowanie.

       -      void yyrestart( FILE *new_file ) może być wołane do
              wskazywania yyin na nowy plik wej¶ciowy. Przeł±cze
              nie na  nowy  plik  jest  natychmiastowe  (wszelkie
              poprzednio   buforowane   wej¶cie   jest  tracone).
              Zauważ, że wołanie yyrestart()  z  argumentem  yyin
              porzuca   bież±cy   bufor  wej¶ciowy  i  kontynuuje
              skanowanie tego samego pliku wej¶ciowego.

       -      FILE *yyout jest plikiem, do którego kierowane jest
              wyj¶cie  akcji  ECHO.  Użytkownik może mu przypisać
              inn± warto¶ć.

       -      YY_CURRENT_BUFFER zwraca uchwyt YY_BUFFER_STATE  do
              bież±cego bufora.

       -      YY_START  zwraca  warto¶ć  całkowit±, odpowiadaj±c±
              bież±cemu  warunkowi  pocz±tkowemu.   Warto¶ci  tej
              można  używać  dalej  z  BEGIN  do  powrotu do tego
              warunku.

ŁˇCZENIE Z YACC
       Jednym   z    podstawowych    zastosowań    fleksa    jest



Wersja 2.5                Kwiecień 1995                        28





FLEX(1)                                                   FLEX(1)


       współtowarzyszenie  generatorowi analizatorów yacc.  Anal
       izatory składni yacc oczekuj± wywołania procedury o nazwie
       yylex()  celem  znalezienia  kolejnego tokenu wej¶ciowego.
       Procedura  powinna  zwrócić  typ  następnego  tokenu  oraz
       wstawić  zwi±zan± z nim warto¶ć do globalnej zmiennej yyl
       val.  Aby używać fleksa z yaccem, należy yaccowi przekazać
       opcję  -d,  co  każe mu generować plik y.tab.h zawieraj±cy
       definicje wszystkich %tokenów(%tokens) pojawiaj±cych się w
       wej¶ciu  yacc.  Plik ten jest następnie zał±czany do skan
       era fleksowego.  Na przykład je¶li jednym z  tokenów  jest
       "TOK_NUMBER", to czę¶ć skanera może wygl±dać tak:

           %{
           #include "y.tab.h"
           %}

           %%

           [0-9]+        yylval = atoi( yytext ); return TOK_NUMBER;


OPCJE
       flex ma następuj±ce opcje:

       -b     Generuje  informacje  zapasowe  do lex.backup.  Oto
              lista stanów skanera, które  wymagaj±  kopii  zapa
              sowych   oraz   znaki   wej¶ciowe  dla  których  to
              zachodzi. Dodaj±c reguły można usun±ć  stany  zapa
              sowe.  Je¶li  wyeliminowane zostan± wszystkie stany
              zapasowe, a użyte będzie -Cf lub -CF,  wygenerowany
              skaner  będzie  działał szybciej (zobacz flagę -p).
              Opcj± to powinni się  martwić  jedynie  użytkownicy
              wyciskaj±cy   ostatnie  poty  ze  swoich  skanerów.
              (Zobacz sekcję o Rozważaniach nad Wydajno¶ci±.)

       -c     nieużywana i  niezalecana  opcja  dla  zgodno¶ci  z
              POSIX-em.

       -d     powoduje,  że  generowany  skaner  działa  w trybie
              debug.  Za każdym razem po rozpoznaniu wzorca,  gdy
              globalna  zmienna  yy_flex_debug jest niezerowa (co
              jest domy¶lne), skaner zapisze na  stderr  linię  w
              postaci:

                  --accepting rule at line 53 ("dopasowany tekst")

              Numer  linii odnosi się do położenia reguły w pliku
              definiuj±cym skaner (tj.   w  pliku,  potraktowanym
              fleksem).  Komunikaty  s±  również  generowane  gdy
              skaner  robi  kopie  zapasowe,  przyjmuje  domy¶ln±
              regułę, dochodzi do końca bufora (lub napotyka NUL;
              w tym momencie obydwa  [zdarzenia]  wygl±daj±  jed
              nakowo z punktu widzenia skanera) lub osi±ga koniec
              pliku.



Wersja 2.5                Kwiecień 1995                        29





FLEX(1)                                                   FLEX(1)


       -f     okre¶la szybki skaner.  Nie  dokonywana  jest  kom
              presja  tabel  i pomijane jest stdio. W efekcie kod
              jest duży, lecz szybki. Opcja  ta  jest  równoważna
              -Cfr (zobacz niżej).

       -h     generuje  zestawienie "pomocy" opcji fleksa na std
              out  i  kończy  działanie.    -?    i   --help   s±
              równoważnikami -h.

       -i     nakazuje fleksowi generowania skanera niewrażliwego
              na wielko¶ć znaków.   Wielko¶ć  liter  we  wzorcach
              zostanie  zignorowany,  a tokeny wej¶cia będ± dopa
              sowywane niezależnie od wielko¶ci. Dopasowany tekst
              znajduj±cy  się w yytext będzie miał zachowan± ory
              ginaln± wielko¶ć liter.

       -l     wł±cza maksymaln± zgodno¶ć z  oryginaln±  implemen
              tacj±  leksa  z  AT&T.  Zauważ,  że  nie oznacza to
              pełnej zgodno¶ci. Użycie tej opcji  kosztuje  sporo
              wydajno¶ci  i eliminuje z użycia opcje -+,-f,-F,-Cf
              lub -CF.  Dla szczegółów o  zapewnianej  zgodno¶ci,
              zobacz niżej sekcję o niezgodno¶ciach między Leksem
              i POSIX-em. Opcja ta  powoduje  też  z#definiowanie
              nazwy YY_FLEX_LEX_COMPAT w generowanym skanerze.

       -n     kolejna  ignorowana  opcja  dodana  dla zgodno¶ci z
              POSIX-em.

       -p     generuje raport  o  wydajno¶ci  na  stderr.  Raport
              składa  się  z  komentarzy  o  wła¶ciwo¶ciach pliku
              wej¶ciowego fleksa, więc  powoduje  znaczn±  utratę
              wydajno¶ci  skanera. Je¶li podasz tę flagę dwukrot
              nie,  uzyskasz  też  komentarze  o  wła¶ciwo¶ciach,
              które  doprowadziły  do  drugorzędnych  utrat wyda
              jno¶ci.

              Zauważ, że użycie REJECT, %option yylineno, i  zmi
              ennego  wisz±cego kontekstu (variable trailing con
              text)  (zobacz   niżej  sekcję  o  Niedostatkach  /
              Błędach)   powoduje   znaczn±   utratę  wydajno¶ci;
              używanie yymore(), operatora ^ i flagi -I  powoduje
              pomniejsze utraty wydajno¶ci.

       -s     powoduje,   że  domy¶lna  reguła  (powoduj±ca  echo
              niedopasowanego wej¶cia skanera na stdout) nie jest
              wykonywana.  Je¶li  skaner napotka wej¶cie, którego
              nie może dopasować do reguł, przerywa  działanie  z
              błędem.  Opcja  ta  jest  przydatna  do znajdowania
              dziur w zbiorze reguł skanera.

       -t     nakazuje fleksowi zapisanie wygenerowanego  skanera
              na standardowe wyj¶cie zamiast do pliku lex.yy.c.

       -v     nakazuje  fleksowi  pisanie  na  stderr zestawienia



Wersja 2.5                Kwiecień 1995                        30





FLEX(1)                                                   FLEX(1)


              statystyk   dotycz±cych    generowanego    skanera.
              Większo¶ć  statystyk  jest pozbawiona znaczenia dla
              typowego  użytkownika,  lecz  pierwsza  z   linijek
              wskazuje  wersję  fleksa  (to samo co zgłasza opcja
              -V), a następna linia flagi  użyte  do  generowania
              skanera, z domy¶lnymi wł±cznie.

       -w     powstrzymuje komunikaty o ostrzeżeniach.

       -B     nakazuje  fleksowi  generowanie  skanera wsadowego,
              czyli  odwrotno¶ć  skanerów  interaktywnych,   gen
              erowanych  przez  -I (zobacz niżej). Ogólnie, opcji
              -B używa się maj±c pewno¶ć,  że  skaner  nigdy  nie
              będzie   używany  interaktywnie  i  chc±c  wycisn±ć
              jeszcze troszeczkę więcej wydajno¶ci. Je¶li  chcesz
              zyskać więcej wydajno¶ci, powiniene¶ użyć opcji -Cf
              lub -CF (opisanych niżej), które wł±czaj± -B i  tak
              automatycznie.

       -F     mówi,  że  należy  użyć  reprezentacji tablicy szy
              bkiego  skanera  (i  stdio   ma   być   pominięte).
              Reprezentacja  ta  jest mniej więcej tak szybka jak
              reprezentacja pełnej tablicy (-f), i dla niektórych
              zestawów  wzorców  będzie  znacznie mniejsza (a dla
              innych większa).  Ogólnie,  je¶li  wzorzec  zawiera
              zarówno  "słowa  kluczowe"  jak  i łapi±c±-wszystko
              regułę "identyfikatora", tak jak poniższy zestaw:

                  "case"    return TOK_CASE;
                  "switch"  return TOK_SWITCH;
                  ...
                  "default" return TOK_DEFAULT;
                  [a-z]+    return TOK_ID;

              to lepiej użyć reprezentacji pełnej tablicy.  Je¶li
              obecna jest tylko reguła "identyfikatora" i używasz
              potem hasza lub podobnej rzeczy do wykrywania  słów
              kluczowych, to lepiej użyć opcji -F.

              Opcja  ta odpowiada -CFr (zobacz niżej).  Nie można
              jej używać z -+.

       -I     nakazuje fleksowi  generowanie  skanera  interakty
              wnego.    Skaner  interaktywny  patrzy  naprzód  do
              wyboru dopasowania  jedynie  je¶li  musi.   Okazuje
              się,  że  patrzenie  o  jeden dodatkowy znak dalej,
              nawet je¶li  skaner  ma  już  do¶ć  do  dopasowania
              tokenu  jest  trochę  szybsze niż wersja minimalna.
              Lecz skanery patrz±ce naprzód daj± dziadowsk± wyda
              jno¶ć  interaktywn±;  na  przykład  gdy  użytkownik
              wpisze now± linię, to  nie  jest  ona  rozpoznawana
              jako  token  nowej  linii  dopóki  nie  wprowadzony
              zostanie następny token, co oznacza często wpisanie
              całej kolejnej linii.



Wersja 2.5                Kwiecień 1995                        31





FLEX(1)                                                   FLEX(1)


              Skanery  fleksa s± domy¶lnie interaktywne, chyba że
              użyjesz opcji kompresji tablicy -Cf lub -CF (zobacz
              niżej).   Jest  tak  dlatego,  że  je¶li oczekujesz
              wysokiej wydajno¶ci, to powiniene¶  użyć  jednej  z
              tych   opcji,  a  je¶li  tego  nie  zrobiłe¶,  flex
              zakłada, że jeste¶  gotów  po¶więcić  trochę  wyda
              jno¶ci  na rzecz intuicyjnego zachowania interakty
              wnego. Zauważ też, że nie możesz użyć -I w poł±cze
              niu  z  -Cf  lub -CF.  Z tej przyczyny opcja ta nie
              jest  w  rzeczywisto¶ci  wymagana;  jest  domy¶lnie
              wł±czona  dla  tych  przypadków,  dla  których jest
              dopuszczalna.

              Opcj± -B możesz wymusić by skaner nie był  interak
              tywny (zobacz powyżej).

       -L     nakazuje  fleksowi  nie  generować  dyrektyw #line.
              Bez tej opcji  flex  przyprawia  generowany  skaner
              dyrektywami #line, więc komunikaty o błędach w akc
              jach będ± poprawnie położone względem  oryginalnego
              pliku  wej¶ciowego  fleksa  (je¶li błędy wynikaj± z
              kodu w pliku wej¶ciowym)  lub  [względem]  lex.yy.c
              (je¶li  błędy  s± win± fleksa -- powiniene¶ zgłosić
              takie błędy pod adres e-mail podany poniżej.)

       -T     powoduje,  że  flex  działa  w  trybie   ¶ledzenia.
              Będzie  generował  na  stderr  wiele  komunikatów o
              postaci wej¶cia i wynikaj±cych zeń niedeterministy
              cznych i deterministycznych automatach skończonych.
              Opcja ta jest używana zwykle w opiece nad  fleksem.

       -V     drukuje  numer wersji na stdout i kończy działanie.
              --version jest synonimem -V.

       -7     nakazuje fleksowi generowanie  skanera  7-bitowego,
              tj.  takiego który może rozpoznawać w swoim wej¶ciu
              tylko znaki 7-bitowe. Zalet± używania -7  jest  to,
              że  tablice  skanera  będ±  o  połowę  mniejsze niż
              wygenerowane opcj± -8 (zobacz niżej). Wad± jest to,
              że skanery takie często się zawieszaj± lub załamuj±
              je¶li na ich wej¶ciu znajdzie się znak 8-bitowy.

              Zauważ jednak, że je¶li generujesz skaner z użyciem
              opcji  kompresji  tablic  -Cf lub -CF, to użycie -7
              zachowa  jedynie  niewielki   rozmiar   przestrzeni
              tablic,  a  spowoduje,  że  skaner  będzie znacz±co
              mniej przeno¶ny.  Domy¶lnym zachowaniem fleksa jest
              generowanie  skanerów  8-bitowych,  chyba  że użyto
              opcji -Cf lub -CF, i wtedy flex generuje  domy¶lnie
              skaner 7-bitowy, chyba że twoja maszyna zawsze była
              skonfigurowana na generowanie  skanerów  8-bitowych
              (co  często  się  zdarza  poza  USA).  To, czy flex
              wygenerował skaner 7 czy 8 bitowy, można  okre¶lić,
              sprawdzaj±c  zestawienie  flag  w  wyj¶ciu  -v,  co



Wersja 2.5                Kwiecień 1995                        32





FLEX(1)                                                   FLEX(1)


              opisano wyżej.

              Zauważ, że je¶li używasz -Cfe lub -CFe, flex  wci±ż
              domy¶lnie  generuje  skaner  8-bitowy, gdyż po kom
              presji pełne tablice 8-bitowe nie s± wiele  większe
              od 7-bitowych.

       -8     nakazuje  fleksowi  generowanie skanera 8-bitowego,
              tj. takiego, który rozpoznaje znaki 8-bitowe. Flaga
              ta   jest  wymagana  jedynie  dla  skanerów  wygen
              erowanych z użyciem -Cf  lub  -CF,  gdyż  w  innych
              wypadkach jest ona przyjmowana jako domy¶lna.


       -+     okre¶la, że chcesz by fleks wygenerował klasę skan
              era w C++. Zobacz  sekcję  o  generowaniu  skanerów
              C++.

       -C[aefFmr]
              steruje   poziomem   kompresji  tablic,  balansuj±c
              między małymi a szybkimi skanerami.

              -Ca  ("wyrównaj")   nakazuje   fleksowi   po¶więcić
              rozmiar  tablic w wygenerowanych skanerach na rzecz
              szybko¶ci, gdyż elementy  tablic  mog±  być  lepiej
              wyrównane  pod k±tem dostępu do pamięci i obliczeń.
              Na  niektórych  architekturach  RISC  pobieranie  i
              operowanie  na  długich słowach jest efektywniejsze
              niż na mniejszych jednostkach, takich  jak  krótkie
              słowa.   Opcja   ta  może  podwoić  rozmiar  tablic
              używanych przez twój skaner.

              -Ce Nakazuje fleksowi budowanie klas równoważno¶ci,
              tj.  zestawów  znaków o identycznych wła¶ciwo¶ciach
              leksykalnych (np. je¶li jedynym wyst±pieniem cyfr w
              pliku  wej¶ciowym fleksa jest klasa znaków "[0-9]",
              to cyfry z przedziały od 0 do 9  zostan±  wstawione
              do  tej  samej  klasy  równoważno¶ci.  Klasy  takie
              zwykle  znacznie   redukuj±   ostateczne   rozmiary
              tablic/obiektów  (zwykle  2-5  razy)  i  s± całkiem
              tanie od strony wydajno¶ciowej (jedno podgl±dnięcie
              w tablicy na skanowany znak).

              -Cf  okre¶la,  że  należy  generować  pełne tablice
              skanera -  flex  nie  ma  ich  kompresować  poprzez
              branie  korzy¶ci  z  podobnych  funkcji przej¶ć dla
              różnych stanów.

              -CF okre¶la, że należy użyć alternatywnej, szybkiej
              reprezentacji  skanera  (opisanej  pod  flag±  -F).
              Opcja ta nie może być używana z -+.

              -Cm  nakazuje   fleksowi   budowanie   klas   meta-
              równoważno¶ci, które s± zbiorami klas równoważno¶ci



Wersja 2.5                Kwiecień 1995                        33





FLEX(1)                                                   FLEX(1)


              (lub  znaków,  je¶li  klasy  równoważno¶ci  nie  s±
              używane),  które  s± często używane wspólnie. Klasy
              takie s± często dobr± rzecz± podczas używania skom
              presowanych  tablic,  lecz maj± one już umiarkowany
              wpływ na wydajno¶ć (dwa lub jeden test "if" i jedno
              podgl±dnięcie tablicy na skanowany znak).

              -Cr  powoduje,  że  generowany  skaner omija użycie
              standardowej biblioteki I/O  dla  wej¶cia.  Zamiast
              wołać  fread()  lub  getc(),  skaner  będzie używać
              wywołania systemowego read(), zyskuj±c  tak  trochę
              na  wydajno¶ci  (w  skali  zależnej  od systemu). W
              rzeczywisto¶ci jest  to  bez  znaczenia,  chyba  że
              używasz  też  -Cf  lub -CF.  Wykorzystanie -Cr może
              też spowodować dziwne zachowanie je¶li  np.  odczy
              tasz z yyin z pomoc± stdio przed wywołaniem skanera
              (skaner  pominie  tekst  pozostawiony  przez  twoje
              odczyty w buforze wej¶ciowym stdio).

              -Cr  nie działa je¶li zdefiniujesz YY_INPUT (zobacz
              wyżej Generowany Skaner).

              Samotne -C okre¶la, że tablice skanera powinny  być
              kompresowane,   lecz   nie   należy   używać   klas
              równoważno¶ci i klas metarównoważno¶ci.

              Opcje -Cf lub -CF i -Cm nie maj± sensu razem -  nie
              ma   sytuacji   dla  klas  metarównoważno¶ci  je¶li
              tablica nie jest kompresowana. Poza tym opcje można
              swobodnie ł±czyć.

              Domy¶lnym  ustawieniem jest -Cem, które okre¶la, że
              flex  powinien  generować  klasy  równoważno¶ci   i
              metarównoważno¶ci.  Ustawienie  to  daje  najwyższy
              stopień kompresji tablic. Kosztem większych  tablic
              można  uzyskać  szybciej  wykonuj±ce  się  skanery.
              Następuj±ce   zestawienie   jest    mniej    więcej
              prawdziwe:

                  najwolniejsze i najmniejsze
                        -Cem
                        -Cm
                        -Ce
                        -C
                        -C{f,F}e
                        -C{f,F}
                        -C{f,F}a
                  najszybsze i największe

              Zauważ,  że  skanery  z  najmniejszymi tablicami s±
              zwykle najszybciej generowane i  kompilowane,  więc
              podczas prac rozwojowych prawdopodobnie najchętniej
              użyjesz domy¶lnej, maksymalnej kompresji.




Wersja 2.5                Kwiecień 1995                        34





FLEX(1)                                                   FLEX(1)


              -Cfe jest często  dobrym  kompromisem  między  szy
              bko¶ci±   a  rozmiarem  dla  skanerów  gotowych  do
              wdrożenia (production scanners).

       -ooutput
              nakazuje fleksowi zapisanie skanera do pliku output
              zamiast  do  lex.yy.c.   Je¶li poł±czysz -o z opcj±
              -t, to skaner jest zapisywany na stdout, lecz  jego
              dyrektywy  #line  (zobacz  wyżej opcję -L), odnosz±
              się do pliku output.

       -Pprefiks
              zmienia  domy¶lny  przedrostek  yy  używany   przez
              fleksa  dla  wszystkich zmiennych i funkcji global
              nych na prefiks.  Na przykład -Pfoo  zmienia  nazwę
              yytext na footext.  Zmienia to też nazwę domy¶lnego
              pliku wyj¶ciowego z lex.yy.c na lex.foo.c.   A  oto
              wszystkie nazwy, których dotyczy takie zachowanie:

                  yy_create_buffer
                  yy_delete_buffer
                  yy_flex_debug
                  yy_init_buffer
                  yy_flush_buffer
                  yy_load_buffer_state
                  yy_switch_to_buffer
                  yyin
                  yyleng
                  yylex
                  yylineno
                  yyout
                  yyrestart
                  yytext
                  yywrap

              (Je¶li  używasz  skanera C++, to dotyczyć to będzie
              tylko yywrap i yyFlexLexer.)  Wewn±trz samego skan
              era  można  wci±ż używać jednej i drugiej konwencji
              nazywania; jednak z  zewn±trz  dozwolone  s±  tylko
              nazwy zmodyfikowane.

              Opcja  ta umożliwia łatwe ł±czenie w cało¶ć różnych
              programów fleksa w jeden plik  wykonywalny.  Zauważ
              jednak,  że  używanie  tej  opcji zmienia też nazwę
              yywrap(), więc musisz teraz albo udostępnić  własn±
              wersję tej procedury dla swojego skanera, albo użyć
              %option noyywrap, gdyż konsolidacja z -lfl nie daje
              już funkcji domy¶lnej.

       -Sskeleton_file
              przesłania  domy¶lny plik szkieletowy, na podstawie
              którego flex buduje  swoje  skanery.  Nie  będziesz
              używać  tej  opcji, chyba że zajmujesz się rozwojem
              fleksa.



Wersja 2.5                Kwiecień 1995                        35





FLEX(1)                                                   FLEX(1)


       flex daje też mechanizm kontrolowania opcji z samej specy
       fikacji  skanera,  zamiast  linii poleceń. Działa to przez
       wł±czanie dyrektyw %option w pierwszej sekcji specyfikacji
       skanera.  W  jednej dyrektywie %option można podawać wiele
       opcji, a w samej pierwszej sekcji pliku wej¶ciowego fleksa
       można używać wielu dyrektyw.

       Większo¶ć  opcji  jest  podawana  po  prostu  jako  nazwy,
       poprzedzone opcjonalnie słowem "no" (bez białych spacji  w
       ¶rodku),   które   neguje   ich   znaczenie.   Czę¶ć  jest
       równoważna flagom fleksa lub ich negacjom:

           7bit            -7
           8bit            -8
           align           -Ca
           backup          -b
           batch           -B
           c++             -+

           caseful lub
           case-sensitive  przeciwne do -i (domy¶lne)

           case-insensitive lub
           caseless        -i

           debug           -d
           default         przeciwne do -s
           ecs             -Ce
           fast            -F
           full            -f
           interactive     -I
           lex-compat      -l
           meta-ecs        -Cm
           perf-report     -p
           read            -Cr
           stdout          -t
           verbose         -v
           warn            przeciwne do -w
                           (dla -w użyj "%option nowarn")

           array           równoważne "%array"
           pointer         równoważne "%pointer" (domy¶lne)

       Niektóre  %opcje  daj±   wła¶ciwo¶ci   niedostępne   gdzie
       indziej:

       always-interactive
              nakazuje fleksowi generowanie skanera, który zawsze
              uważa swoje wej¶cie  za  "interaktywne".  Normalnie
              przy  każdym  pliku wej¶ciowym skaner woła isatty()
              do okre¶lenia czy wej¶cie skanera jest interaktywne
              i powinno być czytane po znaku. Po użyciu tej opcji
              wywołanie takie nie jest robione.




Wersja 2.5                Kwiecień 1995                        36





FLEX(1)                                                   FLEX(1)


       main   nakazuje  fleksowi  udostępnić   domy¶lny   program
              main()  dla  skanera, który po prostu woła yylex().
              Opcja ta implikuje noyywrap (zobacz niżej).

       never-interactive
              nakazuje fleksowi generowanie skanera, który zawsze
              uważa swoje wej¶cie za "nieinteraktywne" (znów, nie
              jest wołane isatty()).  Opcja ta jest przeciwna  do
              always-interactive.

       stack  wł±cza   używanie   stosów   warunków  pocz±tkowych
              (zobacz wyżej Warunki Pocz±tkowe).

       stdinit
              je¶li jest  ustawione  (np.   %option  stdinit)  to
              zachodzi inicjalizacja yyin i yyout na stdin i std
              out, zamiast domy¶lnych nil.   Niektóre  istniej±ce
              programy lex zależ± od tego zachowania, nawet je¶li
              nie jest ono zgodne z ANSI C,  które  nie  wymagaj±
              stałych czasu kompilacji stdin i stdout.

       yylineno
              nakazuje  fleksowi generowanie skanera, który prze
              chowuje liczbę obecnie odczytanych linii w zmiennej
              globalnej  yylineno.  Opcja ta jest wymuszana przez
              %option lex-compat.

       yywrap je¶li nie jest ustawione (np.   %option  noyywrap),
              to skaner nie woła yywrap() na końcu pliku, lecz po
              prostu przyjmuje, że nie ma już plików do  skanowa
              nia (dopóki użytkownik nie wskaże yyin na nowy plik
              i nie wywoła yylex() ponownie).

       flex skanuje akcje reguł w  celu  okre¶lenia  czy  używasz
       wła¶ciwo¶ci  REJECT  lub  yymore().  Opcje reject i yymore
       mog± przesłonić jego decyzję na tak±, jak±  ustawisz  przy
       użyciu  opcji, zarówno ustawiaj±c je (np.  %option reject)
       do wskazania, że wła¶ciwo¶ć jest rzeczywi¶cie używana, lub
       wył±czaj±c  je,  wskazuj±c, że wła¶ciwo¶ć nie jest używana
       (np.  %option noyymore).

       Trzy  opcje  pobieraj±  warto¶ci  łańcuchowe,  offsetowane
       znakiem '=':

           %option outfile="ABC"

       jest równoważne -oABC, a

           %option prefix="XYZ"

       jest równoważne -PXYZ.  Poza tym,

           %option yyclass="foo"




Wersja 2.5                Kwiecień 1995                        37





FLEX(1)                                                   FLEX(1)


       dotyczy  tylko skanerów C++ (opcja -+).  Mówi to fleksowi,
       że foo jest wyprowadzone jako podklasa  yyFlexLexer,  więc
       flex  będzie  umieszczał  twoje  akcje w funkcji składowej
       foo::yylex() zamiast w yyFlexLexer::yylex().  Powoduje  to
       też  generowanie  funkcji  składowej yyFlexLexer::yylex(),
       emituj±cej po wywołaniu bł±d  działania  (przez  wywołanie
       yyFlexLexer::LexerError()).    Dla   dalszych   informacji
       zobacz też niżej Generowanie Skanerów C++.

       Istniej± opcje dla purystów, nie chc±cych widzieć w swoich
       skanerach  niepotrzebnych  procedur. Każda z następuj±cych
       opcji (np.  (np., %option nounput), powoduje, że dana pro
       cedura nie pojawia się w wygenerowanym skanerze:

           input, unput
           yy_push_state, yy_pop_state, yy_top_state
           yy_scan_buffer, yy_scan_bytes, yy_scan_string

       (chociaż  yy_push_state()  i podobne i tak nie pojawi± się
       dopóki nie użyjesz %optionstack).

ROZWAŻANIA NAD WYDAJNO¦CIˇ
       Podstawowym  zadaniem  przy  projektowaniu   fleksa   było
       zapewnienie,  że  będzie generował wydajne skanery. Został
       zoptymalizowany do dobrej współpracy z wielkimi  zestawami
       reguł.  Poza  omawianymi  już wpływami opcji kompresji -C,
       istnieje jeszcze kilka akcji/opcji wpływaj±cych  na  wyda
       jno¶ć.  S±  to,  od  najkosztowniejszej  do najmniej kosz
       townej:

           REJECT
           %option yylineno
           arbitralny wisz±cy kontekst

           zestawy wzorców, wymagaj±ce cofania
           %array
           %option interactive
           %option always-interactive

           '^' operator rozpoczęcia linii
           yymore()

       z których pierwsze trzy s± bardzo  kosztowne,  a  ostatnie
       dwa  w miarę tanie.  Zauważ też, że unput() jest implemen
       towane jako wywołanie  procedurowe,  które  prawdopodobnie
       wykonuje  sporo  pracy,  podczas  gdy  yyless() jest tanim
       makrem;  więc  je¶li  wstawiasz  z   powrotem   nadmiarowy
       wyskanowany tekst, użyj yyless().

       REJECT  powinno  być  unikane  za  wszelk±  cenę  z punktu
       widzenia wydajno¶ci.  Jest to szczególnie kosztowna opcja.

       Pozbycie  się  cofania jest trudne i może często prowadzić
       do błędów w skomplikowanych skanerach. W praktyce  zaczyna



Wersja 2.5                Kwiecień 1995                        38





FLEX(1)                                                   FLEX(1)


       się  od użycia flagi -b do wygenerowania pliku lex.backup.
       Na przykład dla wej¶cia

           %%
           foo        return TOK_KEYWORD;
           foobar     return TOK_KEYWORD;

       plik ten wygl±da tak:

           State #6 is non-accepting -
            associated rule line numbers:
                  2       3
            out-transitions: [ o ]
            jam-transitions: EOF [ \001-n  p-\177 ]

           State #8 is non-accepting -
            associated rule line numbers:
                  3
            out-transitions: [ a ]
            jam-transitions: EOF [ \001-`  b-\177 ]

           State #9 is non-accepting -
            associated rule line numbers:
                  3
            out-transitions: [ r ]
            jam-transitions: EOF [ \001-q  s-\177 ]

           Compressed tables always back up.

       Pierwszych kilka linii mówi, że istnieje stan  skanera,  w
       którym  może  on przyj±ć 'o', lecz nie może przyj±ć innego
       znaku i że w tym  stanie  aktualnie  skanowany  tekst  nie
       pasuje  do  żadnej  reguły.  Stan  ten pojawia się podczas
       próby dopasowania reguł z linijek 2 i 3 pliku wej¶ciowego.
       Je¶li  skaner jest w tym stanie i odczyta cokolwiek innego
       niż 'o', to będzie musiał się  cofn±ć  i  okre¶lić,  która
       reguła  pasuje.  Po  chwili  skrobania  się  w głowę można
       zauważyć, że musi to być stan, gdy skaner zobaczył "fo". W
       tej   sytuacji  otrzymanie  czegokolwiek  innego  niż  'o'
       spowoduje cofnięcie do prostego  dopasowania  'f'  (reguła
       domy¶lna).

       Komentarz odno¶nie stanu #8 mówi, że istnieje problem przy
       skanowaniu "foob". Rzeczywi¶cie, je¶li pojawi się  dowolny
       znak  inny  niż 'a', to skaner będzie musiał się cofn±ć do
       przyjmowania "foo". Podobnie sprawa ma się ze  stanem  #9,
       mówi±cym o "fooba", po którym nie następuje 'r'.

       Ostatni  komentarz przypomina nam, że usuwanie cofania nie
       ma sensu je¶li nie używamy -Cf lub -CF, gdyż nie  daje  to
       żadnego zysku wydajno¶ci na skanerach kompresowanych.

       Sposobem   usuwania   cofania  jest  dodawanie  reguł  dla
       "błędów":



Wersja 2.5                Kwiecień 1995                        39





FLEX(1)                                                   FLEX(1)


           %%
           foo         return TOK_KEYWORD;
           foobar      return TOK_KEYWORD;

           fooba       |
           foob        |
           fo          {
                       /* fałszywy alarm, nie jest to słowo kluczowe */
                       return TOK_ID;
                       }


       Eliminowanie  cofania  można  przeprowadzić  również  przy
       użyciu reguły "łap-wszystko":

           %%
           foo         return TOK_KEYWORD;
           foobar      return TOK_KEYWORD;

           [a-z]+      return TOK_ID;

       Jest   to,   tam  gdzie  można  je  zastosować,  najlepsze
       rozwi±zanie.

       Komunikaty cofania często układaj± się w kaskady. W skomp
       likowanych  zbiorach reguł można dostać setki komunikatów.
       Mimo to, je¶li można  je  zdeszyfrować,  to  ich  usuwanie
       wymaga  tylko  tuzina  reguł  (łatwo  się jednak pomylić i
       spowodować, że reguła  obsługi  błędu  będzie  pasować  do
       prawidłowego  tokena.  Możliwe,  że przyszłe implementacje
       fleksa będ± automatycznie zajmowały  się  usuwaniem  cofa
       nia).

       Ważne jest pamiętanie, że korzy¶ci z eliminacji tego prob
       lemu zyskujesz dopiero po zlikwidowaniu  każdej  instancji
       cofania.  Pozostawienie choć jednej oznacza, że nie zysku
       jesz niczego.

       Zmienny wisz±cy kontekst (gdzie zarówno prowadz±ca  jak  i
       kończ±ca  czę¶ć  nie  maj±  ustalonej  długo¶ci) wprowadza
       utratę wydajno¶ci zbliżon± do REJECT (tzn. znaczn±). Dlat
       ego gdy tylko można, to zapisz tak± regułę:

           %%
           mouse|rat/(cat|dog)   run();

       jako:

           %%
           mouse/cat|dog         run();
           rat/cat|dog           run();

       lub jako




Wersja 2.5                Kwiecień 1995                        40





FLEX(1)                                                   FLEX(1)


           %%
           mouse|rat/cat         run();
           mouse|rat/dog         run();

       zwróć  uwagę,  że specjalna akcja '|' nie powoduje żadnych
       oszczędno¶ci, a wręcz może pogorszyć sprawę (zobacz  niżej
       Niedostatki / Błędy).

       Innym  obszarem, gdzie użytkownik może zwiększać wydajno¶ć
       skanera jest to, że im dłuższe s± dopasowywane tokeny, tym
       szybciej działa skaner. Jest tak dlatego, że przetwarzanie
       długich tokenów większo¶ci znaków wej¶ciowych  zachodzi  w
       wewnętrznej  (krótkiej)  pętli  skanuj±cej  i  rzadko musi
       przechodzić przez dodatkow± pracę zwi±zan±  z  ustawianiem
       ¶rodowiska skanuj±cego (np.  yytext) dla akcji. Przypomnij
       sobie skaner komentarzy C:

           %x comment
           %%
                   int line_num = 1;

           "/*"         BEGIN(comment);

           <comment>[^*\n]*
           <comment>"*"+[^*/\n]*
           <comment>\n             ++line_num;
           <comment>"*"+"/"        BEGIN(INITIAL);

       Można to przyspieszyć następuj±co:

           %x comment
           %%
                   int line_num = 1;

           "/*"         BEGIN(comment);

           <comment>[^*\n]*
           <comment>[^*\n]*\n      ++line_num;
           <comment>"*"+[^*/\n]*
           <comment>"*"+[^*/\n]*\n ++line_num;
           <comment>"*"+"/"        BEGIN(INITIAL);

       Teraz  zamiast   sytuacji,   gdzie   nowa   linia   wymaga
       przetwarzania  następnej akcji, rozpoznawanie nowych linii
       jest "rozrzucone" na inne reguły.  Umożliwia to zachowanie
       jak  najdłuższego  dopasowania. Zauważ, że dodawanie reguł
       nie spowalnia skanera! Jego szybko¶ć  jest  niezależna  od
       liczby  reguł  i  (w  porównaniu  do  rozważań  z pocz±tku
       sekcji) ich stopnia  skomplikowania  (z  zastrzeżeniem  do
       operatorów takich jak '*' i '|').

       Ostateczny  przykład  przyspieszania  skanera: załóżmy, że
       chcesz skanować plik zawieraj±cy  identyfikatory  i  słowa
       kluczowe  w  liczbie  jednego na linię, bez żadnych obcych



Wersja 2.5                Kwiecień 1995                        41





FLEX(1)                                                   FLEX(1)


       znaków i  chcesz  rozpoznawać  wszystkie  słowa  kluczowe.
       Naturalnym odruchem pocz±tkowym jest:

           %%
           asm      |
           auto     |
           break    |
           ... etc ...
           volatile |
           while    /* to jest słowo kluczowe */

           .|\n     /* a to nie... */

       Aby  wyeliminować  ¶ledzenie  wstecz, wprowadĽ regułę łap-
       wszystko:

           %%
           asm      |
           auto     |
           break    |
           ... etc ...
           volatile |
           while    /* to słowo kluczowe */

           [a-z]+   |
           .|\n     /* a to nie... */

       Obecnie, je¶li  mamy  zagwarantowane,  że  mamy  dokładnie
       jedno  słowo  w  linii, możemy zredukować całkowit± liczbę
       dopasowań o połowę przez wł±czanie w rozpoznawanie tokenów
       łapanie nowych linii.

           %%
           asm\n    |
           auto\n   |
           break\n  |
           ... etc ...
           volatile\n |
           while\n  /* to słowo kluczowe */

           [a-z]+\n |
           .|\n     /* a to nie... */

       Trzeba  być  tu  ostrożnym, gdyż wła¶nie wprowadzili¶my do
       skanera cofanie. W szczególno¶ci, je¶li  my  wiemy,  że  w
       wej¶ciu  nie  będzie nigdy znaków innych niż litery i nowe
       linie, to flex nie może tego wiedzieć  i  będzie  planował
       ewentualno¶ć  cofania  podczas skanowania tokenu w rodzaju
       "auto", po którym nie nast±pi nowa  linia  lub  litera.  W
       poprzednim   wypadku  nast±piłoby  po  prostu  dopasowanie
       reguły "auto", lecz teraz nie ma "auto", ale "auto\n". Aby
       wyeliminować  możliwo¶ć  cofania,  możemy albo zduplikować
       wszystkie reguły bez końcowych nowych  linii  albo,  je¶li
       nie spodziewamy się takiego wej¶cia i nie [interesuje nas]



Wersja 2.5                Kwiecień 1995                        42





FLEX(1)                                                   FLEX(1)


       jego klasyfikacja, możemy wprowadzić regułę  łap-wszystko,
       która nie zawiera nowej linii.

           %%
           asm\n    |
           auto\n   |
           break\n  |
           ... etc ...
           volatile\n |
           while\n  /* to słowo kluczowe */

           [a-z]+\n |
           [a-z]+   |
           .|\n     /* a to nie... */

       Po kompilacji z -Cf, jest to prawie tak szybkie, jak tylko
       możliwe dla fleksa dla tego problemu.

       Ostatnia uwaga: flex jest wolny przy dopasowywaniu NUL-ów,
       szczególnie  je¶li  token  zawiera  ich  wiele.  Najlepiej
       pisać  reguły,  dopasowuj±ce  krótkie   fragmenty   takich
       tekstów.

       Kolejna  ostatnia uwaga o wydajno¶ci: jak wspomniano wyżej
       w sekcji Jak Dopasowywane jest Wej¶cie, dynamiczne  zmiany
       rozmiarów  yytext  do  przyjmowania  dużych  tokenów  jest
       powolne, gdyż obecnie wymaga by taki token był reskanowany
       od  pocz±tku.  Tak  więc  je¶li wydajno¶ć jest istotna, to
       powiniene¶ dopasowywać "duże" fragmenty tekstu,  lecz  nie
       "olbrzymie".   Granic± między tymi pojęciami jest około 8K
       znaków/token.

GENEROWANIE SKANERÓW C++
       flex daje dwie drogi tworzenia skanerów przeznaczonych dla
       C++.  Pierwsz± z nich jest proste skompilowanie fleksowego
       skanera  kompilatorem  C++  zamiast  kompilatora  C.   Nie
       powiniene¶  napotkać  żadnych błędów kompilacji (je¶li się
       pojawi±, to zgło¶ to pod adres wskazany niżej, w sekcji  o
       autorze).  Możesz  wówczas  w  akcjach swoich reguł używać
       kodu C++ zamiast C. Zauważ, że domy¶lnym Ľródłem dla skan
       era  pozostaje  yyin,  a domy¶lnym echem jest wci±ż yyout.
       Obydwa urz±dzenia s± zmiennymi FILE *, a nie  strumieniami
       C++.

       Można  też  użyć  fleksa do generowania klasy skanera C++.
       Służy do tego opcja -+ (lub, równoważnie %option c++),  co
       jest  przyjmowane  automatycznie je¶li nazwa pliku wykony
       walnego fleksa kończy się plusem, jak np.   flex++.   Przy
       użyciu  tej opcji, flex generuje skaner do pliku lex.yy.cc
       zamiast  lex.yy.c.    Generowany   skaner   zawiera   plik
       nagłówkowy  FlexLexer.h,  który  definiuje  interfejsy  do
       dwóch klas C++.

       Pierwsza klasa, FlexLexer, daje abstrakcyjn± klasę bazow±,



Wersja 2.5                Kwiecień 1995                        43





FLEX(1)                                                   FLEX(1)


       definiuj±c±   ogólny   interfejs   klasy   skanera.   Daje
       następuj±ce funkcje składowe:

       const char* YYText()
              zwraca   tekst   ostatnio   dopasowanego    tokenu,
              równoważnik yytext.

       int YYLeng()
              zwraca   długo¶ć   ostatnio   dopasowanego  tokenu,
              równoważnik yyleng.

       int lineno() const
              zwraca numer  aktualnej  linii  wej¶ciowej  (zobacz
              %option yylineno), lub 1 je¶li %option yylineno nie
              zostało użyte.

       void set_debug( int flag )
              ustawia flagę debugguj±c± dla skanera,  równoważnik
              przypisania do yy_flex_debug (zobacz wyżej sekcję o
              opcjach). Zauważ, że aby wł±czać w skanerze  infor
              macje   diagnostyczne,   musisz  skompilować  go  z
              użyciem %option debug.

       int debug() const
              zwraca bież±ce ustawienie flagi debugguj±cej.

       Udostępniane   s±   też   funkcje   składowe    równoważne
       yy_switch_to_buffer(),  yy_create_buffer()  (chociaż pier
       wszym argumentem jest wskaĽnik  istream*,  a  nie  FILE*),
       yy_flush_buffer(),  yy_delete_buffer()  i  yyrestart()  (i
       znowu, pierwszym argumentem jest wskaĽnik istream*).

       Kolejn± klas± zdefiniowan± w FlexLexer.h jest yyFlexLexer,
       który  jest klas± pochodn± FlexLexer.  Zaiwera następuj±ce
       dodatkowe funkcje składowe:

       yyFlexLexer( istream* arg_yyin = 0, ostream* arg_yyout = 0
              )
              buduje  obiekt yyFlexLexer stosuj±c podane strumie
              nie jako  wej¶cie  i  wyj¶cie.  Je¶li  nie  zostan±
              podane,  to strumienie będ± odpowiadały odpowiednio
              cin i cout.

       virtual int yylex()
              odgrywa tę sam±  rolę  co  yylex()  dla  normalnych
              skanerów  fleksa:  skanuje strumień wej¶ciowy, kon
              sumuje tokeny aż akcja reguły nie zwróci  warto¶ci.
              Je¶li  z  yyFlexLexer  wyprowadzisz  podklasę  S  i
              zechcesz  dostać  się  do   funkcji   i   zmiennych
              składowych  S  z  wnętrza  yylex(),  to musisz użyć
              %option  yyclass="S"  by  poinformować  fleksa,  że
              będziesz  używać  podklasy  zamiast yyFlexLexer.  W
              tym wypadku zamiast generować yyFlexLexer::yylex(),
              flex  generuje  S::yylex()  (oraz  generuje  prosty



Wersja 2.5                Kwiecień 1995                        44





FLEX(1)                                                   FLEX(1)


              yyFlexLexer::yylex(), który woła  yyFlexLexer::Lex
              erError() po wywołaniu).

       virtual void switch_streams(istream* new_in = 0,
              ostream*  new_out  =  0)  przypisuje yyin do new_in
              (je¶li jest nie-nil) oraz yyout do new_out (ditto),
              kasuj±c  poprzedni  bufor wej¶ciowy je¶li przypisy
              wana jest nowa warto¶ć yyin .

       int yylex( istream* new_in, ostream* new_out = 0 )
              najpierw  przeł±cza  strumienie  wej¶ciowe  poprzez
              switch_streams(  new_in,  new_out  ),  a  następnie
              zwraca warto¶ć yylex().

       Poza  tym,  yyFlexLexer  definiuje  następuj±ce  chronione
       (protected)  funkcje wirtualne, które można przedefiniować
       w klasach pochodnych, by dostosować skaner:

       virtual int LexerInput( char* buf, int max_size )
              odczytuje maksymalnie  max_size  znaków  do  buf  i
              zwraca   liczbę  odczytanych  znaków.  Aby  wskazać
              koniec wej¶cia zwracane jest 0 znaków.  Zauważ,  że
              skanery  "interaktywne"  (zobacz  flagi -B oraz -I)
              definiuj± makro YY_INTERACTIVE.   Je¶li  redefiniu
              jesz  LexerInput() i potrzebujesz brać różne akcje,
              zależnie od tego czy skaner skanuje Ľródło interak
              tywne  czy  nie,  to  możesz sprawdzać obecno¶ć tej
              nazwy poprzez #ifdef.

       virtual void LexerOutput( const char* buf, int size )
              zapisuje size znaków z bufora buf który, o ile jest
              zakończony  zerem,  może  zawierać też "wewnętrzne"
              zera  je¶li  reguły  skanera  mog±  łapać  tekst  z
              wewnętrznymi zerami.

       virtual void LexerError( const char* msg )
              zgłasza  komunikat błędu krytycznego. Domy¶lna wer
              sja tej funkcji zapisuje  komunikat  do  strumienia
              cerr i kończy działanie programu.

       Zauważ,  że  obiekt  yyFlexLexer  zawiera  swój pełny stan
       skanowania. Tak  więc  można  używać  takich  obiektów  do
       tworzenia   wielobieżnych   (reentrant)  skanerów.  Możesz
       używać wielu instancji tej samej  klasy  yyFlexLexer,  jak
       również  możesz  w  jednym  programie  ł±czyć  wiele  klas
       skanerów w cało¶ć, używaj±c opisanej wyżej opcji -P .

       Dla skanerów C++  nie  jest  dostępna  wła¶ciwo¶ć  %array,
       trzeba więc używać %pointer (tj. warto¶ci domy¶lnej).

       Oto przykład prostego skanera C++:

               // Przykład użycia klasy skanera C++




Wersja 2.5                Kwiecień 1995                        45





FLEX(1)                                                   FLEX(1)


           %{
           int mylineno = 0;
           %}

           string  \"[^\n"]+\"

           ws      [ \t]+

           alpha   [A-Za-z]
           dig     [0-9]
           name    ({alpha}|{dig}|\$)({alpha}|{dig}|[_.\-/$])*
           num1    [-+]?{dig}+\.?([eE][-+]?{dig}+)?
           num2    [-+]?{dig}*\.{dig}+([eE][-+]?{dig}+)?
           number  {num1}|{num2}

           %%

           {ws}    /* pomiń spacje i tabulacje */

           "/*"    {
                   int c;

                   while((c = yyinput()) != 0)
                       {
                       if(c == '\n')
                           ++mylineno;

                       else if(c == '*')
                           {
                           if((c = yyinput()) == '/')
                               break;
                           else
                               unput(c);
                           }
                       }
                   }

           {number}  cout << "number " << YYText() << '\n';

           \n        mylineno++;

           {name}    cout << "name " << YYText() << '\n';

           {string}  cout << "string " << YYText() << '\n';

           %%

           int main( int /* argc */, char** /* argv */ )
               {
               FlexLexer* lexer = new yyFlexLexer;
               while(lexer->yylex() != 0)
                   ;
               return 0;
               }



Wersja 2.5                Kwiecień 1995                        46





FLEX(1)                                                   FLEX(1)


       Je¶li   chcesz   tworzyć  wiele  (różnych)  klas  leksera,
       powiniene¶ użyć flagi -P (lub opcji  prefiks=)  do  zmiany
       nazwy  każdego yyFlexLexer na inny xxFlexLexer.  Następnie
       możesz zał±czać <FlexLexer.h> do swoich innych Ľródeł, raz
       na  klasę leksera, zmieniaj±c najpierw nazwę yyFlexLexer w
       następuj±cy sposób:

           #undef yyFlexLexer
           #define yyFlexLexer xxFlexLexer
           #include <FlexLexer.h>

           #undef yyFlexLexer
           #define yyFlexLexer zzFlexLexer
           #include <FlexLexer.h>

       o ile (na przykład) użyjesz opcji %option prefix="xx"  dla
       jednego  ze  swoich  skanerów,  a  %option prefix="zz" dla
       drugiego.

       WAŻNE: obecna postać klasy skanuj±cej jest eksperymentalna
       i może zmieniać się między głównymi wydaniami.

NIEZGODNO¦CI Z LEX I POSIX
       flex  jest  przeróbk±  narzędzia lex z AT&T Unix (jednakże
       obie te implementacje nie maj±  wspólnego  kodu).  Posiada
       pewne  rozszerzenia  i  niezgodno¶ci, które s± istotne dla
       tych, którzy chc± pisać skanery działaj±ce z  oboma.  Flex
       jest  w  pełni  zgodny  ze  specyfikacj±  POSIX  lex  poza
       szczegółem, że gdy używa %pointer (domy¶lne), to wywołanie
       unput()  niszczy  zawarto¶ć  yytext,  co jest niezgodne ze
       specyfikacj± POSIX.

       W sekcji tej omówimy wszystkie znane obszary  niezgodno¶ci
       fleksa z AT&T lex i specyfikacj± POSIX.

       fleksowa opcja -l wł±cza maksymaln± zgodno¶ć z oryginalnym
       AT&T lex, okupuj±c to jednak znacznymi stratami wydajno¶ci
       generowanego   skanera.   Niżej  zaznaczymy,  które  niez
       godno¶ci można pokonać używaj±c opcji -l.

       flex jest w  pełni  zgodny  z  leksem  poza  następuj±cymi
       wyj±tkami:

       -      Nieudokumentowana  zmienna wewnętrzna skanera lex o
              nazwie yylineno nie jest  obsługiwana  bez  -l  lub
              %option yylineno.

              yylineno   powinno   być  obsługiwane  na  poziomie
              buforowym, a nie na skanerowym (pojedyncza  zmienna
              globalna).

              yylineno nie jest czę¶ci± specyfikacji POSIX.

       -      Procedura  input()  nie jest redefiniowalna chociaż



Wersja 2.5                Kwiecień 1995                        47





FLEX(1)                                                   FLEX(1)


              może być wołana do czytania znaków następuj±cym  po
              tym, co dopasowano do reguły. Je¶li input() napotka
              koniec   pliku,   to   wykonywane   jest   normalne
              przetwarzanie yywrap().  ``Prawdziwy'' koniec pliku
              jest   sygnalizowany   przez   input()   zwróceniem
              warto¶ci EOF.

              Wej¶cie jest natomiast sterowane przez definiowanie
              makra YY_INPUT.

              Ograniczenie  fleksa,  że  input()  nie  może   być
              redefiniowany  jest  zgodne  ze specyfikacj± POSIX,
              która po prostu nie okre¶la innego żadnego  sposobu
              sterowania  wej¶ciem  skanera niż poprzez dokonanie
              pocz±tkowego przypisania do yyin.

       -      Procedura   unput()   nie   jest    redefiniowalna.
              Ograniczenie to jest zgodne z POSIX.

       -      Skanery  fleksa  nie s± tak wielobieżne (reentrant)
              jak  skanery  lex.   W  szczególno¶ci,  je¶li  masz
              interaktywny  skaner i obsługę przerwań, która robi
              długi skok ze  skanera,  a  skaner  jest  następnie
              wołany  ponownie,  to  możesz  uzyskać  następuj±cy
              komunikat:

                  fatal flex scanner internal error--end of buffer missed

              Aby wej¶ć na nowo do skanera, użyj najpierw

                  yyrestart( yyin );

              Zauważ, że wywołanie to wyrzuci wszelkie buforowane
              wej¶cie;  zwykle  jednak  nie  jest to problem przy
              skanerach interaktywnych.

              Zauważ też, że klasy skanerów  C++  s±  wielobieżne
              (reentrant), więc używaj±c opcji C++ powiniene¶ ich
              używać. Zobacz sekcję o generowaniu skanerów C++.

       -      output() nie jest obsługiwany. Wyj¶cie  makra  ECHO
              jest   wykonywane   do  wskaĽnika  plikowego  yyout
              (domy¶lnie stdout).

              output() nie jest czę¶ci± specyfikacji POSIX.

       -      lex   nie   obsługuje    wykluczaj±cych    warunków
              pocz±tkowych  (%x),  choć znajduj± się one w specy
              fikacji POSIX.

       -      Przy rozwijaniu definicji, flex ujmuje  je  w  naw
              iasy.  W leksie, następuj±ce:

                  NAME    [A-Z][A-Z0-9]*



Wersja 2.5                Kwiecień 1995                        48





FLEX(1)                                                   FLEX(1)


                  %%
                  foo{NAME}?      printf( "Znalazłem\n" );
                  %%

              nie dopasuje się do łańcucha "foo", gdyż makro jest
              rozwijane tak,  że  reguła  odpowiada  "foo[A-Z][A-
              Z0-9]*?",  a  pierwszeństwo jest takie, że '?' jest
              wi±zany z "[A-Z0-9]*". We fleksie reguła  zostałaby
              rozwinięta   do  "foo([A-Z][A-Z0-9]*)?"  i  łańcuch
              "foo" zostałby dopasowany.

              Zauważ, że je¶li definicja rozpoczyna się od ^  lub
              kończy  się na $ to nie jest rozwijana w nawiasach,
              aby  umożliwić  tym  operatorom  pojawienie  się  w
              definicjach bez utraty ich znaczenia. Ale operatory
              <s>, / i <<EOF>> nie mog± być używane  w  definicji
              fleksa.

              Używanie  -l  skutkuje  leksowym  zachowaniem braku
              nawiasów wokół definicji.

              POSIX nakazuje ujmowanie definicji w nawiasy.

       -      Niektóre implementacje leksa umożliwiaj±  rozpoczy
              nanie  akcji  reguł  w  osobnej linii je¶li wzorzec
              reguły ma doklejon± biał± spację:

                  %%
                  foo|bar<tu spacja>
                    { foobar_action(); }

              flex nie obsługuje tej wła¶ciwo¶ci.

       -      Leksowe  %r  (generuj  skaner  Ratfor)   nie   jest
              obsługiwane. Nie jest czę¶ci± specyfikacji POSIX.

       -      Po  wywołaniu  unput(), yytext jest niezdefiniowane
              aż  do  dopasowania  następnego  tokenu,  chyba  że
              skaner  używa %array.  Inaczej ma się sprawa z lek
              sem lub specyfikacj± POSIX. Opcja  -l  załatwia  tę
              niezgodno¶ć.

       -      Pierwszeństwo  operatora  {} (zakresu numerycznego)
              jest inne.  lex interpretuje "abc{1,3}" jako "dopa
              suj  1, 2 lub 3 pojawienia 'abc'", a flex interpre
              tuje to jako "dopasuj  'ab'  z  doklejonym  jednym,
              dwoma  lub trzema znakami 'c'". Interpretacja flek
              sowa jest zgodna ze specyfikacj± POSIX.

       -      Pierwszeństwo operatora ^ jest inne.  lex interpre
              tuje "^foo|bar" jako "dopasuj albo 'foo' z pocz±tku
              linii albo 'bar' gdziekolwiek",  podczas  gdy  flex
              rozumie  to  jako  "dopasuj  'foo'  lub 'bar' je¶li
              pojawi± się na  pocz±tku  linii".  To  drugie  jest



Wersja 2.5                Kwiecień 1995                        49





FLEX(1)                                                   FLEX(1)


              zgodne ze specyfikacj± POSIX.

       -      Specjalne  deklaracje  rozmiaru-tablicy,  takie jak
              %a, obsługiwane przez lex  nie  s±  wymagane  przez
              skanery fleksa; flex je ignoruje.

       -      Nazwa  FLEX_SCANNER jest #definiowana, więc skanery
              mog± być pisane z przeznaczeniem do użycia z  flek
              sem   lub   leksem.    Skanery   zawieraj±  również
              YY_FLEX_MAJOR_VERSION    i    YY_FLEX_MINOR_VERSION
              wskazuj±c  na  wersję  fleksa,  która  wygenerowała
              skaner (na przykład dla wydania 2.5 definiowane  s±
              odpowiednio liczby 2 i 5).

       Następuj±ce  wła¶ciwo¶ci  fleksa  nie  s± zawarte w specy
       fikacjach lex ani POSIX:

           Skanery C++
           %option
           zakresy warunków pocz±tkowych
           stosy warunków pocz±tkowych
           skanery interaktywne/nieinteraktywne
           yy_scan_string() i koledzy
           yyterminate()
           yy_set_interactive()
           yy_set_bol()
           YY_AT_BOL()
           <<EOF>>
           <*>
           YY_DECL
           YY_START
           YY_USER_ACTION
           YY_USER_INIT
           dyrektywy #line
           %{} wokół akcji
           wiele akcji w linii

       plus prawie wszystkie flagi  fleksa.  Ostatnia  wła¶ciwo¶ć
       listy  odnosi  się  do faktu, że we fleksie można wstawiać
       wiele akcji do jednej linii, rozdzielaj±c  je  ¶rednikami,
       podczas gdy w leksie, następuj±ca instrukcja

           foo    handle_foo(); ++num_foos_seen;

       jest (raczej niespodziewanie) obcinana do

           foo    handle_foo();

       flex  nie obcina akcji. Akcje które nie s± objęte klamrami
       kończ± się zwyczajnie na końcu linii.

DIAGNOSTYKA
       warning, rule cannot be matched (ostrzeżenie,  reguła  nie
       może  być  dopasowana) wskazuje, że podana reguła nie może



Wersja 2.5                Kwiecień 1995                        50





FLEX(1)                                                   FLEX(1)


       być dopasowana gdyż występuje za  innymi  regułami,  które
       zawsze dopasuj± jej tekst. Na przykład następuj±ce foo nie
       może być dopasowane, gdyż pojawia się po regule łap-wszys
       tko:

           [a-z]+    got_identifier();
           foo       got_foo();

       Użycie w skanerze REJECT powstrzyma to ostrzeżenie.

       warning,  -s  option given but default rule can be matched
       (ostrzeżenie, podano opcję -s, lecz  dopasowana  może  być
       reguła domy¶lna) oznacza, że możliwe jest (przypuszczalnie
       tylko  w  konkretnym  warunku  pocz±tkowym),   że   reguła
       domy¶lna  (dopasowania dowolnego znaku) jest jedyn±, która
       dopasuje się do konkretnego wej¶cia. Ponieważ  podano  -s,
       zakłada się, że nie jest to celowe.

       reject_used_but_not_detected         undefined         lub
       yymore_used_but_not_detected  undefined   (niezdefiniowana
       fraza pierwsza lub druga) - te błędy pojawiaj± się podczas
       kompilacji. Wskazuj±  one,  że  skaner  używa  REJECT  lub
       yymore(),  lecz flex nie poinformował o tym fakcie. Znaczy
       to, że flex przeskanował pierwsze dwie sekcji w poszukiwa
       niu  pojawienia  się  tych  akcji, ale ich nie znalazł, bo
       jako¶ je  przemyciłe¶  (np.  przez  plik  #include).  Użyj
       %option  reject  lub %option yymore do wskazania fleksowi,
       że naprawdę używasz tych wła¶ciwo¶ci.

       flex scanner jammed - skaner skompilowany  z  -s  napotkał
       łańcuch wej¶ciowy, który nie został dopasowany do żadnej z
       jego reguł. Bł±d ten może się pojawić też z  powodu  prob
       lemów wewnętrznych.

       token   too   large,  exceeds  YYLMAX  (token  zbyt  duży,
       przekracza YYLMAX) - twój skaner używa %array  a  jedna  z
       jego  reguł dopasowała się do łańcucha dłuższego niż stała
       YYLMAX  (domy¶lnie  8K).  Możesz  zwiększyć   tę   warto¶ć
       zwiększaj±c  #definicję  stałej  YYLMAX w sekcji definicji
       swojego wej¶cia fleksa.

       scanner requires -8 flag to use the character 'x'  (skaner
       wymaga flagi -8 do używania znaku 'x') - specyfikacja two
       jego skanera zawiera rozpoznawanie znaku 8-bitowego 'x', a
       nie  podana  została  flaga -8, w wyniku czego skaner użył
       7-bit z powodu wykorzystania opcji  kompresji  tablic  -Cf
       lub -CF.  Dla szczegółów zobacz dyskusję flagi -7.

       flex  scanner  push-back  overflow  -  użyłe¶  unput()  do
       wepchnięcia z powrotem tak długiego tekstu, że bufor skan
       era   nie   potrafił  przetrzymać  wepchniętego  tekstu  i
       bież±cego tokena w yytext.  Idealny skaner powinien dynam
       icznie  zmienić  rozmiar  bufora, lecz obecnie tak się nie
       dzieje.



Wersja 2.5                Kwiecień 1995                        51





FLEX(1)                                                   FLEX(1)


       input buffer overflow, can't enlarge buffer because  scan
       ner uses REJECT (przekroczenie bufora wej¶ciowego nie może
       powiększyć bufora gdyż skaner używa REJECT) - skaner  pra
       cował  nad dopasowaniem bardzo dużego tokenu i potrzebował
       rozszerzyć bufor wej¶ciowy. Nie działa  to  ze  skanerami,
       używaj±cymi REJECT.

       fatal  flex  scanner  internal error--end of buffer missed
       (krytyczny bł±d wewnętrzny skanera flex -- rozminięto  się
       z  końcem  bufora) - Może się to pojawić w skanerze, który
       jest uruchomiony po długim skoku z ramki  aktywacji  skan
       era. Przed powrotem do skanera użyj:

           yyrestart( yyin );

       albo,  jak  wspomniano  wyżej,  przeł±cz  się  na używanie
       skanerów C++.

       too many start conditions in <>  construct!   (zbyt  wiele
       warunków pocz±tkowych w konstrukcji <>) - w konstrukcji <>
       pojawiło się więcej warunków pocz±tkowych niż  istnieje  w
       rzeczywisto¶ci (więc przynajmniej jeden z nich pojawił się
       dwukrotnie).

PLIKI
       -lfl   biblioteka, z któr± musz± być ł±czone skanery.

       lex.yy.c
              generowany skaner (nazywany na niektórych systemach
              lexyy.c).

       lex.yy.cc
              generowana klasa skanera C++, po użyciu -+.

       <FlexLexer.h>
              plik  nagłówkowy  definiuj±cy  klasę bazow± skanera
              C++, FlexLexer i klasę pochodn±, yyFlexLexer.

       flex.skl
              skaner szkieletowy. Plik  ten  jest  używany  tylko
              przy  budowaniu fleksa, nie przy jego uruchamianiu.

       lex.backup
              informacje wspieraj±ce (backing-up)  dla  flagi  -b
              (nazywany  jest  mianem  lex.bck na niektórych sys
              temach).

NIEDOSTATKI / BŁĘDY
       Niektóre wzorce wisz±cego kontekstu nie mog± być poprawnie
       dopasowane  i generuj± komunikaty ostrzegawcze ("dangerous
       trailing context") (niebezpieczny wisz±cy kontekst). S± to
       wzorce,  gdzie  zakończenie  pierwszej czę¶ci reguły dopa
       sowuje  się  do  pocz±tku  drugiej   czę¶ci,   takie   jak
       "zx*/xy*", gdzie 'x*' dopasowuje 'x' na pocz±tku wisz±cego



Wersja 2.5                Kwiecień 1995                        52





FLEX(1)                                                   FLEX(1)


       kontekstu.  (Zauważ, że projekt POSIX-a okre¶la, że  dopa
       sowany w takich wzorcach tekst jest niezdefiniowany.)

       Dla  niektórych reguł wisz±cego kontekstu, czę¶ci które s±
       w rzeczywisto¶ci okre¶lonej długo¶ci nie  s±  tak  rozpoz
       nawane.  Prowadzi  to  do  wspomnianej  wyżej straty wyda
       jno¶ci. W szczególno¶ci,  czę¶ci  używaj±ce  '|'  lub  {n}
       (takie   jak  "foo{3}")  zawsze  s±  uważane  za  zmienno-
       długo¶ciowe.

       Ł±czenie wisz±cego kontekstu z akcj±  specjaln±  '|'  może
       spowodować,  że ustalony (fixed) wisz±cy kontekst zostanie
       zmieniony w bardziej kosztowny, zmienny wisz±cy  kontekst.
       Na przykład następuj±ce:

           %%
           abc      |
           xyz/def


       Używanie  unput() uszkadza yytext i yyleng, chyba że użyto
       dyrektywy %array lub opcji -l.

       Dopasowywanie wzorców NUL-i jest znacznie  wolniejsze  niż
       dopasowywanie innych znaków.

       Dynamiczne  zmiany  rozmiaru  bufora  s±  wolne i wymagaj±
       reskanowania  całego  tekstu  dopasowanego   dot±d   przez
       bież±cy (zwykle duży) token.

       Z  powodu  buforowania wej¶cia i czytania z wyprzedzeniem,
       nie można ł±czyć z regułami fleksa wywołań <stdio.h>,  np.
       getchar().  Zamiast tego wołaj input().

       Wpisy całej tablicy (total table entries) wymieniane przez
       flagę -v nie zawieraj± niektórych wpisów,  potrzebnych  do
       okre¶lania, która reguła została dopasowana. Liczba wpisów
       je¶li skaner nie używa REJECT jest  równa  liczbie  stanów
       DFA, a w przeciwnym wypadku jest trochę większa.

       REJECT nie może być używany z opcjami -f lub -F.

       Wewnętrzne algorytmy fleksa wymagaj± udokumentowania.

ZOBACZ TAKŻE
       lex(1), yacc(1), sed(1), awk(1).

       John  Levine,  Tony  Mason,  and  Doug  Brown, Lex & Yacc,
       O'Reilly and Associates.  Upewnij się, że  bierzesz  2-gie
       wydanie.

       M.  E. Lesk and E. Schmidt, LEX - Lexical Analyzer Genera
       tor




Wersja 2.5                Kwiecień 1995                        53





FLEX(1)                                                   FLEX(1)


       Alfred Aho, Ravi  Sethi  and  Jeffrey  Ullman,  Compilers:
       Principles,  Techniques  and Tools, Addison-Wesley (1986).
       Opisuje  techniki  dopasowywania  wzorców  używane   przez
       fleksa (deterministyczne automaty skończone).

AUTOR
       Vern  Paxson, z pomoc± wielu pomysłów i inspiracji od Vana
       Jacobsona.   Oryginaln±  wersję  napisał  Jef   Poskanzer.
       Reprezentacja  szybkiej  tablicy  jest czę¶ciow± implemen
       tacj± projektu Vana Jacobsona. Implementacja została wyko
       nana przez Kevina Gonga and Verna Paxsona.

       Podziękowania dla wielu beta testerów, komentatorów i kon
       trybutorów fleksa,  z  których  szczególnie  zasłużone  s±
       następuj±ce  osoby:  Francois Pinard, Casey Leedom, Robert
       Abramovitz, Stan Adermann, Terry Allen, David Barker-Plum
       mer,  John  Basrai,  Neal  Becker, Nelson H.F. Beebe, ben
       son@odi.com, Karl Berry, Peter A. Bigot, Simon  Blanchard,
       Keith Bostic, Frederic Brehm, Ian Brockbank, Kin Cho, Nick
       Christopher, Brian Clapper, J.T. Conklin, Jason  Coughlin,
       Bill  Cox, Nick Cropper, Dave Curtis, Scott David Daniels,
       Chris G. Demetriou,  Theo  Deraadt,  Mike  Donahue,  Chuck
       Doucette,  Tom  Epperly,  Leo  Eskin,  Chris Faylor, Chris
       Flatters, Jon Forrest, Jeffrey Friedl, Joe Gayda, Kaveh R.
       Ghazi, Wolfgang Glunz, Eric Goldman, Christopher M. Gould,
       Ulrich Grepel, Peer Griebel, Jan Hajic, Charles  Hemphill,
       NORO  Hideo, Jarkko Hietaniemi, Scott Hofmann, Jeff Honig,
       Dana Hudes, Eric Hughes, John Interrante,  Ceriel  Jacobs,
       Michal  Jaegermann,  Sakari  Jalovaara,  Jeffrey R. Jones,
       Henry Juengst, Klaus Kaempf, Jonathan I. Kamens,  Terrence
       O  Kane,  Amir  Katz,  ken@ken.hilco.com,  Kevin B. Kenny,
       Steve Kirsch, Winfried  Koenig,  Marq  Kole,  Ronald  Lam
       precht,  Greg Lee, Rohan Lenard, Craig Leres, John Levine,
       Steve Liddle, David Loffredo, Mike Long, Mohamed el  Lozy,
       Brian Madsen, Malte, Joe Marshall, Bengt Martensson, Chris
       Metcalf,  Luke  Mewburn,  Jim   Meyering,   R.   Alexander
       Milowski,  Erik  Naggum,  G.T.  Nicol,  Landon Noll, James
       Nordby, Marc Nozell, Richard Ohnemus, Karsten Pahnke, Sven
       Panne,  Roland  Pesch,  Walter  Pelissero, Gaumond Pierre,
       Esmond Pitt, Jef Poskanzer, Joe Rahmeh, Jarmo Raiha, Fred
       eric   Raimbault,   Pat  Rankin,  Rick  Richardson,  Kevin
       Rodgers, Kai Uwe Rommel,  Jim  Roskind,  Alberto  Santini,
       Andreas  Scherer,  Darrell  Schiebel, Raf Schietekat, Doug
       Schmidt,  Philippe  Schnoebelen,  Andreas  Schwab,   Larry
       Schwimmer,   Alex   Siegel,   Eckehard   Stolz,   Jan-Erik
       Strvmquist, Mike Stump, Paul  Stuart,  Dave  Tallman,  Ian
       Lance  Taylor,  Chris  Thewalt,  Richard  M. Timoney, Jodi
       Tsai, Paul Tuinenga, Gary Weik, Frank Whaley, Gerhard Wil
       helms,  Kent  Williams, Ken Yap, Ron Zellar, Nathan Zelle,
       David Zuhn, oraz ci, których nazwiska  wyleciały  z  moich
       zdolno¶ci  archiwizowania  poczty, lecz których wkład jest
       równie ważny.

       Keith Bostic, Jon Forrest, Noah  Friedman,  John  Gilmore,



Wersja 2.5                Kwiecień 1995                        54





FLEX(1)                                                   FLEX(1)


       Craig  Leres, John Levine, Bob Mulcahy, G.T.  Nicol, Fran
       cois Pinard,  Rich  Salz  i  Richard  Stallman  pomogli  z
       różnymi problemami dystrybucji.

       Esmond  Pitt  and  Earle  Horton pomógł z wsparciem 8-bit;
       Benson Margulies i Fred Burke  pomogli  z  wsparciem  C++;
       Kent  Williams i Tom Epperly pomogli z wsparciem klas C++;
       Ove Ewerlid pomógł z wsparciem NUL-ów; Eric Hughes  pomógł
       z wielokrotnymi buforami.

       Praca  ta była pocz±tkowo wykonywana gdy byłem z Real Time
       Systems Group w Lawrence Berkeley Laboratory  w  Berkeley,
       CA.  Wielkie  dzięki  do  wszystkich  za  wsparcie,  które
       uzyskałem.

       Komentarze ¶lij do vern@ee.lbl.gov.









































Wersja 2.5                Kwiecień 1995                        55