Stringa (linguaggi formali)
Nella teoria dei linguaggi formali, una stringa è una sequenza composta da un certo numero di oggetti che ci si aspetta venga sottoposta ad elaborazioni come analisi, composizioni e trasformazioni in altre stringhe o strutture discrete come grafi o configurazioni numeriche, senza modificare gli oggetti componenti.
Gli oggetti costitutivi possono essere semplici (come bit, caratteri o simboli) o compositi, ma da trattare come se fossero semplici (come parole, espressioni, frammenti di testo o contrassegni di oggetti compositi ma che non si vogliono analizzare o decomporre).
Dal punto di vista della costituzione si distinguono innanzi tutto le stringhe di oggetti semplici: stringhe di bit (stringhe binarie), stringhe composte da caratteri (stringhe letterali), stringhe di simboli (stringhe simboliche). Tra le stringhe di oggetti compositi si collocano le stringhe composte da unità lessicali (dette anche token), i frammenti di testo (come i titoli dei paragrafi o le citazioni bibliografiche) e le stringhe che rappresentano molecole dotate di struttura complessiva filamentosa, come quelle che rappresentano una proteina o una struttura di DNA.
Tra gli strumenti che possono sottoporre le stringhe ad elaborazioni si distinguono quelli formali, come gli automi, le macchine di Turing, le grammatiche formali o altri sistemi di riscrittura e quelli più concreti costituiti da programmi o routine di sistemi software. In linea di principio gli strumenti del secondo genere si possono considerare implementazioni dei primi.
Trattamento formale
modificaDato un insieme finito non-vuoto , chiamato alfabeto, composto da caratteri o simboli è possibile definire una stringa (o parola) sull'alfabeto come disposizione (o ennupla) finita dei caratteri di [1][2].
È possibile definire la lunghezza di una stringa, come il numero di caratteri presenti nella stringa. La stringa di lunghezza 0 prende il nome di stringa vuota o stringa nulla e viene indicata con o [1].
Per esempio, preso l'alfabeto binario , alcune delle parole che possono essere generate a partire da sono le stringhe .
Possiamo definire l'operazione elevamento a potenza di un alfabeto, , come l'insieme di stringhe di lunghezza k sull'alfabeto, ponendo .
L'insieme di tutte le parole sull'alfabeto è indicato con . Data l'esistenza di una corrispondenza biunivoca tra la tupla e la stringa , è possibile definire la star chiusura come l'insieme infinito .
È possibile definire l'insieme delle parole di lunghezza sull'alfabeto , la cross chiusura, come .
È inoltre possibile definire un'operazione binaria denominata concatenazione di stringhe[1]. Siano s e t appartenenti rispettivamente agli alfabeti e . La concatenazione delle due stringhe, indicata come st, è definita come la stringa di lunghezza appartenente a , che presenta ordinatamente i caratteri di s seguiti dai simboli di t.
Ad esempio se e allora e .
La concatenazione di stringhe è un'operazione associativa, ma non commutativa[1]. Rispetto alla concatenazione, la stringa vuota è l'elemento neutro. In termini algebrici, l'insieme costituisce un monoide rispetto alla concatenazione di stringhe[1]. è il monoide libero generato da , mentre è il relativo semigruppo libero.
Sempre da un punto di vista algebrico, dato che la lunghezza è un numero naturale, è possibile dire che la funzione lunghezza definisce un omomorfismo da in .
Una stringa s si dice sottostringa o fattore di t se esistono due stringhe u e v tali che . Se o si parla di prefisso o suffisso della stringa t. La relazione "è una sottostringa di" definisce una relazione d'ordine su , il cui minimo risulta la stringa vuota.
Se l'alfabeto è ben ordinato, il cosiddetto ordine lessicografico costituisce un altro ordinamento totale su di frequente utilizzo per le applicazioni informatiche.
Un insieme di stringhe su (cioè un sottoinsieme di ) è anche detto linguaggio formale su . Nonostante l'alfabeto sia finito e non vuoto e le stringhe siano di lunghezza finita, i linguaggi formali possono avere cardinalità infinita o nulla. Esempi di linguaggi formali sono forniti dalle espressioni regolari e dalle grammatiche formali.
Note
modifica- ^ a b c d e Linguaggi formali e grammatiche di Chomsky (DOC), su dis.uniroma1.it, 4-7. URL consultato il 19 maggio 2017 (archiviato il 2 giugno 2010).
- ^ Giacomo Piscitelli, Linguaggi Formali e Compilatori (PDF), su www-ictserv.poliba.it, p. 4. URL consultato il 17 maggio 2017 (archiviato dall'url originale il 16 giugno 2015).
Bibliografia
modifica- (EN) John E. Hopcroft, Rajeev Motwani; Jeffrey D. Ullman, Strings, in Introduction to Automata Theory, Languages, and Computation, Addison Wesley, 15 luglio 2006, ISBN 978-0-321-46225-1.
- (EN) Martin Davis, Ron Sigal; Elaine J. Weyuker, Alphabets and Strings, in Computability, Complexity, and Languages: Fundamentals of Theoretical Computer Science, Morgan Kaufmann, 17 febbraio 1994, ISBN 978-0-12-206382-4.