FASTA
FASTA je softverski paket za poravnanje sekvenci DNK i proteina, koji su prvi opisali David J. Lipman i William R. Pearson, kao FASTP, u 1985.[1] Njegova ostavština je FASTA Format koji je sada uobičajen u bioinformatici.
FASTA | |
---|---|
Razvijatelj | Neil D. Rawlings |
Grupa OS-a | The Wellcome Trust Sanger Institute |
Izvorni model | Pearson W.R. |
Službeni veb-sajt | [1] |
Historija
urediOriginalni FASTP program je namijenjen pretraživanju sličnosti sekvenci proteina. FASTA je dodao istu mogućnost i za DNK: DNK pretraga translatiranih proteina, a također pruža i sofisticiraniji mješoviti program za procjenu statističke značajnosti poklapanja (tzv. "mečiranja").[2]Postoji nekoliko programa u ovom paketu koji omogućavaju usklađivanje proteinske i DNK sekvence.
Upotreba
urediFASTA se izgovara kao fastA, a počiva na FAST-All (= brzo sve), jer radi na bilo kojem alfabetu, a označava produžetak "FAST-P" (proteinskog) i "FAST-N" (nukleotidnog) poravnanja.
Sadašnji FASTA paket sadrži programe za proteine: protein – DNK i DNK – protein: prevedeno DNK (sa okvirom čitanja), za pretraživanja uređenih ili neuređenih peptid. Nedavna verzije FASTA Paketa uključuje posebna translacijska pretraživanje algoritama za pravilno rukovanje greškom okvira čitanja (od kojih dobro zadovoljava šest prevedenih okvira) kada se uporede podaci o sekvencama nukleotida i proteina.
Osim brzog heurističkog metoda za pretragu, FASTA paket pruža SSEARCH, implementaciju optimalnog Smith-Watermanog algoritma. . Glavni fokus paketa je obračun precizne statistike sličnosti, tako da biolozi mogu prosuditi da li je vjerojatno da su se poravnavanje dogodilo slučajno ili da li se može koristiti za zaključivanje homologije. FASTA paket je dostupan na fasta.bioch.virginia.edu . Na web-sajtu za pretraživanje sekvence je Institut evropske bioinformatike (EBI), online baza podataka, koja je dostupan pomoću programa FASTA.
Format FASTA datoteke se koristi kao ulaz na ovaj softver koji sada u velikoj mjeri koriste druge alate pretraživanja baza podataka o sekvencama (kao što su BLAST) i programi poravnanja sekvenci (Clustal, T-Coffee, itd).
Metod pretrage
urediFASTA uzima date nukleotidne ili aminokiselinske sekvence i istražuje odgovarajuće baze podataka upotrebom poravnanja lokalnih sekvenci za nalaženje poklapanja sličnih baza podataka za sekvence.
Program FASTA prati uglavnom heuristički metod koji doprinosi velikoj brzini njegovog izvršenja. U početku posmatra pogađanje uzoraka riječi, riječ po riječ, poklapa date dužine i označava potencijalna poklapanja za pretraživanje pomoću Smith-Watermanovu vrstu algoritma.
Uzeta veličina riječi, date parametrom ktup, kontrolira osjetljivost i brzinu programa. Povećanje vrijednosti ktup smanjuje broj pogodaka koji se nalaze u pozadini. Iz pogodaka riječi koji su se vratili, program traži segmente koji sadrže klaster obližnjih pogodaka. Zatim istražuje ove segmenate za moguća poklapanja.
Također pogledajte
urediReference
uredi- ^ Lipman, DJ; Pearson, WR (1985). "Rapid and sensitive protein similarity searches". Science. 227 (4693): 1435–41. doi:10.1126/science.2983426. PMID 2983426.
- ^ Pearson, WR; Lipman, DJ (1988). "Improved tools for biological sequence comparison". Proceedings of the National Academy of Sciences of the United States of America. 85 (8): 2444–8. doi:10.1073/pnas.85.8.2444. PMC 280013. PMID 3162770.