BIOINFORMTICA DE
BIOMOLECULAS
Profesora: Romina Seplveda
E-mail: r.sepulvedasepulveda@uandresbello.edu
Un poco de historia
1809 Jean
Bap(ste
Lamarck,
publica
Philosophie
Zoologique.
1815
Publicacin
del
libro
Analogas
menos
observadas
de
los
tres
reinos
de
la
Naturaleza,
por
Juan
Ignacio
Molina
1859 Charles
Darwin
publico
El
origen
de
las
especies.
Nature
non
facit
saltus-
1866 Gregorio
Mendel,
demuestra
que
la
herencia
de
ciertos
rasgos
sigue
patrones
determinados
herencia
mendeliana.
1944 Oswald
Avery
demuestra
que
el
DNA
es
el
material
hereditario
1950 Erwin
Charga
nota
que
la
can(dad
de
%A=%T
y
%G=%C
regla
de
Charga.
1953
James
Watson
y
Francis
Crick
postulan
el
modelo
de
doble
hlice
del
DNA,
cuyo
modelo
fue
basado
en
difraccin
de
rayos-X,
tomadas
por
Rosalind
Franklin
y
Maurice
Wilkins
en
1952.
1958
Kendrew
y
Perutz
determinan
la
primera
estructura
3D
de
una
protena
(mioglobina)
usando
la
tcnica
cristalograaa
de
rayos
X.
1965
Margaret
Dayho
en
1965
desarroll
la
primera
base
de
datos
de
secuencias
de
protena
llamada
'Atlas
of
Protein
Sequence
and
Structure'
1970
Needleman
and
Wunsch
desarrollan
el
primer
algoritmo
para
alinear
secuencias
1974
Chou
and
Fasman
desarrollan
el
primer
algoritmo
para
predecir
estructura
de
protenas
1976
Brookhaven
NaDonal
Laboratory
estableci
el
Protein
Data
Bank,
repositorio
de
estructuras
tridimensionales
de
protenas.
Ese
ao
se
depositaron
13
estructuras,
hoy
el
PDB
cuenta
con
107.251
estructuras)
1980
Se
publica
la
primera
secuencia
de
un
gen
(FX174).
La
secuencia
consiste
en
5328
bp
y
contena
9
protenas.
1981
Se
publica
el
algoritmo
de
alineamiento
de
secuencias
Smith-Waterman
1985
Se
describe
la
reaccin
de
PCR
por
Kary
Mullis.
1988
Se
genera
el
algoritmo
de
FASTA
para
comparacin
de
secuencias
(Pearson)
A
nes
de
los
80
comenz
el
proyecto
del
genoma
humano
y
otros
proyectos
genmicos
que
comenzaron
a
producir
datos
biolgicos
en
can(dades
sin
precedentes
1990
El
programa
BLAST
es
implementado
(Altschul)
Se
empieza
a
desarrollar
y
masicar
el
uso
de
internet.
1995
El
primer
genoma
de
bacteria
es
descrito
(Haemophilus
inuenzeae,
1.8
Mb)
por
Craig
Venter.
1997
Se
publica
el
primer
genoma
de
e.
Coli
(4.7
Mbp)
2001
Se
publica
el
primer
drai
genoma
humano!
Cuntas pares de bases tiene un genoma
humano?
a) 1.000 Mb c) 3.000 Mb
b) 2.000 Mb d) 4.000 Mb
Costo de secuenciacin por genoma
Septiembre 2001 Octubre 2015
$95.263.072 USD $1.245 USD
~$65.500.000.000 CLP ~$859.000 CLP
Ley de Moore
https://humanswlord.wordpress.com/2014/01/14/brainfood-moores-law-explained/
Nuevas tecnologas en secuenciacin:
Nanopore technologies
Futuro Cercano:
Sigalov, G., Comer, J., Timp, G. & Aksimentiev, A. Detection of DNA
sequences using an alternating electric field in a nanopore
US$1.000
capacitor. Nano Lett. 8, 5663 (2008).
Genbank
WGS: Whole Genome
Shotgun, genomas
i n c o m p l e t o s o
c r o m o s o m a s
incompletos.
Uniprot (protenas)
Swissprot 555.100 secuencias revisadas.
TrEMBL 88.032.926 secuencias no revisadas.
reas de desarrollo
Medicina con
computadores
Bioqumica
Informtica
con
para biologa
computadores
Matemticas
para biologa
Biologa con
computadores
Informtica en biologa
- Desarrollo de algoritmos y relaciones de sistemas biolgicos.
Minera de datos:
Descubrir patrones en grandes volmenes de
datos.(ej: en bases de datos clnicas)
Aprendizaje automtico (Machine Learning)
Programas que intentan imitar comportamientos )
Bases de datos
Visualizacin de datos
Computacin de alto rendimiento (High
Performance Computing HPC)
Biologa con computadores
Anlisis de secuencias
Omics
Genomics: estudios de genomas de organismos
Proteomics: estudios de gran escala de las
protenas de un organismo.
Biologa con computadores
- Gentica: herencia y variabilidad
Systematics: diversidad de caractersticas de organismos
Filogentica: relacin evolutiva entre organismos
http://sparrow-kaizu.deviantart.com/art/Pokemon-origins-project-Dragons-281957317
Biologa con computadores
Anlisis de estructuras Anlisis de funcin
Biologa con computadores
Biologa de sistemas: estudio de la interaccin de componentes de
sistemas biolgicos.
Oltvai, Z. N. & Barabsi, A.-L. Systems biology. Life's complexity pyramid. Science 298, 763764 (2002).
Matemtica usada en biologa
Biologa matemtica
Modelamiento biolgico
Bioestadstica
Bioqumica con computadores
Biocheminformatics y bioqumica
computacional
Modelado molecular
Biopathways: rutas
metablicas.
Anlisis de biochips: ej
microarrays.
Medicina con computadores
Informtica mdica.
Drug Discovery y diseo de frmacos.
De que nos sirve?
Resolver/interpretar fenmenos que los
experimentos tradicionales no pueden resolver.
Manejo datos masivos como
secuencias, rutas metablicas
Generar soluciones eficientes, en mbitos
desde la genmica hasta la informtica
mdica.
Cuales son las limitaciones de los bioinformticos?
Las predicciones bioinformticas dependen de la calidad
de los datos experimentales.
Lo ideal es usar varios programas y evaluaciones
(distintos enfoques y algoritmos).
Dependemos del poder de cmputo disponible.
La colaboracin interdisciplinaria es fundamental
Bioinformtica en 2017
Medicina personalizada (Precision Medicine)
NIH ha lanzado The Precision Medicine Initiative.
Fue dado a conocer por el presidente Barack Obama el 20 de enero 2015.
Objetivo:
Prevenir y tratar enfermedades considerando las variaciones en
genes, ambiente y estilo de vida.
http://www.nih.gov/precisionmedicine/
Collins, F. S. & Varmus, H. A new initiative on precision medicine. N. Engl. J. Med. 372, 793795 (2015).
Objetivo a corto plazo
http://www.nih.gov/precisionmedicine/
Objetivos a largo plazo
http://www.nih.gov/precisionmedicine/
Leer!! Collins, F. S. & Varmus, H. A new initiative on precision medicine. N. Engl. J. Med. 372, 793795 (2015).
Qu es una base de datos?
Base de datos
Es una coleccin de datos archivados y organizados que permite un
acceso rpido a los fragmentos de datos que necesite.
Para
buscar
una
entrada
en
una
base
de
datos,
el
usuario
hace
una
pregunta
especicando
un
valor
a
ser
encontrado
en
un
campo
en
par(cular.
Tipos
de
bases
de
datos
biolgicas
Bases
de
Datos
de
Formato
Simple
(Flat
File
Format)
Con(ene
lneas
de
texto
con
entradas
separadas
por
un
delimitador.
Para
buscar
informacin,
la
tabla
entera
(ene
que
ser
leda,
proceso
muy
ineciente
para
grandes
can(dades
de
datos.
A
pesar
de
ser
inecientes,
su
uso
se
jus(ca
al
requerir
mnimo
diseo,
y
que
el
formato
puede
ser
fcilmente
interpretado
por
humanos.
Tipos
de
bases
de
datos
biolgicas
Bases de Datos Relacionales
Usan
un
set
de
tablas
para
organizar
la
informacin.
Cada
tabla
o
relacin,
(ene
las
y
columnas:
Columnas
representan
campos
individuales
Filas
representan
los
valores
de
los
campos
Las
columnas
de
las
tablas
estn
indexadas
de
acuerdo
a
atributos
comunes,
de
manera
de
tener
referencias
cruzadas
a
otras
tablas.
Tipos
de
bases
de
datos
biolgicas
Las
bases
relacionales
se
crean
usando
lenguajes
denominados
structured
query
language
(SQL),
lo
cual
toma
un
largo
(empo
de
planicacin.
Luego
de
la
creacin
de
una
base
de
datos
relacional,
agregar
una
nueva
categora
es
sencillo.
Bsqueda
en
estas
bases
de
datos
son
rela(vamente
sencillas
de
realizar,
y
(enen
la
ventaja
que
el
sistema
selecciona
datos
referenciados
de
diferentes
tablas,
por
lo
que
el
Dempo
de
bsqueda
es
mucho
menor.
Tipos de bases de datos
Bases de Datos Orientadas a Objetos
Estas
bases
de
datos
estn
compuestas
de
'objetos'
que
combinan
informacin
y
ru(nas
matem(cas
que
actan
sobre
la
informacin.
Los
objetos
quedan
entonces
unidos
por
un
set
de
'conexiones'
predeterminadas,
lo
que
permite
que
la
base
de
datos
acepte
relaciones
jerrquicas.
Bsquedas
en
estas
bases
de
datos
navegan
a
travs
de
los
objetos
con
la
ayuda
de
las
'conexiones',
por
lo
que
son
muy
rpidas.
Lenguajes
como
C++
son
usados
para
crear
este
(po
de
bases
de
datos.
Bases de datos
PRIMARIAS SECUNDARIAS
Datos obtenidos experimentalmente. Son resultado del anlisis de las
bases de datos primarias.
Ejemplos: Ejemplos:
! Secuencias de cidos nucleicos: ! S e c u e n c i a s d e p r o t e n a s
genomas completos, fragmentos obtenidas de la traduccin de
genmicos, cDNAs, ESTs, SNPs, secuencias genmicas.
etc.
! Alineamientos de protenas o
! Estructuras de protenas o cidos cidos nucleicos.
nucleicos: Coordenadas atmicas
obtenidas por rayos X o NMR. ! Familia de protenas, inferidas por
similitud de secuencia o presencia
! Datos de expresin (Protenas o de motivos.
transcritos)
Tipos
de
bases
de
datos
biolgicas
Bases de datos de nucletidos
Genbank European Molecular DNA Data Bank of
Biology Laboratory Japan (DDBJ)
The International Nucleotide
Sequence Database
Collaboration (INSDC)
Bases de datos primarias
GenBank
GenBank es una base de datos de nucletidos de libre acceso.
http://www.ncbi.nlm.nih.gov/genbank/
Bsqueda avanzada
Resultado:
Bases de datos primarias
wwProtein Data Bank
Bases de datos para el
depsito de coordenadas
atmicas de estructuras
tridimensionales de
macromolculas
(protenas y cidos
nucleicos), determinadas
por cristalografa de rayos
X y resonancia magntica
nuclear (ahora Cryo-EM)
Numero de estructuras por
organismo!
Protein Data Bank
Bases de Datos Secundarias
UniProtKB = Swiss-Prot + TrEMBL
Provee anotacin detallada de secuencias biolgicas, incluyendo:
estructura, funcin, clasificacin en familias de protenas, dominios
estructurales, sitios catalticos, cofactores, modificaciones
postraduccionales, vas metablicas, asociacin a enfermedades. Tambin
provee links a otros recursos de inters, y es muy poco redundante.
SwissProt contiene informacin curada por expertos que obtienen
informacin de la literatura cientfica, y por tanto es de buena calidad.
TrEMBL obtiene sus secuencias traduciendo automticamente cidos
nucleicos a protenas, por lo tanto, la calidad es inferior.
Bases de datos primarias
UniProtKB
http://www.uniprot.org/
Cdigo de acceso
Base de datos curada.
UniProtKB
UniProtKB
Formato FASTA
! Formato
de
secuencias
de
protenas
y
cidos
nucleicos,
usados
para
describir
y
buscar
secuencias
biolgicas
en
bases
de
datos.
! Con(ene
una
lnea
de
denicin
que
comienza
con
el
signo
mayor
que
">",
seguido
del
nombre
de
la
secuencia.
A
veces,
informacin
extra
es
dada
posterior
al
nombre
de
la
secuencia,
separada
por
un
smbolo
"|".
! La
segunda
lnea
en
adelante
conDenen
la
secuencia
de
aminocidos
o
nucle(dos
en
cdigo
de
una
letra.
Cada
lnea
es
limitada
a
60
u
80
caracteres.
Bases de datos secundarias
Metablicas
KEGG (Kyoto Encyclopedia of Genes and Genomes)
Recursos para entender funciones y utilidades de sistemas biolgicos,
como clulas, organismos y ecosistemas.
http://www.genome.jp/kegg/
Bases de datos especializadas
Datos de expresin
!GEO (Gene Expression Omnibus)
!Gene Expression Atlas (GXA)
Enfermedades
!OMIM
!DisGeNET
!NZORD
Variantes gnicas
!dbSNP
!IPD (Inmuno Polymorphism database)
OMIM
Otras bases de datos!
Publicaciones:
!Pubmed
!Scholar google
!Web of Science
!Scopus
Patentes
!INAPI: Instituto Nacional de Propiedad Industrial
!USTPO: United States Patents and Trademark Office.
!ESPACENET: European Patent Office
!Google patents
ustpo.gov
Cul es la patente asociada?
Quin es el inventor?
De que ao es?
Informe 1:
1) Una empresa internacional de alto prestigio desea entrevistarlo para ofrecerle un cargo de lder
del equipo de bioqumicos. Esta empresa trabaja en el estudio de la enzima catalasa de humano.
La reunin es la prxima semana y de sus conocimientos depender su contrato millonario.
Realice un anlisis de la enzima catalasa de humano usando como base Genbank, Uniprot, Protein
Data Bank y KEGG.
*Si lo requiere puede ayudarse de otras bases de datos.
Debe incluir obligatoriamente los siguientes campos:
GenBank Protein Data Bank
Definition ID "Mximo 2
Locus Nombre pginas de texto.
Accession number Publicacin y autores
Organismo Tcnica de obtencin
"Imgenes u
Pares de bases Estequiometria
Ligandos otros, van en
Uniprot anexos.
Nmero de entrada KEGG pathways
Protena Imagen de la ruta (Anexo)
Estado Identificar la enzima en la ruta
Funcin (Anexo)
Ruta implicada Reaccin que realiza.
Nmero de isoformas Cdigo de la enzima
Cofactores
Actividad cataltica
Consideraciones prcticas:
!Para realizar bsquedas complejas es comn utilizar operadores
lgicos como AND, OR, y NOT, los que permiten indicar relaciones
entre las palabras usadas en las bsquedas.
!Para especificar frases, stas deben ser escritas entre "".
!Esto aplica a todo tipo de bases de datos includo Google!!!
Ejemplo:
Qu hara para identificar el siguiente grupo de secuencias en
uniprotkb?
Q9HBA0
Q9EPK8
Q9ERZ8
B2KN54
V9SH16
A0A0S7M8G1
A0A0S7LEP0
A0A0S7M5L7
A0A0S7LEV9
A0A0S7LEX9
A0A0S7M7Y5
A0A0S7ILC0
A0A0S7IL98