Tese Renato Menezes-Biblioteca
Tese Renato Menezes-Biblioteca
Orientador:
Prof. Alexandre Siqueira Guedes Coelho
Janeiro – 2024
UNIVERSIDADE FEDERAL DE GOIÁS
ESCOLA DE AGRONOMIA
Na qualidade de titular dos direitos de autor, autorizo a Universidade Federal de Goiás (UFG)
a disponibilizar, gratuitamente, por meio da Biblioteca Digital de Teses e Dissertações (BDTD/UFG),
regulamentada pela Resolução CEPEC nº 832/2007, sem ressarcimento dos direitos autorais, de acordo com
a Lei 9.610/98, o documento conforme permissões assinaladas abaixo, para fins de leitura, impressão e/ou
download, a título de divulgação da produção científica brasileira, a partir desta data.
O conteúdo das Teses e Dissertações disponibilizado na BDTD/UFG é de responsabilidade
exclusiva do autor. Ao encaminhar o produto final, o autor(a) e o(a) orientador(a) firmam o compromisso de
que o trabalho não contém nenhuma violação de quaisquer direitos autorais ou outro direito de terceiros.
1. Identificação do material bibliográfico
[ ] Dissertação [x] Tese [ ] Outro*:_____________
*No caso de mestrado/doutorado profissional, indique o formato do Trabalho de Conclusão de Curso, permitido no documento de área,
correspondente ao programa de pós-graduação, orientado pela legislação vigente da CAPES.
Exemplos: Estudo de caso ou Revisão sistemática ou outros formatos.
2. Nome completo do autor
Renato de Carvalho Menezes
3. Título do trabalho
Mapeamento por associação e predição genômica da resistência à podridão vermelha em clones de cana-
de-açúcar.
4. Informações de acesso ao documento (este campo deve ser preenchido pelo orientador)
Concorda com a liberação total do documento [ ] SIM [ x ] NÃO¹
[1] Neste caso o documento será embargado por até um ano a partir da data de defesa. Após esse período, a
possível disponibilização ocorrerá apenas mediante: a) consulta ao(à) autor(a) e ao(à) orientador(a);
b) novo Termo de Ciência e de Autorização (TECA) assinado e inserido no arquivo da tese ou dissertação.
O documento não será disponibilizado durante o período de embargo.
Casos de embargo:
- Solicitação de registro de patente;
- Submissão de artigo em revista científica;
- Publicação como capítulo de livro;
- Publicação da dissertação/tese em livro.
Documento assinado eletronicamente por Alexandre Siqueira Guedes Coelho , Professor do Magistério Superior,
em 23/01/2024, às 16:36, conforme horário oficial de Brasília, com fundamentono § 3º do art. 4º do Decreto nº
10.543, de 13 de novembro de 2020 .
Documento assinado eletronicamente por Renato De Carvalho Menezes , Discente, em 25/01/2024, às 18:09,
conforme horário oficial de Brasília, com fundamento no § 3º do art. 4º do Decreto nº 10.543, de 13 de novembro
de 2020.
A autenticidade deste documento pode ser conferida no site
https://sei.ufg.br/sei/controlador_externo.php?acao=documento_conferir&id_orgao_acesso_externo=0, informando o
código verificador 4332671 e o código CRC 1CA06272.
Orientador:
Prof. Dr. Alexandre Siqueira Guedes Coelho
Goiânia, GO – Brasil
2024
Ficha de identificação da obra elaborada pelo autor, através do
Programa de Geração Automática do Sistema de Bibliotecas da UFG.
Menezes, Renato de Carvalho
MAPEAMENTO POR ASSOCIAÇÃO E PREDIÇÃO GENÔMICA DA
RESISTÊNCIA À PODRIDÃO VERMELHA EM CLONES DE CANA-DE
AÇÚCAR [manuscrito] / Renato de Carvalho Menezes. - 2024.
CIV, 104 f.
CDU 633
UNIVERSIDADE FEDERAL DE GOIÁS
ESCOLA DE AGRONOMIA
Aos trinta dias do mês de janeiro de dois mil e vinte e quatro, a partir das treze horas e trinta minutos,
via videoconferência e na Sala de Reuniões do Setor de Melhoramento de Plantas, realizou-se a
sessão pública de Defesa de Tese intitulada “Mapeamento por associação e predição genômica
da resistência à podridão vermelha em clones de cana-de-açúcar”. Os trabalhos foram instalados
pelo Orientador, Doutor Alexandre Siqueira Guedes Coelho (PPGGMP/UFG), com a participação
dos demais membros da Banca Examinadora: Doutor Hermann Paulo Hoffmann (CCA/UFSCar),
membro titular externo; Doutor Renato Rodrigues Silva (IME/UFG), membro titular externo; Doutor
Rafael Tassinari Resende (PPGGMP/UFG), membro titular interno e Doutor João Batista Duarte
(PPGGMP/UFG), membro titular interno. Durante a arguição os membros da banca não fizeram
sugestão de alteração do título do trabalho. A Banca Examinadora reuniu-se em sessão secreta a fim
de concluir o julgamento da Tese tendo sido o candidato aprovado pelos seus membros. Proclamados
os resultados pelo Presidente da Banca Examinadora, foram encerrados os trabalhos e, para constar,
lavrou-se a presente ata que é assinada pelos Membros da Banca Examinadora.
Dedico.
AGRADECIMENTOS
A Deus, por colocar em minha vida pessoas essenciais para as minhas conquistas.
À minha família, pelo amor, pelos esforços dedicados à minha formação
profissional e pela confiança e apoio nos momentos que mais precisei.
À sociedade brasileira, que financiou minha trajetória acadêmica, por meio da
Universidade Federal de Goiás (UFG).
À pessoa mais importante para minha formação como pesquisador, o meu orientador,
o professor Dr. Alexandre Siqueira Guedes Coelho, por sua atenção, por seus conselhos
e, principalmente, pela fundamentação teórica passada, de diversas áreas da agronomia;
sobretudo, em genética e melhoramento de plantas. Agradeço também ao professor Dr. João
Batista Duarte, o primeiro exemplo de pesquisador que tive em minha vida acadêmica, e
ao professor Dr. Marcos Gomes da Cunha, pelos ensinamentos e pelos vários anos de
trabalho e pesquisa que tivemos juntos.
Ao Programa de Pós-Graduação em Genética e Melhoramento de Plantas
(PPGGMP) da UFG e a todos seus docentes, pelo curso de doutorado ministrado com muita
competência e profissionalismo. Aos meus amigos do PPGGMP da UFG, em especial M.a.
Priscila Magalhães da Veiga Jardim, M.e. Luís Gabriel Silva Alvarenga, Dr. Flávio
Pereira dos Santos e Dr. Paulo Henrique Ramos Guimarães; aos graduandos em
agronomia, Michel Rodrigues da Silva e Vinícius Filgueiras Nogueira, pela amizade e
auxílio nos trabalhos de campo.
À Rede Interuniversitária para o Desenvolvimento do Setor Sucroenergético
(Ridesa), da qual a UFG é integrante, especialmente aos funcionários Djavan Adien Mota,
Antônio Divino de Assis e Gilmar Francisco de Assis, pelo auxílio na condução e
avaliação dos experimentos. Ao pesquisador Dr. Márcio Lisboa Guedes, pela parceria e
dedicação irrestrita em diversos trabalhos realizados no âmbito do Programa de
Melhoramento Genético de Cana-de-Açúcar (PMGCA) da Ridesa-UFG, incluindo esta
tese. À professora Dra. Bruna Mendes de Oliveira, pela coordenação da PMGCA-
UFG/Ridesa e pelo apoio aos trabalhos de pesquisa que envolvem a cultura da cana-de-
açúcar, desenvolvidos pelos alunos do PPGGMP da UFG.
Agradeço a todos que, direta ou indiretamente, contribuíram para realização deste
trabalho.
Muito obrigado!
SUMÁRIO
RESUMO.............................................................................................................................. 9
ABSTRACT ....................................................................................................................... 10
1 INTRODUÇÃO .................................................................................................. 11
APÊNDICE ....................................................................................................................... 92
RESUMO
1
Orientador: Prof. Dr. Alexandre Siqueira Guedes Coelho. EA/UFG.
ABSTRACT
One of the main problems faced during sugarcane production is the red rot
disease caused by the fungus Colletotrichum falcatum Went, which has caused serious
epidemics in several subtropical countries. To better understand the genetic basis of red rot
resistance we evaluated a panel of 479 clones representing the genetic background used in
the Brazilian sugarcane breeding program developed by Ridesa (Inter-University Network
for the Development of Sugarcane Industry). The clones were genotyped using 50,766 SNPs
(Single Nucleotide Polymorphisms) through a Axiom™ array. The disease severity, induced
through artificial inoculation, was measure by the percentage of the area along the stem
colonized by the pathogen and accessed for all clones. Markers significantly associated to
the trait were identified by Genome Wide Association Studies (GWAS). Some genes with
recognized defense functions were found nearby these SNPs. The associations identified by
the GWAS analyses proved to be quite inconsistent when 20% of individuals were randomly
excluded from the association panel. Through genomic selection analyses, the ability to
predict the severity of the disease varied from 60% to 64%, among the different models used:
GBLUP (Genomic Best Linear Unbiased Predictor), Bayes Cꙥ e Bayes Dꙥ. When genomic
selection models considered SNPs discovered by GWAS analyses (conducted only on
training set populations) as fixed-effects covariates, predictive abilities dropped
significantly. The impact of the number of SNPs used to compute the genomic relationship
matrix on the predictive ability of the GBLUP model revealed that at least 10 thousand
markers are necessary to satisfactorily recover the genetic variation of the trait.
2
Advisor: Prof. Dr. Alexandre Siqueira Guedes Coelho. EA/UFG.
1 INTRODUÇÃO
11
2011). Isso implica na perda de informação de parte da variação genética explicada pelo
conjunto de marcadores moleculares, uma vez que locos de pequeno efeito são
frequentemente negligenciados na análise, por não atingirem o nível crítico de significância
exigido (Manolio et al., 2009; Tam et al., 2019). Ao contrário desses estudos (GWAS), a
abordagem já difundida e denominada seleção genômica ampla (Genome Wide Selection –
GS), ou simplesmente seleção genômica, retém todos os marcadores moleculares
disponíveis como preditores do valor genético dos indivíduos (Meuwissen et al., 2001). Esta
abordagem é, portanto, mais eficiente em capturar a variação genética proveniente de locos
de pequeno efeito (Hamblin et al., 2011).
A adaptação dos modelos de seleção genômica (GS) com a finalidade de melhor
se explorar a capacidade preditiva dos locos de grande efeito é uma área que vem sendo
bastante estudada na última década. Uma proposta destes estudos é a utilização de uma
estratégia que incorpore os marcadores identificados como significativos nas análises de
GWAS, como de efeitos fixos nos modelos de GS; sobretudo, em modelos que admitem que
a variância genética seja homogeneamente particionada entre todos os marcadores. A
utilização dessa abordagem pode melhorar a habilidade de predição por impedir a atuação
do efeito shrinkage no sentido de subestimar a contribuição dos locos de grande efeito
(Bernardo, 2014). Contudo, a aplicação desta abordagem também tem produzido resultados
bastante contraditórios: já foram reportados incrementos superiores a 10%; incrementos
modestos – da ordem 0,1% a 1%; e até mesmo decréscimos nas habilidades preditivas, a
depender da arquitetura genética do caráter em questão (McGowan et al., 2022).
Nesse sentido, partindo-se de uma população de clones representativos do banco
de germoplasma pertencente à Rede Interuniversitária para Desenvolvimento do Setor
Sucroenergético (Ridesa), este trabalho teve como objetivos: i) combinar ferramentas de
GWAS e GS para predizer a severidade da podridão vermelha em genótipos de cana-de-
açúcar; e ii) identificar genes, no contexto genômico dos polimorfismos identificados como
significativos na análise de GWAS, que estão, possivelmente, associados ao controle
genético da resistência à doença.
12
2 MELHORAMENTO DA CANA-DE-AÇÚCAR: FUNDAMENTOS E
ATUALIZAÇÕES COM ÊNFASE NA RESISTÊNCIA GENÉTICA À PODRIDÃO
VERMELHA
2.1 A CANA-DE-AÇÚCAR
13
processamento dá origem a produtos como: rapadura, melado, aguardente, açúcar e álcool.
Os resíduos decorrentes de seu processamento como a vinhaça e a torta de filtro são
utilizados como adubo e a combustão do bagaço é utilizada para produção de energia
elétrica. Esta gramínea é a primeira fonte energética renovável da nação e a cadeia de
produção do setor sucroenergético emprega cerca de 2,4 milhões de funcionários no país e,
representa, atualmente, cerca de 2,28 % do Produto Interno Bruto brasileiro (De Lima et al.,
2022).
14
de outros países como Índia (sigla Co), Java (sigla POJ) e Estados Unidos (sigla CP) (IAC,
2021).
Nas décadas de 1940 e 1950, foram avaliados os primeiros genótipos
desenvolvidos em Campos e Piracicaba, que resultaram nas primeiras variedades criadas no
Brasil: CB41-76, CB45-3, CB40-69, juntamente com as variedades IAC48-65, IAC50-134,
IAC51-205 e IAC52-150. Na década de 1960, dois pesquisadores do Instituto Agronômico
de Campinas (IAC), Carlos Alberto Krug e Hermindo Antunes Filho, contribuíram
significativamente para a formação do Programa Nacional de Melhoramento Genético da
Cana-de-açúcar (Planalsucar), atual Rede Interuniversitária para Desenvolvimento do Setor
Sucroenergético (Ridesa), e do Centro de Tecnologia Copersucar, hoje Centro de Tecnologia
Canavieira (CTC). Atualmente, no Brasil, existem três entidades que desenvolvem
programas de melhoramento genético de cana-de-açúcar: IAC, CTC e Ridesa (IAC, 2021).
A partir da década de 1940 até os dias atuais, a maioria dos genótipos utilizados
nos cruzamentos ou são provenientes do processo de nobilização ou de hibridações
subsequentes entre materiais que avançaram pelas fases de seleção clonal, caracterizando o
terceiro período histórico (Ming et al., 2010). Os cruzamentos realizados neste período
deram origem a genótipos poliploides, frequentemente com aneuploidias, tornando a
combinação de cromossomos presentes nos clones derivados de cada cruzamento única e
imprevisível. A complexidade genômica das cultivares modernas de cana-de-açúcar excede
àquela da maioria, senão todas, as outras culturas agrícolas de importância econômica
(Grivet & Arruda, 2002; Souza et al., 2011).
Por outro lado, as cultivares modernas descendem de apenas vinte genótipos
desenvolvidos em Java ou na Índia, durante o segundo período histórico. A base genética
das populações atuais é excessivamente estreita, comprometendo os ganhos de seleção dos
programas de melhoramento, em decorrência do esgotamento da diversidade genética (Edmé
et al., 2005; Ming et al., 2010). O quarto período histórico é caracterizado pelas tentativas
de se ampliar essa base genética pela introdução de materiais de origens diferentes à do
germoplasma inicial. No Brasil essa estratégia tem início em 1989 com a Copersucar
(Landell & Bressiani, 2010) e é realizada hoje pela Ridesa por meio do intercâmbio de
materiais, sobretudo, com o programa estadunidense Canal Point, um exemplo de sucesso
nesse quesito (Ming et al., 2010).
A quantidade de etapas até a obtenção de uma variedade comercial de cana-de-
açúcar varia em função do programa de melhoramento. Tomando-se como exemplo os
15
programas da Ridesa, a primeira etapa consiste na obtenção de seedlings provenientes dos
cruzamentos (biparentais ou policruzamentos) realizados nas estações de floração. As mudas
são transplantadas em campo para seleção fenotípica e as melhores plantas são propagadas
vegetativamente para áreas experimentais, passando pelas fases de seleção clonal T1, T2 e
T3. Se necessário, entre essas três etapas, pode-se realizar fases de multiplicação (FM). Os
melhores genótipos avançam para serem testados em vários ambientes de produção na fase
de experimentação denominada de ensaios de época em rede (EP); em que, além da
estabilidade e adaptabilidade, também é determinada a melhor época de colheita dos
materiais elite. Estes materiais, adicionalmente, são caracterizados por análises tecnológicas
mensais, conforme o manual de instruções do Consecana-SP (Consecana, 2006), de abril a
novembro, estimando-se suas curvas de maturação. Os resultados são validados em áreas de
empresas conveniadas aos programas e, por fim, é feita a liberação da nova variedade
comercial. O processo inteiro tem duração de doze a quinze anos (Ridesa, 2023).
Em todas as etapas, é realizada seleção para resistência genética às principais
doenças da cultura. Em cana-de-açúcar, como em outras espécies cultivadas, o
melhoramento é reconhecido como o método de menor custo e maior eficiência para o
controle da maioria dos fitopatógenos (Agnihotri, 1983; Croft & Berding, 2004).
No âmbito do Programa de Melhoramento Genético de Cana-de-Açúcar
desenvolvido pela Universidade Federal de Goiás (PMGCA-UFG/Ridesa), cerca de um ano
após o transplantio de seedlings em campo, é realizada uma seleção visual dos materiais
mais vigorosos, os quais irão compor o ensaio T1. No ensaio T1 são plantados cerca de cinco
mil genótipos, em parcelas constituídas por uma linha de um 1,0 m e sob delineamentos em
blocos aumentados (DBA). Dentre os genótipos incluem-se três cultivares testemunhas, uma
de cada ciclo: precoce, médio e tardio. O ensaio T1 é avaliado dezoito meses após o plantio
(sendo roçado aos seis meses). Os caracteres avaliados são: teor de sólidos solúveis (ºBRIX),
número de colmos por metro e nota do melhorista (escala de notas de 1 a 5, em que se avalia,
visualmente, características morfológicas desejáveis). Até o ensaio T1, todas as etapas são
conduzidas em áreas experimentais da Escola de Agronomia da Universidade Federal de
Goiás.
Do ensaio T1 são selecionados quatrocentos genótipos que irão compor oito
ensaios T2 em DBA, cada um com cem genótipos, que serão plantados em oito usinas
conveniadas ao PMGCA-UFG/Ridesa; ou seja, o mesmo ensaio T2 é replicado em duas
usinas. Além dos 100 genótipos, cada ensaio T2 possui três testemunhas de ciclos distintos
16
(precoce, médio e tardio). Os ensaios T2 são avaliados por dois anos consecutivos, uma
avaliação em cana-planta e outra na primeira, em cana-soca. As parcelas destes ensaios são
constituídas por uma linha de 8,0 m. Em cada ensaio T2 são selecionados trinta genótipos, a
partir da análise dos seguintes caracteres: número de colmos por metro, florescimento,
chochamento, acamamento, tonelada de cana por hectare (TCH), teor de sólidos solúveis
(ºBRIX), teor de sacarose aparente (POL), tonelada de POL por hectare (TPH) e açúcares
totais recuperáveis (ATR).
Cada ensaio T2 dará origem a um ensaio T3, no mesmo local, composto de trinta
genótipos ou clones selecionados. Em T3 já se adota o delineamento em blocos completos
casualizados (DBC), com três repetições por clone e parcelas constituídas por duas linhas de
12 m. A partir da fase T3 não mais se impõe restrição à quantidade de genótipos selecionados
e são avaliados os mesmos caracteres que na fase T2; ainda, por três anos consecutivos, uma
avaliação em cana-planta, outra na primeira soca e a última em segunda soca.
Após a fase T3, em geral, cada genótipo selecionado é plantado no mesmo local
em uma faixa constituída por seis linhas de 120 m. Essa etapa é denominada fase de
multiplicação (FM), sendo realizada a fim de se conseguir material propagativo suficiente
para a fase seguinte de ensaios EP (de época), além de ser útil para avaliar a performance
dos materiais em áreas mais extensas. Os caracteres avaliados na etapa FM são os mesmos
avaliados em T2 e T3, apenas em cana-planta.
Após a etapa FM, os genótipos selecionados participarão de todos os ensaios em
rede da etapa EP, que serão implantados em diversas usinas conveniadas. Esses ensaios,
também conduzidos em DBC com três repetições, possuem parcelas constituídas por quatro
linhas de 12 m. Cada ensaio EP é replicado três vezes, em cada local, sendo que um deles é
colhido em abril (início da safra), outro em julho (meio da safra) e outro em outubro (final
da safra). Os caracteres avaliados na fase EP são os mesmos avaliados em T2, T3 e FM,
embora por quatro anos consecutivos, com avaliações em cana-planta e em primeira,
segunda e terceira socas.
A maioria das variedades comerciais exploradas em campos de cultivo de cana-
de-açúcar são desenvolvidas por métodos de melhoramento genético fundamentados
exclusivamente por avaliações fenotípicas. No entanto, devido ao extenso ciclo da cultura e
à complexidade da herança genética em híbridos interespecíficos poliploides, o processo de
seleção de plantas com características agronômicas desejáveis é demasiadamente demorado.
Nesse sentido, os avanços das tecnologias de genotipagem e sequenciamento genético e das
17
ferramentas estatísticas e de bioinformática, permitirão a melhor compreensão do controle
genético dos caracteres de interesse. A aplicação destas tecnologias nos programas de
melhoramento pode acelerar o processo de seleção (Souza et al., 2011) e, consequentemente,
os prazos de liberação varietal em cana-de-açúcar.
18
maior que o genoma de sorgo (Le Cunff et al., 2008, Paterson et al., 2009). Portanto, as
variedades modernas de cana-de-açúcar são altamente heterozigóticas, possuindo mais de
oito cópias de cromossomos homólogos oriundos de S. officinarum, algumas cópias (uma a
duas) de cromossomos homólogos oriundos de S. spontaneum e cromossomos
recombinantes interespecíficos (Ming et al., 1998).
A mistura de conjuntos de cromossomos hom(e)ólogos, a partir de duas espécies
progenitoras poliploides, associada a um alto conteúdo de regiões repetitivas (Okura et al.,
2012; Berkman et al., 2014), tem dificultado a construção de um genoma de referência para
a cana-de-açúcar (Souza et al., 2011; Okura et al., 2012; Thirugnanasambandam et al., 2018).
19
como modelos de genes (PlantGDB, 2023), e ambos têm sido amplamente utilizados em
estudos genômicos da cana-de-açúcar (Thirugnanasambandam et al., 2018).
20
A podridão vermelha é considerada uma das maiores ameaças à produção global
de cana-de-açúcar (Satyavir, 2003; Duttamajumder, 2008). Epidemias de C. falcatum podem
causar perdas em torno de 30%, tanto no peso da cana colhida quanto no teor de sacarose
(Hussnain & Afghan, 2006; Viswanathan et al., 2018).
Na última década, a doença tem aumentado sua severidade nos campos de
cultivo brasileiros. Relatos não oficiais de epidemias recentes levam a suspeitar que a
população do patógeno era controlada anteriormente pela queima da cana-de-açúcar,
procedimento utilizado para a colheita manual. Mas, a partir da última década, praticamente
100% dos canaviais brasileiros passaram a ser colhidos de forma mecanizada. Por se tratar
de um organismo hemibiotrófico, a sobrevivência e o aumento do inóculo nos canaviais
pode, então, ser consequência do grande volume de palhada depositado no solo durante a
colheita de cana-de-açúcar crua.
21
técnicas de triagem que utilizassem inoculações artificiais do patógeno (Mohanraj et al.,
2012).
A podridão vermelha é reconhecida por ser uma doença que afeta principalmente
os colmos da cana-de-açúcar. A maioria dos métodos empregados para se avaliar a
resistência genética à doença são baseados em inoculações artificiais e mensuração da
severidade da doença neste órgão da planta (Viswanathan, 2010).
Diferentes métodos têm sido utilizados para introduzir o patógeno no interior
dos colmos da cana-de-açúcar. No entanto, o método do plug é o mais empregado. Esse
método utiliza plantas com idade variando de seis a oito meses, em condições de campo.
Após o cultivo de C. falcatum em meio de cultura, uma suspensão de esporos é preparada
em água estéril, na concentração de 106 conídios/mL. Um furo é feito no colmo, no meio do
terceiro entrenó, contado-se a partir da base, retirando-se parte do tecido vegetal (plug) com
auxílio de um tubo oco e pontiagudo de metal, com 0,5 cm de diâmetro. Cerca de 0,5 mL da
suspensão de esporos são depositados no interior do furo, o plug é recolocado no seu lugar
de origem e o ferimento é vedado; geralmente com argila estéril, plástico filme ou fitas
adesivas (Chona, 1954).
Variações do método do plug foram propostas e consistem em mergulhar palitos
de dente na suspensão de esporos e aplicá-los no interior de um furo feito no segundo ou
terceiro entrenó do colmo, contados a partir da base. Posteriormente, o ferimento é também
vedado (Wang & Lee, 1982; Agnihotri, 1983; Virk, 1989). Independentemente do método,
a suspensão deve ter concentração de 106 conídios/mL para garantir infecção eficiente.
Concentrações menores que 60 mil conídios/mL resultam em pouco desenvolvimento de
sintomas (Mohanraj et al., 2012).
Para uso do método do plug é necessário um período de incubação de cerca de
sessenta dias. Decorrido este tempo, os colmos inoculados são rachados longitudinalmente
e a severidade da doença é mensurada utilizando-se uma escala de notas que varia de 0 a 9
pontos, contabilizados a partir de quatro sintomas da doença: presença de manchas brancas
nas lesões, largura da lesão, transgressão nodal a partir do local de inoculação, e condição
do ponteiro da planta (Srinivasan & Bath, 1961; Duttamajumbder & Singh, 1999).
As avaliações são realizadas desprezando-se o entrenó de inoculação para que
reações da planta associadas ao ferimento não sejam confundidas com sintomas da doença.
Na ausência de manchas brancas aplica-se nota 0; nota 1, se esparsamente presente; e nota
2, se moderado a profusamente presente. A largura da lesão determina nota 0 se a lesão não
22
estiver se espalhando; nota 1, se a lesão se espalhar em até 25% da largura do colmo; nota 2
se a lesão se espalhar de 25% a 50% da largura do colmo; e nota 3, se a lesão se espalhar por
mais de 50% da largura do colmo. Se não houver transgressão nodal aplica-se nota 0; nota 1
se a lesão transgredir um nó acima do ponto de inoculação; nota 2 se a lesão transgredir dois
nós acima do ponto de inoculação; e nota 3 se a lesão transgredir mais que dois nós acima
do ponto de inoculação. A condição do ponteiro da planta determina nota 0 se o ponteiro
estiver verde; e nota 1 se tiver folhas amarelando ou secando (Srinivasan & Bath, 1961;
Duttamajumbder & Singh, 1999).
Ainda em relação à condição do ponteiro, o amarelecimento, o secamento e a
morte das folhas indicam extrema susceptibilidade do genótipo. Isto é consequência da
desintegração e colapso geral do sistema vascular da planta, causado por enzimas produzidas
pelo patógeno, que degradam a parede celular. Em relação à presença de manchas brancas,
em muitas variedades susceptíveis, as lesões avermelhadas são intercaladas com áreas menos
pigmentadas. A coloração avermelhada das lesões está associada à produção de antocianina
pela planta, maior em genótipos resistentes, mecanismo que restringe a colonização dos
tecidos do colmo pelo patógeno. As manchas brancas constituem tecidos que facilitam a
rápida disseminação do patógeno ao longo do colmo e sua presença é indicadora de
susceptibilidade (Srinivasan & Bath, 1961; Mohanraj et al., 2012).
A natureza fibrosa dos tecidos nodais, em muitas variedades, oferece resistência
à disseminação do patógeno ao longo do colmo. Portanto, o comprimento da lesão deve ser
considerado na mensuração da severidade. No entanto, quando o comprimento é considerado
de forma direta, a severidade da doença pode ser confundida por fatores como idade,
comprimento do colmo e comprimento dos entrenós. Diante disso, a extensão da lesão tem
sido quantificada pela transgressão nodal. Em relação à largura da lesão, é lógico concluir
que quanto maior for, maior será a susceptibilidade do genótipo, uma vez que neste caso o
patógeno terá invadido e degradado grande volume de tecido, resultando em maior prejuízo
para translocação de água e nutrientes (Srinivasan & Bath, 1961; Mohanraj et al., 2012).
A principal desvantagem do método do plug é o tempo requerido, cerca de dez
meses para seleção de materiais resistentes. Embora seja amplamente utilizado, esse método
é considerado por muitos pesquisadores como demasiadamente agressivo, por introduzir
diretamente o patógeno nos tecidos internos do colmo, causando ferimentos e quebrando
barreiras naturais de resistência do hospedeiro. Ou seja, avalia a resistência dos tecidos
internos do colmo à colonização do patógeno, desprezando-se os mecanismos de resistência
23
que previnem a entrada do fungo. No entanto, as experiências têm mostrado que é importante
considerar toda vulnerabilidade potencial que, porventura, os genótipos possam ser expostos
em condições de campo (Mohanraj et al., 2012).
Nesse sentido, métodos de inoculação menos invasivos e/ou mais rápidos foram
propostos. Singh & Budhraja (1964) propuseram um método de inoculação utilizando a
região nodal. Uma suspensão de esporos de C. falcatum é preparada, em água estéril, com
concentração de 106 conídios/mL. Colmos com cerca de sete meses de idade são
selecionados para inoculação. As bainhas das folhas mais velhas, não senescentes, são
puxadas para fora e cerca de 2 mL da suspensão de esporos é depositada em contato com os
nós selecionados. A inoculação deve ser realizada em épocas de alta umidade relativa do ar.
Após sessenta dias de incubação, os clones são avaliados com base na presença de sintomas
típicos da doença. Rana & Gupta (1968) estabeleceram, de forma mais clara, os sintomas a
serem avaliados e a classificação dos genótipos em níveis de susceptibilidade.
Rana & Gupta (1968) propuseram um método de inoculação utilizando nós
expostos. Colmos de cana de seis meses de idade são selecionados para inoculação. As três
folhas mais velhas, não senescentes, são removidas com a bainha, expondo-se a região nodal.
Uma suspensão de esporos de C. falcatum é preparada, em água estéril, com concentração
de 106 conídios/mL e pulverizada na região até o ponto de escorrimento. Após quatro meses,
os colmos inoculados são rachados longitudinalmente e a severidade da doença é pontuada
com base em sintomas internos e externos, por meio de uma escala de notas definida pelos
autores.
Singh et al. (1978) propuseram um método de inoculação utilizando seedlings.
O inóculo é preparado raspando-se o micélio e os esporos do meio de cultura, e misturando-
os em água para preparo de uma suspensão. As plantas são pulverizadas, após o pôr do sol,
em condições de alta umidade relativa do ar. Cerca de 14 dias após a inoculação, as plantas
são avaliadas por sintomas nas folhas por escala de notas proposta pelos autores.
Mohanraj et al. (1998), com o objetivo de avaliar rapidamente a reação de
genótipos de cana-de-açúcar à podridão vermelha, desenvolveram um método de inoculação
sob condições ambientais ideais e controladas (Controlled Condition Testing – CCT). Os
terços superiores dos colmos, com idade de sete meses, são cortados com as folhas, e
acondicionados de forma vertical em leito de areia, dentro de uma câmara úmida com
temperatura mantida a 30°C, umidade acima de 90% e fotoperíodo de oito horas. Deve-se
garantir que o nó inferior do colmo esteja enterrado na areia. As folhas são então aparadas.
24
As duas folhas mais velhas, não senescentes, são removidas com a bainha, expondo-se a
região nodal. Mechas de algodão, de 10 cm de comprimento e 3 cm de largura, são
mergulhadas em suspensão de esporos de C. falcatum preparada, em água estéril, com
concentração de 106 conídios/mL, absorvendo cerca de 2 mL da suspensão. De sete a dez
dias após a inoculação as plantas são avaliadas conforme a escala proposta pelos autores.
Todos os métodos anteriormente relatados foram desenvolvidos por
pesquisadores indianos, em sua maioria, associados ao projeto All India Coordinated
Research Project on sugarcane (AICRP). O projeto AICRP é um programa nacional de
desenvolvimento de variedades de cana-de-açúcar, que segue processo rigoroso de seleção
de materiais com resistência à podridão vermelha. Inicialmente, os clones promissores são
selecionados utilizando-se o método do plug e a escala de notas proposta por Srinivasan &
Bath (1961), com uso de vinte colmos por clone. Os clones susceptíveis, mas com
características agronômicas desejáveis, são novamente rastreados pelo método de inoculação
de nós expostos, utilizando-se quinze colmos por clone. As suspensões de conídios são
preparadas utilizando-se um pool de isolados de C. falcatum, representativo dos patótipos
existentes. Os protocolos de inoculações e quantificação de danos estão apresentados no
trabalho de Mohanraj et al. (2012).
No Brasil, Giglioti & Canteri (1999), estudando o complexo broca-podridão,
validaram a quantificação de severidade da doença, pela utilização da porcentagem de área,
ao longo do colmo, colonizada pelo patógeno. Esta alternativa metodológica apresentou
correlação alta com os demais danos mensurados.
O Departamento de Agricultura dos Estados Unidos (United States Department
of Agriculture – USDA) avalia a reação de clones à podridão vermelha pela inoculação de
colmos maduros, com cerca de dez entrenós, em condições de laboratório. Os colmos são
cortados e levados ao laboratório, onde é feita uma desinfecção superficial com hipoclorito
de sódio. Um orifício de 3 mm de diâmetro é feito no meio de cada colmo. Cerca de 0,1 mL
de suspensão de conídios, com concentração de 2,5x106 conídios/ml, é depositada no interior
de cada colmo, que são mantidos à temperatura de 25°C. Após 25 dias de incubação os
colmos inoculados são rachados longitudinalmente e avaliados segundo escala de notas de
severidade que varia de 0 até 5 (Mohanraj et al., 2012).
Embora muitos aspectos relacionados à seleção voltada para resistência da cana-
de-açúcar à podridão vermelha tenham sido padronizados nos últimos anos, há muito espaço
para melhorias e ajustes finos nesses processos, sobretudo, pela utilização de técnicas de
25
fenotipagem mais modernas e que se tornaram mais acessíveis nos últimos anos. Não menos
importante, seria avançar no conhecimento dos mecanismos genéticos relacionados à
interação planta-patógeno, para identificar de forma mais precisa clones resistentes.
26
Nesse contexto, as pesquisas com GWAS surgiram como ferramenta que
permite o estudo do controle genético de caracteres complexos em nível de sequências
genômicas, explorando populações em que o LD é pequeno (Risch & Merikangas, 1996;
Nordborg & Tavaré, 2002), comumente obtidas em bancos de germoplasma, por exemplo.
Desde a sua aplicação em espécies vegetais (Thornsberry et al., 2001), os estudos
de GWAS têm sido cada vez mais empregados com o objetivo de se identificar os alelos
superiores para diferentes caracteres de interesse. Isto só foi possível com o advento das
tecnologias de análise genômica de alto rendimento, capazes de identificar centenas de
milhares de marcadores genéticos distribuídos ao longo do genoma, usualmente
polimorfismos de nucleotídeos únicos (Single Nucleotide Polimorphisms – SNPs) (Morris
& Cardon, 2019), assim como pelo desenvolvimento de métodos estatísticos robustos
utilizados na modelagem da variação fenotípica de caracteres de interesse (Zhu et al., 2008).
Em relação à análise de ligação tradicional, os GWAS possuem as seguintes
vantagens: aumento da resolução de mapeamento, redução do tempo de pesquisa e aumento
do número de alelos cujas associações a determinado caráter são detectadas (Yu & Buckler,
2006).
27
Existem várias estatísticas utilizadas na mensuração do LD (Devlin & Risch,
1995) que diferem entre si pelos efeitos do tamanho amostral e das frequências alélicas
(Hedrick, 1987). As estatísticas D’ (Lewontin, 1964) e r2 (Hill & Robertson, 1968) têm sido
bastante utilizadas na quantificação do LD por minimizarem o efeito das frequências alélicas
populacionais (Morris & Cardon, 2019).
Em termos de detecção de SNPs associados significativamente ao caráter sob
investigação, a estatística r2 é a medida de LD mais relevante (Zhu et al., 2008). O coeficiente
de determinação r2 varia de 0 a 1 e representa a proporção com que o polimorfismo de
determinado SNP é explicado por outro SNP. Se o r2 entre um par de SNPs é 1, isto significa
que toda variação de um SNP é explicada pelo outro SNP, e se for 0, isto significa que os
SNPs não estão ligados (Morris & Cardon, 2019). A esperança matemática de r2 é igual a
1/(1 + 4Nc) em que N é o tamanho efetivo populacional e c é a taxa de recombinação em
Morgans (Sved, 1971).
A existência de LD faz com que não seja necessário se genotipar todos os
polimorfismos de um determinado genoma, uma vez que SNPs podem ser selecionados, os
chamados tag SNPs, com base em um limiar predeterminado de r2, de forma que se consiga
recuperar a maior parte da informação sobre a variação genética presente no genoma
(Carlson et al., 2004). Nos GWAS, portanto, são tipicamente identificados SNPs que
possuem associação indireta com o caráter sob investigação, ou seja, que não são os próprios
polimorfismos causais, mas que se localizam em um mesmo bloco de LD que estes locos.
Se um polimorfismo causal é responsável pela fração de h2 da variação fenotípica de um
caráter, e possui com determinado SNP um LD de r2 então, este SNP explica h2 x r2 da
variação fenotípica do caráter (Hirschhorn & Daly, 2005; Zhu et al., 2008).
Valores de r2 de 0,1 a 0,2 são tipicamente utilizados para se estabelecer o alcance
do LD ao longo do genoma. Se o LD decair rapidamente, em distâncias menores, uma
resolução de mapeamento relativamente alta será esperada, mas, por outro lado, uma grande
quantidade de marcadores será requerida. Se o LD se estender por distâncias maiores, às
vezes de alguns cM, a resolução de mapeamento será baixa, mas um número relativamente
pequeno de marcadores será necessário para detecção de associações significativas (Zhu et
al., 2008).
28
2.3.3 Genotipagem
O sucesso dos GWAS depende da compreensão da estrutura da variação genética
ao longo de todo o genoma na população de estudo. Por isto, antes de se iniciar um estudo
de mapeamento por associação, é imprescindível que os pesquisadores avaliem
cuidadosamente todos os aspectos genéticos da espécie.
A avaliação do germoplasma disponível para a espécie é um aspecto relevante a
ser considerado (Flint-Garcia et al., 2003; Breseghello & Sorrels, 2006; Yu et al., 2006). A
diversidade genética, o nível de ploidia da espécie, a extensão do LD em todo o genoma, a
estrutura populacional e o parentesco determinam a resolução do mapeamento, a densidade
de marcadores, o método estatístico e o poder de detecção de associação da análise (Zhu et
al., 2008).
Os avanços das tecnologias de genotipagem e sequenciamento genético de alto
rendimento reduziram drasticamente os custos por data point de marcadores moleculares,
especialmente de SNPs (Hirschhorn & Daly, 2005; Syvänen, 2005). A facilidade de
identificação de centenas de milhares de SNPs pelo sequenciamento de um conjunto de
genótipos diversos e a genotipagem destes SNPs em grandes amostras faz com que a
estratégia de GWAS se torne cada vez mais utilizada para espécies de plantas. O projeto
Arabidopsis HapMap por exemplo, forneceu um catálogo de diversidade genética com mais
de um milhão de SNPs para a espécie, uma média de um SNP a cada 166 pares de base do
seu genoma (Clark et al., 2007).
Portanto, uma etapa fundamental, a ser cuidadosamente executada em estudos
de mapeamento por associação em escala genômica, é utilizar a alta capacidade dos
instrumentos de sequenciamento de DNA para identificação eficaz de SNPs em densidade
adequada, de modo a se captar com precisão a estrutura do LD de todo o genoma e toda a
diversidade de haplótipos existentes. Independentemente da plataforma de sequenciamento
utilizada, uma sequência de referência, de alta qualidade, do genoma completo, é
extremamente valiosa para construção do mapa de haplótipos (Zhu et al., 2008).
Após os SNPs serem identificados, tecnologias de genotipagem baseadas em
microarrays (chips) são amplamente utilizadas para se genotipar centenas de milhares ou
milhões de tags SNPs, em todo o genoma. As plataformas mais utilizadas neste contexto
incluem aquelas da Illumina e da Affymetrix/Thermofisher. Independentemente da
plataforma, os genótipos são determinados por meio de algoritmos de agrupamento
29
construídos para se identificar as três classes genotípicas esperadas em espécies diploides:
os homozigotos para cada alelo do SNP e os heterozigotos (Morris & Cardon, 2019).
Nesse contexto, a genotipagem de organismos poliploides frequentemente é
realizada por um modelo pseudo-diploide em que todos os heterozigotos são considerados
em uma única classe genotípica. No entanto, ao se negligenciar a existência das dosagens
alélicas, além dos erros de classificação dos genótipos, são esperados impactos diretamente
nas estimativas dos efeitos dos locos nas análises de GWAS (Aono et al., 2020; Silos et al.,
2022).
A determinação correta das classes genotípicas tem sido o maior desafio para
estudos genômicos em espécies poliploides (De Bem Oliveira et al., 2019). Considerando-
se a tecnologia de genotipagem por chips, os avanços são limitados a algoritmos de
agrupamento direcionados para espécies tetraploides (Schmitz Carley et al., 2017). Por outro
lado, quando se utiliza a tecnologia GbS (Genotyping by Sequencing), sobretudo com
elevadas coberturas de sequenciamento, na ordem de 60-80x, as dosagens alélicas têm sido
estimadas pela razão entre o número de reads que contêm determinado alelo e o número
total de reads. Esta forma de genotipagem tem sido tratada na literatura como “genotipagem
contínua”, e sua incorporação aos estudos genômicos tem sido cada vez maior. Por
representar de forma mais realista a diversidade de classes genotípicas, em geral, essa
abordagem consegue explicar melhor a variação genética dos caracteres de interesse (De
Bem Oliveira et al., 2019).
2.3.4 Fenotipagem
30
al., 2005). Enquanto a precisão e o rendimento da genotipagem melhoraram drasticamente
nos últimos anos, a obtenção de dados fenotípicos robustos continua sendo um obstáculo
para os estudos de mapeamento por associação em escala genômica (Zhu et al., 2008).
Diante disso, é imprescindível a utilização de delineamentos experimentais
adequados, principalmente quando se trabalha com populações grandes em que,
frequentemente, se torna necessário a adoção de delineamentos com blocos incompletos. A
escolha do método estatístico e a inclusão da interação QTLs x ambientes nos modelos
matemáticos devem ser explorados com o objetivo de se aumentar o poder de detecção de
associações significativas nas análises, especialmente em experimentos conduzidos em
campo, em que as condições ambientais podem ser heterogêneas (Eskridge, 2003).
Outro fator que deve ser levado em consideração durante a fenotipagem é o
impacto de outros caracteres na mensuração do caráter prioritariamente sob investigação.
Por exemplo, a suscetibilidade de determinados genótipos a patógenos prevalentes na área
experimental pode levar à detecção equivocada de associações entre marcadores genéticos e
caracteres morfológicos e/ou agronômicos de interesse (Zhu et al., 2008).
31
A filtragem de dados para identificação de erros de genotipagem é outro aspecto
fundamental para análise de GWAS que, caso negligenciada, pode introduzir vieses
sistemáticos na análise além de reduzir o poder de detecção de associações significativas e
aumentar a taxa de falsos positivos (Anderson et al., 2010).
32
quanto os efeitos aleatórios genéticos estruturados pelo parentesco genômico em GRM (Yu
et al., 2006). A estratificação populacional pode ser estimada tanto pela utilização do método
Structure (Pritchard et al., 2000b), quanto pela análise de componentes principais (Price et
al., 2006). Em relação à GRM, existem diversas abordagens atualmente empregadas para se
estimar parentesco, sendo o método de VanRaden (2008) amplamente utilizado no contexto
de análises de GWAS.
Vários métodos foram propostos para se aumentar a eficiência computacional de
resolução das equações de modelos lineares mistos por algoritmos iterativos (Tibbs Cortes
et al., 2020). O primeiro deles, referido como associação eficiente com modelos mistos
(Efficient Mixed-Model Association - EMMA), melhorou a velocidade computacional
eliminando operações matriciais redundantes (Kang et al., 2008). Alguns métodos melhoram
a velocidade computacional utilizando aproximações. O método de parâmetros
populacionais anteriormente determinados (P3D) estima os componentes de variância
apenas uma vez utilizando o modelo básico, isto é, o modelo antes de qualquer SNP ser
testado, ao invés de estimá-los, repetidamente, cada vez que um SNP é adicionado ao modelo
(Zhang et al., 2010). Entretanto, essas aproximações podem diferir das soluções exatas dos
modelos lineares mistos, especialmente na presença de forte estrutura populacional ou
quando se tem SNPs de efeitos expressivos (Zhou & Stephens, 2012).
Métodos que aumentam a eficiência computacional e que utilizam a resolução
exata das equações de modelos lineares mistos também foram desenvolvidos. Esses métodos
incluem a transformação do modelo linear misto pela fatoração espectral (Factored
Spectrally Transformed Linear Mixed Models – FaST-LMM) (Lippert et al., 2011) e a
análise eficiente de modelos mistos em escala genômica (Genome-wide Efficient Mixed
Model Analysis – GEMMA) (Zhou & Stephens, 2012). Ambos os métodos melhoram a
eficiência reescrevendo a função de verossimilhança do modelo linear misto de uma forma
mais fácil de se avaliar. A diferença entre o FaST-LMM e o GEMMA é que o primeiro
utiliza apenas uma subamostra de SNPs para o cálculo da GRM enquanto o segundo utiliza
todos os marcadores e produz um resultado idêntico ao EMMA só que com maior velocidade
(Lippert et al., 2011; Zhou & Stephens, 2012).
Métodos que aumentam o poder estatístico e a eficiência computacional,
simultaneamente, têm sido desenvolvidos (Tibbs Cortes et al., 2020). Métodos como
modelos lineares mistos comprimidos (Compressed Mixed Linear Models – CMLM) e
enriquecidos (Enriched Compressed Mixed Linear Models – ECMLM) utilizam uma GRM
33
comprimida. Ambos os métodos utilizam algoritmos de clusterização para agrupar os
indivíduos de acordo com a similaridade genotípica. O número ótimo de grupos é definido
de acordo com cada população. Os coeficientes de parentesco dentro e entre os grupos são
então sumarizados em uma matriz de parentesco reduzida, utilizada na resolução dos
modelos lineares mistos (Zhang et al., 2010; Li et al., 2014).
O CMLM sempre utiliza o método de agrupamento por médias aritméticas não
ponderadas (Unweighted Pair-Group Method with Arithmetic mean – UPGMA) e calcula o
parentesco entre os grupos como a média de todos os valores de parentesco individual entre
grupos (Zhang et al., 2010). Já o ECMLM adiciona mais dois parâmetros a serem
otimizados: o algoritmo de clusterização usado para agrupar os indivíduos (escolhidos dentre
oito algoritmos de agrupamento hierárquico), bem como o método utilizado para se calcular
o parentesco entre os grupos (média, máximo ou mediana) (Li et al., 2014).
Alguns métodos calculam a matriz de parentesco com maior velocidade,
utilizando um número reduzido de SNPs. O FaST-LMM utiliza esta abordagem para
aumentar a eficiência computacional, mas a seleção cuidadosa dos SNPs para se estimar a
GRM pode aumentar o poder de análise como implementado no FaST-LMM-Select
(Listgarten et al., 2012) e no modelo linear misto sob parentesco progressivamente exclusivo
(Settlement of mixed linear models Under Progressively Exclusive Relationship – SUPER)
(Wang et al., 2014).
Nestes dois últimos métodos, a primeira etapa é realizar uma regressão linear
simples do fenótipo em função da variação alélica para cada SNP. Em seguida, os SNPs são
classificados com base na magnitude de sua associação com o caráter de interesse. No FaST-
LMM-Select, a próxima etapa é construir matrizes de similaridade genética com números
crescentes desses SNPs, começando com aqueles SNPs com os menores p-valores obtidos
por regressão linear. A matriz que minimiza o fator de controle genômico é utilizada como
GRM no modelo linear misto (Listgarten et al., 2012). No SUPER, após classificar SNPs
pela magnitude da associação com o caráter de interesse, o genoma é dividido em segmentos
(bins). Dentro de cada bin, o SNP com menor p-valor é designado como um pseudo
nucleotídeo que participa do controle de caracteres quantitativos (Quantitative Trait
Nucleotide – QTN). O tamanho e o número de bins é otimizado por máxima
verossimilhança. Finalmente, estes pseudo-QTNs são utilizados para se construir a matriz
de parentesco reduzida (Wang et al., 2014).
34
Ambos os métodos foram projetados para usar o algoritmo FaST-LMM para
resolver o modelo linear misto. Além disso, enquanto um determinado SNP está sendo
testado no modelo, esses métodos irão excluir este SNP e aqueles em LD com ele do cálculo
da matriz de parentesco para evitar confundimento. No geral, o SUPER é um pouco mais
poderoso do que FaSTLMM-Select, especialmente para caracteres com maior herdabilidade,
mas, tem menor eficiência computacional. Ambos os métodos podem ser potencialmente
combinados com CMLM ou ECMLM (Tibbs Cortes et al., 2020).
Métodos multilocos melhoram o poder estatístico incorporando vários
marcadores no modelo, simultaneamente, como covariáveis. Esta abordagem foi
implementada pela primeira vez no modelo misto multilocos (Multi-locus Mixed Model –
MLMM). O MLMM é uma abordagem iterativa em que, em cada etapa, os componentes de
variância genética e residual são estimados e usados para se calcular o p-valor para a
associação de cada SNP com o caráter de interesse. O método EMMA é utilizado para
calcular a matriz de parentesco. O SNP mais significativo encontrado é então adicionado ao
modelo como fator de efeito fixo e o processo é repetido. O processo continua até um limite
definido pelo usuário ou até quando o próximo SNP adicionado como covariável explicar
quase nada da variância genética. Em seguida, uma regressão stepwise é utilizada para se
ajustar o modelo que melhor explica a variação dos dados, eliminando progressivamente
parte dos SNPs adicionados como covariáveis de efeito fixo, a cada iteração. O número ideal
de iterações é determinado usando o critério de informação bayesiano, e as magnitudes dos
efeitos dos SNPs e os p-valores dessa etapa fornecem os resultados finais (Segura et al.,
2012).
Outros métodos multilocos que se baseiam no MLMM incluem unificação de
probabilidade de circulação de modelo fixo e aleatório (Fixed and random model Circulating
Probability Unification – FarmCPU) (Liu et al., 2016) e informação bayesiana e LD
iterativamente aninhado (Bayesian information and LD Iteratively Nested Keyway - BLINK)
(Huang et al., 2019).
O FarmCPU é um método multilocos que reduz o rank da matriz de parentesco
do SUPER para melhorar o poder e a eficiência computacional. Este método combina a parte
fixa do MLMM com a parte aleatória do SUPER, usando máxima verossimilhança restrita
(Restricted Maximum Likelihood - REML) como critério de otimização (Liu et al., 2016).
O método FarmCPU foi modificado por seus criadores para produzir o método
BLINK, que aumenta o poder, relaxando a exigência do SUPER de que os QTNs estejam
35
distribuídos uniformemente em bins ao invés de poderem estar agrupados dentro do genoma.
Essa modificação também melhora a eficiência computacional, pois a otimização do
tamanho e do número de bins não é mais necessária. Além disso, o BLINK melhora a
eficiência substituindo o modelo de efeito aleatório e a otimização via REML, por um
modelo de efeito fixo que utiliza a informação bayesiana como critério de otimização (Huang
et al., 2019).
36
2.4 SELEÇÃO GENÔMICA (GS)
37
aplicados à população de seleção. A população de seleção, por sua vez, é apenas genotipada.
Os VGGs são preditos para seus indivíduos e a seleção é realizada. É importante destacar
que os eventos de recombinação subsequentes à calibração do modelo, que ocorrerem nas
populações de seleção, podem diminuir a extensão do LD, sendo necessárias recalibrações
dos modelos por meio de novas fenotipagens (Resende Jr., 2013).
A depender dos recursos humanos, físicos e financeiros do programa de
melhoramento, três estratégias podem ser adotadas: utilização de três populações
constituídas por indivíduos distintos; utilização da mesma população para treinamento e
validação e uma população distinta para seleção; e utilização da mesma população para
treinamento, validação e seleção. Nas duas últimas situações, para que os efeitos dos
marcadores não sejam superestimados, em função da estimação e validação ocorrerem na
mesma amostra, é necessária a aplicação de alguma técnica de validação cruzada ou a
subdivisão da população, sucessivas vezes, em populações de treinamento e validação, por
meio de amostragem, sem reposição, aleatória ou estratificada em função de similaridades
fenotípicas e/ou genéticas (Resende Jr., 2013).
38
Ainda no contexto dos modelos lineares mistos, a relação de parentesco entre os
indivíduos pode ser utilizada para se estruturar os efeitos aleatórios dos genótipos. Essa
abordagem foi estendida para dados genômicos pelo método GBLUP (Genomic Best Linear
Unbiased Predictor), proposto por VanRaden (2008). Neste método, os efeitos aleatórios de
genótipos são considerados como estruturados pela matriz de parentesco genômico (GRM),
estimada com base em medidas de identidade por estado (VanRaden, 2008). Os métodos
RRBLUP e GBLUP produzem resultados idênticos, no entanto, GBLUP tem melhor
eficiência computacional por estimar diretamente, via GRM, os VGGs (Resende Jr., 2013;
López et al., 2022).
Os métodos RRBLUP e GBLUP assumem distribuição normal para os efeitos
dos marcadores e variância genética constante entre os locos. Essa suposição equivale ao
modelo infinitesimal de Fisher e funciona bem para caracteres controlados por grande
número de QTLs de efeitos modestos (Resende Jr., 2013). No entanto, na presença de QTLs
que explicam grande parte da variação genética do caráter, a penalização por um shrinkage
constante pode subestimar o efeito de marcadores relevantes (Bernardo, 2014).
Nesse contexto, Meuwissen et al. (2001) propuseram métodos de regressão
explícita, bayesianos, que permitem modelar a variância genética de cada loco. Os métodos
conhecidos como “alfabeto bayesiano” aplicam, portanto, uma penalização, via shrinkage,
diferente para cada marcador. Marcadores cujas variâncias genéticas são menores sofrem
maiores penalizações, forçando que seus efeitos se aproximem mais de zero.
O método BayesA assume, a priori, que os efeitos dos marcadores são amostras
de uma distribuição normal de média zero e que as variâncias dos marcadores são
heterogêneas, dadas por uma distribuição Qui-quadrado invertida e escalonada e que,
portanto, ambas variáveis podem ser relacionadas por meio de uma distribuição t de Student,
a priori. O método BayesB utiliza as mesmas prioris que o método BayesA, no entanto,
assume que uma proporção π de marcadores possuem efeito igual a zero. Portanto, as
variâncias genéticas dos marcadores têm probabilidade π de ser zero e 1- π de serem dadas
por uma distribuição Qui-quadrado invertida e escalonada (Meuwissen et al., 2001).
O método BayesB utiliza tanto a penalização via shrinkage quanto a seleção de
variáveis para minimizar a superparametrização. No entanto, como o valor de π é definido
de forma arbitrária, é necessário que o pesquisador conheça, previamente, a arquitetura
genética do caráter de interesse (Resende Jr., 2013).
39
Uma modificação no método BayesB foi proposta por Habier et al. (2011) e o
método recebeu o nome de BayesDπ. O método BayesDπ inclui uma distribuição uniforme,
a priori, para se estimar o parâmetro π utilizando os dados genômicos. Essa estimativa de π
é utilizada no método BayesB para obtenção dos efeitos dos marcadores. Já o método
BayesCπ utiliza as mesmas prioris do modelo BayesDπ, exceto no que diz respeito às
variâncias genéticas dos marcadores assumidas como constantes (Habier et al., 2011). Ainda
no contexto bayesiano outro modelo bastante utilizado é o LASSO (Least Absolute
Shrinkage and Selection Operator) bayesiano (Park & Casella, 2008), que, a exemplo do
método BayesA, minimiza a superparametrização apenas pela aplicação de shrinkages
específicos, de acordo com o tamanho do efeito e da variância do marcador, assumindo a
priori, uma distribuição exponencial dupla para os valores destes parâmetros, ao invés da
distribuição t de Student.
Os métodos anteriormente discutidos são considerados métodos clássicos de
análise de GS. Diversas outras abordagens têm sido propostas com a finalidade de melhorar
as capacidades preditivas dos modelos, relaxando-se as pressuposições paramétricas
intrínsecas dos modelos bayesianos e frequentistas. Nesse sentido, os modelos semi-
paramétricos ou não paramétricos como: regressão de Kernel (Reproducing Kernel Hilbert
Spaces - RKHS) (Gianola et al., 2006), redes neurais artificiais (Gianola & De los Campos,
2009); além de métodos baseados em aprendizado de máquinas como: floresta aleatória
(Random Forest) (Breiman, 2001), máquina de aumento de gradiente (Gradient Boosting
Machine – GBM) (Friedman, 2001) e aumento extremo de gradiente (Extreme Gradient
Boosting - XgBoost) (Chen & He, 2015), têm sido bastante utilizados. Além desses, existe
uma diversidade de outros métodos que podem ser aplicados, cabendo ao melhorista escolher
aquele que melhor explica a arquitetura genética do caráter, para que a habilidade preditiva
reflita em maiores ganhos com a seleção.
40
paramétricos, frequentistas ou bayesianos, apesar de o modelo regressão de Kernel (RKHS)
também ser bastante utilizado (Mahadevaiah et al., 2021).
Deomano et al. (2020) utilizaram três populações compostas, respectivamente,
por 467, 1146 e 738 clones, e avaliadas em diversos estados australianos, para teor de
sacarose e produtividade. Os modelos de GS foram calibrados e validados nas três
populações, de forma independente. A população composta por 738 indivíduos representou
clones que estavam nas fases finais dos programas de melhoramento australianos, enquanto,
as duas outras representaram clones que estavam nas fases iniciais. Para os dois caracteres,
as habilidades preditivas variaram de 0,25 a 0,45. As maiores capacidades preditivas para
produtividade, na ordem de 0,4, foram observadas para os modelos que utilizaram para
calibração e validação populações das fases iniciais dos programas. Para teor de sacarose, os
melhores resultados, em torno de 0,45, foram observados para os modelos que utilizaram
para calibração e validação populações das fases finais dos programas. A inclusão da
informação de pedigree não melhorou a habilidade preditiva dos modelos.
Também na Austrália, Hayes et al. (2021) utilizaram informações fenotípicas de
3984 clones, provenientes de diversos experimentos. As habilidades preditivas dos
diferentes modelos, para teor de sacarose e teor de fibra, alcançaram valores acima de 0,4,
enquanto para produtividade ficaram em torno de 0,3. O’connell et al. (2022), por meio da
avaliação de um painel de 305 clones, também alcançaram habilidades preditivas em torno
de 0,3, tanto para produtividade quanto para teor de sacarose. Além destes caracteres,
também foi avaliada a reação dos clones à podridão vermelha do colmo. Neste caso, os
autores combinaram ferramentas de GWAS e GS e alcançaram habilidades preditivas em
torno de 0,5 para esse caráter.
A maioria dos trabalhos de GS em cana-de-açúcar utilizaram para genotipagem
a tecnologia Axiom™ SNP array e para determinação dos genótipos o modelo pseudo-
diploide tradicional (Deomano et al., 2020; Hayes et al., 2021; O’connell et al., 2022). A
utilização da chamada “genotipagem contínua” como estimativa da dosagem alélica, foi
incorporada aos modelos de GS em cana-de-açúcar, no Brasil, por Aono et al. (2022),
utilizando a tecnologia GbS (Genotyping by Sequencing). Embora com habilidades
preditivas acima de 0,8, os autores avaliaram apenas os caracteres diâmetro e comprimento
de colmos. Efeitos não-aditivos também têm sido incluídos com frequência nos modelos
pseudo-diploides (Mahadevaiah et al., 2021). Para modelos que consideram estimativas de
dosagem alélica, em geral, apenas os efeitos de substituição alélica são considerados, devido
41
à complexidade das interações entre alelos ou entre locos, que ocorre em uma espécie aneu-
poliplóide (De Bem Oliveira et al., 2019); tal como em certos híbridos de cana-de-açúcar.
2.5 REFERÊNCIAS
AFDC. Alternative Fuels Data Center. Maps and data: global ethanol production by
country or region. 2021. Disponível em: https://www.afdc.energy.gov/data/. Acesso em: 20
maio 2023.
AGNIHOTRI, V. P. Diseases of sugarcane. New Delhi: Oxford and IBH, 1983. 363 p.
AONO, A. H.; COSTA, E. A.; RODY, H. V. S.; NAGAI, J. S.; PIMENTA, R. J. G.;
MANCINI, M. C.; DOS SANTOS, F. R. C.; PINTO, L. R.; LANDELL, M. G. D. A.; DE
SOUZA, A. P. Machine learning approaches reveal genomic regions associated with
sugarcane brown rust resistance. Scientific Reports, v. 10, n. 1, p. 1-17, 2020.
BABU, C.; NATARAJAN, U.; SHANTHI, R.; GOVINDARAJ, P.; SUNDER, A. R.;
VISWANATHAN, R. Inheritance of red rot resistance in sugarcane (Saccharum sp.
hybrids). Sugar Tech, v. 12, n. 2, p. 167-171, 2010.
BANERJEE, N.; KHAN, M. S.; SWAPNA, M.; SINGH, R.; KUMAR, S. Progress and
prospects of association mapping in sugarcane (Saccharum species hybrid), a complex
polyploid crop. Sugar Tech, p. 1-15, 2020.
42
BENJAMINI, Y.; HOCHBERG, Y. Controlling the false discovery rate: a practical and
powerful approach to multiple testing. Journal of the Royal statistical society: series B
(Methodological), v. 57, n. 1, p. 289-300, 1995.
BERKMAN, P. J.; BUNDOCK, P. C.; CASU, R. E.; HENRY, R. J.; RAE, A. L.; AITKEN,
K. S. A survey sequence comparison of Saccharum genotypes reveals allelic diversity
differences. Tropical Plant Biology, v. 7, n. 2, p. 71-83, 2014.
BERNARDO, R. Genomewide selection when major genes are known. Crop Science, v.
54, n. 1, p. 68-75, 2014.
BILAL, M.; SAEED, M.; NASIR, I. A.; TABASSUM, B.; ZAMEER, M.; KHAN, A.;
TARIQ, M.; JAVED, M. A.; HUSNAIN, T. Association mapping of cane weight and tillers
per plant in sugarcane. Biotechnology & Biotechnological Equipment, v. 29, n. 4, p. 617-
623, 2015.
CARLSON, C. S.; EBERLE, M. A.; RIEDER, M. J.; YI, Q.; KRUGLYAK, L.;
NICKERSON, D. A. Selecting a maximally informative set of single-nucleotide
polymorphisms for association analyzes using linkage disequilibrium. The American
Journal of Human Genetics, v. 74, n. 1, p. 106-120, 2004.
CHEN, T.; HE, T. Higgs boson discovery with boosted trees. In: NIPS WORKSHOP ON
HIGH-ENERGY PHYSICS AND MACHINE LEARNING, 2014., Montreal. Proceeding
[...]. Montreal: PMLR, 2015. p. 69-80.
43
CHONA, B. Studies on the diseases of sugarcane in India. IV. Relative resistance of
sugarcane varieties to red rot. Indian Journal of Agricultural Sciences, v. 24, p. 301-315,
1954.
CLARK, R. M.; SCHWEIKERT, G.; TOOMAJIAN, C.; OSSOWSKI, S.; ZELLER, G.;
SHINN, P.; WARTHMANN, N.; HU, T. T.; FU, G.; HINDS, D. A. Common sequence
polymorphisms shaping genetic diversity in Arabidopsis thaliana. Science, v. 317, n. 5836,
p. 338-342, 2007.
D’HONT, A. Unraveling the genome structure of polyploids using FISH and GISH;
examples of sugarcane and banana. Cytogenetic and Genome Research, v. 109, n. 1-3, p.
27-33, 2005.
D’HONT, A.; GRIVET, L.; FELDMANN, P.; GLASZMANN, J.; RAO, S.; BERDING, N.
Characterisation of the double genome structure of modern sugarcane cultivars (Saccharum
spp.) by molecular cytogenetics. Molecular and General Genetics MGG, v. 250, n. 4, p.
405-413, 1996.
D’HONT, A.; ISON, D.; ALIX, K.; ROUX, C.; GLASZMANN, J. C. Determination of basic
chromosome numbers in the genus Saccharum by physical mapping of ribosomal RNA
genes. Genome, v. 41, n. 2, p. 221-225, 1998.
DE BEM OLIVEIRA, I.; RESENDE JR, M. F.; FERRÃO, L. F. V.; AMADEU, R. R.;
ENDELMAN, J. B.; KIRST, M.; COELHO, A. S.; MUNOZ, P. R. Genomic prediction of
autotetraploids; influence of relationship matrices, allele dosage, and continuous genotyping
calls in phenotype prediction. G3: Genes, Genomes, Genetics, v. 9, n. 4, p. 1189-1198,
2019.
44
DEOMANO, E.; JACKSON, P.; WEI, X.; AITKEN, K.; KOTA, R.; PÉREZ-RODRÍGUEZ,
P. Genomic prediction of sugar content and cane yield in sugar cane clones in different stages
of selection in a breeding program, with and without pedigree information. Molecular
Breeding, v. 40, p. 1-12, 2020.
DILLON, S. L.; SHAPTER, F. M.; HENRY, R. J.; CORDEIRO, G.; IZQUIERDO, L.; LEE,
L. S. Domestication to crop improvement: genetic resources for Sorghum and Saccharum
(Andropogoneae). Annals of Botany, v. 100, n. 5, p. 975-989, 2007.
DUFOUR, P.; GRIVET, L.; D'HONT, A.; DEU, M.; TROUCHE, G.; GLASZMANN, J.-
C.; HAMON, P. Comparative genetic mapping between duplicated segments on maize
chromosomes 3 and 8 and homoeologous regions in sorghum and sugarcane. Theoretical
and Applied Genetics, v. 92, n. 8, p. 1024-1030, 1996.
DUTTAMAJUMDER, S.; SINGH, R. Revised criteria for grading resistance against red rot
disease of sugarcane. Indian Phytopathology, v. 52, n. 2, p. 157-159, 1999.
EDMÉ, S. J.; MILLER, J. D.; GLAZ, B.; TAI, P. Y.; COMSTOCK, J. C. Genetic
contribution to yield gains in the Florida sugarcane industry across 33 years. Crop Science,
v. 45, n. 1, p. 92-97, 2005.
ESKRIDGE, K. M. Field design and the search for quantitative trait loci in plants. In:
GRAYBILL CONFERENCE, 2003, Colorado. Anais eletrônicos [...]. Colorado: Colorado
State University, 2003. Disponível em:
<https://www.stat.colostate.edu/graybillconference2003/Abstracts/Eskridge.html>. Acesso
em: 20 maio. 2023.
FAO. Food and Agriculture Organization of the United States. Crops and Livestock
Products. 2021. Disponível em: http://www.fao.org/faostat/en/#data/QCL. Acesso em: 20
maio 2023.
45
FLINT‐GARCIA, S. A.; THUILLET, A. C.; YU, J.; PRESSOIR, G.; ROMERO, S. M.;
MITCHELL, S. E.; DOEBLEY, J.; KRESOVICH, S.; GOODMAN, M. M.; BUCKLER, E.
S. Maize association population: a high‐resolution platform for quantitative trait locus
dissection. The Plant Journal, v. 44, n. 6, p. 1054-1064, 2005.
GARSMEUR, O.; CHARRON, C.; BOCS, S.; JOUFFE, V.; SAMAIN, S.; COULOUX, A.;
DROC, G.; ZINI, C.; GLASZMANN, J. C.; VAN SLUYS, M. A. High homologous gene
conservation despite extreme autopolyploid redundancy in sugarcane. New Phytologist, v.
189, n. 2, p. 629-642, 2011.
GIANOLA, D.; DE LOS CAMPOS, G. Inferring genetic values for quantitative traits
nonparametrically. Genetical Research, v. 90, n. 6, p. 525-540, 2009.
GLASZMANN, J.-C.; DUFOUR, P.; GRIVET, L.; D'HONT, A.; DEU, M.; PAULET, F.;
HAMON, P. Comparative genome analysis between several tropical grasses. Euphytica, v.
96, n. 1, p. 13-21, 1997.
GOFF, S. A.; RICKE, D.; LAN, T.-H.; PRESTING, G.; WANG, R.; DUNN, M.;
GLAZEBROOK, J.; SESSIONS, A.; OELLER, P.; VARMA, H. A draft sequence of the
rice genome (Oryza sativa L. ssp. japonica). Science, v. 296, n. 5565, p. 92-100, 2002.
HA, S.; MOORE, P. H.; HEINZ, D.; KATO, S.; OHMIDO, N.; FUKUI, K. Quantitative
chromosome map of the polyploid Saccharum spontaneum by multicolor fluorescence in
situ hybridization and imaging methods. Plant Molecular Biology, v. 39, n. 6, p. 1165-1173,
1999.
46
HABIER, D.; FERNANDO, R.; KIZILKAYA, K.; GARRICK, D. Extension of the
Bayesian alphabet for genomic selection. BMC Bioinformatics, v. 12, n. 1, p. 1-12, 2011.
HAYES, B. J.; WEI, X.; JOYCE, P.; ATKIN, F.; DEOMANO, E.; YUE, J.; VOSS-FELS,
K. P. Accuracy of genomic prediction of complex traits in sugarcane. Theoretical and
Applied Genetics, v. 134, p. 1455-1462, 2021.
HOLTE, S.; QUIAOIT, F.; HSU, L.; DAVIDOV, O.; ZHAO, L. P. A population based
family study of a common oligogenic disease—part I: Association/aggregation analysis.
Genetic epidemiology, v. 14, n. 6, p. 803-807, 1997.
HUANG, M.; LIU, X.; ZHOU, Y.; SUMMERS, R. M.; ZHANG, Z. BLINK: a package for
the next level of genome-wide association studies with both individuals and markers in the
millions. GigaScience, v. 8, n. 2, p. 1-12, 2019.
HUSSNAIN, Z.; AFGHAN, S. Impact of major cane diseases on sugarcane yield and sugar
recovery. Annual Report, Shakarganj Sugar Research Institute, Jhang, p. 78-80, 2006.
JANNOO, N.; GRIVET, L.; CHANTRET, N.; GARSMEUR, O.; GLASZMANN, J. C.;
ARRUDA, P.; D’HONT, A. Orthologous comparison in a gene‐rich region among grasses
reveals stability in the sugarcane polyploid genome. The Plant Journal, v. 50, n. 4, p. 574-
585, 2007.
JIAO, Y.; PELUSO, P.; SHI, J.; LIANG, T.; STITZER, M. C.; WANG, B.; CAMPBELL,
M. S.; STEIN, J. C.; WEI, X.; CHIN, C.-S. Improved maize reference genome with single-
molecule technologies. Nature, v. 546, n. 7659, p. 524-527, 2017.
47
KANG, H. M.; SUL, J. H.; SERVICE, S. K.; ZAITLEN, N. A.; KONG, S.-Y.; FREIMER,
N. B.; SABATTI, C.; ESKIN, E. Variance component model to account for sample structure
in genome-wide association studies. Nature Genetics, v. 42, n. 4, p. 348-354, 2010.
KANG, H. M.; ZAITLEN, N. A.; WADE, C. M.; KIRBY, A.; HECKERMAN, D.; DALY,
M. J.; ESKIN, E. Efficient control of population structure in model organism association
mapping. Genetics, v. 178, n. 3, p. 1709-1723, 2008.
KARAYIORGOU, M.; SOBIN, C.; BLUNDELL, M. L.; GALKE, B. L.; MALINOVA, L.;
GOLDBERG, P.; OTT, J.; GOGOS, J. A. Family-based association studies support a
sexually dimorphic effect of COMT and MAOA on genetic susceptibility to obsessive-
compulsive disorder. Biological Psychiatry, v. 45, n. 9, p. 1178-1189, 1999.
KEARSEY, M.; FARQUHAR, A. QTL analysis in plants; where are we now? Heredity, v.
80, n. 2, p. 137-142, 1998.
LE CUNFF, L.; GARSMEUR, O.; RABOIN, L. M.; PAUQUET, J.; TELISMART, H.;
SELVI, A.; GRIVET, L.; PHILIPPE, R.; BEGUM, D.; DEU, M. Diploid/polyploid syntenic
shuttle mapping and haplotype-specific chromosome walking toward a rust resistance gene
(Bru1) in highly polyploid sugarcane (2n∼ 12x∼ 115). Genetics, v. 180, n. 1, p. 649-660,
2008.
Li, B.; Zhang, N.; Wang, Y. G.; George, A. W.; Reverter, A.; Li, Y. Genomic prediction of
breeding values using a subset of SNPs identified by three machine learning
methods. Frontiers in Genetics, v. 9, p. 237, 2018.
LI, M.; LIU, X.; BRADBURY, P.; YU, J.; ZHANG, Y.-M.; TODHUNTER, R. J.;
BUCKLER, E. S.; ZHANG, Z. Enrichment of statistical power for genome-wide association
studies. BMC Biology, v. 12, n. 1, p. 1-10, 2014.
LIPPERT, C.; LISTGARTEN, J.; LIU, Y.; KADIE, C. M.; DAVIDSON, R. I.;
HECKERMAN, D. FaST linear mixed models for genome-wide association studies. Nature
Methods, v. 8, n. 10, p. 833-835, 2011.
LISTGARTEN, J.; LIPPERT, C.; KADIE, C. M.; DAVIDSON, R. I.; ESKIN, E.;
HECKERMAN, D. Improved linear mixed models for genome-wide association studies.
Nature Methods, v. 9, n. 6, p. 525-526, 2012.
48
LIU, X.; HUANG, M.; FAN, B.; BUCKLER, E. S.; ZHANG, Z. Iterative usage of fixed and
random effect models for powerful and efficient genome-wide association studies. PLoS
genetics, v. 12, n. 2, p. 1-24, 2016.
MAHADEVAIAH, C.; APPUNU, C.; AITKEN, K.; SURESHA, G. S.; VIGNESH, P.;
MAHADEVA SWAMY, H. K.; RAM, B. Genomic selection in sugarcane: current status
and future prospects. Frontiers in Plant Science, v. 12, p. 1-18, 2021.
MANOLIO, T. A.; COLLINS, F. S.; COX, N. J.; GOLDSTEIN, D. B.; HINDORFF, L. A.;
HUNTER, D. J.; MCCARTHY, M. I.; RAMOS, E. M.; CARDON, L. R.; CHAKRAVARTI,
A. Finding the missing heritability of complex diseases. Nature, v. 461, n. 7265, p. 747-753,
2009.
MCGOWAN, M.; WANG, J.; DONG, H.; LIU, X.; JIA, Y.; WANG, X.; IWATA, H.; LI,
Y.; LIPKA, A. E.; ZHANG, Z. Ideas in Genomic Selection with the Potential to Transform
Plant Molecular Breeding: A Review. In: GOLDMAN, I. (ed.). Plant Breeding Reviewers.
Nova Jersey: John Wiley & Sons Inc, 2022. v. 45, cap. 7, p. 273-307.
MEUWISSEN, T. H.; HAYES, B. J.; GODDARD, M. Prediction of total genetic value using
genome-wide dense marker maps. Genetics, v. 157, n. 4, p. 1819-1829, 2001.
MING, R.; LIU, S.; LIN, Y.; DA SILVA, J.; WILSON, W.; BRAGA, D.; VAN DEYNZE,
A.; WENSLAFF, T.; WU, K.; MOORE, P. Detailed alignment of Saccharum and Sorghum
chromosomes: comparative organization of closely related diploid and polyploid genomes.
Genetics, v. 150, n. 4, p. 1663-1682, 1998.
MING, R.; MOORE, P. H.; WU, K. K.; D’HONT, A.; GLASZMANN, J. C.; TEW, T. L.;
MIRKOV, T. E.; DA SILVA, J.; JIFON, J.; RAI, M; SCHNELL, R. J.; BRUMBLEY, S.
M.; LAKSHMANAN, P.; COMSTOCK, J. C.; PATERSON, A. H. Sugarcane improvement
through breeding and biotechnology. In: JANICK, J. (ed.). Plant Breeding Reviews. West
Lafayette: Perdue University, 2010. v. 27, cap. 2, p. 15-118.
49
MYCOBANK. Fungal Databases, Nomenclature & Species Banks. Colletotrichum
falcatum general information. 2023. Disponível em: <http://www.mycobank.org/
page/Name%20details%20page/5969>. Acesso em: 20 maio. 2023.
NANDAKUMAR, M.; MALATHI, P.; SUNDAR, A.; VISWANATHAN, R. Expression
analyzes of resistance-associated candidate genes during sugarcane-Colletotrichum falcatum
Went interaction. Sugar Tech, v. 23, n. 5, p. 1056-1063, 2021.
NORDBORG, M.; TAVARÉ, S. Linkage disequilibrium: what history has to tell us. Trends
in Genetics, v. 18, n. 2, p. 83-90, 2002.
O’CONNEL, A.; DEO, J.; DEOMANO, E.; WEI, X.; JACKSON, P.; AITKEN, K. S.;
MANIMEKALAI, R.; MOHANRAJ, K.; HEMAPRABHA, G.; RAM, B. Combining
genomic selection with genome-wide association analysis identified a large-effect QTL and
improved selection for red rot resistance in sugarcane. Frontiers in Plant Science, v. 13, p.
1-16, 2022.
OKURA, V.; DA SILVA, F. R.; DA SILVA, M. J.; KUDRNA, D.; AMMIRAJU, J. S.;
TALAG, J.; WING, R.; ARRUDA, P. A BAC library of the SP80-3280 sugarcane variety
(Saccharum sp.) and its inferred microsynteny with the sorghum genome. BMC research
notes, v. 5, n. 1, p. 1-11, 2012.
OUYANG, S.; ZHU, W.; HAMILTON, J.; LIN, H.; CAMPBELL, M.; CHILDS, K.;
THIBAUD-NISSEN, F.; MALEK, R. L.; LEE, Y.; ZHENG, L. The TIGR rice genome
annotation resource: improvements and new features. Nucleic Acids Research, v. 35, n.
suppl_1, p. D883-D887, 2007.
PARK, T.; CASELLA, G. The Bayesian LASSO. Journal of the American Statistical
Association, v. 103, n. 482, p. 681-686, 2008.
PATERSON, A. H.; LIN, Y.-R.; LI, Z.; SCHERTZ, K. F.; DOEBLEY, J. F.; PINSON, S.
R.; LIU, S.-C.; STANSEL, J. W.; IRVINE, J. E. Convergent domestication of cereal crops
by independent mutations at corresponding genetic loci. Science, v. 269, n. 5231, p. 1714-
1718, 1995.
PlantGDB. Resources for Plant Comparative Genomics. Sorghum bicolor Genome. 2023.
Disponível em: <http://www.plantgdb.org/SbGDB/>. Acesso em: 20 maio. 2023.
50
PRITCHARD, J. K.; STEPHENS, M.; DONNELLY, P. Inference of population structure
using multilocus genotype data. Genetics, v. 155, n. 2, p. 945-959, 2000a.
RANA, O.; GUPTA, S. An easy method of screening out red rot susceptible varieties at
initial stages of multiplication. Indian Sugar, v. 18, n. 6, p. 447-452, 1968.
RISCH, N.; MERIKANGAS, K. The future of genetic studies of complex human diseases.
Science, v. 273, n. 5281, p. 1516-1517, 1996.
ROSSI, M.; ARAUJO, P. G.; PAULET, F.; GARSMEUR, O.; DIAS, V. M.; CHEN, H.;
VAN SLUYS, M.-A.; D'HONT, A. Genomic distribution and characterization of EST-
derived resistance gene analogs (RGAs) in sugarcane. Molecular Genetics and Genomics,
v. 269, n. 3, p. 406-419, 2003.
SCHMITZ CARLEY, C. A.; COOMBS, J. J.; DOUCHES, D. S.; BETHKE, P. C.; PALTA,
J. P.; NOVY, R. G.; ENDELMAN, J. B. Automated tetraploid genotype calling by
hierarchical clustering. Theoretical and Applied Genetics, v. 130, p. 717-726, 2017.
SCHNABLE, P. S.; WARE, D.; FULTON, R. S.; STEIN, J. C.; WEI, F.; PASTERNAK, S.;
LIANG, C.; ZHANG, J.; FULTON, L.; GRAVES, T. A. The B73 maize genome:
complexity, diversity, and dynamics. Science, v. 326, n. 5956, p. 1112-1115, 2009.
SEGURA, V.; VILHJÁLMSSON, B. J.; PLATT, A.; KORTE, A.; SEREN, Ü.; LONG, Q.;
NORDBORG, M. An efficient multi-locus mixed-model approach for genome-wide
association studies in structured populations. Nature Genetics, v. 44, n. 7, p. 825, 2012.
51
SHARMA, R.; TAMTA, S. A Review on Red Rot: the “cancer” of sugarcane. Journal of
Plant Pathology and Microbiology, v. 6, p. 1-8, 2015.
SILOS, R. G.; FISCHER, C.; BERMEJO, J. L. NGS allele counts versus called genotypes
for testing genetic association. Computational and Structural Biotechnology Journal, v.
20, p. 3729-3733, 2022.
SINGH, H.; GUPTA, S.; SINGH, S.; SINGH, M. Improvement of the technique for
screening against red rot at the seedling stage. Sugarcane Pathologists Newsletter, 1978.
SINGH, K.; BUDHRAJA, T. Method of inoculating sugarcane varieties for red rot. Plant
Disease Reporter, v. 48, p. 191-93, 1964.
SINGH, R. K.; BANERJEE, N.; KHAN, M.; YADAV, S.; KUMAR, S.;
DUTTAMAJUMDER, S.; LAL, R. J.; PATEL, J. D.; GUO, H.; ZHANG, D. Identification
of putative candidate genes for red rot resistance in sugarcane (Saccharum species hybrid)
using LD-based association mapping. Molecular Genetics and Genomics, v. 291, n. 3, p.
1363-1377, 2016.
SOUZA, G. M.; BERGES, H.; BOCS, S.; CASU, R.; D’HONT, A.; FERREIRA, J. E.;
HENRY, R.; MING, R.; POTIER, B.; VAN SLUYS, M.-A. The sugarcane genome
challenge: strategies for sequencing a highly complex genome. Tropical Plant Biology, v.
4, n. 3, p. 145-156, 2011.
SRINIVASAN, K.; BHAT, N. Red rot of sugarcane: Criteria for grading resistance. J.
Indian Bot. Soc, v. 40, n. 4, p. 566-577, 1961.
TAM, V.; PATEL, N.; TURCOTTE, M.; BOSSÉ, Y.; PARÉ, G.; MEYRE, D. Benefits and
limitations of genome-wide association studies. Nature Reviews Genetics, v. 20, n. 8, p.
467-484, 2019.
TANAKA, T.; ANTONIO, B. A.; KIKUCHI, S.; MATSUMOTO, T.; NAGAMURA, Y.;
NUMA, H. The rice annotation project database (RAP-DB): 2008 update. Nucleic Acids
Research, v. 36, n. 1, p. 1028-1033, 2008.
52
THORNSBERRY, J. M.; GOODMAN, M. M.; DOEBLEY, J.; KRESOVICH, S.;
NIELSEN, D.; BUCKLER, E. S. Dwarf8 polymorphisms associate with variation in
flowering time. Nature genetics, v. 28, n. 3, p. 286-289, 2001.
TIBBS CORTES, L.; ZHANG, Z.; YU, J. Status and prospects of genome‐wide association
studies in plants. The Plant Genome, p. 1-17, 2020.
TIBSHIRANI, R. Regression shrinkage and selection via the lasso. Journal of the Royal
Statistical Society: Series B (Methodological), v. 58, n. 1, p. 267-288, 1996.
VIRK, K. Evaluation of screening methods for red rot resistance. Indian Sugar, v. 39, n. 8,
p. 621-622, 1989.
VISWANATHAN, R. Plant disease: red rot of sugarcane. New Delhi: Anmol Publications
Pvt. Ltd., 2010. 40 p.
VISWANATHAN, R.; SUNDAR, A. R.; MALATHI, P.; RAHUL, P.; KUMAR, V. G.;
BANUMATHY, R.; PRATHIMA, P.; RAVEENDRAN, M.; KUMAR, K.;
BALASUBRAMANIAN, P. Interaction between sugarcane and Colletotrichum falcatum
causing red rot: Understanding disease resistance at transcription level. Sugar Tech, v. 11,
n. 1, p. 44-50, 2009.
WANG, J.; ROE, B.; MACMIL, S.; YU, Q.; MURRAY, J. E.; TANG, H.; CHEN, C.;
NAJAR, F.; WILEY, G.; BOWERS, J. Microcollinearity between autopolyploid sugarcane
and diploid sorghum genomes. BMC Genomics, v. 11, n. 1, p. 1-17, 2010.
WANG, Q.; TIAN, F.; PAN, Y.; BUCKLER, E. S.; ZHANG, Z. A SUPER powerful method
for genome wide association study. PloS One, v. 9, n. 9, p. e107684, 2014.
WANG, Z.; LEE, C. Improvement on the methods of testing sugarcane varietal resistance to
leaf light and red rot. Report of Taiwan Sugar Experiment Station, v. 95, p. 1-7, 1982.
WEI, X.; JACKSON, P. A.; HERMANN, S.; KILIAN, A.; HELLER-USZYNSKA, K.;
DEOMANO, E. Simultaneously accounting for population structure, genotype by
environment interaction, and spatial variation in marker–trait associations in sugarcane.
Genome, v. 53, n. 11, p. 973-981, 2010.
53
WEI, X.; JACKSON, P. A.; MCINTYRE, C. L.; AITKEN, K. S.; CROFT, B. Associations
between DNA markers and resistance to diseases in sugarcane and effects of population
substructure. Theoretical and Applied Genetics, v. 114, n. 1, p. 155-164, 2006.
YU, J.; BUCKLER, E. S. Genetic association mapping and genome organization of maize.
Current Opinion in Biotechnology, v. 17, n. 2, p. 155-160, 2006.
YU, J.; HU, S.; WANG, J.; WONG, G. K.-S.; LI, S.; LIU, B.; DENG, Y.; DAI, L.; ZHOU,
Y.; ZHANG, X. A draft sequence of the rice genome (Oryza sativa L. ssp. indica). Science,
v. 296, n. 5565, p. 79-92, 2002.
YU, J.; PRESSOIR, G.; BRIGGS, W. H.; BI, I. V.; YAMASAKI, M.; DOEBLEY, J. F.;
MCMULLEN, M. D.; GAUT, B. S.; NIELSEN, D. M.; HOLLAND, J. B. A unified mixed-
model method for association mapping that accounts for multiple levels of relatedness.
Nature Genetics, v. 38, n. 2, p. 203-208, 2006.
ZHANG, J.; NAGAI, C.; YU, Q.; PAN, Y.-B.; AYALA-SILVA, T.; SCHNELL, R. J.;
COMSTOCK, J. C.; ARUMUGANATHAN, A. K.; MING, R. Genome size variation in
three Saccharum species. Euphytica, v. 185, n. 3, p. 511-519, 2012.
ZHANG, Z.; ERSOZ, E.; LAI, C.-Q.; TODHUNTER, R. J.; TIWARI, H. K.; GORE, M. A.;
BRADBURY, P. J.; YU, J.; ARNETT, D. K.; ORDOVAS, J. M. Mixed linear model
approach adapted for genome-wide association studies. Nature Genetics, v. 42, n. 4, p. 355-
360, 2010.
ZHU, C.; GORE, M.; BUCKLER, E. S.; YU, J. Status and prospects of association mapping
in plants. The Plant Genome, v. 1, n. 1, p. 5-20, 2008.
54
3 GENOMIC PREDICTION COMBINED WITH ASSOCIATION MAPPING IS A
POWERFUL TOOL TO GENOMIC-ASSISTED BREEDING FOR RED ROT
RESISTANCE IN SUGARCANE
the fungus Colletotrichum falcatum, is one of the most important diseases that affect the crop
(Sharma & Tamta, 2015). Widely disseminated in 77 countries, across all continents, the
pathogen affects cane yield and sugar quality by hydrolysis of the stored sucrose in glucose
and fructose, with reported sugar yield losses of 31% and reduction in cane weight by up to
The main strategy for the effective control of this disease is the use of resistant varieties
(Sharma & Tamta, 2015; Viswanathan et al., 2018), however the genetic basis for red rot
resistance is still unclear. Genome Wide Association Studies (GWAS) are valuable for
prospecting candidate genes, that could elucidate the molecular basis of red rot resistance,
and for the identification of useful markers to be used in sugarcane breeding programs, which
could enable the early elimination of susceptibility sources in parents and progeny
GWAS aim to identify marker-trait associations that explain part of the phenotypic
variation but are constrained by limited statistical power and usually identify only moderate
to large effects Quantitative Trait Locus (QTLs). On the other hand, genomic
prediction/selection (GS) has been a powerful approach that may be used in molecular
breeding programs for traits controlled by many small effects QTLs (O’connell et al., 2022).
The red rot resistance in sugarcane is a trait that is believed to be a combination of vertical
resistance (due to a few genes with large effects) and horizontal resistance (due to many
Since GS was proposed by Meuwissen et al. (2001), the main challenge of this tool is
dealing with the high dimensionality of genomic data. One of the most common approaches
to overcome this issue is implementing shrinkage penalties for markers effects estimates. In
56
this context, the concern becomes whether penalties are grossly underestimating the
predictive capacity of large effects QTLs, especially in GS models where genetic variance
When major genes are known and included as fixed effects covariates in GS models, the
predictive ability may increase depending on the genetic architecture of the trait (Bernardo,
2014). However, this information is often unknown and peak associated markers, discovered
from GWAS analyses, can instead be used as fixed effects covariates (McGowan et al.,
2022).
Whereas a major criticism of GWAS is the low level of transferability of the results to
other populations (Mohammadi et al., 2020), the incorporation in GS models of peak GWAS
signals, available in public databases, does not always guarantee better predictive abilities.
Spindel et al. (2016) suggested a method to select markers from GWAS to be used as fixed
effects covariates in GS models, taking only on a training set population to conduct a valid
Genetic studies in sugarcane are challenging due to the complexity of the genome which
is very large (~ 10 Gb), highly polyploid and aneuploid (D’hont & Glaszmann, 2001;
Pimenta et al., 2021). More recently, the development of high-density Axiom™ Single
Nucleotide Polymorphisms (SNP) arrays (Aitken et al., 2016; Coelho et al., unpublished
data, 2023), containing over than 50 thousand SNPs, allows a greater genome coverage and
In sugarcane, SNP array genotyping technology has often been used under a pseudo-
diploid model of genotype calling, where all heterozygous genotypes are considered as one
genotypic class (Deomano et al., 2020; Hayes et al., 2021; Yadav et al., 2021; O’connell et
al., 2022). However, not considering the allele dosage can lead to misclassified genotypes
and directly impacts the estimation of locus effects in GWAS and GS models (Aono et al.,
57
2020). In this context, the present study was carried out to applying models based on GWAS
and GS tools to assist the molecular breeding for red rot resistance in sugarcane. Candidate
genes located nearby SNP markers identified as of large effects were also annotated.
3.2.1 | Phenotyping
Five hundred clones representative of the genetic background used in the Brazilian
clones were obtained in the form of pre-sprouted plantlets, originated from individualized
buds, from two germplasm banks of Ridesa: Serra do Ouro flowering and crossing station,
in the municipality of Murici, Alagoas, Brazil (9°18’ S, 35°56’ W) and Devaneio flowering
and crossing station, in the municipality of Amaraji, Pernambuco, Brazil (8°22’ S, 35°27’
W). The plantlets were produced at the experimental station of Embrapa Temperate
In October 2018, the pre-sprouted plantlets were transplanted to the experimental field
belonging to the Federal University of Goiás (UFG), in the municipality of Goiânia, Goiás,
Brazil (16°40’ S, 49°15’ W, 760 m asl and soil type LVE). Goiânia has a climate classified
as Aw according Köppen and Geiger. The annual average temperature and rainfall are
The experimental design used was the α-lattice (Patterson & Williams, 1976), with three
replications. The 500 clones were allocated in 25 blocks, with 20 genotypes per block, in
each of the three replications. Each of the 1,500 plots had one groove of 5.0 m in length.
Plots of the same groove were spaced at 1.0 m and spacing between grooves was 1.8 m. Each
58
plot contained 10 pre-sprouted plantlets spaced at 0.5 m. The evaluations were carried out
for two consecutive crops ratoons, considering the split-plot in time scheme (Steel & Torrie,
1980).
Phytopathology Research Nucleus (NPF-UFG), were used. All isolates were cultivated in
Petri dishes (90 mm diameter) containing potato dextrose agar (PDA) medium for 20 days
water and mixed with each other to produce inoculum for red rot severity assessment assay.
Conidial concentration of the mixture was adjusted to 1 million spore per mL.
In March 2021 (first ratoon crop) and March 2022 (second ratoon crop) three six-month-
old cane stalks were inoculated in each one of the 1,500 plots. For inoculation, an inclined
hole (6 mm diameter and 20 mm depth) was made in the stalk (usually, in the 3rd internode
above the ground) using an electric drill. Then, using a syringe, 0.5 mL inoculum was placed
in the hole and the hole was sealed with adhesive tape. This inoculation procedure is an
Sixty days after inoculation, the cane stalks were cut and split open vertically for
assessing disease symptoms. The disease severity in each stalk was measured considering
1.0 m above the inoculated internode. The inoculated internode was not evaluated as the
disease symptom can be confused with the injury caused by the inoculation method. One of
the stalk halves was photographed using a 12 megapixels digital camera. Using these photos,
the percentages of symptomatic area along the stalks were calculated. The analyzes were
carried out in R (R Core Team, 2023) using the pliman package (Olivoto, 2022). The disease
59
severity per plot, in both the first and second ratoon crop, was assessed by the arithmetic
The analyzes were conducted using a Restricted Maximum Likelihood (REML) random
effects model, by lme4 R package (Bates, 2010), following the equation: y = m + Z1r + Z2b
+ Z3g + Z4rg + Z5c + Z6gc + Z7rc + Z8bc + e , where y is the vector of observations of
disease severity per plot; m is the vector for overall mean; r ∼ N (0, Iσ2r) is the vector of
replications effects; b ∼ N (0, Iσ2b) is the vector of blocks within replications effects; g ∼ N
(0, Iσ2g) is the vector of genotypes effects; rg ∼ N (0, Iσ2rg) is the vector of replications ×
genotypes interactions effects (whole-plot error); c ∼ N (0, Iσ2c) is the vector of years effects
(considered a random effect because we understand that, in this situation, first and second
ratoon crop do not directly influence the disease severity level); gc ∼ N (0, Iσ2gc) is the vector
years interactions effects; bc ∼ N (0, Iσ2bc) is the vector of blocks within replications × years
interactions effects; and e ∼ N (0, Iσ2) is the vector of residuals. Z1, Z2, Z3, Z4, Z5, Z6, Z7
and Z8 are the respective incidence matrices related to each effect vector, and I is the identity
matrix. The significance of model effects was assessed by Likelihood Ratio Test (LRT). The
broad-sense heritabilities, considering a single year and for the two consecutive crops
ratoons, were estimated, respectively, using the equations H21 = σ2g/(σ2g + σ2rg/R + σ2gc +
σ2/R) and H22 = σ2g/(σ2g + σ2rg/R + σ2gc/C + σ2/CR), where R and C are the number of
replications and years, respectively. In addition, the whole-plot error, residual and genetic
σ2rg)]/m, CVsp = (√σ2)/m and CVg = (√σ2g)/m; the b coefficients b1 = CVg/CVp and b2 = CVg/
CVsp, such as proposed by Vencovsky & Barriga (1992), were estimated considering a single
60
year and for the two consecutive crops ratoons, respectively; where σ2g is the genetic
variance, σ2rg is the whole-plot error variance, σ2gc is the genotype-by-year variance, σ2 is
3.2.2 | Genotyping
In a previous study, aimed to do the SNP discovery, plant material used for mRNA
sequencing was obtained from 30 clones belonging to the Ridesa sugarcane breeding
program. This population was maintained in an experimental field located at UFG, in the
municipality of Goiânia, Goiás, Brazil. Five different types of plant tissues were collected
from each of the 30 clones: stem tissue, lateral bud tissue, apical bud tissue, leaf tissue, and
whole seedling tissue. The total RNA was extracted in bulk, consisting of all 30 genotypes,
with the Qiagen RNeasy® Plant Mini Kit, giving rise to five distinct libraries, one for each
type of tissue. The construction of sequencing libraries was performed using TruSeq
Stranded mRNA. Sequencing of paired-ends libraries was carried out from cDNA molecules
with Illumina Hi-Seq 2000. Evaluation and filtering of high-quality reads was done with
fastQC (Andrews, 2010) and Trimmomatic (Bolger et al., 2014). High quality reads from
the five libraries were aligned on the NCBIv3 Sorghum bicolor reference genome (Paterson
et al., 2009) using STAR software (Dobin et al., 2013). The Genome Analyzes Toolkit
(GATK) pipeline (Mckenna et al., 2010) was used to discover and call SNP markers, using
583,808 high quality biallelic SNPs with minor allele frequency (MAF) ≥ 5% were retained.
One hundred thousand SNPs were chosen among the 583,808 using the Kennard-Stone
algorithm (Kennard & Stone, 1969) in order to standardize the SNPs distribution along the
reference sequence of Sorghum bicolor genome. After screening using several evaluation
61
criteria from the platform, a total of 50,766 of these SNPs were used in Axiom™ SNP array
High-quality DNA from 479 out of 500 clones in which red rot severity was assessed
was extracted from leaf tissues using the protocol proposed by Aljanabi et al. (1999). The
Axiom™ SNP array (Coelho et al., unpublished data, 2023) of 50,766 SNPs markers was
used to genotyping.
The Asignal and Bsignal, signal strengths observed by Thermo Fisher Scientific GeneTitan®
instrument for the two possible alleles (called A and B) for each SNP, were obtained for each
DNA sample. The genotypic matrix was constructed using the dosage values of the A
The disease severity of the 479 genotyped clones (entire population for the genomics
studies) that was predicted by overall Best Linear Unbiased Predictor (BLUP) of two years,
in the phenotyping analysis, was de-regressed to perform GWAS. The de-regressed BLUPs
(drBLUPs) were calculated by the equation drBLUP = m + {BLUP/[1 – (PEV/ σ2g)]}, where
PEV is the predictor error variance for an individual BLUP (Garrick et al., 2009). The
GWAS analysis was conducted by a Fixed and Random Model Circulating Probability
Unification method (FarmCPU) (Liu et al., 2016). Besides kinship, FarmCPU considers the
Trait Nucleotides) and not from total SNP set. Population structure was evaluated by
principal component analysis (PCA) from the genotypic matrix and the first two principal
62
Type I error was controlled by False Discovery Ratio (FDR) criterion (Benjamini &
Hochberg, 1995) to reach 0.05 global significance level. The average linkage disequilibrium
(LD) in the association panel was investigated using the square reference allele dosage
correlation coefficient r2 between pairs of SNPs across the chromosomes. The extension of
LD decay was observed by plotting r2 values against the physical distance of the SNPs.
To access the consistency of the GWAS analysis, conducted using the entire population
(GWAS-ALL), the 479 clones were randomly subset into five-folds, and the same analysis
described above was performed five times, leaving out one-fold in each run (GWAS-1,
GWAS-2, GWAS-3, GWAS-4, and GWAS-5, respectively). The six GWAS analyzes were
compared with each other using Pearson’s correlation coefficient between SNPs’ effects and
between p-values. All analyzes were carried out in R (R Core Team, 2023) using the GAPIT
(Lipka et al., 2012) and ggplot2 (Villanueva & Chen, 2019) packages.
The candidate genes were investigated only for the GWAS-ALL analysis. The genomic
context regions of the SNPs significantly associated with red rot resistance were located in
the Sorghum bicolor reference genome (Paterson et al., 2009), available in Phytozome
genomic data bank (Sorghum bicolor v3.1.1) (Goodstein et al., 2012) and NCBI platform
(Sorghum bicolor taxid:4558) (Sayers et al., 2021), using the Basic Local Alignment Search
Tool (BLAST) (Altschul et al., 1990). Genes located within 15 kb from the significant SNP
positions were functionally annotated using the UniProtKB/Swiss-Prot protein database and
the Gene Ontology (GO) terms (Ashburner et al., 2000; Bairoch & Apweiler, 2000; Apweiler
et al., 2004).
3.2.5 | GS analysis
Like the GWAS analyzes, the drBLUPs were used to fit genomic selection models. Three
GS models were fitted to the data. The first method used was the Genomic Best Linear
63
Unbiased Predictor model (GBLUP), following the equation: y = µ + g + e , where y is the
vector of disease severity of clones predicted using drBLUP; µ is the vector of fixed effects
(a constant); g ∼ N (0, σ2gGRM) is the vector of random effects of genotypes, where σ2g is
the genomic variance component and GRM is the genomic relationship matrix; and e ∼ N
(0, Iσ2) is the vector of residuals, where σ2 is the residual variance component and I is the
identity matrix. The GRM was calculated following the equation: GRM = [(G - M) (G -
M)’]/k, where G is the genotypic matrix of order J × P, J is the number of individuals and P
is the number of SNPs; M = 1J[m1, …, mP], and [m1, …, mP] denotes the column means of
The second and the third GS methods fitted to the data were the Bayes Cπ and Bayes Dπ
models (Habier et al., 2011), following the equation: y = μ + Ga + ɛ, where a = [a1, …, aP]’
is a vector of length P and ap denote the effect for the pth marker, with p ranging from one
to P; ɛ = [ɛ1, …, ɛJ]’ is a vector of length J, and ɛj is the residual for the jth clone, with j
ranging from one to J. These models treat the proportion of loci that do not contribute to the
genetic variance, π, as an unknown parameter, with a uniform (0,1) prior distribution. The
marker effects prior distribution, for each locus, is given by ap|π ∼ (1 – π) N (0, σ2ap) + π N
(0, 0). For Bayes Cπ, σ2ap is a common unknown variance across all markers, and for Bayes
Dπ, it is the variance of pth marker. The variance σ2ap is assumed to be scaled inverted chi-
square distributed, with vap degrees of freedom and scale parameter Sap, given by σ2ap|vap, Sap
∼ χ-2ap (vap, Sap). The residuals are assumed N (0, Iσ2ɛ) distributed, where σ2ɛ is the residual
variance that has a prior scaled inverted chi-square distribution, with vɛ degrees of freedom
The three models described above were also evaluated by a similar method proposed by
Spindel et al. (2016). Significant peak associated markers, identified using the FDR
64
threshold, from FarmCPU, carried out only on the training set populations, were retained as
fixed effects covariates in GS models. In situations where no SNP was identified, the
respective training populations were discarded. The GS models, modified to account for
terms already defined, β is the vector of fixed effects of SNPs that uses a non-informative
prior for each beta coefficient, and W is the incidence matrix of these effects. For GWAS-
GBLUP the GRM was calculated by excluding the peak associated SNPs and G* denotes a
Using rarefaction, for GBLUP model, we also investigated the effect of the number of
SNPs included in the GRM estimates in the prediction ability. To this end, we compared the
predictive ability of GBLUP model using all markers and using random samples of SNPs,
For each model we performed 80:20 cross-validation by dividing the entire population
into two groups: 80% of clones used to train the model and 20% used to validate the model.
Cross-validation was repeated 30 times (by randomly selecting clones assigned to each
subset). Gibbs sampling chains were run for 60 thousand iterations. The first 10 thousand
from each chain were discarded as “burn-in” and samples from every 50th iteration thereafter
were stored, thus resulting in 1000 stored samples. The average predictive ability was
values and drBLUPs, over 30 runs. All the analyzes were carried out in R (R Core Team,
2023) using the BGLR (Pérez & De Los Campos, 2014) and ggplot2 (Villanueva & Chen,
2019) packages.
65
3.3 | RESULTS AND DISCUSSION
Significant genotypic differences among the 499 sugarcane clones (one clone was lost
during the experiment conduction) were observed for red rot severity. The effects of different
replications, blocks within replications and years were not significant (p>0.05), however the
were significant. Even with significant genotypes × years interactions, for the GWAS and
GS analyzes, the disease severity of the genotyped clones predicted by overall drBLUPs of
the two years was used, instead of carrying out these analyzes for each year. This can be
justified because the variance component associated with this interaction represented a very
heritability and b coefficient, considering the two years, increased compared to single year
estimates (Table 1). This study reached a value of b2 = 0.904. According Vencovsky &
TABLE 1. Parameters estimates and Likelihood Ratio Test (LRT) for model effects from
phenotypic data.
Source of Components of
npar logLik AIC LRT Df P(χ2)
variation variance
Replications (R) 9 -8921.7 17861 0.000 1 0.999 0.000
Blocks (B)/R 9 -8921.7 17861 0.000 1 0.999 0.000
Genotypes (G) 9 -9041.7 18102 240.068 1 <0.001 14.762
RxG 9 -8923.0 17864 2.531 1 0.112 1.031
Year (C) 9 -8923.1 17864 2.694 1 0.101 2.166
GxC 9 -8928.0 17874 12.513 1 <0.001 2.031
RxC 9 -8929.9 17878 16.429 1 <0.001 0.671
B/R x C 9 -8941.5 17901 39.492 1 <0.001 1.464
Residual - - - - - - 18.107
m H21 H22
CVg CVp CVsp b1 b2
7.876 0.637 0.771 0.488 0.570 0.540 0.856 0.904
66
npar: number of model parameters; logLik: log-likelihood of the model; AIC: Akaike information criterion of the model;
LRT: likelihood ratio test statistic, which is asymptotically chi-square distributed; Df: degrees of freedom of likelihood ratio
test; P(χ2): p-value obtained using the chi-square distribution with degrees of freedom equal to Df; m: overall mean; H21:
single year heritability; H22: heritability for the two consecutives crops ratoons; CVg: genetic coefficient of variation; CVp:
whole-plot error coefficient of variation; CVsp: residual coefficient of variation; b1: single year b coefficient (CVg/ CVp); b2:
The behavior of most clones was similar between years despite the genotypes × years
interactions (Figure 1A). Considering the two years, a continuous variation in the levels of
resistance, as measured by the disease quantification method, was verified for the clones,
making it impossible to classify all of them as susceptible or resistant (Figure 1B, C).
67
Figure 1. Phenotypic analysis. (A) Scatter plot with linear regression (blue line) of red rot BLUPs,
estimated at first ratoon crop (axis x) and second ratoon crop (axis y), with Pearson’s correlation
coefficient estimate (ρ). (B) Distribution of red rot BLUPs estimated over two years. (C) Examples
The result that about 42% of the sampled clones had a positive BLUP value is consistent
with the unofficial records of epidemic outbreaks seen in the last years in Brazil.
burning sugarcane, a procedure used for manual harvesting. In the last decade, practically
100% of the harvest was carried out mechanized, with the crop straw deposited in the soil
surface favoring survival and increase inoculum in the field (Costa et al., 2021). The fungus
is not a true soil borne organism but can persist about nine months when disease debris is
The commercial release of many varieties with some level of susceptibility, associated
with the maintenance of the inoculum in the cultivation fields, may explain how red rot
became an important problem in Brazil. This is a reality shared by the countries of South
Asian but not by Australia where the rate of genotype with some level of susceptibility to
red rot in commercial sugarcane breeding program is about 20% (O’connell et al., 2022).
The broad-sense heritability, considering the two years, was calculated to be 0.77,
indicating nearly 80% of phenotype variation was attributed to the genetic effects (Table 1).
In general, analyzes of red rot resistance inheritance have been reported values of broad
sense heritability about 90% (Ram et al., 2005; Singh et al., 2016; O’connell et al., 2022). In
this study such estimate was about 10% lower. This difference can be explained because the
standard method used to quantify disease severity in related studies is 0-9 scale for grading
resistance (Srinivasan & Bath, 1961), while in this study severity was measure as the
percentage of symptomatic area along the stalk, accessed through the inoculated stalks
69
Despite the differences related to the disease quantification methods, an estimate of
broad sense heritability close to 80% indicates potentially stronger genetic control of red rot
resistance compared with environmental factors. In addition, the main advantages to analyze
disease severity as proposed by this study are using an objective measure that does not
depend on the evaluator’s expertise and automated image processing by a software, saving
No clear genetic structure is common result in studies that involves sugarcane accessions
panels representative of germplasm cultivated worldwide (Gouy et al., 2015; Fickett et al.,
2019). This can be explained in part due to relatively few generations between hybrids
generated by nobilization process and modern varieties. In addition, many clones were
shared by breeding programs worldwide and the sugarcane population increased rapidly only
from a few founders, leading to chaotic relatedness (Voight & Pritchard, 2005; Gouy et al.,
In this study it was no different. The genetic structure of the association panel was
evaluated by a biplot of the first two principal components (PCs) of marker data (Figure 2A).
The first two PCs captured a small percentage of the total variance (11.59%). The clones had
a wide distribution throughout the biplot projection space, which indicates a weak structure
among the genotypes. Moreover, adding more PCs to the analysis barely improved the
percentage of total variance explained (Figure 2B). The genetic structure was also accessed
by a heatmap visual representation of the genomic relationship matrix and, like the PCs
analysis, the heatmap did not show genotypes groups with clear delineation (Figure 2C).
Regarding the LD, we observed high r2 (~ 0.45) between closely distance SNPs, which
70
Figure 2. Population structure and LD decay. (A) Biplot of the first two principal components.
(B) Variance explained by the first ten principal components. (C) Heatmap of the genomic
relationship matrix with dendrogram. (D) LD decay across the whole genome.
Due to the recent breeding history and narrow genetic base the LD has been hypothesized
to be high in sugarcane (Pimenta et al., 2021). Many studies have reported that LD estimated,
using dominant markers, is about 5-10 cM (Jannoo et al., 1999; Raboin et al., 2008; Singh
et al., 2016). In the last years, some studies used SNPs to estimate the LD in base pairs and
indicated that LD was extremely extensive in sugarcane varieties with average r2 decaying
to 0.2 at 3.5 Mb (Yang et al., 2019) and more recently decaying to 0.1 at 2 Mb (Pimenta et
al., 2021). Anyway, the high extent of LD in sugarcane allows GWAS and GS studies to be
carried out even with relatively low density of markers when compared with other species.
3.3.3 | SNP-trait associations and annotation the Sorghum bicolor nearby genes
using FarmCPU method and considering the FDR criterion (Figure 3A). Practically only the
71
observed p-values of significant SNPs deviated from a distribution that would be expected
Figure 3. SNP-trait associations. (A) Manhattan plot showing p-value of markers obtained from
FarmCPU method versus position (chromosomes numbered 1 to 10), dashed black line indicates
FDR threshold. (B) The quantile-quantile (QQ) plot, the red line with 95% confidence band (gray)
indicates the expected trend if observed p-values were distributed follow null hypothesis that the
Due to the extensive LD observed for this association panel, the genes annotation was
candidate genes were found, of which 49 were categorized by Gene Ontology (GO) terms
Sobic.007G144501 and Sobic.007G144700 located at 0, 6.236 and 11.272 kb from SNP AX-
339099778, respectively and that have a GO term associated with plant defense
(GO:0050832). Located at 6.567 and 9.215 kb from SNP AX-339136918, respectively, were
found Sobic.008G161900 and Sobic.008G162201 that have two GO terms associated with
plant defense (GO:0002229 and GO:0042742). In addition, two other candidates are also
receptor-like protein kinases (RPKs), Sobic.008G001300 located at 3.667 kb from SNP AX-
The RPKs described above have different domains like leucine-rich repeat (LRR), lectins
(Lannoo & Van Damme, 2014; He & Wu, 2016; Richard et al., 2021; Shang et al., 2021;
Cho et al., 2022). By GWAS studies a serine/threonine-protein kinase, LRR and lectin
domains were previously reported to be associated with the red rot resistance (Singh et al.,
2016; O’connell et al., 2022). Increase expression of LRR protein family in resistant
sugarcane variety was reported after C. falcatum spores’ inoculation and in sugarcane cell
suspension cultures treated with pathogen elicitors (Prathima et al., 2013; Rahul et al., 2016).
Worth mentioning in this context is Sobic.010G188500, located at 7.578 kb from SNP AX-
339234895, a subtilisin-like proteases that have been implicated in several plant responses
In general, the plants develop many pattern recognition receptors (PPRs) for D/PTI and
ETI. PPRs are synthesized and arrive their functional sites, mainly at plasma membrane,
through plant secretory and trafficking machinery that includes nuclear envelope,
endoplasmic reticulum, vesicle transport, Golgi apparatus, endosomes and vacuole (Ruano
73
& Scheuring, 2020; Zhou & Zhang, 2020; Chen et al., 2021; Ganotra et al., 2022). By
Sobic.010G188200 and Sobic.010G188100 located at 2.750 and 10.193 kb from SNP AX-
339234895, respectively.
Ubiquitination system (UBS), mainly E3 ligases, and 26S proteosome are key for
launching of defense response for D/PTI and ETI (Trujillo & Shirasu, 2010) and were
previously associated with the red rot resistance by GWAS study (Singh et al., 2016). As
Sobic.001G162900 and Sobic.001G163300 located at 0, 5.972 and 10.083 kb from SNP AX-
degrading cyclins through UBS-proteosome pathway (Qi & Zhang, 2020). Interaction with
pathogens impact cell cycle progression in plants by programmed cell death, a mechanism
known as hypersensitive response (HR) that control the spread of pathogens (Bao et al.,
2013). In addition, cell cycle regulation is affected by jasmonic acid (JA) pathway (Ghorbel
et al., 2021). Therefore, worthy of mention are the candidates Sobic.006G202100 and
74
intermediate molecules of the tetrapyrrole biosynthesis (Tanaka & Tanaka, 2007), pathway
The influence of the circadian rhythm on plant immunity was established based on the
observation that promoters of genes required for D/PTI and ETI are regulated by circadian
clock (Hua, 2013). Many JA-regulated biological process are dependent to circadian control
and preferentially occur during certain periods of the day (Thines et al., 2019). Moreover,
evidences suggests that defense and flowering, two distinct signaling pathways, are
connected through salicylic acid pathway by E3 ligases (Liu et al., 2012). In this context it
is important to mention the candidate Sobic.001G260500 located at 5.734 kb from SNP AX-
117901452.
red rot resistance was reported before (Prathima et al., 2013; O’connell et al., 2022).
The transcription factors (TFs) play an important regulatory role in plant defense. The
Myb family TFs that are known to regulate the HR response, phenylpropanoid metabolic
process and JA pathway. Another important family of TFs is WRKY that is reportedly
involved in D/PTI and ETI defenses mechanisms and in JA pathway signaling (Ruan et al.,
2019; Dong & Lin, 2021; Falak et al., 2021). Sobic.003G242800 that has notably defense
WRKY family TFs. WRKY and Myb family TFs were previously reported how differential
transcripts after C. falcatum spores’ inoculation and when sugarcane cell suspension cultures
were treated with pathogen elicitors, respectively (Prathima et al., 2013; Rahul et al., 2016).
75
Sobic.001G260400 which contains SNP AX-117901452, is a TF TFIIE that has been
regulates the balance between growth and defense responses (Liu et al., 2019).
9.614 from the SNP AX-339187981, respectively, are a zinc finger TFs, a positive regulator
enzyme involved beyond the polysaccharide precursor generation, also involved in defense
responses (Hou et al., 2021). Other candidate that affects cell wall deposition is
who acts in base excision repair, a critical genome defense pathway that deals with DNA
respectively, SNPs AX-339101001 and AX-339234895, are directly involved in the glycerol
(Singh et al., 2016).Although, no gene with a recognized defense function has been identified
chromosome 5, is within the 14.6 Mb red rot resistance QTL region proposed by O’connell
et al., 2022.
76
3.3.4 | Consistency of peak GWAS signals
The FarmCPU method proved to be very inconsistent in this data set. When 20% of
individuals are randomly removed between the different analyzes, significant associations
change greatly or are lost entirely, as in GWAS-5 analysis (Figure 4A). The Pearson’s
correlation coefficients of the SNPs’ p-values between the different GWAS analyzes are
close to zero, indicating that the significant SNPs may be false positive markers (Figure 4B).
When the SNPs’ effects were analyzed, the correlation coefficients increased but the results
This GWAS study showed that it is essential to test the transferability of peak associated
markers across the association panel. After all, if the peak GWAS signals are unstable within
the association panel, how can they be used in other populations? Even though it is very
likely that the 15 significant SNPs will be affected by the Beavis effect (Beavis, 1998) when
they are transferred to other populations, we decided to publish the candidate gene list
(Apêndice: Supplemental Table S1), as we understand that some genes have a recognized
77
78
Figure 4. Consistency of GWAS analyzes. (A) Manhattan plots, of six GWAS analyzes, showing
p-value of markers obtained from FarmCPU method versus locational alignment to the Sorghum
bicolor genome (chromosomes numbered 1 to 10), dashed black line indicates FDR threshold. (B)
Scatter plots of SNPs’ p-values, among the six GWAS analyzes, with Pearson’s correlation
coefficient (ρ). (C) Scatter plots of SNPs’ effects, among the six GWAS analyzes, with Pearson’s
Issues related to the transferability of GWAS have been the focus of many recent
genomic studies. The lack of transferability in GWAS findings, for many traits in humans,
has been associated with underrepresentation of association panels (Popejoy & Fullerton,
2016). In this context, it is important to say that the success of the recent association studies
in humans, especially in the last five years, is partly due to the use of large association panels,
that have surpassed one million of individuals, to better deal with Beavis effect (Abdellaoui
et al., 2023). However, accurate phenotyping of large sample size of plants’ populations is a
recognized bottleneck and has limited the progress in genomics-assisted crop improvement
The average abilities of GBLUP, Bayes Cπ and Bayes Dπ to predict red rot severity,
using 80:20 cross-validation of clones panel, were very similar, respectively, equal to 62, 64
and 60%. When significant peak associated markers, by FDR threshold, from FarmCPU
conducted only on the training set populations were retained as fixed effects covariates in
respectively, equal to 57, 55 and 57%, for GWAS-GBLUP, GWAS-Bayes Cπ and GWAS-
Bayes Dπ models (Figure 5A). The number of SNPs included to calculate the GRM
significantly affects the predictive capacity of the GBLUP model, which is stabilized from
79
Figure 5. 80:20 cross-validation predictive ability for red rot severity using different GS
models. (A) Predictive abilities for the GBLUP, Bayes Cπ and Bayes Dπ models, assisted and
unassisted by GWAS analyzes. (B) Predictive abilities for the GBLUPs models that included,
respectively, all markers (50766) and random samples of SNPs of sizes equal to 40000, 30000,
20000, 10000, 5000, 1000 and 500 to compute genomic relationship matrix. Points represent the
mean value of 30 simulations and error bars represent the 95% confidence intervals.
As suggested by Rice & Lipka (2019) in a simulation study carried out in maize and
sorghum, which evaluated several traits, in our study, markers strongly associated with red
rot resistance in the training set often had a substantially weaker association in the validation
80
set and the incorporation of such GWAS signals as fixed-effect covariates offered a
disadvantage over the standard GS model on the predictive ability. Our study also suggested
that resistance to red rot is an essentially polygenic inheritance and genotyping of at least 10
thousand markers is necessary to satisfactorily recover genetic variation of the trait, and
when genetic variation is assumed constant across the genome, better predictive abilities are
obtained.
Only one previously study developed GS models to predict red rot resistance in
sugarcane varieties. This related study used GWAS analysis, conducted in entire population,
predictive ability of around 50% (O’connell et al., 2022). In addition to GWAS analysis not
being conducted only on training set population, another important differences between
these two studies can be considered: our clones panel was composed of 479 genotypes while
O’connell et al. (2022) clones panel had 305, in our work the method used to quantify disease
severity was a quantitative continuous measure and not a 0-9 scale for grading resistance
and the genotype calling was performed considering an estimate of allele dosage and not
how a pseudo-diploid model where all heterozygous genotypes are considered as one
genotypic class. But the main difference between these works is that our study did not
identify the major-effect QTL region on chromosome 5 proposed by O’connell et al. (2022),
although SNP AX-339008203 is within this QTL and instead of improving, when GS models
3.4 | CONCLUSIONS
The GWAS signals are very inconsistent in this clones’ panel. Although GWAS analysis
is inconsistent, some of the found candidate genes have recognized defense functions. The
Beavis effect makes it hard to conclude about the proportion of phenotypic variance
explained by markers that are in linkage disequilibrium with these candidates. The GS
81
models, modified to account peak GWAS signals, are worse at predicting red rot severity
markers to recover the genetic variation of the trait. The genetic control of resistance to red
rot seems to follow the Fisher's infinitesimal model and appears to be influenced by many
small-effect QTLs.
3.5 | REFERENCES
Abdellaoui, A., Yengo, L., Verweij, K. J., & Visscher, P. M. (2023). 15 years of GWAS
discovery: Realizing the promise. The American Journal of Human Genetics, 110, 179-194.
Aitken, K., Farmer, A., Berkman, P., Muller, C., Wei, X., Demano, E., Jackson, P. A.,
Magwire, M., Dietrich, B., & Kota, R. (2016). Generation of a 345K sugarcane SNP chip.
In Proc. Aust. Soc. Sugar Cane Technol, 29, 1165-1172.
Aljanabi, S. M., Forget, L., & Dookun, A. (1999). An improved and rapid protocol for the
isolation of polysaccharide-and polyphenol-free sugarcane DNA. Plant Molecular Biology
Reporter, 17, 281-282.
Altschul, S. F., Gish, W., Miller, W., Myers, E. W., & Lipman, D. J. (1990). Basic local
alignment search tool. Journal of molecular biology, 215, 3, 403-410.
Andrews, S. (2010). FastQC: a quality control tool for high throughput sequence data.
Aono, A. H., Costa, E. A., Rody, H. V. S., Nagai, J. S., Pimenta, R. J. G., Mancini, M. C.,
Dos Santos, F. R. C., Pinto, L. R., Landell, M. G. D. A., & De Souza, A. P. (2020). Machine
learning approaches reveal genomic regions associated with sugarcane brown rust resistance.
Scientific Reports, 10, 20057.
Apweiler, R., Bairoch, A., Wu, C. H., Barker, W. C., Boeckmann, B., Ferro, S., Gasteiger,
E., Huang, H., Lopez, R., & Magrane, M. (2004). UniProt: the universal protein
knowledgebase. Nucleic acids research, 32, D115-D119.
Ashburner, M., Ball, C. A., Blake, J. A., Botstein, D., Butler, H., Cherry, J. M., Davis, A. P.,
Dolinski, K., Dwight, S. S., & Eppig, J. T. (2000). Gene ontology: tool for the unification of
biology. Nature genetics, 25, 25-29.
Babu, C., Natarajan, U., Shanthi, R., Govindaraj, P., Sunder, A. R., & Viswanathan, R.
(2010). Inheritance of red rot resistance in sugarcane (Saccharum sp. hybrids). Sugar Tech,
12, 167-171.
82
Bairoch, A., & Apweiler, R. (2000). The SWISS-PROT protein sequence database and its
supplement TrEMBL in 2000. Nucleic acids research, 28, 45-48.
Bao, Z., Yang, H., & Hua, J. (2013). Perturbation of cell cycle regulation triggers plant
immune response via activation of disease resistance genes. Proceedings of the National
Academy of Sciences, 110, 2407-2412.
Bates, D. (2010). lme4: Linear mixed-effects models using S4 classes. R package version
0.999375-33.
Beavis, W. (1998). QTL analyses: Power, precision and accuracy. In A. H. Paterson (Ed.).
Molecular dissection of complex traits (pp. 145-162). CRC Press.
Benjamini, Y., & Hochberg, Y. (1995). Controlling the false discovery rate: a practical and
powerful approach to multiple testing. Journal of the Royal statistical society: series B
(Methodological), 57, 289-300.
Bernardo, R. (2014). Genomewide selection when major genes are known. Crop Science,
54, 68-75.
Bolger, A. M., Lohse, M., & Usadel, B. (2014). Trimmomatic: a flexible trimmer for
Illumina sequence data. Bioinformatics, 30, 2114-2120.
Caarls, L., Elberse, J., Awwanah, M., Ludwig, N.R., de Vries, M., Zeilmaker, T., Van Wees,
S.C.M., Schuurink, R.C., & Van den Ackerveken, G., (2017). Arabidopsis JASMONATE-
INDUCED OXYGENASES down-regulate plant immunity by hydroxylation and
inactivation of the hormone jasmonic acid. Proceedings of the National Academy of
Sciences, 114, 6388-6393.
Chen, D., Hao, F., Mu, H., Ahsan, N., Thelen, J. J., & Stagey, G. (2021). S-acylation of
P2K1 mediates extracellular ATP-induced immune signaling in Arabidopsis. Nature
communications, 12, 2750.
Cho, H., Lee, J., & Oh, E. (2022). Leucine-rich repeat receptor-like proteins in plants:
structure, function, and signaling. Journal of Plant Biology, 66, 99-107.
Chona, B. (1954). Studies on the diseases of sugarcane in India. IV. Relative resistance of
sugarcane varieties to red rot. Indian Journal of Agricultural Sciences, 24, 301-315.
Costa, M. M., Silva, B. A., Moreira, G. M., & Pfenning, L. H. (2021). Colletotrichum
falcatum and Fusarium species induce symptoms of red rot in sugarcane in Brazil. Plant
Pathology, 70, 1807-1818.
83
Cui, B., Pan, Q., Clarke, D., Villarreal, M. O., Umbreen, S., Yuan, B., Shan, W., Jiang, J.,
& Loake, G. J. (2018). S-nitrosylation of the zinc finger protein SRG1 regulates plant
immunity. Nature communications, 9, 4226.
D’Hont, A., & Glaszmann J. C. (2001). Sugarcane genome analysis with molecular markers,
a first decade of research. In International Society of Sugar Cane Technologists. Proceedings
of the XXIV Congress, Brisbane, Australia, 17-21 September 2001. Volume 2 (pp. 556-559).
Australian Society of Sugar Cane Technologists.
Deomano, E., Jackson, P., Wei, X., Aitken, K., Kota, R., & Pérez-Rodríguez, P. (2020).
Genomic prediction of sugar content and cane yield in sugar cane clones in different stages
of selection in a breeding program, with and without pedigree information. Molecular
Breeding, 40, 1-12.
Dobin, A., Davis, C. A., Schelesinger, F., Drenkow, J., Zaleski, C., Jha, S., Batut, P.,
Chaisson, M., & Gingeras, T. R. (2013). STAR: ultrafast universal RNA-seq aligner.
Bioinformatics, 29, 15-21.
Falak, N., Imran, Q. M., Hussain, A., & Yun, B.W. (2021). Transcription factors as the
“blitzkrieg” of plant defense: A pragmatic view of nitric oxide’s role in gene regulation.
International Journal of Molecular Sciences, 22, 522.
Fickett, N., Gutierrez, A., Verma, M., Pontif, M., Hale, A., Kimberg, C., & Baisakh, N.
(2019). Genome-wide association mapping identifies markers associated with cane yield
components and sucrose traits in the Louisiana sugarcane core collection. Genomics, 111,
1794-1801.
Gan, L., Yin, Y., Niu, Q., Yan, X., & Yin, S. (2022). New insights into the mechanism of
Trichoderma virens-induced developmental effects on Agrostis stolonifera disease
resistance against dollar spot infection. Journal of Fungi, 8, 1186.
Ganotra, J., Sharma, B., Biswal, B., Bhardwaj, D., & Tuteja, N. (2022). Emerging role of
small GTPases and their interactome in plants to combat abiotic and biotic stress.
Protoplasma, 260, 1-23.
84
Garrick, D. J., Taylor, J. F., & Fernando, R. L. (2009). Deregressing estimated breeding
values and weighting information for genomic regression analyzes. Genetics Selection
Evolution, 41, 1-8.
Ghorbel, M., Brini, F., Sharma, A., & Landi, M. (2021). Role of jasmonic acid in plants: the
molecular point of view. Plant cell reports, 40, 1471-1494.
Goodstein, D. M., Shu, S., Howson, R., Neupane, R., Hayes, R. D., Fazo, J., Mitros, T.,
Dirks, W., Hellsten, U., & Putnam, N. (2012). Phytozome: a comparative platform for green
plant genomics. Nucleic acids research, 40, D1178-D1186.
Gouy, M., Rousselle, Y., Chane, A. T., Anglade, A., Royaert, S., Nibouche, S., & Costet, L.
(2015). Genome wide association mapping of agro-morphological and disease resistance
traits in sugarcane. Euphytica, 202, 269-284.
Habier, D., Fernado, R., Kizilkaya, K., & Garrick, D. (2011). Extension of the Bayesian
alphabet for genomic selection. BMC Bioinformatics, 12, 1-12.
Hayes, B. J., Wei, X., Joyce, P., Atkin, F., Deomano, E., Yue, J., Nguyen, L., Ross, E. M.,
Cavallaro, T., & Aitken, K. S. (2021). Accuracy of genomic prediction of complex traits in
sugarcane. Theoretical and Applied Genetics, 134, 1455-1462.
He, K., & Wu, Y. (2016). Receptor-like kinases and regulation of plant innate immunity.
The Enzymes, 40, 105-142.
Hou, J., Tian, S., Yang, L., Zhang, Z., & Liu, Y. (2021). A systematic review of the uridine
diphosphate-galactose/glucose-4-epimerase (UGE) in plants. Plant Growth Regulation, 93,
267-278.
Hua, J. (2013). Modulation of plant immunity by light, circadian rhythm, and temperature.
Current opinion in plant biology, 16, 406-413.
Hussnain, Z., & Afghan, S. (2006). Impact of major cane diseases on sugarcane yield and
sugar recovery. Annual Report, Shakarganj Sugar Research Institute, Jhang.
Jannoo, N., Grivet, L., Dookun, A., D’hont, A., Glaszmann, J. C. (1999). Linkage
disequilibrium among modern sugarcane cultivars. Theoretical and Applied Genetics, 99,
1053-1060.
85
Lannoo, N., Van Damme, E. J. (2014). Lectin domains at the frontiers of plant defense.
Frontiers in plant science, 5, 397.
Lipka, A. E., Tian, F., Wang, Q., Peiffer, J., Li, M., Bradbury, P. J., Gore, M. A., Buckler,
E. S., & Zhang, Z. (2012). GAPIT: genome association and prediction integrated tool.
Bioinformatics, 28, 2397-2399.
Liu, J., Li, W., Ning, Y., Shirsekar, G., Cai, Y., Wang, X., Dai, L., Wang, Z., Liu, W., &
Wang, G. L. (2012). The U-Box E3 ligase SPL11/PUB13 is a convergence point of defense
and flowering signaling in plants. Plant Physiology, 160, 28-37.
Liu, X., Huang, M., Fan, B., Buckler, E. S., Zhang, Z. (2016). Iterative usage of fixed and
random effect models for powerful and efficient genome-wide association studies. PLoS
genetics, 12, e1005767.
Liu, Y., Wei, H., Ma, M., Li, Q., Kong, D., Sun J., Ma, X., Wang, B., Chen, C., & Xie, Y.
(2019). Arabidopsis FHY3 and FAR1 regulate the balance between growth and defense
responses under shade conditions. The Plant Cell, 31, 2089-2106.
Mcgowan, M., Wang, J., Dong, H., Liu, X., Jia, Y., Wang, X., Iwata, H., Li, Y., Lipka, A.
E., & Zhang, Z. (2022). Ideas in genomic selection with the potential to transform plant
molecular breeding: A Review. In I. Goldman (ed.), Plant breeding reviewers (pp. 273-307).
John Wiley & Sons Inc.
Mckenna, A., Hanna, M., Banks, E., Sivachenko, A., Cibulskis, K., Kernytsky, A.,
Garimella, K., Altshuler, D., Gabriel, S., & Daly, M. (2010). The Genome Analysis Toolkit:
a MapReduce framework for analyzing next-generation DNA sequencing data. Genome
research, 20, 1297-1303.
Meuwissen, T. H., Hayes, B. J., & Goddard, M. (2001). Prediction of total genetic value
using genome-wide dense marker maps. Genetics, 157, 1819-1829.
Mir, R. R., Reynolds, M., Pinto, F., Khan, M. A., & Bhat, M. A. (2019). High-throughput
phenotyping for crop improvement in the genomics era. Plant Science, 282, 60-72.
Mohammadi, M., Xavier, A., Beckett, T., Beyer, S., Chen, L., Chikssa, H., Cross, V.,
Moreira, F. F., French E., Gaire, R., Griebel S., Lopez, M. A., Prather, S., Russel, B., &
Wang, W. (2020). Identification, deployment, and transferability of quantitative trait loci
from genome-wide association studies in plants. Current Plant Biology, 24, 1-12.
O’Connell, A., Deo, J., Deomano, E., Wei, X., Jackson, P., Aitken, K. S., Manimekalai, R.,
Mohanraj, K., Hemaprabha, G., & Ram, B. (2022). Combining genomic selection with
genome-wide association analysis identified a large-effect QTL and improved selection for
red rot resistance in sugarcane. Frontiers in plant science, 13.
86
Olivoto, T. (2022). Lights, camera, pliman! An R package for plant image analysis. Methods
in Ecology and Evolution, 13, 789-798.
Paterson, A. H., Bowers, J. E., Bruggmann, R., Dubckak, I., Grimwood, J., Gundlach, H.,
Haberer, G., Hellsten, U., Mitros, T., & Poliakov, A. (2009). The Sorghum bicolor genome
and the diversification of grasses. Nature, 457, 551-556.
Patterson, H., & Williams, E. (1976). A new class of resolvable incomplete block designs.
Biometrika, 63, 83-92.
Pérez, P., & De Los Campos, G. (2014). BGLR: a statistical package for whole genome
regression and prediction. Genetics, 198, 483-495.
Pimenta, R. J. G., Aono, A. H., Burbano, R. C. V., Coutinho, A. E., Da Silva, C. C., Dos
Anjos, I. A., Perecin, D., Landell, M. G. D. A., Gonçalves, M. C., & Pinto, L. R. (2021).
Genome-wide approaches for the identification of markers and genes associated with
sugarcane yellow leaf virus resistance. Scientific Reports, 11, 1-18.
Popejoy, A. B., & Fullerton, S. M. (2016). Genomics is failing on diversity. Nature, 538,
161-164.
Prathima, P., Raveendran, M., Kumar, K., Rahul, P., Kumar, V. G., Viswanathan, R.,
Sundar, A. R., Malathi, P., Sudhakar, D., & Balasubramaniam, P. (2013). Differential
regulation of defense-related gene expression in response to red rot pathogen Colletotrichum
falcatum infection in sugarcane. Applied biochemistry and biotechnology, 171, 488-503.
Qi, F., & Zhang, F. (2020). Cell cycle regulation in the plant response to stress. Frontiers in
plant science, 10, 1765.
R Core Team. 2023. R: A language and environment for statistical computing. R Foundation
for Statistical Computing, Austria.
Raboin, L. M., Pauquet, J., Butterfield, M., D’Hont, A., & Glaszmann, J.C. (2008). Analysis
of genome-wide linkage disequilibrium in the highly polyploid sugarcane. Theoretical and
Applied Genetics, 116, 701-714.
Rahul, P., Kumar, V.G, Viswanathan, R., Sundar, A. R., Malathi, P., Prasanth, C.N., &
Pratima, P. (2016). Defense transcriptome analysis of sugarcane and Colletotrichum
falcatum interaction using host suspension cells and pathogen elicitor. Sugar Tech, 18, 16-
28.
Ram, B., Singh, N., & Sahi, B. (2005). Combining ability and heterosis for disease index of
red rot in sugarcane (Saccharum officinarum L.). Indian Journal of Genetics and Plant
Breeding, 65, 112-114.
87
Rice, B., & Lipka, A. E. (2019). Evaluation of RR‐BLUP genomic selection models that
incorporate peak genome‐wide association study signals in maize and sorghum. The Plant
Genome, 12, 1-14.
Richard, M. M., Gratias, A., Diaz, J. C.A., Thareau, V., Pflieger, S., Meziadi, C., Blanchet,
S., Marande, W., Bitocchi, E., & Papa, R. (2021). A common bean truncated CRINKLY4
kinase controls gene-for-gene resistance to the fungus Colletotrichum lindemuthianum.
Journal of Experimental Botany, 72, 3569-3581.
Roldán-Arjona, T., Ariza, R. R., & Córdoba-Cañero, D. (2019). DNA base excision repair
in plants: an unfolding story with familiar and novel characters. Frontiers in plant science,
10, 1055.
Ruan, J., Zhou, Y., Zhou, M., Yan, J., Khurshid, M., Weng, W., Cheng, J., & Zhang, K.
(2019). Jasmonic acid signaling pathway in plants. International Journal of Molecular
Sciences, 20, 2479.
Ruano, G., & Scheuring, D. (2020). Plant cells under attack: Unconventional endomembrane
trafficking during plant defense. Plants, 9, 389.
Sayers, E. W., Beck, J., Bolton, E. E., Bourexis, D., Brister, J. R., Canese, K., Comeau, D.
C., Funk, K., Kim, S., & Klimke, W. (2021). Database resources of the national center for
biotechnology information. Nucleic acids research, 49, D10.
Shang, Y., Yang, D., Ha, Y., & Nam, K. H. (2021). BAK1-induced RPK1 phosphorylation
is essential for RPK1-mediated cell death in Arabidopsis. Biochemical and biophysical
research communications, 573, 125-131.
Sharma, R., & Tamta, S. (2015). A review on red rot: the cancer of sugarcane. Plant
Pathology & Microbiology, 1, 2.
Singh, K., Budhraja, T., & Agnihotri, V. (1977). Survival of Colletotrichum falcatum in soil,
its portals of entry and role of inoculum density in causing infection. International sugar
Journal, 79, 43-44.
Singh, R. K., Banerjee, N., Khan, M., Yadav, S., Kumar, S., Duttmajumder, S., Lal, R. J.,
Patel, J. D., Guo, H., Zhang, D. (2016). Identification of putative candidate genes for red rot
resistance in sugarcane (Saccharum species hybrid) using LD-based association mapping.
Molecular Genetics and Genomics, 291, 1363-1377.
Spindel, J. E., Begum, H., Akdemir, D., Collard, B., Redona, E., Jannink, J. L., & Mccouch,
S. (2016). Genome-wide prediction models that incorporate de novo GWAS are a powerful
new tool for tropical rice improvement. Heredity, 116, 395-408.
88
Srinivasan, K., & Bhat, N. (1961). Red rot of sugarcane: Criteria for grading resistance.
Journal of Indian Botanical Society, 40, 566-577.
Stell, R. G. D., & Torrie, J. H. (1980). Principles and procedures of statistics: A Biometrical
Approach. McGraw-Hill Book Company.
Tanaka, R., & Tanaka, A. (2007). Tetrapyrrole biosynthesis in higher plants. Annual Review
of Plant Biology, 58, 321-346.
Thines, B., Parlan, E. V., & Fulton, E. C. (2019). Circadian network interactions with
jasmonate signaling and defense. Plants, v. 8, n. 8, p. 252, 2019.
Trujillo, M., & Shirasu, K. (2010). Ubiquitination in plant immunity. Current Opinion in
Plant Biology, 13, 402-408.
Vanraden, P. M. (2008). Efficient methods to compute genomic predictions. Journal of
Dairy Science, 91, 4414-4423.
Villanueva, R. A. M., & Chen, Z. J. (2019). ggplot2: elegant graphics for data analysis.
Viswanathan, R., Sundar, A. R., Selvakumar, R., & Malathi, P. (2018). Progress in
understanding fungal diseases affecting sugarcane: red rot. Burleigh Dodds Science
Cambridge.
Voight, B. F., & Pritchard, J. K. (2005). Confounding from cryptic relatedness in case-
control association studies. PLoS genetics, 1, 32.
Yadav, S., Wei, X., Joyce, P., Atkin, F., Deomano, E., Sun, Y., Nguyen, L. T., Ross, E. M.,
Cavallaro, T., & Aitken, K. S. (2021). Improved genomic prediction of clonal performance
in sugarcane by exploiting non-additive genetic effects. Theoretical and Applied Genetics,
134, 2235-2252.
Yang, X., Song, J., Todd, J., Peng, Z., Paudel, D., Luo, Z., Ma, X., You, Q., Hanson, E., &
Zhao, Z. (2019). Target enrichment sequencing of 307 germplasm accessions identified
ancestry of ancient and modern hybrids and signatures of adaptation and selection in
sugarcane (Saccharum spp.), a ‘sweet’ crop with ‘bitter’ genomes. Plant Biotechnology
Journal, 17, 488-498.
89
Zhou, J. M., & Zhang, Y. (2020). Plant immunity: danger perception and signaling. Cell,
181(5), 978-989.
90
4 CONSIDERAÇÕES FINAIS
91
APÊNDICE. Supplemental Table S1: List of candidate genes co-located with red rot severity associated SNPs.
Genome Kb from
SNP (AX-) Nearby gene Protein Protein description Protein database GO term (GO:) Ontology
database SNP
0005673 CC
Sobic.001G260400 Phytozome 0.000 C5WN82 TFIIE subunit alpha Uniprot 0006367 BP
0001113 BP
0007623 BP
0006357 BP
0005737 CC
0048574 BP
117901452
0048510 BP
Protein phytochrome
Sobic.001G260500 Phytozome 5.734 PHL_ARATH Swissprot 0005634 CC
dependent late flowering
0000124 CC
0003712 MF
0016604 CC
0009908 BP
0009416 BP
0016929 MF
0005634 CC
0009909 BP
Ubiquitin-like- 0016926 BP
LOC8062482 NCBI 0.000 ESD4_ARATH Swissprot
specific protease ESD4 0019900 MF
338682735 0009911 BP
0031965 CC
0070139 MF
0008270 MF
Protein FAR1- related
LOC8062483 NCBI 0.612 FRS5_ARATH Swissprot 0005634 CC
sequence 5
0006355 BP
92
Genome Kb from
SNP (AX-) Nearby gene Protein Protein description Protein database GO term (GO:) Ontology
database SNP
0015031 BP
Mitochondrial import
Sobic.001G162800 Phytozome 12.704 TOM6_ARATH Swissprot 0005739 CC
receptor subunit TOM6
0005742 CC
0046872 MF
0000151 CC
0061630 MF
Probable E3 ubiquitin- 0031624 MF
Sobic.001G162900 Phytozome 5.972 ARI1_ARATH Swissprot
protein ligase 0032436 BP
0000209 BP
0005737 CC
338682735
0006511 BP
Sobic.001G163000 Phytozome 1.186 A0A1B6QJ87 Uncharacterized protein Uniprot - -
0046872 MF
0000151 CC
0061630 MF
Probable E3 ubiquitin- 0031624 MF
Sobic.001G163300 Phytozome 10.083 ARI1-ARATH Swissprot
protein ligase 0032436 BP
0000209 BP
0005737 CC
0006511 BP
0006364 BP
0006012 BP
UDP-glucose
LOC110432048 NCBI 0.000 UGE1_ORYSJ Swissprot 0003723 MF
338712033 4-epimerase
0003978 MF
0005829 CC
Sobic.001G372200 Phytozome 8.826 A0A1B6QN86 Uncharacterized protein Uniprot - -
93
Genome Kb from
SNP (AX-) Nearby gene Protein Protein description Protein database GO term (GO:) Ontology
database SNP
Sobic.001G372400 Phytozome 3.749 A0A1Z5S9L4 Uncharacterized protein Uniprot - -
0006364 BP
0006012 BP
338712033 UDP-glucose
Sobic.001G372500 Phytozome 6.972 UGE1_ORYSJ Swissprot 0003723 MF
4-epimerase
0003978 MF
0005829 CC
338849162 Sobic.003G102400 Phytozome 0.000 A0A1B6Q2G5 Uncharacterized protein Uniprot - -
0000976 MF
Transcription factor 0003700 MF
Sobic.003G242800 Phytozome 13.345 WRK19_ORYSJ Swissprot
WRKY19 0005634 CC
338867844
0006952 BP
Uncharacterized conserved 0003779 MF
Sobic.003G242900 Phytozome 0.000 A0A1B6Q525 Uniprot
coiled-coil protein 0110165 CC
CA273132 NCBI 0.000 - - - - -
339008203 Predicted E3 0006511 BP
Sobic.005G133300 Phytozome 13.215 C5Y3B5 Uniprot
ubiquitin ligase 0061630 MF
LOC110436340 NCBI 12.959 - - - - -
UvrD-like helicase
Sobic.006G201900 Phytozome 1.228 A0A1Z5RES9 ATP-binding domain- Uniprot - -
containing protein
CobW C-terminal domain- 0016787 MF
Sobic.006G202000 Phytozome 0.000 A0A1Z5RER8 Uniprot
containing protein 0005737 CC
339052107
0031145 BP
0051301 BP
Cell division cycle 20.1,
Sobic.006G202100 Phytozome 2.574 CDC21_ARATH Swissprot 0005634 CC
cofactor of APC complex
0010997 MF
0019900 MF
94
Genome Kb from
SNP (AX-) Nearby gene Protein Protein description Protein database GO term (GO:) Ontology
database SNP
0016567 BP
0033597 CC
Cell division cycle 20.1, 0007049 BP
Sobic.006G202100 Phytozome 2.574 CDC21_ARATH Swissprot
cofactor of APC complex 0005680 CC
1990757 MF
1905786 BP
0006355 BP
0003677 MF
Myb family transcription
Sobic.006G202300 Phytozome 11.904 PHLB_ARATH Swissprot 0003700 MF
factor PHL11
0005634 CC
2000762 BP
0031145 BP
0051301 BP
339052107 0005634 CC
0010997 MF
0019900 MF
Cell division cycle 20.1,
Sobic.006G202150 Phytozome 3.515 CDC21_ARATH Swissprot 0016567 BP
cofactor of APC complex
0033597 CC
0007049 BP
0005680 CC
1990757 MF
1905786 BP
0005768 CC
0005884 CC
Sobic.006G202200 Phytozome 4.892 EPN1_ARATH Clathrin interactor EPSIN 1 Swissprot 0030276 MF
0005794 CC
0009579 CC
95
Genome Kb from
SNP (AX-) Nearby gene Protein Protein description Protein database GO term (GO:) Ontology
database SNP
0002020 MF
0030125 CC
0006897 BP
0072659 BP
339052107 Sobic.006G202200 Phytozome 4.892 EPN1_ARATH Clathrin interactor EPSIN 1 Swissprot
0005886 CC
0005802 CC
0005543 MF
0006623 BP
0005634 CC
0005525 MF
0005886 CC
Sobic.006G281800 Phytozome 6.640 RABC1_ARATH Ras-related protein RABC1 Swissprot
0005794 CC
339074829
0003924 MF
0006886 BP
No apical meristem (NAM) 0003677 MF
Sobic.006G281900 Phytozome 0.000 A0A1Z5RGM0 Uniprot
protein 0006355 BP
0050832 BP
0005524 MF
0004674 MF
0005576 CC
Sobic.007G144501 Phytozome 6.236 RPK1_IPONI Receptor-like protein kinase Swissprot
0005886 CC
339099778 0106310 MF
0006468 BP
0019199 MF
0050832 BP
Sobic.007G144600 Phytozome 0.000 RPK1_IPONI Receptor-like protein kinase Swissprot 0005524 MF
0004674 MF
96
Genome Kb from
SNP (AX-) Nearby gene Protein Protein description Protein database GO term (GO:) Ontology
database SNP
0005576 CC
0005886 CC
Sobic.007G144600 Phytozome 0.000 RPK1_IPONI Receptor-like protein kinase Swissprot 0106310 MF
0006468 BP
0019199 MF
0050832 BP
339099778 0005524 MF
0004674 MF
0005576 CC
Sobic.007G144700 Phytozome 11.272 RPK1_IPONI Receptor-like protein kinase Swissprot
0005886 CC
0106310 MF
0006468 BP
0019199 MF
0006071 BP
0000287 MF
0009507 CC
Glycero-phosphodiester 0030643 BP
Sobic.007G190700 Phytozome 0.000 GDPD1_ARATH phosphodiesterase GDPD1, Swissprot
chloroplastic 0008889 MF
0046475 BP
0009536 CC
339101001
0071456 BP
0005758 CC
0005829 CC
Mitochondrial import inner
membrane translocase 0015031 BP
Sobic.007G190800 Phytozome 0.301 TIM8_ARATH Swissprot
subunit 0005739 CC
TIM8
0009536 CC
0046872 MF
97
Genome Kb from
SNP (AX-) Nearby gene Protein Protein description Protein database GO term (GO:) Ontology
database SNP
Non-specific serine/ 0008270 MF
Sobic.007G190901 Phytozome 6.822 A0A1Z5RAS7 Uniprot
threonine protein kinase 0003676 MF
Sobic.007G191000 Phytozome 14.230 A0A1B6PIK6 Uncharacterized protein Uniprot - -
0005783 CC
0005886 CC
339101001
0019706 MF
Probable protein
Sobic.007G191100 Phytozome 4.592 ZDHC9_ARATH Swissprot 0005794 CC
S-acyltransferase 7
0018230 BP
0005829 CC
0006612 BP
0016567 BP
0004842 MF
SF3-RNA binding family
Sobic.008G001200 Phytozome 0.000 A0A1B6PAW2 Uniprot 0003723 MF
protein
0003676 MF
0030014 CC
339114381
0106310 MF
Probable LRR receptor-like 0004674 MF
serine/
Sobic.008G001300 Phytozome 3.667 Y1677_ARATH Swissprot 0006468 BP
threonine-protein kinase
At1g67720 0005524 MF
0016020 CC
LOC110437689 NCBI 5.700 - - - - -
0030139 CC
0090627 BP
339115613 Putative receptor protein 0009786 BP
Sobic.008G038200 Phytozome 6.452 CRI4_MAIZE Swissprot
kinase CRINKLY4 0106310 MF
0048829 BP
0046777 BP
98
Genome Kb from
SNP (AX-) Nearby gene Protein Protein description Protein database GO term (GO:) Ontology
database SNP
0009793 BP
0032585 CC
0042803 MF
0005886 CC
6.452 Putative receptor protein
Sobic.008G038200 Phytozome CRI4_MAIZE Swissprot 0009986 CC
kinase CRINKLY4
0004674 MF
0010311 BP
0048439 BP
0005524 MF
0019899 MF
0031969 CC
0043085 BP
Tetrapyrrole-binding
Sobic.008G038300 Phytozome 2.395 GUN4C_ARATH Swissprot 0009507 CC
protein, chloroplastic
339115613 0046906 MF
0010019 BP
0015995 BP
0005794 CC
SREBP regulating gene
Sobic.008G038400 Phytozome 0.000 C5YRT6 Uniprot 2000640 BP
protein
0016020 CC
0006285 BP
0042644 CC
0006284 BP
Endonuclease III homolog 0046872 MF
Sobic.008G038500 Phytozome 14.877 NTH1_ARATH 1, Swissprot
chloroplastic 0006296 BP
0051539 MF
0019104 MF
0003677 MF
99
Genome Kb from
SNP (AX-) Nearby gene Protein Protein description Protein database GO term (GO:) Ontology
database SNP
0000703 MF
Endonuclease III homolog 0140078 MF
339115613 Sobic.008G038500 Phytozome 14.877 NTH1_ARATH 1, Swissprot
chloroplastic 0005634 CC
0003906 MF
0008541 CC
0030163 BP
26S proteosome non- 0005634 CC
ATPase
Sobic.008G161800 Phytozome 13.216 PSD11_ARATH Swissprot 0000502 CC
regulatory subunit 11
homolog 0006511 BP
0005198 MF
0009506 CC
0005524 MF
0004635 MF
100
Genome Kb from
SNP (AX-) Nearby gene Protein Protein description Protein database GO term (GO:) Ontology
database SNP
0005886 BP
0010726 BP
0004675 MF
0002229 BP
L-type lectin-domain
Sobic.008G161900 Phytozome 6.567 LRK91_ARATH Swissprot 0005524 MF
containing receptor kinase
0010942 BP
0042742 BP
0106310 MF
0030246 MF
0006468 BP
339136918
0005886 CC
0010726 BP
0004675 MF
L-type lectin-domain 0002229 BP
Sobic.008G162201 Phytozome 9.215 LRK91_ARATH containing receptor kinase Swissprot
IX.1 0005524 MF
0010942 BP
0042742 BP
0106310 MF
0030246 MF
Sobic.008G162300 Phytozome 12.216 A0A1Z5R859 Benzil reductase Uniprot - -
LOC110431062 NCBI 10.920 - - - - -
LOC110431224 NCBI 1.426 - - - - -
0010405 BP
339187981 0000139 CC
Hydroxyproline
Sobic.010G059700 Phytozome 13.611 B3GTA_ARATH O-galactosyltransferase Swissprot 0016757 MF
HPGT2 0008378 MF
1990714 MF
101
Genome Kb from
SNP (AX-) Nearby gene Protein Protein description Protein database GO term (GO:) Ontology
database SNP
Hydroxyproline 0008194 MF
Sobic.010G059700 Phytozome 13.611 B3GTA_ARATH O-galactosyltransferase Swissprot
HPGT2 0018258 BP
0016682 MF
Sobic.010G059800 Phytozome 6.458 SRG1_ARATH Protein SRG1 Swissprot 0010150 BP
0046872 MF
0016682 MF
Sobic.010G059900 Phytozome 3.219 SRG1_ARATH Protein SRG1 Swissprot 0010150 BP
0046872 MF
0006605 BP
Preprotein translocase 0009535 CC
Sobic.010G060000 Phytozome 0.000 SECE1_ARATH Swissprot
subunit SECE1 0008320 MF
0009306 BP
339187981
0120091 MF
1900150 BP
0051213 MF
Jasmonate-induced 0006952 BP
Sobic.010G060100 Phytozome 5.372 JOX4_ARATH Swissprot
oxygenase 4 0005829 CC
2000022 BP
0005506 MF
1900366 BP
0016682 MF
Sobic.010G060166 Phytozome 9.614 SRG1_ARATH Protein SRG1 Swissprot 0010150 BP
0046872 MF
Sobic.010G060232 Phytozome 11.449 A0A1W0VRQ9 Uncharacterized protein Uniprot - -
Zinc finger BED domain- 0003677 MF
339234895 LOC110431340 NCBI 11.532 RSLE2_ORYSJ containing protein Swissprot
ricesleeper 2 0009791 BP
102
Genome Kb from
SNP (AX-) Nearby gene Protein Protein description Protein database GO term (GO:) Ontology
database SNP
0003677 MF
0009791 BP
Zinc finger BED domain-
LOC110431340 NCBI 11.532 RSLE2_ORYSJ containing protein Swissprot 0046983 MF
ricesleeper 2
0032196 BP
0006310 BP
0005771 CC
0015031 BP
Vacuolar protein sorting- 0009898 CC
Sobic.010G188100 Phytozome 10.193 VP321_ARATH associated protein 32 Swissprot
homolog 1 0032511 BP
0000815 CC
0006900 BP
0016192 BP
339234895 Sobic.010G188200 Phytozome 2.750 C5Z5R0 Vesicle transport protein Uniprot 0016020 CC
0015031 BP
0006096 BP
0006094 BP
Fructose-biphosphate 0003729 MF
Sobic.010G188300 Phytozome 0.000 ALFC5_ARATH Swissprot
aldolase 5, cytosolic 0005829 CC
0004332 MF
0030388 BP
0009850 BP
0080148 BP
E3 ubiquitin-protein ligase
Sobic.010G188400 Phytozome 0.056 RGLG2_ARATH Swissprot 0009738 BP
RGLG2
0046872 MF
0005634 CC
103
Genome Kb from
SNP (AX-) Nearby gene Protein Protein description Protein database GO term (GO:) Ontology
database SNP
0004842 MF
0009690 BP
E3 ubiquitin-protein ligase
Sobic.010G188400 Phytozome 0.056 RGLG2_ARATH Swissprot 0005886 CC
RGLG2
0061630 MF
0070534 BP
339234895
0005576 CC
0004252 MF
Sobic.010G188500 Phytozome 7.578 AIR3_ARATH Subtilisin-like protease Swissprot 0006508 BP
0009733 BP
0010102 BP
A distance from SNP of 0.000 kb indicates that the SNP occurs within the gene. CA273132 is a Saccharum spp. transcript but not Sorghum bicolor transcript. CC: cellular component, MF:
molecular function, BP: biological process and "-" indicates that no information was found.
104