[go: up one dir, main page]

0% acharam este documento útil (0 voto)
20 visualizações105 páginas

Tese Renato Menezes-Biblioteca

A tese de Renato de Carvalho Menezes aborda o mapeamento por associação e predição genômica da resistência à podridão vermelha em clones de cana-de-açúcar, apresentada ao Programa de Pós-Graduação em Genética e Melhoramento de Plantas da UFG. O trabalho foi defendido em janeiro de 2024 e visa contribuir para o melhoramento genético da cana-de-açúcar, utilizando métodos modernos de seleção genômica. A pesquisa inclui análise fenotípica e genotípica, além de discussões sobre a estrutura genética e associações SNP-trait.

Enviado por

michelrodrigues
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
20 visualizações105 páginas

Tese Renato Menezes-Biblioteca

A tese de Renato de Carvalho Menezes aborda o mapeamento por associação e predição genômica da resistência à podridão vermelha em clones de cana-de-açúcar, apresentada ao Programa de Pós-Graduação em Genética e Melhoramento de Plantas da UFG. O trabalho foi defendido em janeiro de 2024 e visa contribuir para o melhoramento genético da cana-de-açúcar, utilizando métodos modernos de seleção genômica. A pesquisa inclui análise fenotípica e genotípica, além de discussões sobre a estrutura genética e associações SNP-trait.

Enviado por

michelrodrigues
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
Você está na página 1/ 105

grm

MAPEAMENTO POR ASSOCIAÇÃO E PREDIÇÃO GENÔMICA


DA RESISTÊNCIA À PODRIDÃO VERMELHA
EM CLONES DE CANA-DE-AÇÚCAR

RENATO DE CARVALHO MENEZES

Orientador:
Prof. Alexandre Siqueira Guedes Coelho

Janeiro – 2024
UNIVERSIDADE FEDERAL DE GOIÁS
ESCOLA DE AGRONOMIA

TERMO DE CIÊNCIA E DE AUTORIZAÇÃO (TECA) PARA DISPONIBILIZAR


VERSÕES ELETRÔNICAS DE TESES

E DISSERTAÇÕES NA BIBLIOTECA DIGITAL DA UFG

Na qualidade de titular dos direitos de autor, autorizo a Universidade Federal de Goiás (UFG)
a disponibilizar, gratuitamente, por meio da Biblioteca Digital de Teses e Dissertações (BDTD/UFG),
regulamentada pela Resolução CEPEC nº 832/2007, sem ressarcimento dos direitos autorais, de acordo com
a Lei 9.610/98, o documento conforme permissões assinaladas abaixo, para fins de leitura, impressão e/ou
download, a título de divulgação da produção científica brasileira, a partir desta data.
O conteúdo das Teses e Dissertações disponibilizado na BDTD/UFG é de responsabilidade
exclusiva do autor. Ao encaminhar o produto final, o autor(a) e o(a) orientador(a) firmam o compromisso de
que o trabalho não contém nenhuma violação de quaisquer direitos autorais ou outro direito de terceiros.
1. Identificação do material bibliográfico
[ ] Dissertação [x] Tese [ ] Outro*:_____________
*No caso de mestrado/doutorado profissional, indique o formato do Trabalho de Conclusão de Curso, permitido no documento de área,
correspondente ao programa de pós-graduação, orientado pela legislação vigente da CAPES.
Exemplos: Estudo de caso ou Revisão sistemática ou outros formatos.
2. Nome completo do autor
Renato de Carvalho Menezes
3. Título do trabalho
Mapeamento por associação e predição genômica da resistência à podridão vermelha em clones de cana-
de-açúcar.
4. Informações de acesso ao documento (este campo deve ser preenchido pelo orientador)
Concorda com a liberação total do documento [ ] SIM [ x ] NÃO¹
[1] Neste caso o documento será embargado por até um ano a partir da data de defesa. Após esse período, a
possível disponibilização ocorrerá apenas mediante: a) consulta ao(à) autor(a) e ao(à) orientador(a);
b) novo Termo de Ciência e de Autorização (TECA) assinado e inserido no arquivo da tese ou dissertação.
O documento não será disponibilizado durante o período de embargo.
Casos de embargo:
- Solicitação de registro de patente;
- Submissão de artigo em revista científica;
- Publicação como capítulo de livro;
- Publicação da dissertação/tese em livro.
Documento assinado eletronicamente por Alexandre Siqueira Guedes Coelho , Professor do Magistério Superior,
em 23/01/2024, às 16:36, conforme horário oficial de Brasília, com fundamentono § 3º do art. 4º do Decreto nº
10.543, de 13 de novembro de 2020 .
Documento assinado eletronicamente por Renato De Carvalho Menezes , Discente, em 25/01/2024, às 18:09,
conforme horário oficial de Brasília, com fundamento no § 3º do art. 4º do Decreto nº 10.543, de 13 de novembro
de 2020.
A autenticidade deste documento pode ser conferida no site
https://sei.ufg.br/sei/controlador_externo.php?acao=documento_conferir&id_orgao_acesso_externo=0, informando o
código verificador 4332671 e o código CRC 1CA06272.

Referência: Processo nº 23070.003479/2024-93 SEI nº 4332671


RENATO DE CARVALHO MENEZES

MAPEAMENTO POR ASSOCIAÇÃO E PREDIÇÃO GENÔMICA


DA RESISTÊNCIA À PODRIDÃO VERMELHA
EM CLONES DE CANA-DE-AÇÚCAR

Tese apresentada ao Programa de Pós-Graduação


em Genética e Melhoramento de Plantas, da
Escola de Agronomia, da Universidade Federal de
Goiás (UFG), como requisito para obtenção do
título de Doutor em Genética e Melhoramento de
Plantas.
Área de concentração: Genética e Melhoramento
de Plantas.
Linha de pesquisa: Genética e Genômica de
Plantas.

Orientador:
Prof. Dr. Alexandre Siqueira Guedes Coelho

Goiânia, GO – Brasil
2024
Ficha de identificação da obra elaborada pelo autor, através do
Programa de Geração Automática do Sistema de Bibliotecas da UFG.
Menezes, Renato de Carvalho
MAPEAMENTO POR ASSOCIAÇÃO E PREDIÇÃO GENÔMICA DA
RESISTÊNCIA À PODRIDÃO VERMELHA EM CLONES DE CANA-DE
AÇÚCAR [manuscrito] / Renato de Carvalho Menezes. - 2024.
CIV, 104 f.

Orientador: Prof. Dr. Alexandre Siqueira Guedes Coelho.


Tese (Doutorado) - Universidade Federal de Goiás, Escola de
Agronomia (EA), Programa de Pós-graduação em Genética e
Melhoramento de Plantas, Goiânia, 2024.
Bibliografia. Apêndice.
Inclui siglas, fotografias, abreviaturas, símbolos, gráfico, tabelas.

1. Saccharum. 2. Colletotrichum falcatum. 3. seleção genômica. 4.


associação genômica. 5. seleção assistida por marcadores moleculares. I.
Coelho, Alexandre Siqueira Guedes, orient. II. Título.

CDU 633
UNIVERSIDADE FEDERAL DE GOIÁS
ESCOLA DE AGRONOMIA

ATA DE DEFESA DE TESE


Ata Nº 121 da sessão de Defesa de Tese de Renato de Carvalho Menezes que confere o título de
Doutor em Genética e Melhoramento de Plantas, na área de concentração em Genética e
Melhoramento de Plantas.

Aos trinta dias do mês de janeiro de dois mil e vinte e quatro, a partir das treze horas e trinta minutos,
via videoconferência e na Sala de Reuniões do Setor de Melhoramento de Plantas, realizou-se a
sessão pública de Defesa de Tese intitulada “Mapeamento por associação e predição genômica
da resistência à podridão vermelha em clones de cana-de-açúcar”. Os trabalhos foram instalados
pelo Orientador, Doutor Alexandre Siqueira Guedes Coelho (PPGGMP/UFG), com a participação
dos demais membros da Banca Examinadora: Doutor Hermann Paulo Hoffmann (CCA/UFSCar),
membro titular externo; Doutor Renato Rodrigues Silva (IME/UFG), membro titular externo; Doutor
Rafael Tassinari Resende (PPGGMP/UFG), membro titular interno e Doutor João Batista Duarte
(PPGGMP/UFG), membro titular interno. Durante a arguição os membros da banca não fizeram
sugestão de alteração do título do trabalho. A Banca Examinadora reuniu-se em sessão secreta a fim
de concluir o julgamento da Tese tendo sido o candidato aprovado pelos seus membros. Proclamados
os resultados pelo Presidente da Banca Examinadora, foram encerrados os trabalhos e, para constar,
lavrou-se a presente ata que é assinada pelos Membros da Banca Examinadora.

TÍTULO SUGERIDO PELA BANCA


Documento assinado eletronicamente por Alexandre Siqueira Guedes Coelho , Professor do Magistério Superior, em
30/01/2024, às 17:30, conforme horário oficial de Brasília, com fundamentono § 3º do art. 4º do Decreto nº 10.543, de
13 de novembro de 2020 .
Documento assinado eletronicamente por Hermann Paulo Hoffmann, Usuário Externo, em 30/01/2024, às 17:33,
conforme horário oficial de Brasília, com fundamento no § 3º do art. 4º doDecreto nº 10.543, de 13 de novembro de
2020 .
Documento assinado eletronicamente por Joao Batista Duarte, Professor do Magistério Superior , em 30/01/2024,
às 17:34, conforme horário oficial de Brasília, com fundamento no § 3º do art. 4º do Decreto nº 10.543, de 13 de
novembro de 2020 .
Documento assinado eletronicamente por Renato Rodrigues Silva, Professor do Magistério Superior , em
31/01/2024, às 13:52, conforme horário oficial de Brasília, com fundamento no § 3º do art. 4º do Decreto nº 10.543,
de 13 de novembro de 2020 .
Documento assinado eletronicamente por Rafael Tassinari Resende, Professor do Magistério Superior, em
02/02/2024, às 15:38, conforme horário oficial de Brasília, com fundamento no § 3º doart. 4º do Decreto nº 10.543, de
13 de novembro de 2020 .
A autenticidade deste documento pode ser conferida no site
https://sei.ufg.br/sei/controlador_externo.php?acao=documento_conferir&id_orgao_acesso_externo=0, informando o
código verificador 4332712 e o código CRC 2C52958E.

Referência: Processo nº 23070.003479/2024-93 SEI nº 4332671


Aos meus pais, Luciana e José Eduardo, aos meus irmãos Diogo e Isabela,
aos meus avós Deiry, Hélio (in memoriam), Rosermina e Raimundo (in memoriam),
e à minha noiva Fabiani!

Dedico.
AGRADECIMENTOS

A Deus, por colocar em minha vida pessoas essenciais para as minhas conquistas.
À minha família, pelo amor, pelos esforços dedicados à minha formação
profissional e pela confiança e apoio nos momentos que mais precisei.
À sociedade brasileira, que financiou minha trajetória acadêmica, por meio da
Universidade Federal de Goiás (UFG).
À pessoa mais importante para minha formação como pesquisador, o meu orientador,
o professor Dr. Alexandre Siqueira Guedes Coelho, por sua atenção, por seus conselhos
e, principalmente, pela fundamentação teórica passada, de diversas áreas da agronomia;
sobretudo, em genética e melhoramento de plantas. Agradeço também ao professor Dr. João
Batista Duarte, o primeiro exemplo de pesquisador que tive em minha vida acadêmica, e
ao professor Dr. Marcos Gomes da Cunha, pelos ensinamentos e pelos vários anos de
trabalho e pesquisa que tivemos juntos.
Ao Programa de Pós-Graduação em Genética e Melhoramento de Plantas
(PPGGMP) da UFG e a todos seus docentes, pelo curso de doutorado ministrado com muita
competência e profissionalismo. Aos meus amigos do PPGGMP da UFG, em especial M.a.
Priscila Magalhães da Veiga Jardim, M.e. Luís Gabriel Silva Alvarenga, Dr. Flávio
Pereira dos Santos e Dr. Paulo Henrique Ramos Guimarães; aos graduandos em
agronomia, Michel Rodrigues da Silva e Vinícius Filgueiras Nogueira, pela amizade e
auxílio nos trabalhos de campo.
À Rede Interuniversitária para o Desenvolvimento do Setor Sucroenergético
(Ridesa), da qual a UFG é integrante, especialmente aos funcionários Djavan Adien Mota,
Antônio Divino de Assis e Gilmar Francisco de Assis, pelo auxílio na condução e
avaliação dos experimentos. Ao pesquisador Dr. Márcio Lisboa Guedes, pela parceria e
dedicação irrestrita em diversos trabalhos realizados no âmbito do Programa de
Melhoramento Genético de Cana-de-Açúcar (PMGCA) da Ridesa-UFG, incluindo esta
tese. À professora Dra. Bruna Mendes de Oliveira, pela coordenação da PMGCA-
UFG/Ridesa e pelo apoio aos trabalhos de pesquisa que envolvem a cultura da cana-de-
açúcar, desenvolvidos pelos alunos do PPGGMP da UFG.
Agradeço a todos que, direta ou indiretamente, contribuíram para realização deste
trabalho.
Muito obrigado!
SUMÁRIO

RESUMO.............................................................................................................................. 9

ABSTRACT ....................................................................................................................... 10

1 INTRODUÇÃO .................................................................................................. 11

2 MELHORAMENTO DA CANA-DE-AÇÚCAR: FUNDAMENTOS E


ATUALIZAÇÕES COM ÊNFASE NA RESISTÊNCIA GENÉTICA À
PODRIDÃO VERMELHA ................................................................................. 13
2.1 A CANA-DE-AÇÚCAR ....................................................................................... 13
2.1.1 Classificação botânica e importância econômica ............................................. 13
2.1.2 Melhoramento genético no Brasil ...................................................................... 14
2.1.3 Estrutura do genoma........................................................................................... 18
2.1.4 Estudos de sintenia .............................................................................................. 19
2.2 PODRIDÃO VERMELHA ................................................................................... 20
2.2.1 Agente causal e importância econômica ............................................................ 20
2.2.2 Métodos de seleção de genótipos resistentes ..................................................... 21
2.3 ESTUDOS DE ASSOCIAÇÃO EM ESCALA GENÔMICA (GWAS) .............. 26
2.3.1 GWAS x Análise de ligação tradicional ............................................................ 26
2.3.2 Desequilíbrio de ligação ...................................................................................... 27
2.3.3 Genotipagem ........................................................................................................ 29
2.3.4 Fenotipagem ......................................................................................................... 30
2.3.5 Controle de qualidade em GWAS...................................................................... 31
2.3.6 Estrutura genética e parentesco ......................................................................... 32
2.3.7 Modelos lineares mistos em GWAS ................................................................... 32
2.3.8 GWAS em cana-de-açúcar ................................................................................. 36
2.4 SELEÇÃO GENÔMICA (GS)... ........................................................................... 37
2.4.1 Considerações gerais ........................................................................................... 37
2.4.2 Modelos estatísticos aplicados à GS ................................................................... 38
2.4.3 Seleção genômica em cana-de-açúcar ................................................................ 40
2.5 REFERÊNCIAS .................................................................................................... 42

3 GENOMIC PREDICTION COMBINED WITH ASSOCIATION MAPPING


IS A POWERFUL TOOL TO GENOMIC-ASSISTED BREEDING FOR RED
ROT RESISTANCE IN SUGARCANE ............................................................ 55
3.1 INTRODUCTION ................................................................................................. 56
3.2 MATERIALS AND METHODS .......................................................................... 58
3.2.1 Phenotyping ......................................................................................................... 58
3.2.1.1 Genetic materials ................................................................................................... 58
3.2.1.2 Experimental design .............................................................................................. 58
3.2.1.3 Culturing of Colletotrichum falcatum ................................................................... 59
3.2.1.4 Colletotrichum falcatum inoculation ..................................................................... 59
3.2.1.5 Disease severity quantification .............................................................................. 59
3.2.1.6 Statistical analyzes ................................................................................................ 60
3.2.2 Genotyping ........................................................................................................... 61
3.2.2.1 SNP discovery ....................................................................................................... 61
3.2.2.2 SNP array .............................................................................................................. 61
3.2.2.3 Genotypic data ....................................................................................................... 62
3.2.3 GWAS analysis .................................................................................................... 62
3.2.4 Candidate genes ................................................................................................... 63
3.2.5 GS analysis ...........................................................................................................63
3.3 RESULTS AND DISCUSSION ........................................................................... 66
3.3.1 Phenotypic analysis of C. falcatum inoculation on the sugarcane clones ....... 66
3.3.2 Genetic structure and LD decay ........................................................................ 70
3.3.3 SNP-trait associations and annotation the Sorghum bicolor nearby genes .... 71
3.3.4 Consistency of peak GWAS signals ................................................................... 77
3.3.5 Genomic prediction ............................................................................................. 79
3.4 CONCLUSIONS ................................................................................................... 81
3.5 REFERENCES ...................................................................................................... 82

4 CONSIDERAÇÕES FINAIS ............................................................................. 91

APÊNDICE ....................................................................................................................... 92
RESUMO

MENEZES, R. C. Mapeamento por associação e predição genômica da resistência à


podridão vermelha em clones de cana-de-açúcar. 2024. 104 f. Tese (Doutorado em
Genética e Melhoramento de Plantas) – Escola de Agronomia, Universidade Federal de
Goiás, Goiânia, 20231.

Um dos principais problemas enfrentados durante o cultivo da cana-de-açúcar é


a doença podridão vermelha, causada pelo fungo Colletotrichum falcatum Went, que tem
provocado sérias epidemias em diversos países subtropicais. Para entender melhor a
arquitetura genética da resistência à podridão vermelha, um painel de 479 clones
representativos da base genética utilizada nos programas de melhoramento genético de cana-
de-açúcar desenvolvidos no âmbito da Ridesa (Rede Interuniversitária para
Desenvolvimento do Setor Sucroenergético) foi avaliado. Os clones foram genotipados para
50.766 SNPs (Single Nucleotide Polymorphisms), por meio da tecnologia Axiom™ array. A
severidade da doença, induzida por meio de inoculação artificial, foi mensurada pela
porcentagem da área ao longo do colmo colonizada pelo patógeno e acessada para todos os
clones. Marcadores moleculares associados significativamente com o caráter em foco foram
identificados pela análise de mapeamento por associação em escala genômica (GWAS).
Alguns genes com função de defesa reconhecida foram encontrados próximos a esses SNPs.
As associações identificadas por GWAS se mostraram bastante inconsistentes quando 20%
dos indivíduos foram excluídos, de forma aleatória, do painel de associação. Por meio da
análise de seleção genômica, a habilidade de predição da severidade da doença variou de
60% a 64%, entre os diferentes modelos empregados: GBLUP (Genomic Best Linear
Unbiased Predictor), Bayes Cꙥ e Bayes Dꙥ. Quando os modelos de seleção genômica
consideraram os SNPs descobertos pelas análises GWAS (conduzidas apenas nas
populações de treinamento) como covariáveis de efeitos fixos, as habilidades preditivas
caíram de forma significativa. O impacto do número SNPs utilizados no cálculo da matriz
de relacionamento genômico sobre a habilidade de predição do modelo GBLUP revelou ser
necessário genotipar pelo menos 10 mil marcadores para se recuperar, de forma satisfatória,
a variação genética do caráter.

Palavras-chave: Saccharum, Colletotrichum falcatum, seleção genômica, associação


genômica, GWS, GWAS, seleção assistida por marcadores, dosagem alélica.

1
Orientador: Prof. Dr. Alexandre Siqueira Guedes Coelho. EA/UFG.
ABSTRACT

MENEZES, R. C. Association mapping and genomic prediction of resistance to red rot


disease in sugarcane clones. 2024. 104 f. Thesis (Doctor of Science in Genetics and Plant
Breeding) – Escola de Agronomia , Universidade Federal de Goiás, Goiânia, 20232.

One of the main problems faced during sugarcane production is the red rot
disease caused by the fungus Colletotrichum falcatum Went, which has caused serious
epidemics in several subtropical countries. To better understand the genetic basis of red rot
resistance we evaluated a panel of 479 clones representing the genetic background used in
the Brazilian sugarcane breeding program developed by Ridesa (Inter-University Network
for the Development of Sugarcane Industry). The clones were genotyped using 50,766 SNPs
(Single Nucleotide Polymorphisms) through a Axiom™ array. The disease severity, induced
through artificial inoculation, was measure by the percentage of the area along the stem
colonized by the pathogen and accessed for all clones. Markers significantly associated to
the trait were identified by Genome Wide Association Studies (GWAS). Some genes with
recognized defense functions were found nearby these SNPs. The associations identified by
the GWAS analyses proved to be quite inconsistent when 20% of individuals were randomly
excluded from the association panel. Through genomic selection analyses, the ability to
predict the severity of the disease varied from 60% to 64%, among the different models used:
GBLUP (Genomic Best Linear Unbiased Predictor), Bayes Cꙥ e Bayes Dꙥ. When genomic
selection models considered SNPs discovered by GWAS analyses (conducted only on
training set populations) as fixed-effects covariates, predictive abilities dropped
significantly. The impact of the number of SNPs used to compute the genomic relationship
matrix on the predictive ability of the GBLUP model revealed that at least 10 thousand
markers are necessary to satisfactorily recover the genetic variation of the trait.

Keywords: Saccharum, Colletorichum falcatum, genome wide selection, genome wide


association studies, GWS, GWAS, marker assisted breeding, allele dosage.

2
Advisor: Prof. Dr. Alexandre Siqueira Guedes Coelho. EA/UFG.
1 INTRODUÇÃO

O setor sucroenergético é um segmento notável da agroindústria brasileira e pode


ser considerado um dos exemplos bem sucedidos de desenvolvimento econômico, gerando
empregos e economia de divisas para o país. O Brasil é o maior produtor mundial de cana-
de-açúcar e açúcar. Em relação ao etanol, é o segundo maior produtor mundial, ranking
liderado pelos Estados Unidos durante toda a última década, país que utiliza
majoritariamente o milho como matéria prima para produção de bioetanol (AFDC, 2021;
FAO, 2021).
Enfermidades provocadas por microrganismos fitopatogênicos estão entre os
fatores bióticos capazes de impactar de forma significativa a produção da cana-de-açúcar. A
podridão vermelha, que possui como agente etiológico o fungo Colletotrichum falcatum,
merece destaque nesse contexto, sendo considerada um problema grave, sobretudo para os
cultivos em regiões subtropicais (Sharma & Tamta, 2015).
A principal tática para o controle efetivo da podridão vermelha é o emprego de
variedades resistentes (Sharma & Tamta, 2015; Nandakumar et al., 2021). Embora a doença
seja efetivamente controlada pela utilização de variedades resistentes, o controle genético
dessa resistência ainda não foi estudado de forma detalhada (Viswanathan et al., 2009; Singh
et al., 2016; O’connell et al., 2022).
Nos últimos anos, esforços consideráveis foram realizados com o objetivo de
desenvolver marcadores genéticos associados à resistência à podridão vermelha (Sharma &
Tamta, 2015; Singh et al., 2016; O’connell et al., 2022). Tais marcas podem, potencialmente,
desempenhar papel relevante na identificação de genótipos superiores para esse caráter,
durante as fases de seleção nos programas de melhoramento genético de cana-de-açúcar.
Nesse contexto, estudos de mapeamento por associação em escala genômica
(Genome Wide Association Studies – GWAS) são amplamente utilizados para se detectar
associações entre marcadores genéticos e caracteres quantitativos (Morris & Cardon, 2019).
Babu et al. (2010) descrevem a resistência à podridão vermelha como um caráter
quantitativo, resultante da combinação de mecanismos tanto de resistência horizontal quanto
de resistência vertical.
Uma grande desvantagem dos estudos de associação genômica (GWAS) é a
necessidade de se adotar um nível crítico de significância demasiadamente rigoroso para se
contornar o problema estatístico decorrente das comparações múltiplas (Hamblin et al.,

11
2011). Isso implica na perda de informação de parte da variação genética explicada pelo
conjunto de marcadores moleculares, uma vez que locos de pequeno efeito são
frequentemente negligenciados na análise, por não atingirem o nível crítico de significância
exigido (Manolio et al., 2009; Tam et al., 2019). Ao contrário desses estudos (GWAS), a
abordagem já difundida e denominada seleção genômica ampla (Genome Wide Selection –
GS), ou simplesmente seleção genômica, retém todos os marcadores moleculares
disponíveis como preditores do valor genético dos indivíduos (Meuwissen et al., 2001). Esta
abordagem é, portanto, mais eficiente em capturar a variação genética proveniente de locos
de pequeno efeito (Hamblin et al., 2011).
A adaptação dos modelos de seleção genômica (GS) com a finalidade de melhor
se explorar a capacidade preditiva dos locos de grande efeito é uma área que vem sendo
bastante estudada na última década. Uma proposta destes estudos é a utilização de uma
estratégia que incorpore os marcadores identificados como significativos nas análises de
GWAS, como de efeitos fixos nos modelos de GS; sobretudo, em modelos que admitem que
a variância genética seja homogeneamente particionada entre todos os marcadores. A
utilização dessa abordagem pode melhorar a habilidade de predição por impedir a atuação
do efeito shrinkage no sentido de subestimar a contribuição dos locos de grande efeito
(Bernardo, 2014). Contudo, a aplicação desta abordagem também tem produzido resultados
bastante contraditórios: já foram reportados incrementos superiores a 10%; incrementos
modestos – da ordem 0,1% a 1%; e até mesmo decréscimos nas habilidades preditivas, a
depender da arquitetura genética do caráter em questão (McGowan et al., 2022).
Nesse sentido, partindo-se de uma população de clones representativos do banco
de germoplasma pertencente à Rede Interuniversitária para Desenvolvimento do Setor
Sucroenergético (Ridesa), este trabalho teve como objetivos: i) combinar ferramentas de
GWAS e GS para predizer a severidade da podridão vermelha em genótipos de cana-de-
açúcar; e ii) identificar genes, no contexto genômico dos polimorfismos identificados como
significativos na análise de GWAS, que estão, possivelmente, associados ao controle
genético da resistência à doença.

12
2 MELHORAMENTO DA CANA-DE-AÇÚCAR: FUNDAMENTOS E
ATUALIZAÇÕES COM ÊNFASE NA RESISTÊNCIA GENÉTICA À PODRIDÃO
VERMELHA

2.1 A CANA-DE-AÇÚCAR

2.1.1 Classificação botânica e importância econômica

A cana-de-açúcar é uma gramínea de ciclo perene, originária da região


localizada entre a Nova Guiné e a Indonésia, no Sudeste Asiático (Mozambani et al., 2006).
Pertence ao filo Magnoliophita, à classe Liliopsida, à ordem Cyperales, à família Poaceae, à
tribo Andropogoneae, à subtribo Saccharininae e ao gênero Saccharum (Cronquist &
Takhtadzhian, 1981).
A classificação botânica mais aceita inclui nesse gênero as espécies Saccharum
officinarum, Saccharum spontaneum, Saccharum robustum, Saccharum sinense, Saccharum
barberi e Saccharum edule. S. officinarum e S. spontaneum são as espécies que mais
contribuem geneticamente para as variedades modernas, que são híbridos interespecíficos
poliploides. Por meio da hibridização in situ de DNA nas variedades modernas, determinou-
se que cerca de 80% de seus cromossomos são oriundos da espécie S. officinarum, 10% de
S. spontaneum e os 10% restantes compreendem cromossomos recombinantes destas duas
espécies (D’hont, 2005).
Atualmente, a cana-de-açúcar é cultivada em todos os continentes do globo, em
regiões tropicais e subtropicais, totalizando uma área plantada de 27,49 milhões de hectares,
com produtividade média anual de 71,55 toneladas por hectare. O Brasil é o maior produtor
mundial, responsável por 36,39% da produção global, seguido da Índia, que responde por
20,61% do total (FAO, 2021).
A cana-de-açúcar desempenha papel relevante no agronegócio brasileiro e está
intimamente relacionada ao desenvolvimento econômico do país, desde a época colonial.
Além de ser importante fonte de biomassa utilizada na alimentação animal, o seu

13
processamento dá origem a produtos como: rapadura, melado, aguardente, açúcar e álcool.
Os resíduos decorrentes de seu processamento como a vinhaça e a torta de filtro são
utilizados como adubo e a combustão do bagaço é utilizada para produção de energia
elétrica. Esta gramínea é a primeira fonte energética renovável da nação e a cadeia de
produção do setor sucroenergético emprega cerca de 2,4 milhões de funcionários no país e,
representa, atualmente, cerca de 2,28 % do Produto Interno Bruto brasileiro (De Lima et al.,
2022).

2.1.2 Melhoramento genético no Brasil

A história do melhoramento genético da cana-de-açúcar pode ser dividida em


quatro períodos. O primeiro, que ocorreu durante o final do século XIX e início do século
XX, consistiu em cruzamentos entre espécimes de S. officinarum e seleção de clones com
elevado teor de sacarose, mas que, por outro lado, possuíam elevada susceptibilidade a
insetos e doenças, além de baixa adaptabilidade frente à diversidade de ambientes de cultivo
(Ming et al., 2010).
O segundo período, que ocorreu durante as décadas de 1920 e 1930, consistiu da
utilização de cruzamentos interespecíficos entre S. officinarum e S. spontaneum, seguidos
de sucessivos retrocruzamentos com S. officinarum, processo conhecido como nobilização
(Ming et al., 2010). Durante esse processo, ocorreu uma alta transmissão de cromossomos
pelo genitor feminino (S. officinarum), em número somático (Bremer, 1961). Isso facilitou
a recuperação de alelos favoráveis à produção de açúcar, provenientes de S. officinarum, ao
mesmo tempo em que se permitiu a incorporação de características como vigor,
adaptabilidade e resistência a insetos e doenças, provenientes de S. spontaneum (Souza et
al., 2011).
Nesse contexto, no início da década de 1920, surgem os primeiros programas de
melhoramento genético brasileiros, motivados pela expressiva queda de produção decorrente
da disseminação do vírus do mosaico da cana-de-açúcar nos canaviais paulistas. Na década
de 1930, Frederico de Meneses Veiga, em Campos – RJ, e José Manuel de Aguirre Jr, em
Piracicaba – SP, lideraram os programas dos quais resultaram, respectivamente, as
variedades de siglas CB e IAC; isto, simultaneamente à realização dos primeiros
experimentos voltados para a melhoria dos métodos de cultivo de cana-de-açúcar no país. A
princípio, o melhoramento genético brasileiro priorizava o estudo de genótipos introduzidos

14
de outros países como Índia (sigla Co), Java (sigla POJ) e Estados Unidos (sigla CP) (IAC,
2021).
Nas décadas de 1940 e 1950, foram avaliados os primeiros genótipos
desenvolvidos em Campos e Piracicaba, que resultaram nas primeiras variedades criadas no
Brasil: CB41-76, CB45-3, CB40-69, juntamente com as variedades IAC48-65, IAC50-134,
IAC51-205 e IAC52-150. Na década de 1960, dois pesquisadores do Instituto Agronômico
de Campinas (IAC), Carlos Alberto Krug e Hermindo Antunes Filho, contribuíram
significativamente para a formação do Programa Nacional de Melhoramento Genético da
Cana-de-açúcar (Planalsucar), atual Rede Interuniversitária para Desenvolvimento do Setor
Sucroenergético (Ridesa), e do Centro de Tecnologia Copersucar, hoje Centro de Tecnologia
Canavieira (CTC). Atualmente, no Brasil, existem três entidades que desenvolvem
programas de melhoramento genético de cana-de-açúcar: IAC, CTC e Ridesa (IAC, 2021).
A partir da década de 1940 até os dias atuais, a maioria dos genótipos utilizados
nos cruzamentos ou são provenientes do processo de nobilização ou de hibridações
subsequentes entre materiais que avançaram pelas fases de seleção clonal, caracterizando o
terceiro período histórico (Ming et al., 2010). Os cruzamentos realizados neste período
deram origem a genótipos poliploides, frequentemente com aneuploidias, tornando a
combinação de cromossomos presentes nos clones derivados de cada cruzamento única e
imprevisível. A complexidade genômica das cultivares modernas de cana-de-açúcar excede
àquela da maioria, senão todas, as outras culturas agrícolas de importância econômica
(Grivet & Arruda, 2002; Souza et al., 2011).
Por outro lado, as cultivares modernas descendem de apenas vinte genótipos
desenvolvidos em Java ou na Índia, durante o segundo período histórico. A base genética
das populações atuais é excessivamente estreita, comprometendo os ganhos de seleção dos
programas de melhoramento, em decorrência do esgotamento da diversidade genética (Edmé
et al., 2005; Ming et al., 2010). O quarto período histórico é caracterizado pelas tentativas
de se ampliar essa base genética pela introdução de materiais de origens diferentes à do
germoplasma inicial. No Brasil essa estratégia tem início em 1989 com a Copersucar
(Landell & Bressiani, 2010) e é realizada hoje pela Ridesa por meio do intercâmbio de
materiais, sobretudo, com o programa estadunidense Canal Point, um exemplo de sucesso
nesse quesito (Ming et al., 2010).
A quantidade de etapas até a obtenção de uma variedade comercial de cana-de-
açúcar varia em função do programa de melhoramento. Tomando-se como exemplo os

15
programas da Ridesa, a primeira etapa consiste na obtenção de seedlings provenientes dos
cruzamentos (biparentais ou policruzamentos) realizados nas estações de floração. As mudas
são transplantadas em campo para seleção fenotípica e as melhores plantas são propagadas
vegetativamente para áreas experimentais, passando pelas fases de seleção clonal T1, T2 e
T3. Se necessário, entre essas três etapas, pode-se realizar fases de multiplicação (FM). Os
melhores genótipos avançam para serem testados em vários ambientes de produção na fase
de experimentação denominada de ensaios de época em rede (EP); em que, além da
estabilidade e adaptabilidade, também é determinada a melhor época de colheita dos
materiais elite. Estes materiais, adicionalmente, são caracterizados por análises tecnológicas
mensais, conforme o manual de instruções do Consecana-SP (Consecana, 2006), de abril a
novembro, estimando-se suas curvas de maturação. Os resultados são validados em áreas de
empresas conveniadas aos programas e, por fim, é feita a liberação da nova variedade
comercial. O processo inteiro tem duração de doze a quinze anos (Ridesa, 2023).
Em todas as etapas, é realizada seleção para resistência genética às principais
doenças da cultura. Em cana-de-açúcar, como em outras espécies cultivadas, o
melhoramento é reconhecido como o método de menor custo e maior eficiência para o
controle da maioria dos fitopatógenos (Agnihotri, 1983; Croft & Berding, 2004).
No âmbito do Programa de Melhoramento Genético de Cana-de-Açúcar
desenvolvido pela Universidade Federal de Goiás (PMGCA-UFG/Ridesa), cerca de um ano
após o transplantio de seedlings em campo, é realizada uma seleção visual dos materiais
mais vigorosos, os quais irão compor o ensaio T1. No ensaio T1 são plantados cerca de cinco
mil genótipos, em parcelas constituídas por uma linha de um 1,0 m e sob delineamentos em
blocos aumentados (DBA). Dentre os genótipos incluem-se três cultivares testemunhas, uma
de cada ciclo: precoce, médio e tardio. O ensaio T1 é avaliado dezoito meses após o plantio
(sendo roçado aos seis meses). Os caracteres avaliados são: teor de sólidos solúveis (ºBRIX),
número de colmos por metro e nota do melhorista (escala de notas de 1 a 5, em que se avalia,
visualmente, características morfológicas desejáveis). Até o ensaio T1, todas as etapas são
conduzidas em áreas experimentais da Escola de Agronomia da Universidade Federal de
Goiás.
Do ensaio T1 são selecionados quatrocentos genótipos que irão compor oito
ensaios T2 em DBA, cada um com cem genótipos, que serão plantados em oito usinas
conveniadas ao PMGCA-UFG/Ridesa; ou seja, o mesmo ensaio T2 é replicado em duas
usinas. Além dos 100 genótipos, cada ensaio T2 possui três testemunhas de ciclos distintos

16
(precoce, médio e tardio). Os ensaios T2 são avaliados por dois anos consecutivos, uma
avaliação em cana-planta e outra na primeira, em cana-soca. As parcelas destes ensaios são
constituídas por uma linha de 8,0 m. Em cada ensaio T2 são selecionados trinta genótipos, a
partir da análise dos seguintes caracteres: número de colmos por metro, florescimento,
chochamento, acamamento, tonelada de cana por hectare (TCH), teor de sólidos solúveis
(ºBRIX), teor de sacarose aparente (POL), tonelada de POL por hectare (TPH) e açúcares
totais recuperáveis (ATR).
Cada ensaio T2 dará origem a um ensaio T3, no mesmo local, composto de trinta
genótipos ou clones selecionados. Em T3 já se adota o delineamento em blocos completos
casualizados (DBC), com três repetições por clone e parcelas constituídas por duas linhas de
12 m. A partir da fase T3 não mais se impõe restrição à quantidade de genótipos selecionados
e são avaliados os mesmos caracteres que na fase T2; ainda, por três anos consecutivos, uma
avaliação em cana-planta, outra na primeira soca e a última em segunda soca.
Após a fase T3, em geral, cada genótipo selecionado é plantado no mesmo local
em uma faixa constituída por seis linhas de 120 m. Essa etapa é denominada fase de
multiplicação (FM), sendo realizada a fim de se conseguir material propagativo suficiente
para a fase seguinte de ensaios EP (de época), além de ser útil para avaliar a performance
dos materiais em áreas mais extensas. Os caracteres avaliados na etapa FM são os mesmos
avaliados em T2 e T3, apenas em cana-planta.
Após a etapa FM, os genótipos selecionados participarão de todos os ensaios em
rede da etapa EP, que serão implantados em diversas usinas conveniadas. Esses ensaios,
também conduzidos em DBC com três repetições, possuem parcelas constituídas por quatro
linhas de 12 m. Cada ensaio EP é replicado três vezes, em cada local, sendo que um deles é
colhido em abril (início da safra), outro em julho (meio da safra) e outro em outubro (final
da safra). Os caracteres avaliados na fase EP são os mesmos avaliados em T2, T3 e FM,
embora por quatro anos consecutivos, com avaliações em cana-planta e em primeira,
segunda e terceira socas.
A maioria das variedades comerciais exploradas em campos de cultivo de cana-
de-açúcar são desenvolvidas por métodos de melhoramento genético fundamentados
exclusivamente por avaliações fenotípicas. No entanto, devido ao extenso ciclo da cultura e
à complexidade da herança genética em híbridos interespecíficos poliploides, o processo de
seleção de plantas com características agronômicas desejáveis é demasiadamente demorado.
Nesse sentido, os avanços das tecnologias de genotipagem e sequenciamento genético e das

17
ferramentas estatísticas e de bioinformática, permitirão a melhor compreensão do controle
genético dos caracteres de interesse. A aplicação destas tecnologias nos programas de
melhoramento pode acelerar o processo de seleção (Souza et al., 2011) e, consequentemente,
os prazos de liberação varietal em cana-de-açúcar.

2.1.3 Estrutura do genoma

As cultivares modernas de cana-de-açúcar são derivadas de híbridos


interespecíficos resultantes do cruzamento entre S. officinarum e S. spontaneum,
retrocruzados, sucessivamente, com S. officinarum. Diz-se, portanto, que o genoma nuclear
das variedades modernas (híbridos Saccharum spp.) é composto de dois sub-genomas: S.
officinarum e S. spontaneum (Thirugnanasambandam et al., 2018).
S. officinarum é uma espécie octaploide, com o número básico de cromossomos
igual a 10, genoma monoploide com tamanho de aproximadamente 1 Gb, número total de
cromossomos igual a 80 e genoma total com tamanho de aproximadamente 7,88 Gb (D’Hont
et al., 1996; Zhang et al., 2012). S. spontaneum possui número básico de cromossomos igual
a 8, genoma monoploide com tamanho de aproximadamente 750-843 Mb, número total de
cromossomos variando de 40 a 128 e genoma total com tamanho aproximado de 3,36-12,64
Gb (D’Hont et al., 1998; Ha et al., 1999; Zhang et al., 2012). O nível de ploidia desta espécie
pode variar entre 5 e 16 (Thirugnanasambandam et al., 2018), sendo oito o mais frequente
(Irvine, 1999).
Existem programas de hibridação que envolveram outras espécies dentro do
gênero Saccharum. S. barberi e S. sinense contribuíram principalmente para o aumento do
vigor, perfilhamento, resistência a doenças e adaptações ambientais. S. barberi e S. sinense
são relatados como tendo sido derivadas de S. officinarum e S. spontaneum (Amalraj &
Balasundaram, 2006).
As variedades modernas de cana-de-açúcar possuem de 100 a 130 cromossomos,
dos quais de 80 a 90% são oriundos de S. officinarum, de 10 a 20% oriundos de S.
spontaneum e de 8 a 13% são recombinantes interespecíficos (D’Hont et al., 1996; Piperidis
et al., 2010). Estima-se que possam existir de 8 a 14 cópias hom(e)ólogas de um dado gene,
em um dado loco de seu genoma (Grivet & Arruda, 2002; Rossi et al., 2003; Souza et al.,
2011). O genoma monoploide tem um tamanho estimado de aproximadamente 1 Gb,
entretanto, o tamanho do genoma nuclear total é estimado em 10 Gb, cerca de dez vezes

18
maior que o genoma de sorgo (Le Cunff et al., 2008, Paterson et al., 2009). Portanto, as
variedades modernas de cana-de-açúcar são altamente heterozigóticas, possuindo mais de
oito cópias de cromossomos homólogos oriundos de S. officinarum, algumas cópias (uma a
duas) de cromossomos homólogos oriundos de S. spontaneum e cromossomos
recombinantes interespecíficos (Ming et al., 1998).
A mistura de conjuntos de cromossomos hom(e)ólogos, a partir de duas espécies
progenitoras poliploides, associada a um alto conteúdo de regiões repetitivas (Okura et al.,
2012; Berkman et al., 2014), tem dificultado a construção de um genoma de referência para
a cana-de-açúcar (Souza et al., 2011; Okura et al., 2012; Thirugnanasambandam et al., 2018).

2.1.4 Estudos de sintenia

Muitas espécies de gramíneas, especialmente arroz, milho e sorgo, possuem


genomas mais bem caracterizados do que o genoma da cana-de-açúcar. Consequentemente,
o entendimento da sintenia entre estas espécies e a cana-de-açúcar pode favorecer a
compreensão do seu genoma (Grivet & Arruda, 2002).
É evidente a existência de um alto nível de microcolinearidade entre os
cromossomos homeólogos da cana-de-açúcar, uma vez que seus progenitores são espécies
intimamente relacionadas (Jannoo et al., 2007; Garsmeur et al., 2011). Dentre as espécies de
gramíneas, o arroz é a mais bem caracterizada e pode servir de modelo, apesar de não ser a
espécie cujo genoma tem maior microcolinearidade com o de cana-de-açúcar (Paterson et
al., 1995; Grivet & Arruda, 2002). Várias fontes de informação genômica (Goff et al., 2002;
Yu et al., 2002), associadas a modelos de genes (Ouyang et al., 2007; Tanaka et al., 2008),
estão disponíveis para o arroz. A exemplo do arroz, para o milho também já estão disponíveis
um genoma de referência (Schnable et al., 2009; Jiao et al., 2017) e modelos de genes
(Andorf et al., 2016).
Comparada com milho e arroz, a divergência evolutiva entre cana-de-açúcar e
sorgo é mais recente, consequentemente, estas duas espécies possuem alta
microcolinearidade e sintenia mais evidente (Dufour et al., 1996; Glaszmann et al., 1997;
Guimarães et al., 1997; Ming et al., 1998; Wang et al., 2010; Okura et al., 2012). Por essa
razão, acredita-se que o sorgo seja uma das espécies diploides mais intimamente
relacionadas à cana-de-açúcar, logo, seu genoma pode ser utilizado como referência (Dillon
et al., 2007). O genoma de referência do sorgo está disponível (Paterson et al., 2009), assim

19
como modelos de genes (PlantGDB, 2023), e ambos têm sido amplamente utilizados em
estudos genômicos da cana-de-açúcar (Thirugnanasambandam et al., 2018).

2.2 PODRIDÃO VERMELHA

2.2.1 Agente causal e importância econômica

O fungo Colletotrichum falcatum, agente etiológico da podridão vermelha, foi


descoberto por Went, em 1893, no Estado de Tmojal, na Ilha de Java, Indonésia (Went,
1893). O parasitismo de C. falcatum, tanto em folhas quanto em colmos de cana-de-açúcar,
foi confirmado por meio de inoculações cruzadas do patógeno, por Edgerton em 1910
(Edgerton, 1910; Carvajal, 1943).
Em relação à classificação taxonômica, o microorganismo pertence ao reino
Fungi, ao sub-reino Dikarya, ao filo Ascomycota, ao subfilo Pezizomycotina, à classe
Sordariomycetes, à subclasse Hypocreomycetidae, à ordem Glomerellales, à família
Glomerellaceae, ao gênero Colletotrichum e à espécie C. falcatum (Mycobank, 2023).
Em 1941, a produção da fase perfeita de C. falcatum, em laboratório, foi
conseguida pela primeira vez, por meio da produção de ascósporos em folhas esterilizadas
de cana-de-açúcar, após inoculações de conídios provenientes de culturas monospóricas. A
exemplo dos outros ascomicetos, a reprodução sexual em C. falcatum consiste na
plasmogamia de células de conidióforos haploides para formação dos ascos, dentro dos quais
ocorre cariogamia e formação de células zigóticas, as quais produzem ascósporos após
meiose (Alexopoulos et al., 1996). Inicialmente, a fase teleomórfica foi descrita como
Physalospora tucumanensis (Carvajal, 1943), espécie previamente descoberta na Argentina
por Carlos Spegazzini (Spegazzini, 1896). Em 1954, a fase sexuada foi renomeada por Arx
e E. Muller, recebendo o nome de Glomerella tucumanensis (Mycobank, 2023).
Além de híbridos Saccharum spp., C. falcatum já foi descrito parasitando S.
officinarum, S. barberi, S. robustum, S. sinense, S. spontaneum, Sorghum halepense,
Sorghum vulgare, Erianthus giganteus e Leptochloa filiformis (Carvajal, 1943). A
enfermidade já foi relatada em quase todos os países que cultivam cana-de-açúcar: Estados
Unidos, Argentina, Brasil, países da América Central, China, Colômbia, Egito, Índia, Japão,
Peru, Madagascar, Filipinas, Uganda, África do Sul, Austrália, Bangladesh, Tailândia e
Taiwan (Carvajal, 1943; Saksena et al., 2013).

20
A podridão vermelha é considerada uma das maiores ameaças à produção global
de cana-de-açúcar (Satyavir, 2003; Duttamajumder, 2008). Epidemias de C. falcatum podem
causar perdas em torno de 30%, tanto no peso da cana colhida quanto no teor de sacarose
(Hussnain & Afghan, 2006; Viswanathan et al., 2018).
Na última década, a doença tem aumentado sua severidade nos campos de
cultivo brasileiros. Relatos não oficiais de epidemias recentes levam a suspeitar que a
população do patógeno era controlada anteriormente pela queima da cana-de-açúcar,
procedimento utilizado para a colheita manual. Mas, a partir da última década, praticamente
100% dos canaviais brasileiros passaram a ser colhidos de forma mecanizada. Por se tratar
de um organismo hemibiotrófico, a sobrevivência e o aumento do inóculo nos canaviais
pode, então, ser consequência do grande volume de palhada depositado no solo durante a
colheita de cana-de-açúcar crua.

2.2.2 Métodos de seleção de genótipos resistentes

Vários componentes estão envolvidos no manejo eficiente da doença, mas a


estratégia mais efetiva é o emprego de variedades resistentes. Os fatores que determinam a
resistência genética da cana-de-açúcar ao patógeno ainda não estão completamente
esclarecidos, sendo necessárias investigações detalhadas para compreendê-los em nível
molecular (Viswanathan et al., 2009; Singh et al., 2016; O’connell et al., 2022).
Durante as primeiras décadas do século XX, após os primeiros relatos da
podridão vermelha da cana-de-açúcar, no norte da Índia, a indústria de açúcar utilizava
principalmente clones das espécies S. officinarum e S. barberi, reconhecidos pelo seu alto
teor de açúcar e alta susceptibilidade à doença (Viswanathan, 2010). Essa situação levou
pesquisadores a explorarem mais a hibridação entre S. officinarum e S. spontaneum, pois a
última espécie parecia possuir resistência ao patógeno. O processo exigia procedimentos
para se identificar genótipos resistentes, dentre um grande número de descendentes nos
programas de hibridação (Mohanraj et al., 2012).
No início, a identificação de genótipos resistentes era realizada pelo cultivo dos
genótipos promissores em locais propensos ao desenvolvimento da doença, reconhecendo
os clones resistentes pela eliminação natural dos susceptíveis. É provável que os resultados
dessa abordagem fossem bastante inconsistentes, tornando necessário o desenvolvimento de

21
técnicas de triagem que utilizassem inoculações artificiais do patógeno (Mohanraj et al.,
2012).
A podridão vermelha é reconhecida por ser uma doença que afeta principalmente
os colmos da cana-de-açúcar. A maioria dos métodos empregados para se avaliar a
resistência genética à doença são baseados em inoculações artificiais e mensuração da
severidade da doença neste órgão da planta (Viswanathan, 2010).
Diferentes métodos têm sido utilizados para introduzir o patógeno no interior
dos colmos da cana-de-açúcar. No entanto, o método do plug é o mais empregado. Esse
método utiliza plantas com idade variando de seis a oito meses, em condições de campo.
Após o cultivo de C. falcatum em meio de cultura, uma suspensão de esporos é preparada
em água estéril, na concentração de 106 conídios/mL. Um furo é feito no colmo, no meio do
terceiro entrenó, contado-se a partir da base, retirando-se parte do tecido vegetal (plug) com
auxílio de um tubo oco e pontiagudo de metal, com 0,5 cm de diâmetro. Cerca de 0,5 mL da
suspensão de esporos são depositados no interior do furo, o plug é recolocado no seu lugar
de origem e o ferimento é vedado; geralmente com argila estéril, plástico filme ou fitas
adesivas (Chona, 1954).
Variações do método do plug foram propostas e consistem em mergulhar palitos
de dente na suspensão de esporos e aplicá-los no interior de um furo feito no segundo ou
terceiro entrenó do colmo, contados a partir da base. Posteriormente, o ferimento é também
vedado (Wang & Lee, 1982; Agnihotri, 1983; Virk, 1989). Independentemente do método,
a suspensão deve ter concentração de 106 conídios/mL para garantir infecção eficiente.
Concentrações menores que 60 mil conídios/mL resultam em pouco desenvolvimento de
sintomas (Mohanraj et al., 2012).
Para uso do método do plug é necessário um período de incubação de cerca de
sessenta dias. Decorrido este tempo, os colmos inoculados são rachados longitudinalmente
e a severidade da doença é mensurada utilizando-se uma escala de notas que varia de 0 a 9
pontos, contabilizados a partir de quatro sintomas da doença: presença de manchas brancas
nas lesões, largura da lesão, transgressão nodal a partir do local de inoculação, e condição
do ponteiro da planta (Srinivasan & Bath, 1961; Duttamajumbder & Singh, 1999).
As avaliações são realizadas desprezando-se o entrenó de inoculação para que
reações da planta associadas ao ferimento não sejam confundidas com sintomas da doença.
Na ausência de manchas brancas aplica-se nota 0; nota 1, se esparsamente presente; e nota
2, se moderado a profusamente presente. A largura da lesão determina nota 0 se a lesão não

22
estiver se espalhando; nota 1, se a lesão se espalhar em até 25% da largura do colmo; nota 2
se a lesão se espalhar de 25% a 50% da largura do colmo; e nota 3, se a lesão se espalhar por
mais de 50% da largura do colmo. Se não houver transgressão nodal aplica-se nota 0; nota 1
se a lesão transgredir um nó acima do ponto de inoculação; nota 2 se a lesão transgredir dois
nós acima do ponto de inoculação; e nota 3 se a lesão transgredir mais que dois nós acima
do ponto de inoculação. A condição do ponteiro da planta determina nota 0 se o ponteiro
estiver verde; e nota 1 se tiver folhas amarelando ou secando (Srinivasan & Bath, 1961;
Duttamajumbder & Singh, 1999).
Ainda em relação à condição do ponteiro, o amarelecimento, o secamento e a
morte das folhas indicam extrema susceptibilidade do genótipo. Isto é consequência da
desintegração e colapso geral do sistema vascular da planta, causado por enzimas produzidas
pelo patógeno, que degradam a parede celular. Em relação à presença de manchas brancas,
em muitas variedades susceptíveis, as lesões avermelhadas são intercaladas com áreas menos
pigmentadas. A coloração avermelhada das lesões está associada à produção de antocianina
pela planta, maior em genótipos resistentes, mecanismo que restringe a colonização dos
tecidos do colmo pelo patógeno. As manchas brancas constituem tecidos que facilitam a
rápida disseminação do patógeno ao longo do colmo e sua presença é indicadora de
susceptibilidade (Srinivasan & Bath, 1961; Mohanraj et al., 2012).
A natureza fibrosa dos tecidos nodais, em muitas variedades, oferece resistência
à disseminação do patógeno ao longo do colmo. Portanto, o comprimento da lesão deve ser
considerado na mensuração da severidade. No entanto, quando o comprimento é considerado
de forma direta, a severidade da doença pode ser confundida por fatores como idade,
comprimento do colmo e comprimento dos entrenós. Diante disso, a extensão da lesão tem
sido quantificada pela transgressão nodal. Em relação à largura da lesão, é lógico concluir
que quanto maior for, maior será a susceptibilidade do genótipo, uma vez que neste caso o
patógeno terá invadido e degradado grande volume de tecido, resultando em maior prejuízo
para translocação de água e nutrientes (Srinivasan & Bath, 1961; Mohanraj et al., 2012).
A principal desvantagem do método do plug é o tempo requerido, cerca de dez
meses para seleção de materiais resistentes. Embora seja amplamente utilizado, esse método
é considerado por muitos pesquisadores como demasiadamente agressivo, por introduzir
diretamente o patógeno nos tecidos internos do colmo, causando ferimentos e quebrando
barreiras naturais de resistência do hospedeiro. Ou seja, avalia a resistência dos tecidos
internos do colmo à colonização do patógeno, desprezando-se os mecanismos de resistência

23
que previnem a entrada do fungo. No entanto, as experiências têm mostrado que é importante
considerar toda vulnerabilidade potencial que, porventura, os genótipos possam ser expostos
em condições de campo (Mohanraj et al., 2012).
Nesse sentido, métodos de inoculação menos invasivos e/ou mais rápidos foram
propostos. Singh & Budhraja (1964) propuseram um método de inoculação utilizando a
região nodal. Uma suspensão de esporos de C. falcatum é preparada, em água estéril, com
concentração de 106 conídios/mL. Colmos com cerca de sete meses de idade são
selecionados para inoculação. As bainhas das folhas mais velhas, não senescentes, são
puxadas para fora e cerca de 2 mL da suspensão de esporos é depositada em contato com os
nós selecionados. A inoculação deve ser realizada em épocas de alta umidade relativa do ar.
Após sessenta dias de incubação, os clones são avaliados com base na presença de sintomas
típicos da doença. Rana & Gupta (1968) estabeleceram, de forma mais clara, os sintomas a
serem avaliados e a classificação dos genótipos em níveis de susceptibilidade.
Rana & Gupta (1968) propuseram um método de inoculação utilizando nós
expostos. Colmos de cana de seis meses de idade são selecionados para inoculação. As três
folhas mais velhas, não senescentes, são removidas com a bainha, expondo-se a região nodal.
Uma suspensão de esporos de C. falcatum é preparada, em água estéril, com concentração
de 106 conídios/mL e pulverizada na região até o ponto de escorrimento. Após quatro meses,
os colmos inoculados são rachados longitudinalmente e a severidade da doença é pontuada
com base em sintomas internos e externos, por meio de uma escala de notas definida pelos
autores.
Singh et al. (1978) propuseram um método de inoculação utilizando seedlings.
O inóculo é preparado raspando-se o micélio e os esporos do meio de cultura, e misturando-
os em água para preparo de uma suspensão. As plantas são pulverizadas, após o pôr do sol,
em condições de alta umidade relativa do ar. Cerca de 14 dias após a inoculação, as plantas
são avaliadas por sintomas nas folhas por escala de notas proposta pelos autores.
Mohanraj et al. (1998), com o objetivo de avaliar rapidamente a reação de
genótipos de cana-de-açúcar à podridão vermelha, desenvolveram um método de inoculação
sob condições ambientais ideais e controladas (Controlled Condition Testing – CCT). Os
terços superiores dos colmos, com idade de sete meses, são cortados com as folhas, e
acondicionados de forma vertical em leito de areia, dentro de uma câmara úmida com
temperatura mantida a 30°C, umidade acima de 90% e fotoperíodo de oito horas. Deve-se
garantir que o nó inferior do colmo esteja enterrado na areia. As folhas são então aparadas.

24
As duas folhas mais velhas, não senescentes, são removidas com a bainha, expondo-se a
região nodal. Mechas de algodão, de 10 cm de comprimento e 3 cm de largura, são
mergulhadas em suspensão de esporos de C. falcatum preparada, em água estéril, com
concentração de 106 conídios/mL, absorvendo cerca de 2 mL da suspensão. De sete a dez
dias após a inoculação as plantas são avaliadas conforme a escala proposta pelos autores.
Todos os métodos anteriormente relatados foram desenvolvidos por
pesquisadores indianos, em sua maioria, associados ao projeto All India Coordinated
Research Project on sugarcane (AICRP). O projeto AICRP é um programa nacional de
desenvolvimento de variedades de cana-de-açúcar, que segue processo rigoroso de seleção
de materiais com resistência à podridão vermelha. Inicialmente, os clones promissores são
selecionados utilizando-se o método do plug e a escala de notas proposta por Srinivasan &
Bath (1961), com uso de vinte colmos por clone. Os clones susceptíveis, mas com
características agronômicas desejáveis, são novamente rastreados pelo método de inoculação
de nós expostos, utilizando-se quinze colmos por clone. As suspensões de conídios são
preparadas utilizando-se um pool de isolados de C. falcatum, representativo dos patótipos
existentes. Os protocolos de inoculações e quantificação de danos estão apresentados no
trabalho de Mohanraj et al. (2012).
No Brasil, Giglioti & Canteri (1999), estudando o complexo broca-podridão,
validaram a quantificação de severidade da doença, pela utilização da porcentagem de área,
ao longo do colmo, colonizada pelo patógeno. Esta alternativa metodológica apresentou
correlação alta com os demais danos mensurados.
O Departamento de Agricultura dos Estados Unidos (United States Department
of Agriculture – USDA) avalia a reação de clones à podridão vermelha pela inoculação de
colmos maduros, com cerca de dez entrenós, em condições de laboratório. Os colmos são
cortados e levados ao laboratório, onde é feita uma desinfecção superficial com hipoclorito
de sódio. Um orifício de 3 mm de diâmetro é feito no meio de cada colmo. Cerca de 0,1 mL
de suspensão de conídios, com concentração de 2,5x106 conídios/ml, é depositada no interior
de cada colmo, que são mantidos à temperatura de 25°C. Após 25 dias de incubação os
colmos inoculados são rachados longitudinalmente e avaliados segundo escala de notas de
severidade que varia de 0 até 5 (Mohanraj et al., 2012).
Embora muitos aspectos relacionados à seleção voltada para resistência da cana-
de-açúcar à podridão vermelha tenham sido padronizados nos últimos anos, há muito espaço
para melhorias e ajustes finos nesses processos, sobretudo, pela utilização de técnicas de

25
fenotipagem mais modernas e que se tornaram mais acessíveis nos últimos anos. Não menos
importante, seria avançar no conhecimento dos mecanismos genéticos relacionados à
interação planta-patógeno, para identificar de forma mais precisa clones resistentes.

2.3 ESTUDOS DE ASSOCIAÇÃO EM ESCALA GENÔMICA (GWAS)

2.3.1 GWAS x Análise de ligação tradicional

A variação fenotípica de caracteres complexos, de importância agronômica e/ou


evolutiva, está sob influência de múltiplos fatores, incluindo: diversas regiões genômicas
(Quantitative Trait Loci – QTLs), que participam do controle genético destes caracteres
quantitativos, de múltiplos fatores ambientais, assim como dos efeitos das interações
existentes entre QTLs, além dos efeitos da interação entre QTLs e fatores ambientais. A
análise de ligação tradicional e o mapeamento por associação em escala genômica (Genome
Wide Association Studies – GWAS) são as duas ferramentas mais comumente utilizadas para
detecção de polimorfismos genéticos que possam explicar parte dessa variação fenotípica.
Tanto a análise de ligação tradicional quanto os GWAS dependem do
desequilíbrio de ligação (Linkage Disequilibrium – LD) entre marcadores moleculares e o
polimorfismo causal, para a detecção de QTLs associados ao caráter em estudo. A principal
diferença é que na primeira abordagem, populações provenientes de cruzamentos
controlados são utilizadas, a fim de se aumentar a extensão do LD. Enquanto na segunda
abordagem, explora-se a diversidade genética de populações que passaram por várias
gerações de recombinação, fazendo com que a extensão do LD seja reduzida, dificultando a
detecção de associações significativas entre marcadores e o caráter de interesse, mas, ao
mesmo tempo, aumentando muito a resolução do mapeamento (Zhu et al., 2008).
A utilização da análise de ligação tradicional em plantas normalmente localiza
QTLs em intervalos de 10 a 20 cM, devido ao número limitado de eventos de recombinação
que ocorrem durante a formação das populações de estudo (Doerge, 2002; Holland, 2007).
Por esta razão, apesar de centenas de estudos de análise de ligação tradicional terem sidos
desenvolvidos nas décadas de 1990 e 2000, em diversas espécies de plantas (Kearsey &
Farquhar, 1998; Holland, 2007), apenas um número limitado de QTLs foram identificados
ao nível de gene (Price et al., 2006).

26
Nesse contexto, as pesquisas com GWAS surgiram como ferramenta que
permite o estudo do controle genético de caracteres complexos em nível de sequências
genômicas, explorando populações em que o LD é pequeno (Risch & Merikangas, 1996;
Nordborg & Tavaré, 2002), comumente obtidas em bancos de germoplasma, por exemplo.
Desde a sua aplicação em espécies vegetais (Thornsberry et al., 2001), os estudos
de GWAS têm sido cada vez mais empregados com o objetivo de se identificar os alelos
superiores para diferentes caracteres de interesse. Isto só foi possível com o advento das
tecnologias de análise genômica de alto rendimento, capazes de identificar centenas de
milhares de marcadores genéticos distribuídos ao longo do genoma, usualmente
polimorfismos de nucleotídeos únicos (Single Nucleotide Polimorphisms – SNPs) (Morris
& Cardon, 2019), assim como pelo desenvolvimento de métodos estatísticos robustos
utilizados na modelagem da variação fenotípica de caracteres de interesse (Zhu et al., 2008).
Em relação à análise de ligação tradicional, os GWAS possuem as seguintes
vantagens: aumento da resolução de mapeamento, redução do tempo de pesquisa e aumento
do número de alelos cujas associações a determinado caráter são detectadas (Yu & Buckler,
2006).

2.3.2 Desequilíbrio de ligação

Desequilíbrio de ligação (LD), ou desequilíbrio gamético de ligação, é definido


como a diferença entre a frequência observada de determinado haplótipo e aquela que seria
esperada sob segregação independente dos alelos que o compõem. O LD é afetado por
diversos fatores (Ardlie et al., 2002). O LD devido à ligação física entre locos, informação
utilizada para se buscar por QTLs associados a caracteres de interesse, é o resultado líquido
de todos os eventos de recombinação que ocorreram em uma população, desde a origem de
um alelo por mutação (Holte et al., 1997; Karayiorgou et al., 1999).
Dentre outros fatores, o sistema de cruzamento de uma espécie determina
parcialmente a extensão do LD em suas populações. Em geral, o LD é mais extenso em
populações de espécies autógamas do que em populações de espécies alógamas (Flint-Garcia
et al., 2003). Além disso, é importante se ressaltar que o LD devido à estruturação
populacional deve ser considerado em análises de GWAS para se evitar a detecção de
associações espúrias (Zhu et al., 2008).

27
Existem várias estatísticas utilizadas na mensuração do LD (Devlin & Risch,
1995) que diferem entre si pelos efeitos do tamanho amostral e das frequências alélicas
(Hedrick, 1987). As estatísticas D’ (Lewontin, 1964) e r2 (Hill & Robertson, 1968) têm sido
bastante utilizadas na quantificação do LD por minimizarem o efeito das frequências alélicas
populacionais (Morris & Cardon, 2019).
Em termos de detecção de SNPs associados significativamente ao caráter sob
investigação, a estatística r2 é a medida de LD mais relevante (Zhu et al., 2008). O coeficiente
de determinação r2 varia de 0 a 1 e representa a proporção com que o polimorfismo de
determinado SNP é explicado por outro SNP. Se o r2 entre um par de SNPs é 1, isto significa
que toda variação de um SNP é explicada pelo outro SNP, e se for 0, isto significa que os
SNPs não estão ligados (Morris & Cardon, 2019). A esperança matemática de r2 é igual a
1/(1 + 4Nc) em que N é o tamanho efetivo populacional e c é a taxa de recombinação em
Morgans (Sved, 1971).
A existência de LD faz com que não seja necessário se genotipar todos os
polimorfismos de um determinado genoma, uma vez que SNPs podem ser selecionados, os
chamados tag SNPs, com base em um limiar predeterminado de r2, de forma que se consiga
recuperar a maior parte da informação sobre a variação genética presente no genoma
(Carlson et al., 2004). Nos GWAS, portanto, são tipicamente identificados SNPs que
possuem associação indireta com o caráter sob investigação, ou seja, que não são os próprios
polimorfismos causais, mas que se localizam em um mesmo bloco de LD que estes locos.
Se um polimorfismo causal é responsável pela fração de h2 da variação fenotípica de um
caráter, e possui com determinado SNP um LD de r2 então, este SNP explica h2 x r2 da
variação fenotípica do caráter (Hirschhorn & Daly, 2005; Zhu et al., 2008).
Valores de r2 de 0,1 a 0,2 são tipicamente utilizados para se estabelecer o alcance
do LD ao longo do genoma. Se o LD decair rapidamente, em distâncias menores, uma
resolução de mapeamento relativamente alta será esperada, mas, por outro lado, uma grande
quantidade de marcadores será requerida. Se o LD se estender por distâncias maiores, às
vezes de alguns cM, a resolução de mapeamento será baixa, mas um número relativamente
pequeno de marcadores será necessário para detecção de associações significativas (Zhu et
al., 2008).

28
2.3.3 Genotipagem
O sucesso dos GWAS depende da compreensão da estrutura da variação genética
ao longo de todo o genoma na população de estudo. Por isto, antes de se iniciar um estudo
de mapeamento por associação, é imprescindível que os pesquisadores avaliem
cuidadosamente todos os aspectos genéticos da espécie.
A avaliação do germoplasma disponível para a espécie é um aspecto relevante a
ser considerado (Flint-Garcia et al., 2003; Breseghello & Sorrels, 2006; Yu et al., 2006). A
diversidade genética, o nível de ploidia da espécie, a extensão do LD em todo o genoma, a
estrutura populacional e o parentesco determinam a resolução do mapeamento, a densidade
de marcadores, o método estatístico e o poder de detecção de associação da análise (Zhu et
al., 2008).
Os avanços das tecnologias de genotipagem e sequenciamento genético de alto
rendimento reduziram drasticamente os custos por data point de marcadores moleculares,
especialmente de SNPs (Hirschhorn & Daly, 2005; Syvänen, 2005). A facilidade de
identificação de centenas de milhares de SNPs pelo sequenciamento de um conjunto de
genótipos diversos e a genotipagem destes SNPs em grandes amostras faz com que a
estratégia de GWAS se torne cada vez mais utilizada para espécies de plantas. O projeto
Arabidopsis HapMap por exemplo, forneceu um catálogo de diversidade genética com mais
de um milhão de SNPs para a espécie, uma média de um SNP a cada 166 pares de base do
seu genoma (Clark et al., 2007).
Portanto, uma etapa fundamental, a ser cuidadosamente executada em estudos
de mapeamento por associação em escala genômica, é utilizar a alta capacidade dos
instrumentos de sequenciamento de DNA para identificação eficaz de SNPs em densidade
adequada, de modo a se captar com precisão a estrutura do LD de todo o genoma e toda a
diversidade de haplótipos existentes. Independentemente da plataforma de sequenciamento
utilizada, uma sequência de referência, de alta qualidade, do genoma completo, é
extremamente valiosa para construção do mapa de haplótipos (Zhu et al., 2008).
Após os SNPs serem identificados, tecnologias de genotipagem baseadas em
microarrays (chips) são amplamente utilizadas para se genotipar centenas de milhares ou
milhões de tags SNPs, em todo o genoma. As plataformas mais utilizadas neste contexto
incluem aquelas da Illumina e da Affymetrix/Thermofisher. Independentemente da
plataforma, os genótipos são determinados por meio de algoritmos de agrupamento

29
construídos para se identificar as três classes genotípicas esperadas em espécies diploides:
os homozigotos para cada alelo do SNP e os heterozigotos (Morris & Cardon, 2019).
Nesse contexto, a genotipagem de organismos poliploides frequentemente é
realizada por um modelo pseudo-diploide em que todos os heterozigotos são considerados
em uma única classe genotípica. No entanto, ao se negligenciar a existência das dosagens
alélicas, além dos erros de classificação dos genótipos, são esperados impactos diretamente
nas estimativas dos efeitos dos locos nas análises de GWAS (Aono et al., 2020; Silos et al.,
2022).
A determinação correta das classes genotípicas tem sido o maior desafio para
estudos genômicos em espécies poliploides (De Bem Oliveira et al., 2019). Considerando-
se a tecnologia de genotipagem por chips, os avanços são limitados a algoritmos de
agrupamento direcionados para espécies tetraploides (Schmitz Carley et al., 2017). Por outro
lado, quando se utiliza a tecnologia GbS (Genotyping by Sequencing), sobretudo com
elevadas coberturas de sequenciamento, na ordem de 60-80x, as dosagens alélicas têm sido
estimadas pela razão entre o número de reads que contêm determinado alelo e o número
total de reads. Esta forma de genotipagem tem sido tratada na literatura como “genotipagem
contínua”, e sua incorporação aos estudos genômicos tem sido cada vez maior. Por
representar de forma mais realista a diversidade de classes genotípicas, em geral, essa
abordagem consegue explicar melhor a variação genética dos caracteres de interesse (De
Bem Oliveira et al., 2019).

2.3.4 Fenotipagem

Os caracteres avaliados em GWAS podem ser classificados em duas categorias


principais: caracteres binários, em que só existem duas classes fenotípicas para os
indivíduos; e caracteres quantitativos contínuos, em que o fenótipo dos indivíduos é
determinado segundo medidas de variação contínua (Morris & Cardon, 2019). Alguns
caracteres também podem ser definidos com base em variáveis quantitativas discretas, como
é o caso da fenotipagem de doenças por escalas de notas de severidade, que muitas vezes
são preferidas se puderem ser medidas de forma fácil, precisa, econômica e com o mínimo
de erro, em grandes amostras (Bush & Moore, 2012).
A estratégia de GWAS frequentemente envolve populações relativamente
grandes e a coleta de dados fenotípicos em vários locais e épocas diferentes (Flint-Garcia et

30
al., 2005). Enquanto a precisão e o rendimento da genotipagem melhoraram drasticamente
nos últimos anos, a obtenção de dados fenotípicos robustos continua sendo um obstáculo
para os estudos de mapeamento por associação em escala genômica (Zhu et al., 2008).
Diante disso, é imprescindível a utilização de delineamentos experimentais
adequados, principalmente quando se trabalha com populações grandes em que,
frequentemente, se torna necessário a adoção de delineamentos com blocos incompletos. A
escolha do método estatístico e a inclusão da interação QTLs x ambientes nos modelos
matemáticos devem ser explorados com o objetivo de se aumentar o poder de detecção de
associações significativas nas análises, especialmente em experimentos conduzidos em
campo, em que as condições ambientais podem ser heterogêneas (Eskridge, 2003).
Outro fator que deve ser levado em consideração durante a fenotipagem é o
impacto de outros caracteres na mensuração do caráter prioritariamente sob investigação.
Por exemplo, a suscetibilidade de determinados genótipos a patógenos prevalentes na área
experimental pode levar à detecção equivocada de associações entre marcadores genéticos e
caracteres morfológicos e/ou agronômicos de interesse (Zhu et al., 2008).

2.3.5 Controle de qualidade em GWAS

Um componente essencial para a realização dos GWAS é a avaliação do


tamanho amostral que irá compor o painel de associação. O tamanho amostral tem papel
fundamental por determinar diretamente o poder do teste estatístico em detectar associações
significativas entre o caráter de interesse e os marcadores moleculares (Morris & Cardon,
2019). Além do tamanho amostral, o poder do teste estatístico também é determinado pelo
nível de significância, pela magnitude do efeito do polimorfismo causal, pela frequência do
alelo causal e pela magnitude do LD entre o polimorfismo causal e os tag SNPs (Klein,
2007).
Normalmente, em uma análise de GWAS, testa-se a associação do caráter sob
investigação com um SNP de cada vez. Diante dos milhares e até milhões de testes
independentes, a depender da quantidade de marcadores, é fundamental a utilização de
algum critério de proteção contra o aumento do erro estatístico do tipo I, para que a taxa de
falsos positivos não seja ampliada exacerbadamente (Morris & Cardon, 2019). Os métodos
mais utilizados nesse contexto são o critério de Bonferroni (Bonferroni, 1936) e o critério
FDR (False Discovery Ratio) (Benjamini & Hochberg, 1995).

31
A filtragem de dados para identificação de erros de genotipagem é outro aspecto
fundamental para análise de GWAS que, caso negligenciada, pode introduzir vieses
sistemáticos na análise além de reduzir o poder de detecção de associações significativas e
aumentar a taxa de falsos positivos (Anderson et al., 2010).

2.3.6 Estrutura genética e parentesco

A estrutura genética, caso não seja contabilizada na análise de GWAS, pode


levar à detecção de associações espúrias (Freedman et al., 2004). Caso a população de estudo
seja estruturada, por exemplo, em dois estratos subjacentes, e o valor fenotípico de
determinado caráter seja distinto entre eles, espera-se associação para qualquer SNP cujas
frequências genotípicas forem diferentes para as duas subpopulações, mesmo que não haja
associação dentro dos estratos (Morris & Cardon, 2019).
Nesse contexto, a análise de componentes principais e o método Structure
(Pritchard et al., 2000a) têm sidos amplamente empregados para se corrigir o efeito da
estrutura genética populacional, que passa a ser considerada como uma covariável de efeito
fixo, nos modelos de GWAS (Liu et al., 2016).
Outra fonte de associações espúrias é a presença de indivíduos aparentados na
análise de GWAS (Anderson et al., 2010). O parentesco entre indivíduos, tipicamente
representado por meio de uma matriz de parentesco genômico (Genomic Relationship Matrix
– GRM), pode ser estimado a partir de medidas de identidade por estado, definidas como
sendo a proporção do genoma em que dois indivíduos compartilham os mesmos alelos
(Morris & Cardon, 2019).
Uma abordagem comumente utilizada para se efetuar a correção dos efeitos do
parentesco é se modelar diretamente as correlações genéticas entre os efeitos aleatórios
atribuídos ao background genético de indivíduos, conforme estimadas pela GRM, por meio
de modelos lineares mistos (Kang et al., 2010; Zhang et al., 2010; Lippert et al., 2011;
Listgarten et al., 2012; Zhou & Stephens, 2012).

2.3.7 Modelos lineares mistos em GWAS

Os modelos lineares mistos têm sido amplamente empregados em análises


GWAS, por permitirem contabilizar tanto os efeitos fixos de estratificação populacional

32
quanto os efeitos aleatórios genéticos estruturados pelo parentesco genômico em GRM (Yu
et al., 2006). A estratificação populacional pode ser estimada tanto pela utilização do método
Structure (Pritchard et al., 2000b), quanto pela análise de componentes principais (Price et
al., 2006). Em relação à GRM, existem diversas abordagens atualmente empregadas para se
estimar parentesco, sendo o método de VanRaden (2008) amplamente utilizado no contexto
de análises de GWAS.
Vários métodos foram propostos para se aumentar a eficiência computacional de
resolução das equações de modelos lineares mistos por algoritmos iterativos (Tibbs Cortes
et al., 2020). O primeiro deles, referido como associação eficiente com modelos mistos
(Efficient Mixed-Model Association - EMMA), melhorou a velocidade computacional
eliminando operações matriciais redundantes (Kang et al., 2008). Alguns métodos melhoram
a velocidade computacional utilizando aproximações. O método de parâmetros
populacionais anteriormente determinados (P3D) estima os componentes de variância
apenas uma vez utilizando o modelo básico, isto é, o modelo antes de qualquer SNP ser
testado, ao invés de estimá-los, repetidamente, cada vez que um SNP é adicionado ao modelo
(Zhang et al., 2010). Entretanto, essas aproximações podem diferir das soluções exatas dos
modelos lineares mistos, especialmente na presença de forte estrutura populacional ou
quando se tem SNPs de efeitos expressivos (Zhou & Stephens, 2012).
Métodos que aumentam a eficiência computacional e que utilizam a resolução
exata das equações de modelos lineares mistos também foram desenvolvidos. Esses métodos
incluem a transformação do modelo linear misto pela fatoração espectral (Factored
Spectrally Transformed Linear Mixed Models – FaST-LMM) (Lippert et al., 2011) e a
análise eficiente de modelos mistos em escala genômica (Genome-wide Efficient Mixed
Model Analysis – GEMMA) (Zhou & Stephens, 2012). Ambos os métodos melhoram a
eficiência reescrevendo a função de verossimilhança do modelo linear misto de uma forma
mais fácil de se avaliar. A diferença entre o FaST-LMM e o GEMMA é que o primeiro
utiliza apenas uma subamostra de SNPs para o cálculo da GRM enquanto o segundo utiliza
todos os marcadores e produz um resultado idêntico ao EMMA só que com maior velocidade
(Lippert et al., 2011; Zhou & Stephens, 2012).
Métodos que aumentam o poder estatístico e a eficiência computacional,
simultaneamente, têm sido desenvolvidos (Tibbs Cortes et al., 2020). Métodos como
modelos lineares mistos comprimidos (Compressed Mixed Linear Models – CMLM) e
enriquecidos (Enriched Compressed Mixed Linear Models – ECMLM) utilizam uma GRM

33
comprimida. Ambos os métodos utilizam algoritmos de clusterização para agrupar os
indivíduos de acordo com a similaridade genotípica. O número ótimo de grupos é definido
de acordo com cada população. Os coeficientes de parentesco dentro e entre os grupos são
então sumarizados em uma matriz de parentesco reduzida, utilizada na resolução dos
modelos lineares mistos (Zhang et al., 2010; Li et al., 2014).
O CMLM sempre utiliza o método de agrupamento por médias aritméticas não
ponderadas (Unweighted Pair-Group Method with Arithmetic mean – UPGMA) e calcula o
parentesco entre os grupos como a média de todos os valores de parentesco individual entre
grupos (Zhang et al., 2010). Já o ECMLM adiciona mais dois parâmetros a serem
otimizados: o algoritmo de clusterização usado para agrupar os indivíduos (escolhidos dentre
oito algoritmos de agrupamento hierárquico), bem como o método utilizado para se calcular
o parentesco entre os grupos (média, máximo ou mediana) (Li et al., 2014).
Alguns métodos calculam a matriz de parentesco com maior velocidade,
utilizando um número reduzido de SNPs. O FaST-LMM utiliza esta abordagem para
aumentar a eficiência computacional, mas a seleção cuidadosa dos SNPs para se estimar a
GRM pode aumentar o poder de análise como implementado no FaST-LMM-Select
(Listgarten et al., 2012) e no modelo linear misto sob parentesco progressivamente exclusivo
(Settlement of mixed linear models Under Progressively Exclusive Relationship – SUPER)
(Wang et al., 2014).
Nestes dois últimos métodos, a primeira etapa é realizar uma regressão linear
simples do fenótipo em função da variação alélica para cada SNP. Em seguida, os SNPs são
classificados com base na magnitude de sua associação com o caráter de interesse. No FaST-
LMM-Select, a próxima etapa é construir matrizes de similaridade genética com números
crescentes desses SNPs, começando com aqueles SNPs com os menores p-valores obtidos
por regressão linear. A matriz que minimiza o fator de controle genômico é utilizada como
GRM no modelo linear misto (Listgarten et al., 2012). No SUPER, após classificar SNPs
pela magnitude da associação com o caráter de interesse, o genoma é dividido em segmentos
(bins). Dentro de cada bin, o SNP com menor p-valor é designado como um pseudo
nucleotídeo que participa do controle de caracteres quantitativos (Quantitative Trait
Nucleotide – QTN). O tamanho e o número de bins é otimizado por máxima
verossimilhança. Finalmente, estes pseudo-QTNs são utilizados para se construir a matriz
de parentesco reduzida (Wang et al., 2014).

34
Ambos os métodos foram projetados para usar o algoritmo FaST-LMM para
resolver o modelo linear misto. Além disso, enquanto um determinado SNP está sendo
testado no modelo, esses métodos irão excluir este SNP e aqueles em LD com ele do cálculo
da matriz de parentesco para evitar confundimento. No geral, o SUPER é um pouco mais
poderoso do que FaSTLMM-Select, especialmente para caracteres com maior herdabilidade,
mas, tem menor eficiência computacional. Ambos os métodos podem ser potencialmente
combinados com CMLM ou ECMLM (Tibbs Cortes et al., 2020).
Métodos multilocos melhoram o poder estatístico incorporando vários
marcadores no modelo, simultaneamente, como covariáveis. Esta abordagem foi
implementada pela primeira vez no modelo misto multilocos (Multi-locus Mixed Model –
MLMM). O MLMM é uma abordagem iterativa em que, em cada etapa, os componentes de
variância genética e residual são estimados e usados para se calcular o p-valor para a
associação de cada SNP com o caráter de interesse. O método EMMA é utilizado para
calcular a matriz de parentesco. O SNP mais significativo encontrado é então adicionado ao
modelo como fator de efeito fixo e o processo é repetido. O processo continua até um limite
definido pelo usuário ou até quando o próximo SNP adicionado como covariável explicar
quase nada da variância genética. Em seguida, uma regressão stepwise é utilizada para se
ajustar o modelo que melhor explica a variação dos dados, eliminando progressivamente
parte dos SNPs adicionados como covariáveis de efeito fixo, a cada iteração. O número ideal
de iterações é determinado usando o critério de informação bayesiano, e as magnitudes dos
efeitos dos SNPs e os p-valores dessa etapa fornecem os resultados finais (Segura et al.,
2012).
Outros métodos multilocos que se baseiam no MLMM incluem unificação de
probabilidade de circulação de modelo fixo e aleatório (Fixed and random model Circulating
Probability Unification – FarmCPU) (Liu et al., 2016) e informação bayesiana e LD
iterativamente aninhado (Bayesian information and LD Iteratively Nested Keyway - BLINK)
(Huang et al., 2019).
O FarmCPU é um método multilocos que reduz o rank da matriz de parentesco
do SUPER para melhorar o poder e a eficiência computacional. Este método combina a parte
fixa do MLMM com a parte aleatória do SUPER, usando máxima verossimilhança restrita
(Restricted Maximum Likelihood - REML) como critério de otimização (Liu et al., 2016).
O método FarmCPU foi modificado por seus criadores para produzir o método
BLINK, que aumenta o poder, relaxando a exigência do SUPER de que os QTNs estejam

35
distribuídos uniformemente em bins ao invés de poderem estar agrupados dentro do genoma.
Essa modificação também melhora a eficiência computacional, pois a otimização do
tamanho e do número de bins não é mais necessária. Além disso, o BLINK melhora a
eficiência substituindo o modelo de efeito aleatório e a otimização via REML, por um
modelo de efeito fixo que utiliza a informação bayesiana como critério de otimização (Huang
et al., 2019).

2.3.8 GWAS em cana-de-açúcar

A suplementação do melhoramento genético clássico com ferramentas


genômicas tem potencial para aumentar a eficiência dos programas de melhoramento,
acelerando o desenvolvimento de novas variedades. Entretanto, a análise da herança de
caracteres quantitativos em cana-de-açúcar, sobretudo, devido ao alto grau de complexidade
genômica, é difícil e exige o uso de métodos estatísticos avançados (Banerjee et al., 2020).
A análise GWAS, neste contexto, se constitui em uma das ferramentas
amplamente empregadas para se testar associações de marcadores moleculares com
caracteres quantitativos. A grande dificuldade, quando se trata de cana-de-açúcar, é estimar
com segurança a dosagem dos alelos, visto que os híbridos interespecíficos possuem grupos
de hom(e)ólogos com distintos níveis de ploidia (Serang et al., 2012). Por outro lado, a base
genética relativamente estreita, que é encontrada nas populações atuais de cana-de-açúcar,
deu origem a grandes blocos de LD (Wei et al., 2006), o que facilita a detecção de
associações entre marcadores e caracteres de interesse.
Existem diversos estudos de mapeamento associativo em escala genômica
(GWAS) em cana-de-açúcar. A maioria destes estudos tem utilizado painéis de associação
com cerca de 100 a 200 indivíduos (Banerjee et al., 2020). Até hoje, o maior painel (480
indivíduos) foi utilizado por Wei et al. (2010) e o menor (28 indivíduos) por Bilal et al.
(2015). Caracteres relacionados à produtividade e ao teor de açúcar, assim como aos
estresses bióticos (principalmente à presença de doenças: amarelinho e ferrugem marrom),
são abordados com mais frequência em estudos de GWAS em cana de açúcar (Banerjee et
al., 2020). Em relação à identificação de locos relacionados à resistência à podridão
vermelha, apenas dois estudos têm sido reportados (Singh et al., 2016; O’connell et al.,
2022).

36
2.4 SELEÇÃO GENÔMICA (GS)

2.4.1 Considerações gerais

A exemplo de GWAS, a seleção genômica (Genomic Selection - GS), proposta


inicialmente por Meuwissen et al. (2001), utiliza a premissa de que a identificação eficaz de
polimorfismos ao longo do genoma, em densidades adequadas, é capaz de refletir com
precisão a estrutura do desiquilíbrio de ligação (LD), a diversidade de haplótipos e capturar
a variação genética de caracteres de interesse em uma população de estudo. Portanto, todas
as considerações referentes a genotipagem e fenotipagem feitas anteriormente para as
análises de GWAS também devem ser consideradas nas análises de GS.
O objetivo dos GWAS é identificar marcadores moleculares que estejam em
forte LD com os QTLs de interesse. Para essa finalidade, as marcas são relacionadas ao
caráter quantitativo por meio de testes de significância independentes corrigidos para
comparações múltiplas. Diante disso, apenas variações genéticas de grande efeito sobre o
caráter e que ocorrem com frequência na população são detectadas. Ao contrário dos GWAS,
a estratégia de GS considera os efeitos de todos os marcadores disponíveis, de forma
simultânea, como preditores dos valores genéticos dos indivíduos. Portanto, mesmo QTLs
de efeitos modestos, ainda que constituídos de alelos raros, são capturados pela análise e
praticamente toda variação genética do caráter quantitativo é explicada (Bernardo, 2016).
Para implementação da seleção genômica é necessário definir três populações: a
população de treinamento ou de descoberta, a população de validação e a população de
seleção. A população de treinamento deve ser genotipada e fenotipada. A partir dos dados
fenotípicos robustos e da informação genética de milhares ou até milhões de locos
polimórficos, os efeitos genéticos dessas marcas são estimados por modelos estatísticos.
Essa etapa é denominada de etapa de calibração dos modelos de GS (Resende Jr., 2013).
Esses modelos são aplicados a uma população de validação devidamente
genotipada e fenotipada. A partir dos dados de marcadores da população de validação, que
irão incidir sobre os efeitos estimados na etapa de calibração, os valores genéticos genômicos
(VGGs) são preditos para cada indivíduo da população de validação. Os VGGs são
submetidos à análise de correlação com os valores genéticos estimados a partir dos dados
fenotípicos e o coeficiente de correlação é utilizado para se medir a habilidade preditiva dos
modelos. Após a etapa de validação, os modelos que possuem boa capacidade preditiva são

37
aplicados à população de seleção. A população de seleção, por sua vez, é apenas genotipada.
Os VGGs são preditos para seus indivíduos e a seleção é realizada. É importante destacar
que os eventos de recombinação subsequentes à calibração do modelo, que ocorrerem nas
populações de seleção, podem diminuir a extensão do LD, sendo necessárias recalibrações
dos modelos por meio de novas fenotipagens (Resende Jr., 2013).
A depender dos recursos humanos, físicos e financeiros do programa de
melhoramento, três estratégias podem ser adotadas: utilização de três populações
constituídas por indivíduos distintos; utilização da mesma população para treinamento e
validação e uma população distinta para seleção; e utilização da mesma população para
treinamento, validação e seleção. Nas duas últimas situações, para que os efeitos dos
marcadores não sejam superestimados, em função da estimação e validação ocorrerem na
mesma amostra, é necessária a aplicação de alguma técnica de validação cruzada ou a
subdivisão da população, sucessivas vezes, em populações de treinamento e validação, por
meio de amostragem, sem reposição, aleatória ou estratificada em função de similaridades
fenotípicas e/ou genéticas (Resende Jr., 2013).

2.4.2 Modelos estatísticos aplicados à GS

Desde a proposta original por Meuwissen et al. (2001), os principais desafios da


implementação de métodos estatísticos aplicados à seleção genômica são lidar com a alta
dimensão e a estrutura correlacionada dos dados genômicos. Como o número de
observações/indivíduos é muito pequeno quando comparado ao grande número de variáveis
preditoras/marcadores, têm sido utilizadas três estratégias para minimizar a
superparametrização (overfitting dos modelos): métodos de seleção de variáveis, utilização
de estimadores tipo shrinkage ou uma combinação das duas anteriores (De Los Campos et
al., 2013).
Estimadores do tipo shrinkage já são utilizados há muito tempo pelos
melhoristas de plantas, por meio da abordagem de modelos lineares mistos. A abordagem
mais simples para se modelar os efeitos dos marcadores como aleatórios é o método
RRBLUP (Random Ridge regression – Best Linear Unbiased Prediction). Esse método
realiza, diretamente, a regressão dos fenótipos em função dos dados dos marcadores, estima
os efeitos individuais de cada marca e, depois, os utiliza em conjunto para gerar os VGGs
(Whittaker et al., 2000; Meuwissen et al., 2001).

38
Ainda no contexto dos modelos lineares mistos, a relação de parentesco entre os
indivíduos pode ser utilizada para se estruturar os efeitos aleatórios dos genótipos. Essa
abordagem foi estendida para dados genômicos pelo método GBLUP (Genomic Best Linear
Unbiased Predictor), proposto por VanRaden (2008). Neste método, os efeitos aleatórios de
genótipos são considerados como estruturados pela matriz de parentesco genômico (GRM),
estimada com base em medidas de identidade por estado (VanRaden, 2008). Os métodos
RRBLUP e GBLUP produzem resultados idênticos, no entanto, GBLUP tem melhor
eficiência computacional por estimar diretamente, via GRM, os VGGs (Resende Jr., 2013;
López et al., 2022).
Os métodos RRBLUP e GBLUP assumem distribuição normal para os efeitos
dos marcadores e variância genética constante entre os locos. Essa suposição equivale ao
modelo infinitesimal de Fisher e funciona bem para caracteres controlados por grande
número de QTLs de efeitos modestos (Resende Jr., 2013). No entanto, na presença de QTLs
que explicam grande parte da variação genética do caráter, a penalização por um shrinkage
constante pode subestimar o efeito de marcadores relevantes (Bernardo, 2014).
Nesse contexto, Meuwissen et al. (2001) propuseram métodos de regressão
explícita, bayesianos, que permitem modelar a variância genética de cada loco. Os métodos
conhecidos como “alfabeto bayesiano” aplicam, portanto, uma penalização, via shrinkage,
diferente para cada marcador. Marcadores cujas variâncias genéticas são menores sofrem
maiores penalizações, forçando que seus efeitos se aproximem mais de zero.
O método BayesA assume, a priori, que os efeitos dos marcadores são amostras
de uma distribuição normal de média zero e que as variâncias dos marcadores são
heterogêneas, dadas por uma distribuição Qui-quadrado invertida e escalonada e que,
portanto, ambas variáveis podem ser relacionadas por meio de uma distribuição t de Student,
a priori. O método BayesB utiliza as mesmas prioris que o método BayesA, no entanto,
assume que uma proporção π de marcadores possuem efeito igual a zero. Portanto, as
variâncias genéticas dos marcadores têm probabilidade π de ser zero e 1- π de serem dadas
por uma distribuição Qui-quadrado invertida e escalonada (Meuwissen et al., 2001).
O método BayesB utiliza tanto a penalização via shrinkage quanto a seleção de
variáveis para minimizar a superparametrização. No entanto, como o valor de π é definido
de forma arbitrária, é necessário que o pesquisador conheça, previamente, a arquitetura
genética do caráter de interesse (Resende Jr., 2013).

39
Uma modificação no método BayesB foi proposta por Habier et al. (2011) e o
método recebeu o nome de BayesDπ. O método BayesDπ inclui uma distribuição uniforme,
a priori, para se estimar o parâmetro π utilizando os dados genômicos. Essa estimativa de π
é utilizada no método BayesB para obtenção dos efeitos dos marcadores. Já o método
BayesCπ utiliza as mesmas prioris do modelo BayesDπ, exceto no que diz respeito às
variâncias genéticas dos marcadores assumidas como constantes (Habier et al., 2011). Ainda
no contexto bayesiano outro modelo bastante utilizado é o LASSO (Least Absolute
Shrinkage and Selection Operator) bayesiano (Park & Casella, 2008), que, a exemplo do
método BayesA, minimiza a superparametrização apenas pela aplicação de shrinkages
específicos, de acordo com o tamanho do efeito e da variância do marcador, assumindo a
priori, uma distribuição exponencial dupla para os valores destes parâmetros, ao invés da
distribuição t de Student.
Os métodos anteriormente discutidos são considerados métodos clássicos de
análise de GS. Diversas outras abordagens têm sido propostas com a finalidade de melhorar
as capacidades preditivas dos modelos, relaxando-se as pressuposições paramétricas
intrínsecas dos modelos bayesianos e frequentistas. Nesse sentido, os modelos semi-
paramétricos ou não paramétricos como: regressão de Kernel (Reproducing Kernel Hilbert
Spaces - RKHS) (Gianola et al., 2006), redes neurais artificiais (Gianola & De los Campos,
2009); além de métodos baseados em aprendizado de máquinas como: floresta aleatória
(Random Forest) (Breiman, 2001), máquina de aumento de gradiente (Gradient Boosting
Machine – GBM) (Friedman, 2001) e aumento extremo de gradiente (Extreme Gradient
Boosting - XgBoost) (Chen & He, 2015), têm sido bastante utilizados. Além desses, existe
uma diversidade de outros métodos que podem ser aplicados, cabendo ao melhorista escolher
aquele que melhor explica a arquitetura genética do caráter, para que a habilidade preditiva
reflita em maiores ganhos com a seleção.

2.4.3 Seleção genômica em cana-de-açúcar

A maioria dos estudos de GS em cana-de-açúcar foram desenvolvidos na


Austrália e utilizam populações da ordem de centenas até milhares de indivíduos. Os
caracteres frequentemente abordados ou são relacionados ao teor de sacarose ou à
produtividade de colmo dos materiais. Os métodos estatísticos empregados, em geral, são

40
paramétricos, frequentistas ou bayesianos, apesar de o modelo regressão de Kernel (RKHS)
também ser bastante utilizado (Mahadevaiah et al., 2021).
Deomano et al. (2020) utilizaram três populações compostas, respectivamente,
por 467, 1146 e 738 clones, e avaliadas em diversos estados australianos, para teor de
sacarose e produtividade. Os modelos de GS foram calibrados e validados nas três
populações, de forma independente. A população composta por 738 indivíduos representou
clones que estavam nas fases finais dos programas de melhoramento australianos, enquanto,
as duas outras representaram clones que estavam nas fases iniciais. Para os dois caracteres,
as habilidades preditivas variaram de 0,25 a 0,45. As maiores capacidades preditivas para
produtividade, na ordem de 0,4, foram observadas para os modelos que utilizaram para
calibração e validação populações das fases iniciais dos programas. Para teor de sacarose, os
melhores resultados, em torno de 0,45, foram observados para os modelos que utilizaram
para calibração e validação populações das fases finais dos programas. A inclusão da
informação de pedigree não melhorou a habilidade preditiva dos modelos.
Também na Austrália, Hayes et al. (2021) utilizaram informações fenotípicas de
3984 clones, provenientes de diversos experimentos. As habilidades preditivas dos
diferentes modelos, para teor de sacarose e teor de fibra, alcançaram valores acima de 0,4,
enquanto para produtividade ficaram em torno de 0,3. O’connell et al. (2022), por meio da
avaliação de um painel de 305 clones, também alcançaram habilidades preditivas em torno
de 0,3, tanto para produtividade quanto para teor de sacarose. Além destes caracteres,
também foi avaliada a reação dos clones à podridão vermelha do colmo. Neste caso, os
autores combinaram ferramentas de GWAS e GS e alcançaram habilidades preditivas em
torno de 0,5 para esse caráter.
A maioria dos trabalhos de GS em cana-de-açúcar utilizaram para genotipagem
a tecnologia Axiom™ SNP array e para determinação dos genótipos o modelo pseudo-
diploide tradicional (Deomano et al., 2020; Hayes et al., 2021; O’connell et al., 2022). A
utilização da chamada “genotipagem contínua” como estimativa da dosagem alélica, foi
incorporada aos modelos de GS em cana-de-açúcar, no Brasil, por Aono et al. (2022),
utilizando a tecnologia GbS (Genotyping by Sequencing). Embora com habilidades
preditivas acima de 0,8, os autores avaliaram apenas os caracteres diâmetro e comprimento
de colmos. Efeitos não-aditivos também têm sido incluídos com frequência nos modelos
pseudo-diploides (Mahadevaiah et al., 2021). Para modelos que consideram estimativas de
dosagem alélica, em geral, apenas os efeitos de substituição alélica são considerados, devido

41
à complexidade das interações entre alelos ou entre locos, que ocorre em uma espécie aneu-
poliplóide (De Bem Oliveira et al., 2019); tal como em certos híbridos de cana-de-açúcar.

2.5 REFERÊNCIAS

AFDC. Alternative Fuels Data Center. Maps and data: global ethanol production by
country or region. 2021. Disponível em: https://www.afdc.energy.gov/data/. Acesso em: 20
maio 2023.

AGNIHOTRI, V. P. Diseases of sugarcane. New Delhi: Oxford and IBH, 1983. 363 p.

ALEXOPOULOS, C.J.; MIMS, C.W.; BLACKWELL, M. Introductory micology. Nova


York: John Wiley and Sons, 1996. 880 p.

AMALRAJ, V. A.; BALASUNDARAM, N. On the taxonomy of the members of


‘Saccharum complex’. Genetic Resources and Crop Evolution, v. 53, n. 1, p. 35-41, 2006.

ANDERSON, C. A.; PETTERSSON, F. H.; CLARKE, G. M.; CARDON, L. R.; MORRIS,


A. P.; ZONDERVAN, K. T. Data quality control in genetic case-control association studies.
Nature Protocols, v. 5, n. 9, p. 1564-1573, 2010.

ANDORF, C. M.; CANNON, E. K.; PORTWOOD, J. L.; GARDINER, J. M.; HARPER, L.


C.; SCHAEFFER, M. L.; BRAUN, B. L.; CAMPBELL, D. A.; VINNAKOTA, A. G.;
SRIBALUSU, V. V. MaizeGDB update: new tools, data and interface for the maize model
organism database. Nucleic Acids Research, v. 44, n. 1, p. 1195-1201, 2016.

AONO, A. H.; COSTA, E. A.; RODY, H. V. S.; NAGAI, J. S.; PIMENTA, R. J. G.;
MANCINI, M. C.; DOS SANTOS, F. R. C.; PINTO, L. R.; LANDELL, M. G. D. A.; DE
SOUZA, A. P. Machine learning approaches reveal genomic regions associated with
sugarcane brown rust resistance. Scientific Reports, v. 10, n. 1, p. 1-17, 2020.

AONO, A. H.; FERREIRA, R. C. U.; MORAES, A. D. C. L.; LARA, L. A. D. C.;


PIMENTA, R. J. G.; COSTA E. A.; DE SOUZA, A. P. A joint learning approach for
genomic prediction in polyploid grasses. Scientific Reports, v. 12, n. 1, p. 12499, 2022.

ARDLIE, K. G.; KRUGLYAK, L.; SEIELSTAD, M. Patterns of linkage disequilibrium in


the human genome. Nature Reviews Genetics, v. 3, n. 4, p. 299-309, 2002.

BABU, C.; NATARAJAN, U.; SHANTHI, R.; GOVINDARAJ, P.; SUNDER, A. R.;
VISWANATHAN, R. Inheritance of red rot resistance in sugarcane (Saccharum sp.
hybrids). Sugar Tech, v. 12, n. 2, p. 167-171, 2010.

BANERJEE, N.; KHAN, M. S.; SWAPNA, M.; SINGH, R.; KUMAR, S. Progress and
prospects of association mapping in sugarcane (Saccharum species hybrid), a complex
polyploid crop. Sugar Tech, p. 1-15, 2020.

42
BENJAMINI, Y.; HOCHBERG, Y. Controlling the false discovery rate: a practical and
powerful approach to multiple testing. Journal of the Royal statistical society: series B
(Methodological), v. 57, n. 1, p. 289-300, 1995.

BERKMAN, P. J.; BUNDOCK, P. C.; CASU, R. E.; HENRY, R. J.; RAE, A. L.; AITKEN,
K. S. A survey sequence comparison of Saccharum genotypes reveals allelic diversity
differences. Tropical Plant Biology, v. 7, n. 2, p. 71-83, 2014.

BERNARDO, R. Genomewide selection when major genes are known. Crop Science, v.
54, n. 1, p. 68-75, 2014.

BERNARDO, R. Bandwagons I, too, have known. Theoretical and Applied Genetics, v.


129, p. 2323-2332, 2016.

BILAL, M.; SAEED, M.; NASIR, I. A.; TABASSUM, B.; ZAMEER, M.; KHAN, A.;
TARIQ, M.; JAVED, M. A.; HUSNAIN, T. Association mapping of cane weight and tillers
per plant in sugarcane. Biotechnology & Biotechnological Equipment, v. 29, n. 4, p. 617-
623, 2015.

BONFERRONI, C. Teoria statistica delle classi e calcolo delle probabilita. Pubblicazioni


del R Istituto Superiore di Scienze Economiche e Commericiali di Firenze, v. 8, p. 3-62,
1936.

BREIMAN, L. Random forests. Machine Learning, v. 45, n. 1, p. 5-32, 2001.

BREMER, G. Problems in breeding and cytology of sugar cane. Euphytica, v. 10, n. 1, p.


59-78, 1961.

BRESEGHELLO, F.; SORRELLS, M. E. Association mapping of kernel size and milling


quality in wheat (Triticum aestivum L.) cultivars. Genetics, v. 172, n. 2, p. 1165-1177, 2006.

BUSH, W. S.; MOORE, J. H. Genome-wide association studies. PLoS Comput Biol, v. 8,


n. 12, p. e1002822, 2012.

CARLSON, C. S.; EBERLE, M. A.; RIEDER, M. J.; YI, Q.; KRUGLYAK, L.;
NICKERSON, D. A. Selecting a maximally informative set of single-nucleotide
polymorphisms for association analyzes using linkage disequilibrium. The American
Journal of Human Genetics, v. 74, n. 1, p. 106-120, 2004.

CARVAJAL, F. The perfect stage of Colletotrichum falcatum. 1943. 175 f. Tese


(Doutorado em Agronomia) – Agricultural and Mechanical College, Lousiana State
University, 1943.

CHEN, T.; HE, T. Higgs boson discovery with boosted trees. In: NIPS WORKSHOP ON
HIGH-ENERGY PHYSICS AND MACHINE LEARNING, 2014., Montreal. Proceeding
[...]. Montreal: PMLR, 2015. p. 69-80.

43
CHONA, B. Studies on the diseases of sugarcane in India. IV. Relative resistance of
sugarcane varieties to red rot. Indian Journal of Agricultural Sciences, v. 24, p. 301-315,
1954.

CLARK, R. M.; SCHWEIKERT, G.; TOOMAJIAN, C.; OSSOWSKI, S.; ZELLER, G.;
SHINN, P.; WARTHMANN, N.; HU, T. T.; FU, G.; HINDS, D. A. Common sequence
polymorphisms shaping genetic diversity in Arabidopsis thaliana. Science, v. 317, n. 5836,
p. 338-342, 2007.

CONSECANA. Conselho dos Produtores de Cana-de-Açúcar, Açúcar e Álcool do Estado


de São Paulo. Manual de instruções. Piracicaba: Consecana, 2006. 5. ed. 111 p.

CROFT, B.; BERDING, N. Final Report SRDC PROJECT BSS214 Screening of


Australian germplasm for resistance to sugarcane smut, Brisbane: BSES Limited, 2004.
66 p.

CRONQUIST, A.; TAKHTADZHIAN, A. L. An Integrated System of Classification of


Flowering Plants. Nova York: Columbia University Press, 1981. 1262 p.

D’HONT, A. Unraveling the genome structure of polyploids using FISH and GISH;
examples of sugarcane and banana. Cytogenetic and Genome Research, v. 109, n. 1-3, p.
27-33, 2005.

D’HONT, A.; GRIVET, L.; FELDMANN, P.; GLASZMANN, J.; RAO, S.; BERDING, N.
Characterisation of the double genome structure of modern sugarcane cultivars (Saccharum
spp.) by molecular cytogenetics. Molecular and General Genetics MGG, v. 250, n. 4, p.
405-413, 1996.

D’HONT, A.; ISON, D.; ALIX, K.; ROUX, C.; GLASZMANN, J. C. Determination of basic
chromosome numbers in the genus Saccharum by physical mapping of ribosomal RNA
genes. Genome, v. 41, n. 2, p. 221-225, 1998.

DE BEM OLIVEIRA, I.; RESENDE JR, M. F.; FERRÃO, L. F. V.; AMADEU, R. R.;
ENDELMAN, J. B.; KIRST, M.; COELHO, A. S.; MUNOZ, P. R. Genomic prediction of
autotetraploids; influence of relationship matrices, allele dosage, and continuous genotyping
calls in phenotype prediction. G3: Genes, Genomes, Genetics, v. 9, n. 4, p. 1189-1198,
2019.

DE LIMA, A. T.; MAISTRO, M. C. M.; DOS SANTOS, J. A. Setor sucroenergético:


dinâmica produtiva e econômica do açúcar no Brasil: Sugar-energy sector: productive and
economic dynamics of sugar in Brazil. Studies in Social Sciences Review, v. 3, n. 1, p. 362-
388, 2022.

DE LOS CAMPOS, G.; HICKEY, J. M.; PONG-WONG, R.; DAETWYLER, H. D.;


DALUS, M.P. Whole-genome regression and prediction methods applied to plant and
animal breeding. Genetics, v. 193, n. 2, p. 327-345, 2013.

44
DEOMANO, E.; JACKSON, P.; WEI, X.; AITKEN, K.; KOTA, R.; PÉREZ-RODRÍGUEZ,
P. Genomic prediction of sugar content and cane yield in sugar cane clones in different stages
of selection in a breeding program, with and without pedigree information. Molecular
Breeding, v. 40, p. 1-12, 2020.

DEVLIN, B.; RISCH, N. A comparison of linkage disequilibrium measures for fine-scale


mapping. Genomics, v. 29, n. 2, p. 311-322, 1995.

DILLON, S. L.; SHAPTER, F. M.; HENRY, R. J.; CORDEIRO, G.; IZQUIERDO, L.; LEE,
L. S. Domestication to crop improvement: genetic resources for Sorghum and Saccharum
(Andropogoneae). Annals of Botany, v. 100, n. 5, p. 975-989, 2007.

DOERGE, R. W. Mapping and analysis of quantitative trait loci in experimental populations.


Nature Reviews Genetics, v. 3, n. 1, p. 43-52, 2002.

DUFOUR, P.; GRIVET, L.; D'HONT, A.; DEU, M.; TROUCHE, G.; GLASZMANN, J.-
C.; HAMON, P. Comparative genetic mapping between duplicated segments on maize
chromosomes 3 and 8 and homoeologous regions in sorghum and sugarcane. Theoretical
and Applied Genetics, v. 92, n. 8, p. 1024-1030, 1996.

DUTTAMAJUMDER, S. Red rot of sugarcane. Lucknow: Indian Institute of Sugarcane


Research, 2008. 180 p.

DUTTAMAJUMDER, S.; SINGH, R. Revised criteria for grading resistance against red rot
disease of sugarcane. Indian Phytopathology, v. 52, n. 2, p. 157-159, 1999.

EDGERTON, C. W. Collectotrichum falcatum in the United States. Science, v. 31, n. 801,


p. 717-718, 1910.

EDMÉ, S. J.; MILLER, J. D.; GLAZ, B.; TAI, P. Y.; COMSTOCK, J. C. Genetic
contribution to yield gains in the Florida sugarcane industry across 33 years. Crop Science,
v. 45, n. 1, p. 92-97, 2005.

ESKRIDGE, K. M. Field design and the search for quantitative trait loci in plants. In:
GRAYBILL CONFERENCE, 2003, Colorado. Anais eletrônicos [...]. Colorado: Colorado
State University, 2003. Disponível em:
<https://www.stat.colostate.edu/graybillconference2003/Abstracts/Eskridge.html>. Acesso
em: 20 maio. 2023.

FAO. Food and Agriculture Organization of the United States. Crops and Livestock
Products. 2021. Disponível em: http://www.fao.org/faostat/en/#data/QCL. Acesso em: 20
maio 2023.

FLINT-GARCIA, S. A.; THORNSBERRY, J. M.; BUCKLER IV, E. S. Structure of linkage


disequilibrium in plants. Annual Review of Plant Biology, v. 54, n. 1, p. 357-374, 2003.

45
FLINT‐GARCIA, S. A.; THUILLET, A. C.; YU, J.; PRESSOIR, G.; ROMERO, S. M.;
MITCHELL, S. E.; DOEBLEY, J.; KRESOVICH, S.; GOODMAN, M. M.; BUCKLER, E.
S. Maize association population: a high‐resolution platform for quantitative trait locus
dissection. The Plant Journal, v. 44, n. 6, p. 1054-1064, 2005.

FREEDMAN, M. L.; REICH, D.; PENNEY, K. L.; MCDONALD, G. J.; MIGNAULT, A.


A.; PATTERSON, N.; GABRIEL, S. B.; TOPOL, E. J.; SMOLLER, J. W.; PATO, C. N.
Assessing the impact of population stratification on genetic association studies. Nature
Genetics, v. 36, n. 4, p. 388-393, 2004.

FRIEDMAN, J. H. Greedy function approximation: a gradient boosting machine. Annals of


Statistics, p. 1189-1232, 2001.

GARSMEUR, O.; CHARRON, C.; BOCS, S.; JOUFFE, V.; SAMAIN, S.; COULOUX, A.;
DROC, G.; ZINI, C.; GLASZMANN, J. C.; VAN SLUYS, M. A. High homologous gene
conservation despite extreme autopolyploid redundancy in sugarcane. New Phytologist, v.
189, n. 2, p. 629-642, 2011.

GIANOLA, D.; DE LOS CAMPOS, G. Inferring genetic values for quantitative traits
nonparametrically. Genetical Research, v. 90, n. 6, p. 525-540, 2009.

GIANOLA, D.; FERNANDO, R. L.; STELLA, A. Genomic-assisted prediction of genetic


value with semiparametric procedures. Genetics, v. 173, n. 3, p. 1761-1776, 2006.

GIGLIOTI, E.; CANTERI, M. Phytopathometry applied to the integrated management of


borer-rot complex in sugarcane:(I) a standard diagram to assess disease severity. Sugarcane
pathology, v. 1, p. 183-194, 1999.

GLASZMANN, J.-C.; DUFOUR, P.; GRIVET, L.; D'HONT, A.; DEU, M.; PAULET, F.;
HAMON, P. Comparative genome analysis between several tropical grasses. Euphytica, v.
96, n. 1, p. 13-21, 1997.

GOFF, S. A.; RICKE, D.; LAN, T.-H.; PRESTING, G.; WANG, R.; DUNN, M.;
GLAZEBROOK, J.; SESSIONS, A.; OELLER, P.; VARMA, H. A draft sequence of the
rice genome (Oryza sativa L. ssp. japonica). Science, v. 296, n. 5565, p. 92-100, 2002.

GRIVET, L.; ARRUDA, P. Sugarcane genomics: depicting the complex genome of an


important tropical crop. Current opinion in Plant Biology, v. 5, n. 2, p. 122-127, 2002.

GUIMARÃES, C. T.; SILLS, G. R.; SOBRAL, B. W. Comparative mapping of


Andropogoneae: Saccharum L.(sugarcane) and its relation to sorghum and maize.
Proceedings of the National Academy of Sciences, v. 94, n. 26, p. 14261-14266, 1997.

HA, S.; MOORE, P. H.; HEINZ, D.; KATO, S.; OHMIDO, N.; FUKUI, K. Quantitative
chromosome map of the polyploid Saccharum spontaneum by multicolor fluorescence in
situ hybridization and imaging methods. Plant Molecular Biology, v. 39, n. 6, p. 1165-1173,
1999.

46
HABIER, D.; FERNANDO, R.; KIZILKAYA, K.; GARRICK, D. Extension of the
Bayesian alphabet for genomic selection. BMC Bioinformatics, v. 12, n. 1, p. 1-12, 2011.

HAMBLIN, M. T.; BUCKLER, E. S.; JANNINK, J.-L. Population genetics of genomics-


based crop improvement methods. Trends in Genetics, v. 27, n. 3, p. 98-106, 2011.

HAYES, B. J.; WEI, X.; JOYCE, P.; ATKIN, F.; DEOMANO, E.; YUE, J.; VOSS-FELS,
K. P. Accuracy of genomic prediction of complex traits in sugarcane. Theoretical and
Applied Genetics, v. 134, p. 1455-1462, 2021.

HEDRICK, P. W. Gametic disequilibrium measures: proceed with caution. Genetics, v. 117,


n. 2, p. 331-341, 1987.

HILL, W.; ROBERTSON, A. Linkage disequilibrium in finite populations. Theoretical and


Applied Genetics, v. 38, n. 6, p. 226-231, 1968.

HIRSCHHORN, J. N.; DALY, M. J. Genome-wide association studies for common diseases


and complex traits. Nature Reviews Genetics, v. 6, n. 2, p. 95-108, 2005.

HOLLAND, J. B. Genetic architecture of complex traits in plants. Current opinion in plant


biology, v. 10, n. 2, p. 156-161, 2007.

HOLTE, S.; QUIAOIT, F.; HSU, L.; DAVIDOV, O.; ZHAO, L. P. A population based
family study of a common oligogenic disease—part I: Association/aggregation analysis.
Genetic epidemiology, v. 14, n. 6, p. 803-807, 1997.

HUANG, M.; LIU, X.; ZHOU, Y.; SUMMERS, R. M.; ZHANG, Z. BLINK: a package for
the next level of genome-wide association studies with both individuals and markers in the
millions. GigaScience, v. 8, n. 2, p. 1-12, 2019.

HUSSNAIN, Z.; AFGHAN, S. Impact of major cane diseases on sugarcane yield and sugar
recovery. Annual Report, Shakarganj Sugar Research Institute, Jhang, p. 78-80, 2006.

IAC. Instituto Agronômico de Campinas. Centro de Cana. 2021. Disponível em:


https://www.iac.sp.gov.br/areasdepesquisa/cana/centrocana.php?pg=historicocana. Acesso
em: 30 ago. 2021.

IRVINE, J. Saccharum species as horticultural classes. Theoretical and Applied Genetics,


v. 98, n. 2, p. 186-194, 1999.

JANNOO, N.; GRIVET, L.; CHANTRET, N.; GARSMEUR, O.; GLASZMANN, J. C.;
ARRUDA, P.; D’HONT, A. Orthologous comparison in a gene‐rich region among grasses
reveals stability in the sugarcane polyploid genome. The Plant Journal, v. 50, n. 4, p. 574-
585, 2007.

JIAO, Y.; PELUSO, P.; SHI, J.; LIANG, T.; STITZER, M. C.; WANG, B.; CAMPBELL,
M. S.; STEIN, J. C.; WEI, X.; CHIN, C.-S. Improved maize reference genome with single-
molecule technologies. Nature, v. 546, n. 7659, p. 524-527, 2017.

47
KANG, H. M.; SUL, J. H.; SERVICE, S. K.; ZAITLEN, N. A.; KONG, S.-Y.; FREIMER,
N. B.; SABATTI, C.; ESKIN, E. Variance component model to account for sample structure
in genome-wide association studies. Nature Genetics, v. 42, n. 4, p. 348-354, 2010.

KANG, H. M.; ZAITLEN, N. A.; WADE, C. M.; KIRBY, A.; HECKERMAN, D.; DALY,
M. J.; ESKIN, E. Efficient control of population structure in model organism association
mapping. Genetics, v. 178, n. 3, p. 1709-1723, 2008.

KARAYIORGOU, M.; SOBIN, C.; BLUNDELL, M. L.; GALKE, B. L.; MALINOVA, L.;
GOLDBERG, P.; OTT, J.; GOGOS, J. A. Family-based association studies support a
sexually dimorphic effect of COMT and MAOA on genetic susceptibility to obsessive-
compulsive disorder. Biological Psychiatry, v. 45, n. 9, p. 1178-1189, 1999.

KEARSEY, M.; FARQUHAR, A. QTL analysis in plants; where are we now? Heredity, v.
80, n. 2, p. 137-142, 1998.

KLEIN, R. J. Power analysis for genome-wide association studies. BMC Genetics, v. 8, n.


1, p. 1-8, 2007.

LANDELL, M. G. A.; BRESSIANI, J. A. Melhoramento genético, caracterização e manejo


varietal. In: DINARDO-MIRANDA, L. L.; VASCONCELOS, A. C. M.; LANDELL, M. G.
A (ed.). Cana de Açúcar. Campinas: Instituto Agronômico, 2010. cap. 5, p. 101-155.

LE CUNFF, L.; GARSMEUR, O.; RABOIN, L. M.; PAUQUET, J.; TELISMART, H.;
SELVI, A.; GRIVET, L.; PHILIPPE, R.; BEGUM, D.; DEU, M. Diploid/polyploid syntenic
shuttle mapping and haplotype-specific chromosome walking toward a rust resistance gene
(Bru1) in highly polyploid sugarcane (2n∼ 12x∼ 115). Genetics, v. 180, n. 1, p. 649-660,
2008.

LEWONTIN, R. C. The interaction of selection and linkage. I. General considerations;


heterotic models. Genetics, v. 49, n. 1, p. 49, 1964.

Li, B.; Zhang, N.; Wang, Y. G.; George, A. W.; Reverter, A.; Li, Y. Genomic prediction of
breeding values using a subset of SNPs identified by three machine learning
methods. Frontiers in Genetics, v. 9, p. 237, 2018.

LI, M.; LIU, X.; BRADBURY, P.; YU, J.; ZHANG, Y.-M.; TODHUNTER, R. J.;
BUCKLER, E. S.; ZHANG, Z. Enrichment of statistical power for genome-wide association
studies. BMC Biology, v. 12, n. 1, p. 1-10, 2014.

LIPPERT, C.; LISTGARTEN, J.; LIU, Y.; KADIE, C. M.; DAVIDSON, R. I.;
HECKERMAN, D. FaST linear mixed models for genome-wide association studies. Nature
Methods, v. 8, n. 10, p. 833-835, 2011.

LISTGARTEN, J.; LIPPERT, C.; KADIE, C. M.; DAVIDSON, R. I.; ESKIN, E.;
HECKERMAN, D. Improved linear mixed models for genome-wide association studies.
Nature Methods, v. 9, n. 6, p. 525-526, 2012.

48
LIU, X.; HUANG, M.; FAN, B.; BUCKLER, E. S.; ZHANG, Z. Iterative usage of fixed and
random effect models for powerful and efficient genome-wide association studies. PLoS
genetics, v. 12, n. 2, p. 1-24, 2016.

LÓPEZ, O. A. M.; LÓPEZ, A. M.; CROSSA, J. Multivariate statistical machine learning


methods for genomic prediction. Berlim: Springer Nature, 2022. 707 p.

MAHADEVAIAH, C.; APPUNU, C.; AITKEN, K.; SURESHA, G. S.; VIGNESH, P.;
MAHADEVA SWAMY, H. K.; RAM, B. Genomic selection in sugarcane: current status
and future prospects. Frontiers in Plant Science, v. 12, p. 1-18, 2021.

MANOLIO, T. A.; COLLINS, F. S.; COX, N. J.; GOLDSTEIN, D. B.; HINDORFF, L. A.;
HUNTER, D. J.; MCCARTHY, M. I.; RAMOS, E. M.; CARDON, L. R.; CHAKRAVARTI,
A. Finding the missing heritability of complex diseases. Nature, v. 461, n. 7265, p. 747-753,
2009.

MCGOWAN, M.; WANG, J.; DONG, H.; LIU, X.; JIA, Y.; WANG, X.; IWATA, H.; LI,
Y.; LIPKA, A. E.; ZHANG, Z. Ideas in Genomic Selection with the Potential to Transform
Plant Molecular Breeding: A Review. In: GOLDMAN, I. (ed.). Plant Breeding Reviewers.
Nova Jersey: John Wiley & Sons Inc, 2022. v. 45, cap. 7, p. 273-307.

MEUWISSEN, T. H.; HAYES, B. J.; GODDARD, M. Prediction of total genetic value using
genome-wide dense marker maps. Genetics, v. 157, n. 4, p. 1819-1829, 2001.

MING, R.; LIU, S.; LIN, Y.; DA SILVA, J.; WILSON, W.; BRAGA, D.; VAN DEYNZE,
A.; WENSLAFF, T.; WU, K.; MOORE, P. Detailed alignment of Saccharum and Sorghum
chromosomes: comparative organization of closely related diploid and polyploid genomes.
Genetics, v. 150, n. 4, p. 1663-1682, 1998.

MING, R.; MOORE, P. H.; WU, K. K.; D’HONT, A.; GLASZMANN, J. C.; TEW, T. L.;
MIRKOV, T. E.; DA SILVA, J.; JIFON, J.; RAI, M; SCHNELL, R. J.; BRUMBLEY, S.
M.; LAKSHMANAN, P.; COMSTOCK, J. C.; PATERSON, A. H. Sugarcane improvement
through breeding and biotechnology. In: JANICK, J. (ed.). Plant Breeding Reviews. West
Lafayette: Perdue University, 2010. v. 27, cap. 2, p. 15-118.

MOHANRAJ, D.; PADMANABAN, P.; VISHWANATHAN, R. Screening of red rot


resistance in sugarcane. Functional Plant Science Biotechnology, v. 6, p. 51-62, 2012.

MOHANRAJ, D.; VISWANATHAN, R.; PADMANABAN, P. Comparison of three testing


methods for evaluation of resistance to red rot caused by Colletotrichum falcatum in
sugarcane (Saccharum officinarum). Indian Journal of Agricultural Sciences, v. 68, n. 4,
p. 226-30, 1998.

MORRIS, A. P.; CARDON, L. R. Genome‐Wide Association Studies. In: BALDING, D. J.;


MOLTKE, I.; MARIONI, J. (ed.). Handbook of Statistical Genomics. 4. ed. Oxford:
Global Leader in Publishing, Education and Research, 2019. v. 2, cap. 21, p. 597-630.

MOZAMBANI, A. E.; PINTO, A. D. S.; SEGATO, S.; MATTIUZ, C. História e morfologia


da cana-de-açúcar. Atualização em rodução de cana-de-açúcar, v. 1, p. 11-18, 2006.

49
MYCOBANK. Fungal Databases, Nomenclature & Species Banks. Colletotrichum
falcatum general information. 2023. Disponível em: <http://www.mycobank.org/
page/Name%20details%20page/5969>. Acesso em: 20 maio. 2023.
NANDAKUMAR, M.; MALATHI, P.; SUNDAR, A.; VISWANATHAN, R. Expression
analyzes of resistance-associated candidate genes during sugarcane-Colletotrichum falcatum
Went interaction. Sugar Tech, v. 23, n. 5, p. 1056-1063, 2021.

NORDBORG, M.; TAVARÉ, S. Linkage disequilibrium: what history has to tell us. Trends
in Genetics, v. 18, n. 2, p. 83-90, 2002.

O’CONNEL, A.; DEO, J.; DEOMANO, E.; WEI, X.; JACKSON, P.; AITKEN, K. S.;
MANIMEKALAI, R.; MOHANRAJ, K.; HEMAPRABHA, G.; RAM, B. Combining
genomic selection with genome-wide association analysis identified a large-effect QTL and
improved selection for red rot resistance in sugarcane. Frontiers in Plant Science, v. 13, p.
1-16, 2022.

OKURA, V.; DA SILVA, F. R.; DA SILVA, M. J.; KUDRNA, D.; AMMIRAJU, J. S.;
TALAG, J.; WING, R.; ARRUDA, P. A BAC library of the SP80-3280 sugarcane variety
(Saccharum sp.) and its inferred microsynteny with the sorghum genome. BMC research
notes, v. 5, n. 1, p. 1-11, 2012.

OUYANG, S.; ZHU, W.; HAMILTON, J.; LIN, H.; CAMPBELL, M.; CHILDS, K.;
THIBAUD-NISSEN, F.; MALEK, R. L.; LEE, Y.; ZHENG, L. The TIGR rice genome
annotation resource: improvements and new features. Nucleic Acids Research, v. 35, n.
suppl_1, p. D883-D887, 2007.

PARK, T.; CASELLA, G. The Bayesian LASSO. Journal of the American Statistical
Association, v. 103, n. 482, p. 681-686, 2008.

PATERSON, A. H.; BOWERS, J. E.; BRUGGMANN, R.; DUBCHAK, I.; GRIMWOOD,


J.; GUNDLACH, H.; HABERER, G.; HELLSTEN, U.; MITROS, T.; POLIAKOV, A. The
Sorghum bicolor genome and the diversification of grasses. Nature, v. 457, n. 7229, p. 551-
556, 2009.

PATERSON, A. H.; LIN, Y.-R.; LI, Z.; SCHERTZ, K. F.; DOEBLEY, J. F.; PINSON, S.
R.; LIU, S.-C.; STANSEL, J. W.; IRVINE, J. E. Convergent domestication of cereal crops
by independent mutations at corresponding genetic loci. Science, v. 269, n. 5231, p. 1714-
1718, 1995.

PIPERIDIS, G.; PIPERIDIS, N.; D’HONT, A. Molecular cytogenetic investigation of


chromosome composition and transmission in sugarcane. Molecular Genetics and
Genomics, v. 284, n. 1, p. 65-73, 2010.

PlantGDB. Resources for Plant Comparative Genomics. Sorghum bicolor Genome. 2023.
Disponível em: <http://www.plantgdb.org/SbGDB/>. Acesso em: 20 maio. 2023.

PRICE, A. L.; PATTERSON, N. J.; PLENGE, R. M.; WEINBLATT, M. E.; SHADICK, N.


A.; REICH, D. Principal components analysis corrects for stratification in genome-wide
association studies. Nature Genetics, v. 38, n. 8, p. 904-909, 2006.

50
PRITCHARD, J. K.; STEPHENS, M.; DONNELLY, P. Inference of population structure
using multilocus genotype data. Genetics, v. 155, n. 2, p. 945-959, 2000a.

PRITCHARD, J. K.; STEPHENS, M.; ROSENBERG, N. A.; DONNELLY, P. Association


mapping in structured populations. The American Journal of Human Genetics, v. 67, n.
1, p. 170-181, 2000b.

RANA, O.; GUPTA, S. An easy method of screening out red rot susceptible varieties at
initial stages of multiplication. Indian Sugar, v. 18, n. 6, p. 447-452, 1968.

RESENDE JR., M. F. R.; ALVES, A. A; SÁNCHES, C. F. B.; RESENDE, M. D. V.; CRUZ,


C. D. Seleção Genômica Ampla. In: CRUZ, C. D.; SALGADO, C. C.; BHERING, L. L.
(ed.). Genômica Aplicada. Viçosa: Suprema, 2013.cap. X, p. 375-424.

RIDESA. Rede Interuniversitária para o Desenvolvimento do Setor Sucroenergético.


Programa de Melhoramento da Ridesa. 2023. Disponível em:
https://www.ridesa.com.br/melhoramento. Acesso em: 20 maio. 2023.

RISCH, N.; MERIKANGAS, K. The future of genetic studies of complex human diseases.
Science, v. 273, n. 5281, p. 1516-1517, 1996.

ROSSI, M.; ARAUJO, P. G.; PAULET, F.; GARSMEUR, O.; DIAS, V. M.; CHEN, H.;
VAN SLUYS, M.-A.; D'HONT, A. Genomic distribution and characterization of EST-
derived resistance gene analogs (RGAs) in sugarcane. Molecular Genetics and Genomics,
v. 269, n. 3, p. 406-419, 2003.

SAKSENA, P.; VISHWAKARMA, S. K.; TIWARI, A. K.; SINGH, A.; KUMAR, A.


Pathological and molecular variation in Colletotrichum falcatum went isolates causing red
rot of sugarcane in the Northwest Zone of India. Journal of Plant Protection Research, v.
53, n. 1, p. 37-41, 2013.

SATYAVIR, S. Red rot of sugarcane-Current Scenario. Indian Phytopathology, v. 56, n.


3, p. 245-254, 2003.

SCHMITZ CARLEY, C. A.; COOMBS, J. J.; DOUCHES, D. S.; BETHKE, P. C.; PALTA,
J. P.; NOVY, R. G.; ENDELMAN, J. B. Automated tetraploid genotype calling by
hierarchical clustering. Theoretical and Applied Genetics, v. 130, p. 717-726, 2017.

SCHNABLE, P. S.; WARE, D.; FULTON, R. S.; STEIN, J. C.; WEI, F.; PASTERNAK, S.;
LIANG, C.; ZHANG, J.; FULTON, L.; GRAVES, T. A. The B73 maize genome:
complexity, diversity, and dynamics. Science, v. 326, n. 5956, p. 1112-1115, 2009.

SEGURA, V.; VILHJÁLMSSON, B. J.; PLATT, A.; KORTE, A.; SEREN, Ü.; LONG, Q.;
NORDBORG, M. An efficient multi-locus mixed-model approach for genome-wide
association studies in structured populations. Nature Genetics, v. 44, n. 7, p. 825, 2012.

SERANG, O.; MOLLINARI, M.; GARCIA, A. A. F. Efficient exact maximum a posteriori


computation for Bayesian SNP genotyping in polyploids. PloS One, v. 7, n. 2, p. e30906,
2012.

51
SHARMA, R.; TAMTA, S. A Review on Red Rot: the “cancer” of sugarcane. Journal of
Plant Pathology and Microbiology, v. 6, p. 1-8, 2015.

SILOS, R. G.; FISCHER, C.; BERMEJO, J. L. NGS allele counts versus called genotypes
for testing genetic association. Computational and Structural Biotechnology Journal, v.
20, p. 3729-3733, 2022.

SINGH, H.; GUPTA, S.; SINGH, S.; SINGH, M. Improvement of the technique for
screening against red rot at the seedling stage. Sugarcane Pathologists Newsletter, 1978.

SINGH, K.; BUDHRAJA, T. Method of inoculating sugarcane varieties for red rot. Plant
Disease Reporter, v. 48, p. 191-93, 1964.

SINGH, R. K.; BANERJEE, N.; KHAN, M.; YADAV, S.; KUMAR, S.;
DUTTAMAJUMDER, S.; LAL, R. J.; PATEL, J. D.; GUO, H.; ZHANG, D. Identification
of putative candidate genes for red rot resistance in sugarcane (Saccharum species hybrid)
using LD-based association mapping. Molecular Genetics and Genomics, v. 291, n. 3, p.
1363-1377, 2016.

SOUZA, G. M.; BERGES, H.; BOCS, S.; CASU, R.; D’HONT, A.; FERREIRA, J. E.;
HENRY, R.; MING, R.; POTIER, B.; VAN SLUYS, M.-A. The sugarcane genome
challenge: strategies for sequencing a highly complex genome. Tropical Plant Biology, v.
4, n. 3, p. 145-156, 2011.

SPEGAZZINI, C. Hongos de la cana de azucar. Revista de la Facultad de Agronomia y


Veterinaria la Plata, p. 227-258, 1896.

SRINIVASAN, K.; BHAT, N. Red rot of sugarcane: Criteria for grading resistance. J.
Indian Bot. Soc, v. 40, n. 4, p. 566-577, 1961.

SVED, J. Linkage disequilibrium and homozygosity of chromosome segments in finite


populations. Theoretical Population Biology, v. 2, n. 2, p. 125-141, 1971.

SYVÄNEN, A.-C. Toward genome-wide SNP genotyping. Nature Genetics, v. 37, n. 6, p.


5-10, 2005.

TAM, V.; PATEL, N.; TURCOTTE, M.; BOSSÉ, Y.; PARÉ, G.; MEYRE, D. Benefits and
limitations of genome-wide association studies. Nature Reviews Genetics, v. 20, n. 8, p.
467-484, 2019.

TANAKA, T.; ANTONIO, B. A.; KIKUCHI, S.; MATSUMOTO, T.; NAGAMURA, Y.;
NUMA, H. The rice annotation project database (RAP-DB): 2008 update. Nucleic Acids
Research, v. 36, n. 1, p. 1028-1033, 2008.

THIRUGNANASAMBANDAM, P. P.; HOANG, N. V.; HENRY, R. J. The challenge of


analyzing the sugarcane genome. Frontiers in Plant Science, v. 9, p. 1-18, 2018.

52
THORNSBERRY, J. M.; GOODMAN, M. M.; DOEBLEY, J.; KRESOVICH, S.;
NIELSEN, D.; BUCKLER, E. S. Dwarf8 polymorphisms associate with variation in
flowering time. Nature genetics, v. 28, n. 3, p. 286-289, 2001.

TIBBS CORTES, L.; ZHANG, Z.; YU, J. Status and prospects of genome‐wide association
studies in plants. The Plant Genome, p. 1-17, 2020.

TIBSHIRANI, R. Regression shrinkage and selection via the lasso. Journal of the Royal
Statistical Society: Series B (Methodological), v. 58, n. 1, p. 267-288, 1996.

VANRADEN, P. M. Efficient methods to compute genomic predictions. Journal of dairy


science, v. 91, n. 11, p. 4414-4423, 2008.

VIRK, K. Evaluation of screening methods for red rot resistance. Indian Sugar, v. 39, n. 8,
p. 621-622, 1989.

VISWANATHAN, R. Plant disease: red rot of sugarcane. New Delhi: Anmol Publications
Pvt. Ltd., 2010. 40 p.

VISWANATHAN, R.; SUNDAR, A. R.; MALATHI, P. Progress in understanding fungal


disease affecting sugarcane: red rot. In: Rott P. (ed.). Achieving sustainable cultivation of
sugarcane. Florida: Burleigh Dodds Series in Agricultural Science, 2018. v. 2, cap. 1, p. 1-
21.

VISWANATHAN, R.; SUNDAR, A. R.; MALATHI, P.; RAHUL, P.; KUMAR, V. G.;
BANUMATHY, R.; PRATHIMA, P.; RAVEENDRAN, M.; KUMAR, K.;
BALASUBRAMANIAN, P. Interaction between sugarcane and Colletotrichum falcatum
causing red rot: Understanding disease resistance at transcription level. Sugar Tech, v. 11,
n. 1, p. 44-50, 2009.

WANG, J.; ROE, B.; MACMIL, S.; YU, Q.; MURRAY, J. E.; TANG, H.; CHEN, C.;
NAJAR, F.; WILEY, G.; BOWERS, J. Microcollinearity between autopolyploid sugarcane
and diploid sorghum genomes. BMC Genomics, v. 11, n. 1, p. 1-17, 2010.

WANG, Q.; TIAN, F.; PAN, Y.; BUCKLER, E. S.; ZHANG, Z. A SUPER powerful method
for genome wide association study. PloS One, v. 9, n. 9, p. e107684, 2014.

WANG, Z.; LEE, C. Improvement on the methods of testing sugarcane varietal resistance to
leaf light and red rot. Report of Taiwan Sugar Experiment Station, v. 95, p. 1-7, 1982.

WENT, F. A. F. C. Het Rood Snot. Archief Voor de Java Suikerindustrie, v. 1, p. 265-


282, 1893.

WEI, X.; JACKSON, P. A.; HERMANN, S.; KILIAN, A.; HELLER-USZYNSKA, K.;
DEOMANO, E. Simultaneously accounting for population structure, genotype by
environment interaction, and spatial variation in marker–trait associations in sugarcane.
Genome, v. 53, n. 11, p. 973-981, 2010.

53
WEI, X.; JACKSON, P. A.; MCINTYRE, C. L.; AITKEN, K. S.; CROFT, B. Associations
between DNA markers and resistance to diseases in sugarcane and effects of population
substructure. Theoretical and Applied Genetics, v. 114, n. 1, p. 155-164, 2006.

WHITTAKER, J. C.; THOMPSON, R.; DENHAM, M. C. Marker-assisted selection using


ridge regression. Genetics Research, Cambridge, v. 75, n. 2, p. 249-252, 2000.

YU, J.; BUCKLER, E. S. Genetic association mapping and genome organization of maize.
Current Opinion in Biotechnology, v. 17, n. 2, p. 155-160, 2006.

YU, J.; HU, S.; WANG, J.; WONG, G. K.-S.; LI, S.; LIU, B.; DENG, Y.; DAI, L.; ZHOU,
Y.; ZHANG, X. A draft sequence of the rice genome (Oryza sativa L. ssp. indica). Science,
v. 296, n. 5565, p. 79-92, 2002.

YU, J.; PRESSOIR, G.; BRIGGS, W. H.; BI, I. V.; YAMASAKI, M.; DOEBLEY, J. F.;
MCMULLEN, M. D.; GAUT, B. S.; NIELSEN, D. M.; HOLLAND, J. B. A unified mixed-
model method for association mapping that accounts for multiple levels of relatedness.
Nature Genetics, v. 38, n. 2, p. 203-208, 2006.

ZHANG, J.; NAGAI, C.; YU, Q.; PAN, Y.-B.; AYALA-SILVA, T.; SCHNELL, R. J.;
COMSTOCK, J. C.; ARUMUGANATHAN, A. K.; MING, R. Genome size variation in
three Saccharum species. Euphytica, v. 185, n. 3, p. 511-519, 2012.

ZHANG, Z.; ERSOZ, E.; LAI, C.-Q.; TODHUNTER, R. J.; TIWARI, H. K.; GORE, M. A.;
BRADBURY, P. J.; YU, J.; ARNETT, D. K.; ORDOVAS, J. M. Mixed linear model
approach adapted for genome-wide association studies. Nature Genetics, v. 42, n. 4, p. 355-
360, 2010.

ZHOU, X.; STEPHENS, M. Genome-wide efficient mixed-model analysis for association


studies. Nature Genetics, v. 44, n. 7, p. 821, 2012.

ZHU, C.; GORE, M.; BUCKLER, E. S.; YU, J. Status and prospects of association mapping
in plants. The Plant Genome, v. 1, n. 1, p. 5-20, 2008.

54
3 GENOMIC PREDICTION COMBINED WITH ASSOCIATION MAPPING IS A
POWERFUL TOOL TO GENOMIC-ASSISTED BREEDING FOR RED ROT
RESISTANCE IN SUGARCANE

Renato de Carvalho Menezes1, Márcio Lisboa Guedes1, Michel Rodrigues da Silva1,


Vinícius Filgueira Nogueira1, Flávio Pereira dos Santos2, Paulo Henrique Ramos
Guimarães3, Priscila Magalhães da Veiga Jardim1, Luís Gabriel Silva Alvarenga1, Djavan
Adien Mota1, Miriam Suzane Vidotti1, Bruna Mendes de Oliveira1, Marcos Gomes da
Cunha1, Rafael Tassinari Resende1, Sérgio Delmar dos Anjos e Silva4, André Pereira Leão5
and Alexandre Siqueira Guedes Coelho1

Capítulo elaborado conforme as normas do periódico científico Crop Science.


1
Escola de Agronomia, Universidade Federal de Goiás, Goiânia, GO, 74690-900, Brazil.
2
Universidade Estadual de Mato Grosso do Sul, Aquidauana, MS, 79200-000, Brazil.
3
Dep. of Plant Breeding and Genetics, Cornell University, Ithaca, NY, 14850, USA.
4
The Brazilian Agricultural Research Corporation, Embrapa Temperate Agriculture,
Pelotas, RS, 70770-901, Brazil.
5
The Brazilian Agricultural Research Corporation, Embrapa Agroenergy, Brasília, DF
70770-901, Brazil.
3.1 | INTRODUCTION
The red rot of sugarcane (Saccharum spp. inter-specific hybrids), whose causal agent is

the fungus Colletotrichum falcatum, is one of the most important diseases that affect the crop

(Sharma & Tamta, 2015). Widely disseminated in 77 countries, across all continents, the

pathogen affects cane yield and sugar quality by hydrolysis of the stored sucrose in glucose

and fructose, with reported sugar yield losses of 31% and reduction in cane weight by up to

29% (Hussnain & Afghan, 2006; Viswanathan et al., 2018).

The main strategy for the effective control of this disease is the use of resistant varieties

(Sharma & Tamta, 2015; Viswanathan et al., 2018), however the genetic basis for red rot

resistance is still unclear. Genome Wide Association Studies (GWAS) are valuable for

prospecting candidate genes, that could elucidate the molecular basis of red rot resistance,

and for the identification of useful markers to be used in sugarcane breeding programs, which

could enable the early elimination of susceptibility sources in parents and progeny

populations (O’connell et al., 2022).

GWAS aim to identify marker-trait associations that explain part of the phenotypic

variation but are constrained by limited statistical power and usually identify only moderate

to large effects Quantitative Trait Locus (QTLs). On the other hand, genomic

prediction/selection (GS) has been a powerful approach that may be used in molecular

breeding programs for traits controlled by many small effects QTLs (O’connell et al., 2022).

The red rot resistance in sugarcane is a trait that is believed to be a combination of vertical

resistance (due to a few genes with large effects) and horizontal resistance (due to many

genes with small effects) (Babu et al., 2010).

Since GS was proposed by Meuwissen et al. (2001), the main challenge of this tool is

dealing with the high dimensionality of genomic data. One of the most common approaches

to overcome this issue is implementing shrinkage penalties for markers effects estimates. In
56
this context, the concern becomes whether penalties are grossly underestimating the

predictive capacity of large effects QTLs, especially in GS models where genetic variance

is assumed to be constant for all markers (Bernardo, 2014).

When major genes are known and included as fixed effects covariates in GS models, the

predictive ability may increase depending on the genetic architecture of the trait (Bernardo,

2014). However, this information is often unknown and peak associated markers, discovered

from GWAS analyses, can instead be used as fixed effects covariates (McGowan et al.,

2022).

Whereas a major criticism of GWAS is the low level of transferability of the results to

other populations (Mohammadi et al., 2020), the incorporation in GS models of peak GWAS

signals, available in public databases, does not always guarantee better predictive abilities.

Spindel et al. (2016) suggested a method to select markers from GWAS to be used as fixed

effects covariates in GS models, taking only on a training set population to conduct a valid

assessment of predictive capacity with phenotypes appropriately masked.

Genetic studies in sugarcane are challenging due to the complexity of the genome which

is very large (~ 10 Gb), highly polyploid and aneuploid (D’hont & Glaszmann, 2001;

Pimenta et al., 2021). More recently, the development of high-density Axiom™ Single

Nucleotide Polymorphisms (SNP) arrays (Aitken et al., 2016; Coelho et al., unpublished

data, 2023), containing over than 50 thousand SNPs, allows a greater genome coverage and

relatively low-cost screening of sugarcane germplasms (O’connell et al., 2022).

In sugarcane, SNP array genotyping technology has often been used under a pseudo-

diploid model of genotype calling, where all heterozygous genotypes are considered as one

genotypic class (Deomano et al., 2020; Hayes et al., 2021; Yadav et al., 2021; O’connell et

al., 2022). However, not considering the allele dosage can lead to misclassified genotypes

and directly impacts the estimation of locus effects in GWAS and GS models (Aono et al.,
57
2020). In this context, the present study was carried out to applying models based on GWAS

and GS tools to assist the molecular breeding for red rot resistance in sugarcane. Candidate

genes located nearby SNP markers identified as of large effects were also annotated.

3.2 | MATERIALS AND METHODS

3.2.1 | Phenotyping

3.2.1.1 | Genetic materials

Five hundred clones representative of the genetic background used in the Brazilian

sugarcane breeding program developed by Ridesa (Inter-University Network for the

Development of Sugarcane Industry; www.ridesa.com.br) were used in the study. These

clones were obtained in the form of pre-sprouted plantlets, originated from individualized

buds, from two germplasm banks of Ridesa: Serra do Ouro flowering and crossing station,

in the municipality of Murici, Alagoas, Brazil (9°18’ S, 35°56’ W) and Devaneio flowering

and crossing station, in the municipality of Amaraji, Pernambuco, Brazil (8°22’ S, 35°27’

W). The plantlets were produced at the experimental station of Embrapa Temperate

Agriculture, in the municipality of Pelotas, Rio Grande do Sul, Brazil.

3.2.1.2 | Experimental design

In October 2018, the pre-sprouted plantlets were transplanted to the experimental field

belonging to the Federal University of Goiás (UFG), in the municipality of Goiânia, Goiás,

Brazil (16°40’ S, 49°15’ W, 760 m asl and soil type LVE). Goiânia has a climate classified

as Aw according Köppen and Geiger. The annual average temperature and rainfall are

respectively 23.4 °C and 1,270 mm.

The experimental design used was the α-lattice (Patterson & Williams, 1976), with three

replications. The 500 clones were allocated in 25 blocks, with 20 genotypes per block, in

each of the three replications. Each of the 1,500 plots had one groove of 5.0 m in length.

Plots of the same groove were spaced at 1.0 m and spacing between grooves was 1.8 m. Each
58
plot contained 10 pre-sprouted plantlets spaced at 0.5 m. The evaluations were carried out

for two consecutive crops ratoons, considering the split-plot in time scheme (Steel & Torrie,

1980).

3.2.1.3 | Culturing of Colletotrichum falcatum

Thirty isolates of C. falcatum, obtained by monosporic culture belonging to the UFG

Phytopathology Research Nucleus (NPF-UFG), were used. All isolates were cultivated in

Petri dishes (90 mm diameter) containing potato dextrose agar (PDA) medium for 20 days

at 28 ± 2 °C and photoperiod of 12 h. Sporulating of each isolate were suspended in sterile

water and mixed with each other to produce inoculum for red rot severity assessment assay.

Conidial concentration of the mixture was adjusted to 1 million spore per mL.

3.2.1.4 | Colletotrichum falcatum inoculation

In March 2021 (first ratoon crop) and March 2022 (second ratoon crop) three six-month-

old cane stalks were inoculated in each one of the 1,500 plots. For inoculation, an inclined

hole (6 mm diameter and 20 mm depth) was made in the stalk (usually, in the 3rd internode

above the ground) using an electric drill. Then, using a syringe, 0.5 mL inoculum was placed

in the hole and the hole was sealed with adhesive tape. This inoculation procedure is an

adaptation of the plug method proposed by Chona (1954).

3.2.1.5 | Disease severity quantification

Sixty days after inoculation, the cane stalks were cut and split open vertically for

assessing disease symptoms. The disease severity in each stalk was measured considering

1.0 m above the inoculated internode. The inoculated internode was not evaluated as the

disease symptom can be confused with the injury caused by the inoculation method. One of

the stalk halves was photographed using a 12 megapixels digital camera. Using these photos,

the percentages of symptomatic area along the stalks were calculated. The analyzes were

carried out in R (R Core Team, 2023) using the pliman package (Olivoto, 2022). The disease
59
severity per plot, in both the first and second ratoon crop, was assessed by the arithmetic

average of the three inoculated stalks.

3.2.1.6 | Statistical analyzes

The analyzes were conducted using a Restricted Maximum Likelihood (REML) random

effects model, by lme4 R package (Bates, 2010), following the equation: y = m + Z1r + Z2b

+ Z3g + Z4rg + Z5c + Z6gc + Z7rc + Z8bc + e , where y is the vector of observations of

disease severity per plot; m is the vector for overall mean; r ∼ N (0, Iσ2r) is the vector of

replications effects; b ∼ N (0, Iσ2b) is the vector of blocks within replications effects; g ∼ N

(0, Iσ2g) is the vector of genotypes effects; rg ∼ N (0, Iσ2rg) is the vector of replications ×

genotypes interactions effects (whole-plot error); c ∼ N (0, Iσ2c) is the vector of years effects

(considered a random effect because we understand that, in this situation, first and second

ratoon crop do not directly influence the disease severity level); gc ∼ N (0, Iσ2gc) is the vector

of genotypes × years interactions effects; rc ∼ N (0, Iσ2rc) is the vector of replications ×

years interactions effects; bc ∼ N (0, Iσ2bc) is the vector of blocks within replications × years

interactions effects; and e ∼ N (0, Iσ2) is the vector of residuals. Z1, Z2, Z3, Z4, Z5, Z6, Z7

and Z8 are the respective incidence matrices related to each effect vector, and I is the identity

matrix. The significance of model effects was assessed by Likelihood Ratio Test (LRT). The

broad-sense heritabilities, considering a single year and for the two consecutive crops

ratoons, were estimated, respectively, using the equations H21 = σ2g/(σ2g + σ2rg/R + σ2gc +

σ2/R) and H22 = σ2g/(σ2g + σ2rg/R + σ2gc/C + σ2/CR), where R and C are the number of

replications and years, respectively. In addition, the whole-plot error, residual and genetic

coefficients of variation were estimated, respectively, by the equations CVp = [√(σ2 + C ×

σ2rg)]/m, CVsp = (√σ2)/m and CVg = (√σ2g)/m; the b coefficients b1 = CVg/CVp and b2 = CVg/

CVsp, such as proposed by Vencovsky & Barriga (1992), were estimated considering a single

60
year and for the two consecutive crops ratoons, respectively; where σ2g is the genetic

variance, σ2rg is the whole-plot error variance, σ2gc is the genotype-by-year variance, σ2 is

the residual variance, and m is the overall mean.

3.2.2 | Genotyping

3.2.2.1 | SNP discovery

In a previous study, aimed to do the SNP discovery, plant material used for mRNA

sequencing was obtained from 30 clones belonging to the Ridesa sugarcane breeding

program. This population was maintained in an experimental field located at UFG, in the

municipality of Goiânia, Goiás, Brazil. Five different types of plant tissues were collected

from each of the 30 clones: stem tissue, lateral bud tissue, apical bud tissue, leaf tissue, and

whole seedling tissue. The total RNA was extracted in bulk, consisting of all 30 genotypes,

with the Qiagen RNeasy® Plant Mini Kit, giving rise to five distinct libraries, one for each

type of tissue. The construction of sequencing libraries was performed using TruSeq

Stranded mRNA. Sequencing of paired-ends libraries was carried out from cDNA molecules

with Illumina Hi-Seq 2000. Evaluation and filtering of high-quality reads was done with

fastQC (Andrews, 2010) and Trimmomatic (Bolger et al., 2014). High quality reads from

the five libraries were aligned on the NCBIv3 Sorghum bicolor reference genome (Paterson

et al., 2009) using STAR software (Dobin et al., 2013). The Genome Analyzes Toolkit

(GATK) pipeline (Mckenna et al., 2010) was used to discover and call SNP markers, using

the HaplotypeCaller function. Following GATK Best Practices recommendations, a total of

583,808 high quality biallelic SNPs with minor allele frequency (MAF) ≥ 5% were retained.

3.2.2.2 | SNP array

One hundred thousand SNPs were chosen among the 583,808 using the Kennard-Stone

algorithm (Kennard & Stone, 1969) in order to standardize the SNPs distribution along the

reference sequence of Sorghum bicolor genome. After screening using several evaluation
61
criteria from the platform, a total of 50,766 of these SNPs were used in Axiom™ SNP array

(Coelho et al., unpublished data, 2023).

3.2.2.3 | Genotypic data

High-quality DNA from 479 out of 500 clones in which red rot severity was assessed

was extracted from leaf tissues using the protocol proposed by Aljanabi et al. (1999). The

Axiom™ SNP array (Coelho et al., unpublished data, 2023) of 50,766 SNPs markers was

used to genotyping.

The Asignal and Bsignal, signal strengths observed by Thermo Fisher Scientific GeneTitan®

instrument for the two possible alleles (called A and B) for each SNP, were obtained for each

DNA sample. The genotypic matrix was constructed using the dosage values of the A

reference allele, estimated by Asignal/(Asignal + Bsignal).

3.2.3 | GWAS analysis

The disease severity of the 479 genotyped clones (entire population for the genomics

studies) that was predicted by overall Best Linear Unbiased Predictor (BLUP) of two years,

in the phenotyping analysis, was de-regressed to perform GWAS. The de-regressed BLUPs

(drBLUPs) were calculated by the equation drBLUP = m + {BLUP/[1 – (PEV/ σ2g)]}, where

PEV is the predictor error variance for an individual BLUP (Garrick et al., 2009). The

GWAS analysis was conducted by a Fixed and Random Model Circulating Probability

Unification method (FarmCPU) (Liu et al., 2016). Besides kinship, FarmCPU considers the

population structure as a covariate to minimize spurious mark-trait associations. The method

calculates genomic relationship matrix (GRM) from selected pseudo-QTNs (Quantitative

Trait Nucleotides) and not from total SNP set. Population structure was evaluated by

principal component analysis (PCA) from the genotypic matrix and the first two principal

components were used as fixed effects covariates.

62
Type I error was controlled by False Discovery Ratio (FDR) criterion (Benjamini &

Hochberg, 1995) to reach 0.05 global significance level. The average linkage disequilibrium

(LD) in the association panel was investigated using the square reference allele dosage

correlation coefficient r2 between pairs of SNPs across the chromosomes. The extension of

LD decay was observed by plotting r2 values against the physical distance of the SNPs.

To access the consistency of the GWAS analysis, conducted using the entire population

(GWAS-ALL), the 479 clones were randomly subset into five-folds, and the same analysis

described above was performed five times, leaving out one-fold in each run (GWAS-1,

GWAS-2, GWAS-3, GWAS-4, and GWAS-5, respectively). The six GWAS analyzes were

compared with each other using Pearson’s correlation coefficient between SNPs’ effects and

between p-values. All analyzes were carried out in R (R Core Team, 2023) using the GAPIT

(Lipka et al., 2012) and ggplot2 (Villanueva & Chen, 2019) packages.

3.2.4 | Candidate genes

The candidate genes were investigated only for the GWAS-ALL analysis. The genomic

context regions of the SNPs significantly associated with red rot resistance were located in

the Sorghum bicolor reference genome (Paterson et al., 2009), available in Phytozome

genomic data bank (Sorghum bicolor v3.1.1) (Goodstein et al., 2012) and NCBI platform

(Sorghum bicolor taxid:4558) (Sayers et al., 2021), using the Basic Local Alignment Search

Tool (BLAST) (Altschul et al., 1990). Genes located within 15 kb from the significant SNP

positions were functionally annotated using the UniProtKB/Swiss-Prot protein database and

the Gene Ontology (GO) terms (Ashburner et al., 2000; Bairoch & Apweiler, 2000; Apweiler

et al., 2004).

3.2.5 | GS analysis

Like the GWAS analyzes, the drBLUPs were used to fit genomic selection models. Three

GS models were fitted to the data. The first method used was the Genomic Best Linear
63
Unbiased Predictor model (GBLUP), following the equation: y = µ + g + e , where y is the

vector of disease severity of clones predicted using drBLUP; µ is the vector of fixed effects

(a constant); g ∼ N (0, σ2gGRM) is the vector of random effects of genotypes, where σ2g is

the genomic variance component and GRM is the genomic relationship matrix; and e ∼ N

(0, Iσ2) is the vector of residuals, where σ2 is the residual variance component and I is the

identity matrix. The GRM was calculated following the equation: GRM = [(G - M) (G -

M)’]/k, where G is the genotypic matrix of order J × P, J is the number of individuals and P

is the number of SNPs; M = 1J[m1, …, mP], and [m1, …, mP] denotes the column means of

G; and k is the sum of the column variances of (G - M) (Vanraden, 2008).

The second and the third GS methods fitted to the data were the Bayes Cπ and Bayes Dπ

models (Habier et al., 2011), following the equation: y = μ + Ga + ɛ, where a = [a1, …, aP]’

is a vector of length P and ap denote the effect for the pth marker, with p ranging from one

to P; ɛ = [ɛ1, …, ɛJ]’ is a vector of length J, and ɛj is the residual for the jth clone, with j

ranging from one to J. These models treat the proportion of loci that do not contribute to the

genetic variance, π, as an unknown parameter, with a uniform (0,1) prior distribution. The

marker effects prior distribution, for each locus, is given by ap|π ∼ (1 – π) N (0, σ2ap) + π N

(0, 0). For Bayes Cπ, σ2ap is a common unknown variance across all markers, and for Bayes

Dπ, it is the variance of pth marker. The variance σ2ap is assumed to be scaled inverted chi-

square distributed, with vap degrees of freedom and scale parameter Sap, given by σ2ap|vap, Sap

∼ χ-2ap (vap, Sap). The residuals are assumed N (0, Iσ2ɛ) distributed, where σ2ɛ is the residual

variance that has a prior scaled inverted chi-square distribution, with vɛ degrees of freedom

and scale parameter Sɛ, given by σ2ɛ|vɛ, Sɛ ∼ χ-2ɛ (vɛ, Sɛ).

The three models described above were also evaluated by a similar method proposed by

Spindel et al. (2016). Significant peak associated markers, identified using the FDR

64
threshold, from FarmCPU, carried out only on the training set populations, were retained as

fixed effects covariates in GS models. In situations where no SNP was identified, the

respective training populations were discarded. The GS models, modified to account for

peak GWAS signals, followed the equations: y = µ + Wβ + g + e, for GWAS assisted

GBLUP (GWAS-GBLUP), and y = μ + Wβ + G*a + ɛ, for GWAS assisted Bayes Cπ and

Bayes Dπ (GWAS-Bayes Cπ and GWAS-Bayes Dπ, respectively); where, in addition to the

terms already defined, β is the vector of fixed effects of SNPs that uses a non-informative

prior for each beta coefficient, and W is the incidence matrix of these effects. For GWAS-

GBLUP the GRM was calculated by excluding the peak associated SNPs and G* denotes a

subset of G without these markers.

Using rarefaction, for GBLUP model, we also investigated the effect of the number of

SNPs included in the GRM estimates in the prediction ability. To this end, we compared the

predictive ability of GBLUP model using all markers and using random samples of SNPs,

of sizes, respectively, equal to 40 thousand, 30 thousand, 20 thousand, 10 thousand, five

thousand, one thousand and five hundred markers.

For each model we performed 80:20 cross-validation by dividing the entire population

into two groups: 80% of clones used to train the model and 20% used to validate the model.

Cross-validation was repeated 30 times (by randomly selecting clones assigned to each

subset). Gibbs sampling chains were run for 60 thousand iterations. The first 10 thousand

from each chain were discarded as “burn-in” and samples from every 50th iteration thereafter

were stored, thus resulting in 1000 stored samples. The average predictive ability was

calculated as the mean of Pearson’s correlation coefficient, between genomic predicted

values and drBLUPs, over 30 runs. All the analyzes were carried out in R (R Core Team,

2023) using the BGLR (Pérez & De Los Campos, 2014) and ggplot2 (Villanueva & Chen,

2019) packages.
65
3.3 | RESULTS AND DISCUSSION

3.3.1 | Phenotypic analysis of C. falcatum inoculation on the sugarcane clones

Significant genotypic differences among the 499 sugarcane clones (one clone was lost

during the experiment conduction) were observed for red rot severity. The effects of different

replications, blocks within replications and years were not significant (p>0.05), however the

interactions involving these factors, excluding the replications × genotypes interactions,

were significant. Even with significant genotypes × years interactions, for the GWAS and

GS analyzes, the disease severity of the genotyped clones predicted by overall drBLUPs of

the two years was used, instead of carrying out these analyzes for each year. This can be

justified because the variance component associated with this interaction represented a very

small proportion of the observed phenotypic variation. Furthermore, the estimates of

heritability and b coefficient, considering the two years, increased compared to single year

estimates (Table 1). This study reached a value of b2 = 0.904. According Vencovsky &

Barriga (1992), when b coefficient is nearly or up than one is an indicative of a favorable

situation for selection.

TABLE 1. Parameters estimates and Likelihood Ratio Test (LRT) for model effects from

phenotypic data.

Source of Components of
npar logLik AIC LRT Df P(χ2)
variation variance
Replications (R) 9 -8921.7 17861 0.000 1 0.999 0.000
Blocks (B)/R 9 -8921.7 17861 0.000 1 0.999 0.000
Genotypes (G) 9 -9041.7 18102 240.068 1 <0.001 14.762
RxG 9 -8923.0 17864 2.531 1 0.112 1.031
Year (C) 9 -8923.1 17864 2.694 1 0.101 2.166
GxC 9 -8928.0 17874 12.513 1 <0.001 2.031
RxC 9 -8929.9 17878 16.429 1 <0.001 0.671
B/R x C 9 -8941.5 17901 39.492 1 <0.001 1.464
Residual - - - - - - 18.107
m H21 H22
CVg CVp CVsp b1 b2
7.876 0.637 0.771 0.488 0.570 0.540 0.856 0.904

66
npar: number of model parameters; logLik: log-likelihood of the model; AIC: Akaike information criterion of the model;

LRT: likelihood ratio test statistic, which is asymptotically chi-square distributed; Df: degrees of freedom of likelihood ratio

test; P(χ2): p-value obtained using the chi-square distribution with degrees of freedom equal to Df; m: overall mean; H21:

single year heritability; H22: heritability for the two consecutives crops ratoons; CVg: genetic coefficient of variation; CVp:

whole-plot error coefficient of variation; CVsp: residual coefficient of variation; b1: single year b coefficient (CVg/ CVp); b2:

b coefficient for the two consecutives crops ratoons (CVg/ CVsp).

The behavior of most clones was similar between years despite the genotypes × years

interactions (Figure 1A). Considering the two years, a continuous variation in the levels of

resistance, as measured by the disease quantification method, was verified for the clones,

making it impossible to classify all of them as susceptible or resistant (Figure 1B, C).

67
Figure 1. Phenotypic analysis. (A) Scatter plot with linear regression (blue line) of red rot BLUPs,

estimated at first ratoon crop (axis x) and second ratoon crop (axis y), with Pearson’s correlation

coefficient estimate (ρ). (B) Distribution of red rot BLUPs estimated over two years. (C) Examples

of high and low susceptibility clones to the disease.


68
The clones used in this study represent a sample of those routinely released as

commercially varieties by the Brazilian sugarcane breeding program developed by Ridesa.

The result that about 42% of the sampled clones had a positive BLUP value is consistent

with the unofficial records of epidemic outbreaks seen in the last years in Brazil.

In Brazil, it is believed that the pathogen population was previously controlled by

burning sugarcane, a procedure used for manual harvesting. In the last decade, practically

100% of the harvest was carried out mechanized, with the crop straw deposited in the soil

surface favoring survival and increase inoculum in the field (Costa et al., 2021). The fungus

is not a true soil borne organism but can persist about nine months when disease debris is

placed in the soil surface (Singh et al., 1977).

The commercial release of many varieties with some level of susceptibility, associated

with the maintenance of the inoculum in the cultivation fields, may explain how red rot

became an important problem in Brazil. This is a reality shared by the countries of South

Asian but not by Australia where the rate of genotype with some level of susceptibility to

red rot in commercial sugarcane breeding program is about 20% (O’connell et al., 2022).

The broad-sense heritability, considering the two years, was calculated to be 0.77,

indicating nearly 80% of phenotype variation was attributed to the genetic effects (Table 1).

In general, analyzes of red rot resistance inheritance have been reported values of broad

sense heritability about 90% (Ram et al., 2005; Singh et al., 2016; O’connell et al., 2022). In

this study such estimate was about 10% lower. This difference can be explained because the

standard method used to quantify disease severity in related studies is 0-9 scale for grading

resistance (Srinivasan & Bath, 1961), while in this study severity was measure as the

percentage of symptomatic area along the stalk, accessed through the inoculated stalks

images. This fact directly impacts the variance components estimates.

69
Despite the differences related to the disease quantification methods, an estimate of

broad sense heritability close to 80% indicates potentially stronger genetic control of red rot

resistance compared with environmental factors. In addition, the main advantages to analyze

disease severity as proposed by this study are using an objective measure that does not

depend on the evaluator’s expertise and automated image processing by a software, saving

time and enabling the evaluation of large amounts of inoculated stalks.

3.3.2 | Genetic structure and LD decay

No clear genetic structure is common result in studies that involves sugarcane accessions

panels representative of germplasm cultivated worldwide (Gouy et al., 2015; Fickett et al.,

2019). This can be explained in part due to relatively few generations between hybrids

generated by nobilization process and modern varieties. In addition, many clones were

shared by breeding programs worldwide and the sugarcane population increased rapidly only

from a few founders, leading to chaotic relatedness (Voight & Pritchard, 2005; Gouy et al.,

2015; Fickett et al., 2019).

In this study it was no different. The genetic structure of the association panel was

evaluated by a biplot of the first two principal components (PCs) of marker data (Figure 2A).

The first two PCs captured a small percentage of the total variance (11.59%). The clones had

a wide distribution throughout the biplot projection space, which indicates a weak structure

among the genotypes. Moreover, adding more PCs to the analysis barely improved the

percentage of total variance explained (Figure 2B). The genetic structure was also accessed

by a heatmap visual representation of the genomic relationship matrix and, like the PCs

analysis, the heatmap did not show genotypes groups with clear delineation (Figure 2C).

Regarding the LD, we observed high r2 (~ 0.45) between closely distance SNPs, which

dropped to 0.2 at approximately 1.5 Mb (Figure 2D).

70
Figure 2. Population structure and LD decay. (A) Biplot of the first two principal components.

(B) Variance explained by the first ten principal components. (C) Heatmap of the genomic

relationship matrix with dendrogram. (D) LD decay across the whole genome.

Due to the recent breeding history and narrow genetic base the LD has been hypothesized

to be high in sugarcane (Pimenta et al., 2021). Many studies have reported that LD estimated,

using dominant markers, is about 5-10 cM (Jannoo et al., 1999; Raboin et al., 2008; Singh

et al., 2016). In the last years, some studies used SNPs to estimate the LD in base pairs and

indicated that LD was extremely extensive in sugarcane varieties with average r2 decaying

to 0.2 at 3.5 Mb (Yang et al., 2019) and more recently decaying to 0.1 at 2 Mb (Pimenta et

al., 2021). Anyway, the high extent of LD in sugarcane allows GWAS and GS studies to be

carried out even with relatively low density of markers when compared with other species.

3.3.3 | SNP-trait associations and annotation the Sorghum bicolor nearby genes

Fifteen significant marker-trait associations were observed by GWAS-ALL analysis,

using FarmCPU method and considering the FDR criterion (Figure 3A). Practically only the

71
observed p-values of significant SNPs deviated from a distribution that would be expected

by chance if there was no association with the trait (Figure 3B).

Figure 3. SNP-trait associations. (A) Manhattan plot showing p-value of markers obtained from

FarmCPU method versus position (chromosomes numbered 1 to 10), dashed black line indicates

FDR threshold. (B) The quantile-quantile (QQ) plot, the red line with 95% confidence band (gray)

indicates the expected trend if observed p-values were distributed follow null hypothesis that the

marker has no effect on the trait.

Due to the extensive LD observed for this association panel, the genes annotation was

performed arbitrarily within a 30 kb window centered at each significant SNP. A total of 62

candidate genes were found, of which 49 were categorized by Gene Ontology (GO) terms

(Apêndice: Supplemental Table S1).


72
Remarkably, some candidate genes encode proteins known to be associated with plant

defense responses against pathogens. These were the cases of Sobic.007G144600,

Sobic.007G144501 and Sobic.007G144700 located at 0, 6.236 and 11.272 kb from SNP AX-

339099778, respectively and that have a GO term associated with plant defense

(GO:0050832). Located at 6.567 and 9.215 kb from SNP AX-339136918, respectively, were

found Sobic.008G161900 and Sobic.008G162201 that have two GO terms associated with

plant defense (GO:0002229 and GO:0042742). In addition, two other candidates are also

receptor-like protein kinases (RPKs), Sobic.008G001300 located at 3.667 kb from SNP AX-

339114381 and Sobic.008G038200 located at 6.452 kb from SNP AX-339115613.

The RPKs described above have different domains like leucine-rich repeat (LRR), lectins

and CRINKLY4, that are crucial to coordinate plant defense by damage/pathogen-associated

molecular patterns-triggered immunity (D/PTI) and effector-triggered immunity (ETI)

(Lannoo & Van Damme, 2014; He & Wu, 2016; Richard et al., 2021; Shang et al., 2021;

Cho et al., 2022). By GWAS studies a serine/threonine-protein kinase, LRR and lectin

domains were previously reported to be associated with the red rot resistance (Singh et al.,

2016; O’connell et al., 2022). Increase expression of LRR protein family in resistant

sugarcane variety was reported after C. falcatum spores’ inoculation and in sugarcane cell

suspension cultures treated with pathogen elicitors (Prathima et al., 2013; Rahul et al., 2016).

Worth mentioning in this context is Sobic.010G188500, located at 7.578 kb from SNP AX-

339234895, a subtilisin-like proteases that have been implicated in several plant responses

to biotic stimuli (Figueiredo et al., 2018).

In general, the plants develop many pattern recognition receptors (PPRs) for D/PTI and

ETI. PPRs are synthesized and arrive their functional sites, mainly at plasma membrane,

through plant secretory and trafficking machinery that includes nuclear envelope,

endoplasmic reticulum, vesicle transport, Golgi apparatus, endosomes and vacuole (Ruano
73
& Scheuring, 2020; Zhou & Zhang, 2020; Chen et al., 2021; Ganotra et al., 2022). By

participating in these process, relevant candidates are Sobic.006G281800 located at 6.640

kb from SNP AX-339074829, Sobic.006G202200 located at 4.892 kb from SNP AX-

339052107, Sobic.007G191100 located at 4.592 kb from SNP AX-339101001,

Sobic.010G188200 and Sobic.010G188100 located at 2.750 and 10.193 kb from SNP AX-

339234895, respectively.

Ubiquitination system (UBS), mainly E3 ligases, and 26S proteosome are key for

launching of defense response for D/PTI and ETI (Trujillo & Shirasu, 2010) and were

previously associated with the red rot resistance by GWAS study (Singh et al., 2016). As

they belong to these groups, it is important to mention the candidates LOC8062482,

Sobic.001G162900 and Sobic.001G163300 located at 0, 5.972 and 10.083 kb from SNP AX-

338682735, respectively. Beside these, it is worth mentioning Sobic.008G001200 located at

0 kb from SNP AX-339114381, Sobic.010G188400 located at 0.056 kb from SNP AX-

339234895, Sobic.005G133300 located at 13.215 kb from SNP AX-339008203 and

Sobic.008G161800 located at 13.216 kb from SNP AX-339136918.

The anaphase-promoting complex (APC) is critical for cell cycle progression by

degrading cyclins through UBS-proteosome pathway (Qi & Zhang, 2020). Interaction with

pathogens impact cell cycle progression in plants by programmed cell death, a mechanism

known as hypersensitive response (HR) that control the spread of pathogens (Bao et al.,

2013). In addition, cell cycle regulation is affected by jasmonic acid (JA) pathway (Ghorbel

et al., 2021). Therefore, worthy of mention are the candidates Sobic.006G202100 and

Sobic.006G202150 located at 2.574 and 3.515 kb from SNP AX-339052107, respectively.

Cell cycle division was previously reported to be influenced by C. falcatum infection

(Prathima et al., 2013). The HR responses can be induced by the accumulation of

74
intermediate molecules of the tetrapyrrole biosynthesis (Tanaka & Tanaka, 2007), pathway

that Sobic.008G038300, located at 2.395 from SNP AX-339115613, directly participates.

The influence of the circadian rhythm on plant immunity was established based on the

observation that promoters of genes required for D/PTI and ETI are regulated by circadian

clock (Hua, 2013). Many JA-regulated biological process are dependent to circadian control

and preferentially occur during certain periods of the day (Thines et al., 2019). Moreover,

evidences suggests that defense and flowering, two distinct signaling pathways, are

connected through salicylic acid pathway by E3 ligases (Liu et al., 2012). In this context it

is important to mention the candidate Sobic.001G260500 located at 5.734 kb from SNP AX-

117901452.

Other candidate with notably defense function (GO:0006952, GO:1900150 and

GO:1900366) is Sobic.010G060100, located at 5.372 kb from SNP AX-339187981. This is

jasmonate-induced oxygenase that hydroxylates JA to an inactive form leading to down-

regulation of JA-dependent defense (Caarls et al., 2017). The importance of JA pathway in

red rot resistance was reported before (Prathima et al., 2013; O’connell et al., 2022).

The transcription factors (TFs) play an important regulatory role in plant defense. The

candidate Sobic.006G202300 located at 11.904 kb from SNP AX-339052107 belongs to the

Myb family TFs that are known to regulate the HR response, phenylpropanoid metabolic

process and JA pathway. Another important family of TFs is WRKY that is reportedly

involved in D/PTI and ETI defenses mechanisms and in JA pathway signaling (Ruan et al.,

2019; Dong & Lin, 2021; Falak et al., 2021). Sobic.003G242800 that has notably defense

function (GO:0006952), located at 13.345 kb from SNP AX-338867844, belongs to the

WRKY family TFs. WRKY and Myb family TFs were previously reported how differential

transcripts after C. falcatum spores’ inoculation and when sugarcane cell suspension cultures

were treated with pathogen elicitors, respectively (Prathima et al., 2013; Rahul et al., 2016).
75
Sobic.001G260400 which contains SNP AX-117901452, is a TF TFIIE that has been

reported to be involved in plant-microbe interactions (Gan et al., 2022). LOC8062483,

located at 0.612 kb from the SNP AX-338682735, is a Far-Red-Impaired Response (FAR)

protein, an important transposase-derived TF essential for phytochrome signaling and for

regulates the balance between growth and defense responses (Liu et al., 2019).

Sobic.010G059900, Sobic.010G059800 and Sobic.010G060166 located at 3.219, 6.458 and

9.614 from the SNP AX-339187981, respectively, are a zinc finger TFs, a positive regulator

of plant immunity (Cui et al., 2018).

The candidates LOC110432048 and Sobic.001G372500, located at 0 and 6.972 kb from

SNP AX-338712033, respectively, are a uridine diphosphate glucose epimerase, a key

enzyme involved beyond the polysaccharide precursor generation, also involved in defense

responses (Hou et al., 2021). Other candidate that affects cell wall deposition is

Sobic.010G059700 located at 13.611 kb from SNP AX-339187981, directly involved in

arabinogalactan metabolism, a structural polysaccharide that eliciting plant defense

mechanisms (Villa-Rivera et al., 2021).

Sobic.008G038500, located at 14.877 kb from SNP AX-339115613, is an endonuclease

who acts in base excision repair, a critical genome defense pathway that deals with DNA

lesions induced by endogenous or exogenous genotoxic agents (Roldán-Arjona et al., 2019).

And finally, the candidates Sobic.007G190700 and Sobic.010G188300, which contains

respectively, SNPs AX-339101001 and AX-339234895, are directly involved in the glycerol

3-phosphate metabolism previously reported to be influenced by C. falcatum infection

(Singh et al., 2016).Although, no gene with a recognized defense function has been identified

within 15 kb from SNP AX-339008203, this marker, which is at position 57,961,932 bp on

chromosome 5, is within the 14.6 Mb red rot resistance QTL region proposed by O’connell

et al., 2022.
76
3.3.4 | Consistency of peak GWAS signals

The FarmCPU method proved to be very inconsistent in this data set. When 20% of

individuals are randomly removed between the different analyzes, significant associations

change greatly or are lost entirely, as in GWAS-5 analysis (Figure 4A). The Pearson’s

correlation coefficients of the SNPs’ p-values between the different GWAS analyzes are

close to zero, indicating that the significant SNPs may be false positive markers (Figure 4B).

When the SNPs’ effects were analyzed, the correlation coefficients increased but the results

remained very unstable (Figure 4C).

This GWAS study showed that it is essential to test the transferability of peak associated

markers across the association panel. After all, if the peak GWAS signals are unstable within

the association panel, how can they be used in other populations? Even though it is very

likely that the 15 significant SNPs will be affected by the Beavis effect (Beavis, 1998) when

they are transferred to other populations, we decided to publish the candidate gene list

(Apêndice: Supplemental Table S1), as we understand that some genes have a recognized

defense function against pathogens.

77
78
Figure 4. Consistency of GWAS analyzes. (A) Manhattan plots, of six GWAS analyzes, showing

p-value of markers obtained from FarmCPU method versus locational alignment to the Sorghum

bicolor genome (chromosomes numbered 1 to 10), dashed black line indicates FDR threshold. (B)

Scatter plots of SNPs’ p-values, among the six GWAS analyzes, with Pearson’s correlation

coefficient (ρ). (C) Scatter plots of SNPs’ effects, among the six GWAS analyzes, with Pearson’s

correlation coefficient (ρ).

Issues related to the transferability of GWAS have been the focus of many recent

genomic studies. The lack of transferability in GWAS findings, for many traits in humans,

has been associated with underrepresentation of association panels (Popejoy & Fullerton,

2016). In this context, it is important to say that the success of the recent association studies

in humans, especially in the last five years, is partly due to the use of large association panels,

that have surpassed one million of individuals, to better deal with Beavis effect (Abdellaoui

et al., 2023). However, accurate phenotyping of large sample size of plants’ populations is a

recognized bottleneck and has limited the progress in genomics-assisted crop improvement

programs (Mir et al., 2019).

3.3.5 | Genomic prediction

The average abilities of GBLUP, Bayes Cπ and Bayes Dπ to predict red rot severity,

using 80:20 cross-validation of clones panel, were very similar, respectively, equal to 62, 64

and 60%. When significant peak associated markers, by FDR threshold, from FarmCPU

conducted only on the training set populations were retained as fixed effects covariates in

GS models, the average predictive abilities decreased significantly, assuming values,

respectively, equal to 57, 55 and 57%, for GWAS-GBLUP, GWAS-Bayes Cπ and GWAS-

Bayes Dπ models (Figure 5A). The number of SNPs included to calculate the GRM

significantly affects the predictive capacity of the GBLUP model, which is stabilized from

10 thousand markers onwards (Figure 5B).

79
Figure 5. 80:20 cross-validation predictive ability for red rot severity using different GS

models. (A) Predictive abilities for the GBLUP, Bayes Cπ and Bayes Dπ models, assisted and

unassisted by GWAS analyzes. (B) Predictive abilities for the GBLUPs models that included,

respectively, all markers (50766) and random samples of SNPs of sizes equal to 40000, 30000,

20000, 10000, 5000, 1000 and 500 to compute genomic relationship matrix. Points represent the

mean value of 30 simulations and error bars represent the 95% confidence intervals.

As suggested by Rice & Lipka (2019) in a simulation study carried out in maize and

sorghum, which evaluated several traits, in our study, markers strongly associated with red

rot resistance in the training set often had a substantially weaker association in the validation

80
set and the incorporation of such GWAS signals as fixed-effect covariates offered a

disadvantage over the standard GS model on the predictive ability. Our study also suggested

that resistance to red rot is an essentially polygenic inheritance and genotyping of at least 10

thousand markers is necessary to satisfactorily recover genetic variation of the trait, and

when genetic variation is assumed constant across the genome, better predictive abilities are

obtained.

Only one previously study developed GS models to predict red rot resistance in

sugarcane varieties. This related study used GWAS analysis, conducted in entire population,

to detect large effects markers incorporated as fixed effects in GS models, achieving a

predictive ability of around 50% (O’connell et al., 2022). In addition to GWAS analysis not

being conducted only on training set population, another important differences between

these two studies can be considered: our clones panel was composed of 479 genotypes while

O’connell et al. (2022) clones panel had 305, in our work the method used to quantify disease

severity was a quantitative continuous measure and not a 0-9 scale for grading resistance

and the genotype calling was performed considering an estimate of allele dosage and not

how a pseudo-diploid model where all heterozygous genotypes are considered as one

genotypic class. But the main difference between these works is that our study did not

identify the major-effect QTL region on chromosome 5 proposed by O’connell et al. (2022),

although SNP AX-339008203 is within this QTL and instead of improving, when GS models

were assisted by GWAS, the predictive capacity decreased significantly.

3.4 | CONCLUSIONS

The GWAS signals are very inconsistent in this clones’ panel. Although GWAS analysis

is inconsistent, some of the found candidate genes have recognized defense functions. The

Beavis effect makes it hard to conclude about the proportion of phenotypic variance

explained by markers that are in linkage disequilibrium with these candidates. The GS
81
models, modified to account peak GWAS signals, are worse at predicting red rot severity

when compared to standard GS models. It is necessary to genotype at least 10 thousand

markers to recover the genetic variation of the trait. The genetic control of resistance to red

rot seems to follow the Fisher's infinitesimal model and appears to be influenced by many

small-effect QTLs.

3.5 | REFERENCES

Abdellaoui, A., Yengo, L., Verweij, K. J., & Visscher, P. M. (2023). 15 years of GWAS
discovery: Realizing the promise. The American Journal of Human Genetics, 110, 179-194.

Aitken, K., Farmer, A., Berkman, P., Muller, C., Wei, X., Demano, E., Jackson, P. A.,
Magwire, M., Dietrich, B., & Kota, R. (2016). Generation of a 345K sugarcane SNP chip.
In Proc. Aust. Soc. Sugar Cane Technol, 29, 1165-1172.

Aljanabi, S. M., Forget, L., & Dookun, A. (1999). An improved and rapid protocol for the
isolation of polysaccharide-and polyphenol-free sugarcane DNA. Plant Molecular Biology
Reporter, 17, 281-282.

Altschul, S. F., Gish, W., Miller, W., Myers, E. W., & Lipman, D. J. (1990). Basic local
alignment search tool. Journal of molecular biology, 215, 3, 403-410.

Andrews, S. (2010). FastQC: a quality control tool for high throughput sequence data.

Aono, A. H., Costa, E. A., Rody, H. V. S., Nagai, J. S., Pimenta, R. J. G., Mancini, M. C.,
Dos Santos, F. R. C., Pinto, L. R., Landell, M. G. D. A., & De Souza, A. P. (2020). Machine
learning approaches reveal genomic regions associated with sugarcane brown rust resistance.
Scientific Reports, 10, 20057.

Apweiler, R., Bairoch, A., Wu, C. H., Barker, W. C., Boeckmann, B., Ferro, S., Gasteiger,
E., Huang, H., Lopez, R., & Magrane, M. (2004). UniProt: the universal protein
knowledgebase. Nucleic acids research, 32, D115-D119.

Ashburner, M., Ball, C. A., Blake, J. A., Botstein, D., Butler, H., Cherry, J. M., Davis, A. P.,
Dolinski, K., Dwight, S. S., & Eppig, J. T. (2000). Gene ontology: tool for the unification of
biology. Nature genetics, 25, 25-29.

Babu, C., Natarajan, U., Shanthi, R., Govindaraj, P., Sunder, A. R., & Viswanathan, R.
(2010). Inheritance of red rot resistance in sugarcane (Saccharum sp. hybrids). Sugar Tech,
12, 167-171.
82
Bairoch, A., & Apweiler, R. (2000). The SWISS-PROT protein sequence database and its
supplement TrEMBL in 2000. Nucleic acids research, 28, 45-48.

Bao, Z., Yang, H., & Hua, J. (2013). Perturbation of cell cycle regulation triggers plant
immune response via activation of disease resistance genes. Proceedings of the National
Academy of Sciences, 110, 2407-2412.

Bates, D. (2010). lme4: Linear mixed-effects models using S4 classes. R package version
0.999375-33.

Beavis, W. (1998). QTL analyses: Power, precision and accuracy. In A. H. Paterson (Ed.).
Molecular dissection of complex traits (pp. 145-162). CRC Press.

Benjamini, Y., & Hochberg, Y. (1995). Controlling the false discovery rate: a practical and
powerful approach to multiple testing. Journal of the Royal statistical society: series B
(Methodological), 57, 289-300.

Bernardo, R. (2014). Genomewide selection when major genes are known. Crop Science,
54, 68-75.

Bolger, A. M., Lohse, M., & Usadel, B. (2014). Trimmomatic: a flexible trimmer for
Illumina sequence data. Bioinformatics, 30, 2114-2120.

Caarls, L., Elberse, J., Awwanah, M., Ludwig, N.R., de Vries, M., Zeilmaker, T., Van Wees,
S.C.M., Schuurink, R.C., & Van den Ackerveken, G., (2017). Arabidopsis JASMONATE-
INDUCED OXYGENASES down-regulate plant immunity by hydroxylation and
inactivation of the hormone jasmonic acid. Proceedings of the National Academy of
Sciences, 114, 6388-6393.

Chen, D., Hao, F., Mu, H., Ahsan, N., Thelen, J. J., & Stagey, G. (2021). S-acylation of
P2K1 mediates extracellular ATP-induced immune signaling in Arabidopsis. Nature
communications, 12, 2750.

Cho, H., Lee, J., & Oh, E. (2022). Leucine-rich repeat receptor-like proteins in plants:
structure, function, and signaling. Journal of Plant Biology, 66, 99-107.

Chona, B. (1954). Studies on the diseases of sugarcane in India. IV. Relative resistance of
sugarcane varieties to red rot. Indian Journal of Agricultural Sciences, 24, 301-315.

Costa, M. M., Silva, B. A., Moreira, G. M., & Pfenning, L. H. (2021). Colletotrichum
falcatum and Fusarium species induce symptoms of red rot in sugarcane in Brazil. Plant
Pathology, 70, 1807-1818.

83
Cui, B., Pan, Q., Clarke, D., Villarreal, M. O., Umbreen, S., Yuan, B., Shan, W., Jiang, J.,
& Loake, G. J. (2018). S-nitrosylation of the zinc finger protein SRG1 regulates plant
immunity. Nature communications, 9, 4226.

D’Hont, A., & Glaszmann J. C. (2001). Sugarcane genome analysis with molecular markers,
a first decade of research. In International Society of Sugar Cane Technologists. Proceedings
of the XXIV Congress, Brisbane, Australia, 17-21 September 2001. Volume 2 (pp. 556-559).
Australian Society of Sugar Cane Technologists.

Deomano, E., Jackson, P., Wei, X., Aitken, K., Kota, R., & Pérez-Rodríguez, P. (2020).
Genomic prediction of sugar content and cane yield in sugar cane clones in different stages
of selection in a breeding program, with and without pedigree information. Molecular
Breeding, 40, 1-12.

Dobin, A., Davis, C. A., Schelesinger, F., Drenkow, J., Zaleski, C., Jha, S., Batut, P.,
Chaisson, M., & Gingeras, T. R. (2013). STAR: ultrafast universal RNA-seq aligner.
Bioinformatics, 29, 15-21.

Dong, N. Q., & Lin, H. X. (2021). Contribution of phenylpropanoid metabolism to plant


development and plant-environment interactions. Journal of integrative plant biology, 63,
180-209.

Falak, N., Imran, Q. M., Hussain, A., & Yun, B.W. (2021). Transcription factors as the
“blitzkrieg” of plant defense: A pragmatic view of nitric oxide’s role in gene regulation.
International Journal of Molecular Sciences, 22, 522.

Fickett, N., Gutierrez, A., Verma, M., Pontif, M., Hale, A., Kimberg, C., & Baisakh, N.
(2019). Genome-wide association mapping identifies markers associated with cane yield
components and sucrose traits in the Louisiana sugarcane core collection. Genomics, 111,
1794-1801.

Figueiredo, J., Silva, M. S, & Figueiredo, A. (2018). Subtilisin‐like proteases in plant


defence: the past, the present and beyond. Molecular plant pathology, 19, 4, 1017-1028.

Gan, L., Yin, Y., Niu, Q., Yan, X., & Yin, S. (2022). New insights into the mechanism of
Trichoderma virens-induced developmental effects on Agrostis stolonifera disease
resistance against dollar spot infection. Journal of Fungi, 8, 1186.

Ganotra, J., Sharma, B., Biswal, B., Bhardwaj, D., & Tuteja, N. (2022). Emerging role of
small GTPases and their interactome in plants to combat abiotic and biotic stress.
Protoplasma, 260, 1-23.

84
Garrick, D. J., Taylor, J. F., & Fernando, R. L. (2009). Deregressing estimated breeding
values and weighting information for genomic regression analyzes. Genetics Selection
Evolution, 41, 1-8.

Ghorbel, M., Brini, F., Sharma, A., & Landi, M. (2021). Role of jasmonic acid in plants: the
molecular point of view. Plant cell reports, 40, 1471-1494.

Goodstein, D. M., Shu, S., Howson, R., Neupane, R., Hayes, R. D., Fazo, J., Mitros, T.,
Dirks, W., Hellsten, U., & Putnam, N. (2012). Phytozome: a comparative platform for green
plant genomics. Nucleic acids research, 40, D1178-D1186.

Gouy, M., Rousselle, Y., Chane, A. T., Anglade, A., Royaert, S., Nibouche, S., & Costet, L.
(2015). Genome wide association mapping of agro-morphological and disease resistance
traits in sugarcane. Euphytica, 202, 269-284.

Habier, D., Fernado, R., Kizilkaya, K., & Garrick, D. (2011). Extension of the Bayesian
alphabet for genomic selection. BMC Bioinformatics, 12, 1-12.

Hayes, B. J., Wei, X., Joyce, P., Atkin, F., Deomano, E., Yue, J., Nguyen, L., Ross, E. M.,
Cavallaro, T., & Aitken, K. S. (2021). Accuracy of genomic prediction of complex traits in
sugarcane. Theoretical and Applied Genetics, 134, 1455-1462.

He, K., & Wu, Y. (2016). Receptor-like kinases and regulation of plant innate immunity.
The Enzymes, 40, 105-142.

Hou, J., Tian, S., Yang, L., Zhang, Z., & Liu, Y. (2021). A systematic review of the uridine
diphosphate-galactose/glucose-4-epimerase (UGE) in plants. Plant Growth Regulation, 93,
267-278.

Hua, J. (2013). Modulation of plant immunity by light, circadian rhythm, and temperature.
Current opinion in plant biology, 16, 406-413.

Hussnain, Z., & Afghan, S. (2006). Impact of major cane diseases on sugarcane yield and
sugar recovery. Annual Report, Shakarganj Sugar Research Institute, Jhang.

Jannoo, N., Grivet, L., Dookun, A., D’hont, A., Glaszmann, J. C. (1999). Linkage
disequilibrium among modern sugarcane cultivars. Theoretical and Applied Genetics, 99,
1053-1060.

Kennard, R. W., & Stone, L. A. (1969). Computer aided design of experiments.


Technometrics, 11, 137-148.

85
Lannoo, N., Van Damme, E. J. (2014). Lectin domains at the frontiers of plant defense.
Frontiers in plant science, 5, 397.

Lipka, A. E., Tian, F., Wang, Q., Peiffer, J., Li, M., Bradbury, P. J., Gore, M. A., Buckler,
E. S., & Zhang, Z. (2012). GAPIT: genome association and prediction integrated tool.
Bioinformatics, 28, 2397-2399.

Liu, J., Li, W., Ning, Y., Shirsekar, G., Cai, Y., Wang, X., Dai, L., Wang, Z., Liu, W., &
Wang, G. L. (2012). The U-Box E3 ligase SPL11/PUB13 is a convergence point of defense
and flowering signaling in plants. Plant Physiology, 160, 28-37.

Liu, X., Huang, M., Fan, B., Buckler, E. S., Zhang, Z. (2016). Iterative usage of fixed and
random effect models for powerful and efficient genome-wide association studies. PLoS
genetics, 12, e1005767.

Liu, Y., Wei, H., Ma, M., Li, Q., Kong, D., Sun J., Ma, X., Wang, B., Chen, C., & Xie, Y.
(2019). Arabidopsis FHY3 and FAR1 regulate the balance between growth and defense
responses under shade conditions. The Plant Cell, 31, 2089-2106.

Mcgowan, M., Wang, J., Dong, H., Liu, X., Jia, Y., Wang, X., Iwata, H., Li, Y., Lipka, A.
E., & Zhang, Z. (2022). Ideas in genomic selection with the potential to transform plant
molecular breeding: A Review. In I. Goldman (ed.), Plant breeding reviewers (pp. 273-307).
John Wiley & Sons Inc.

Mckenna, A., Hanna, M., Banks, E., Sivachenko, A., Cibulskis, K., Kernytsky, A.,
Garimella, K., Altshuler, D., Gabriel, S., & Daly, M. (2010). The Genome Analysis Toolkit:
a MapReduce framework for analyzing next-generation DNA sequencing data. Genome
research, 20, 1297-1303.

Meuwissen, T. H., Hayes, B. J., & Goddard, M. (2001). Prediction of total genetic value
using genome-wide dense marker maps. Genetics, 157, 1819-1829.

Mir, R. R., Reynolds, M., Pinto, F., Khan, M. A., & Bhat, M. A. (2019). High-throughput
phenotyping for crop improvement in the genomics era. Plant Science, 282, 60-72.

Mohammadi, M., Xavier, A., Beckett, T., Beyer, S., Chen, L., Chikssa, H., Cross, V.,
Moreira, F. F., French E., Gaire, R., Griebel S., Lopez, M. A., Prather, S., Russel, B., &
Wang, W. (2020). Identification, deployment, and transferability of quantitative trait loci
from genome-wide association studies in plants. Current Plant Biology, 24, 1-12.

O’Connell, A., Deo, J., Deomano, E., Wei, X., Jackson, P., Aitken, K. S., Manimekalai, R.,
Mohanraj, K., Hemaprabha, G., & Ram, B. (2022). Combining genomic selection with
genome-wide association analysis identified a large-effect QTL and improved selection for
red rot resistance in sugarcane. Frontiers in plant science, 13.
86
Olivoto, T. (2022). Lights, camera, pliman! An R package for plant image analysis. Methods
in Ecology and Evolution, 13, 789-798.

Paterson, A. H., Bowers, J. E., Bruggmann, R., Dubckak, I., Grimwood, J., Gundlach, H.,
Haberer, G., Hellsten, U., Mitros, T., & Poliakov, A. (2009). The Sorghum bicolor genome
and the diversification of grasses. Nature, 457, 551-556.

Patterson, H., & Williams, E. (1976). A new class of resolvable incomplete block designs.
Biometrika, 63, 83-92.

Pérez, P., & De Los Campos, G. (2014). BGLR: a statistical package for whole genome
regression and prediction. Genetics, 198, 483-495.

Pimenta, R. J. G., Aono, A. H., Burbano, R. C. V., Coutinho, A. E., Da Silva, C. C., Dos
Anjos, I. A., Perecin, D., Landell, M. G. D. A., Gonçalves, M. C., & Pinto, L. R. (2021).
Genome-wide approaches for the identification of markers and genes associated with
sugarcane yellow leaf virus resistance. Scientific Reports, 11, 1-18.

Popejoy, A. B., & Fullerton, S. M. (2016). Genomics is failing on diversity. Nature, 538,
161-164.

Prathima, P., Raveendran, M., Kumar, K., Rahul, P., Kumar, V. G., Viswanathan, R.,
Sundar, A. R., Malathi, P., Sudhakar, D., & Balasubramaniam, P. (2013). Differential
regulation of defense-related gene expression in response to red rot pathogen Colletotrichum
falcatum infection in sugarcane. Applied biochemistry and biotechnology, 171, 488-503.

Qi, F., & Zhang, F. (2020). Cell cycle regulation in the plant response to stress. Frontiers in
plant science, 10, 1765.

R Core Team. 2023. R: A language and environment for statistical computing. R Foundation
for Statistical Computing, Austria.

Raboin, L. M., Pauquet, J., Butterfield, M., D’Hont, A., & Glaszmann, J.C. (2008). Analysis
of genome-wide linkage disequilibrium in the highly polyploid sugarcane. Theoretical and
Applied Genetics, 116, 701-714.

Rahul, P., Kumar, V.G, Viswanathan, R., Sundar, A. R., Malathi, P., Prasanth, C.N., &
Pratima, P. (2016). Defense transcriptome analysis of sugarcane and Colletotrichum
falcatum interaction using host suspension cells and pathogen elicitor. Sugar Tech, 18, 16-
28.

Ram, B., Singh, N., & Sahi, B. (2005). Combining ability and heterosis for disease index of
red rot in sugarcane (Saccharum officinarum L.). Indian Journal of Genetics and Plant
Breeding, 65, 112-114.
87
Rice, B., & Lipka, A. E. (2019). Evaluation of RR‐BLUP genomic selection models that
incorporate peak genome‐wide association study signals in maize and sorghum. The Plant
Genome, 12, 1-14.

Richard, M. M., Gratias, A., Diaz, J. C.A., Thareau, V., Pflieger, S., Meziadi, C., Blanchet,
S., Marande, W., Bitocchi, E., & Papa, R. (2021). A common bean truncated CRINKLY4
kinase controls gene-for-gene resistance to the fungus Colletotrichum lindemuthianum.
Journal of Experimental Botany, 72, 3569-3581.

Roldán-Arjona, T., Ariza, R. R., & Córdoba-Cañero, D. (2019). DNA base excision repair
in plants: an unfolding story with familiar and novel characters. Frontiers in plant science,
10, 1055.

Ruan, J., Zhou, Y., Zhou, M., Yan, J., Khurshid, M., Weng, W., Cheng, J., & Zhang, K.
(2019). Jasmonic acid signaling pathway in plants. International Journal of Molecular
Sciences, 20, 2479.

Ruano, G., & Scheuring, D. (2020). Plant cells under attack: Unconventional endomembrane
trafficking during plant defense. Plants, 9, 389.

Sayers, E. W., Beck, J., Bolton, E. E., Bourexis, D., Brister, J. R., Canese, K., Comeau, D.
C., Funk, K., Kim, S., & Klimke, W. (2021). Database resources of the national center for
biotechnology information. Nucleic acids research, 49, D10.

Shang, Y., Yang, D., Ha, Y., & Nam, K. H. (2021). BAK1-induced RPK1 phosphorylation
is essential for RPK1-mediated cell death in Arabidopsis. Biochemical and biophysical
research communications, 573, 125-131.

Sharma, R., & Tamta, S. (2015). A review on red rot: the cancer of sugarcane. Plant
Pathology & Microbiology, 1, 2.

Singh, K., Budhraja, T., & Agnihotri, V. (1977). Survival of Colletotrichum falcatum in soil,
its portals of entry and role of inoculum density in causing infection. International sugar
Journal, 79, 43-44.

Singh, R. K., Banerjee, N., Khan, M., Yadav, S., Kumar, S., Duttmajumder, S., Lal, R. J.,
Patel, J. D., Guo, H., Zhang, D. (2016). Identification of putative candidate genes for red rot
resistance in sugarcane (Saccharum species hybrid) using LD-based association mapping.
Molecular Genetics and Genomics, 291, 1363-1377.

Spindel, J. E., Begum, H., Akdemir, D., Collard, B., Redona, E., Jannink, J. L., & Mccouch,
S. (2016). Genome-wide prediction models that incorporate de novo GWAS are a powerful
new tool for tropical rice improvement. Heredity, 116, 395-408.

88
Srinivasan, K., & Bhat, N. (1961). Red rot of sugarcane: Criteria for grading resistance.
Journal of Indian Botanical Society, 40, 566-577.

Stell, R. G. D., & Torrie, J. H. (1980). Principles and procedures of statistics: A Biometrical
Approach. McGraw-Hill Book Company.

Tanaka, R., & Tanaka, A. (2007). Tetrapyrrole biosynthesis in higher plants. Annual Review
of Plant Biology, 58, 321-346.

Thines, B., Parlan, E. V., & Fulton, E. C. (2019). Circadian network interactions with
jasmonate signaling and defense. Plants, v. 8, n. 8, p. 252, 2019.

Trujillo, M., & Shirasu, K. (2010). Ubiquitination in plant immunity. Current Opinion in
Plant Biology, 13, 402-408.
Vanraden, P. M. (2008). Efficient methods to compute genomic predictions. Journal of
Dairy Science, 91, 4414-4423.

Vencovsky, R., & Barriga, P. (1992). Genética biométrica no fitomelhoramento. Sociedade


Brasileira de Genética.

Villanueva, R. A. M., & Chen, Z. J. (2019). ggplot2: elegant graphics for data analysis.

Villa-Rivera, M. G., Cano-Camacho, H., López-Romero, E., & Zavala-Páramo, M. G.


(2021). The role of arabinogalactan type II degradation in plant-microbe interactions.
Frontiers in microbiology, 12, 730543.

Viswanathan, R., Sundar, A. R., Selvakumar, R., & Malathi, P. (2018). Progress in
understanding fungal diseases affecting sugarcane: red rot. Burleigh Dodds Science
Cambridge.

Voight, B. F., & Pritchard, J. K. (2005). Confounding from cryptic relatedness in case-
control association studies. PLoS genetics, 1, 32.

Yadav, S., Wei, X., Joyce, P., Atkin, F., Deomano, E., Sun, Y., Nguyen, L. T., Ross, E. M.,
Cavallaro, T., & Aitken, K. S. (2021). Improved genomic prediction of clonal performance
in sugarcane by exploiting non-additive genetic effects. Theoretical and Applied Genetics,
134, 2235-2252.

Yang, X., Song, J., Todd, J., Peng, Z., Paudel, D., Luo, Z., Ma, X., You, Q., Hanson, E., &
Zhao, Z. (2019). Target enrichment sequencing of 307 germplasm accessions identified
ancestry of ancient and modern hybrids and signatures of adaptation and selection in
sugarcane (Saccharum spp.), a ‘sweet’ crop with ‘bitter’ genomes. Plant Biotechnology
Journal, 17, 488-498.

89
Zhou, J. M., & Zhang, Y. (2020). Plant immunity: danger perception and signaling. Cell,
181(5), 978-989.

90
4 CONSIDERAÇÕES FINAIS

Um dos principais gargalos dos estudos genômicos em espécies vegetais é a


dificuldade de se avaliar grandes populações, para um conjunto grande de caracteres, em
diversos locais e por vários anos. Portanto, o emergente desenvolvimento de ferramentas de
fenotipagem de alto desempenho, seguramente, auxiliará a caracterização de populações
cada vez maiores. Isto contribuirá para amenizar o efeito Beavis sobre as estimativas dos
efeitos dos marcadores moleculares, em estudos de predição e associação genômicas, além
de melhorar a confiabilidade dos resultados e o entendimento das bases genéticas de
caracteres de interesse, como a resistência à podridão vermelha.
Por outro lado, um dos principais gargalos dos estudos genômicos em
organismos poliploides e/ou aneuploides é que as tecnologias de genotipagem são
desenvolvidas essencialmente para diploides. Isto impossibilita a determinação correta das
classes genotípicas que na maioria das vezes são grosseiramente categorizadas por modelos
“pseudo-diploides”. Recentemente alguns estudos consideraram a chamada “genotipagem
contínua” para contemplar, mesmo que indiretamente, o número de cópias do alelo de
referência nos estudos genômicos. De qualquer modo, cumpre observar que a decisão sobre
como declarar a matriz genotípica, em estudos genômicos, influencia diretamente as
estimativas dos efeitos dos marcadores.
A resistência à podridão vermelha parece ser uma herança complexa e o seu
melhor entendimento, à nível genômico, virá com o refinamento das tecnologias de
fenotipagem, genotipagem, bioinformática e de estatística. Por hora, é válido ressaltar que
excelentes métodos de inoculação artificial do patógeno foram desenvolvidos, permitindo
que os programas de melhoramento genético de cana-de-açúcar realizem, mesmo que de
forma laboriosa, a triagem de genótipos resistentes.

91
APÊNDICE. Supplemental Table S1: List of candidate genes co-located with red rot severity associated SNPs.
Genome Kb from
SNP (AX-) Nearby gene Protein Protein description Protein database GO term (GO:) Ontology
database SNP
0005673 CC
Sobic.001G260400 Phytozome 0.000 C5WN82 TFIIE subunit alpha Uniprot 0006367 BP
0001113 BP
0007623 BP
0006357 BP
0005737 CC
0048574 BP
117901452
0048510 BP
Protein phytochrome
Sobic.001G260500 Phytozome 5.734 PHL_ARATH Swissprot 0005634 CC
dependent late flowering
0000124 CC
0003712 MF
0016604 CC
0009908 BP
0009416 BP
0016929 MF
0005634 CC
0009909 BP
Ubiquitin-like- 0016926 BP
LOC8062482 NCBI 0.000 ESD4_ARATH Swissprot
specific protease ESD4 0019900 MF
338682735 0009911 BP
0031965 CC
0070139 MF
0008270 MF
Protein FAR1- related
LOC8062483 NCBI 0.612 FRS5_ARATH Swissprot 0005634 CC
sequence 5
0006355 BP

92
Genome Kb from
SNP (AX-) Nearby gene Protein Protein description Protein database GO term (GO:) Ontology
database SNP
0015031 BP
Mitochondrial import
Sobic.001G162800 Phytozome 12.704 TOM6_ARATH Swissprot 0005739 CC
receptor subunit TOM6
0005742 CC
0046872 MF
0000151 CC
0061630 MF
Probable E3 ubiquitin- 0031624 MF
Sobic.001G162900 Phytozome 5.972 ARI1_ARATH Swissprot
protein ligase 0032436 BP
0000209 BP
0005737 CC
338682735
0006511 BP
Sobic.001G163000 Phytozome 1.186 A0A1B6QJ87 Uncharacterized protein Uniprot - -
0046872 MF
0000151 CC
0061630 MF
Probable E3 ubiquitin- 0031624 MF
Sobic.001G163300 Phytozome 10.083 ARI1-ARATH Swissprot
protein ligase 0032436 BP
0000209 BP
0005737 CC
0006511 BP
0006364 BP
0006012 BP
UDP-glucose
LOC110432048 NCBI 0.000 UGE1_ORYSJ Swissprot 0003723 MF
338712033 4-epimerase
0003978 MF
0005829 CC
Sobic.001G372200 Phytozome 8.826 A0A1B6QN86 Uncharacterized protein Uniprot - -

93
Genome Kb from
SNP (AX-) Nearby gene Protein Protein description Protein database GO term (GO:) Ontology
database SNP
Sobic.001G372400 Phytozome 3.749 A0A1Z5S9L4 Uncharacterized protein Uniprot - -
0006364 BP
0006012 BP
338712033 UDP-glucose
Sobic.001G372500 Phytozome 6.972 UGE1_ORYSJ Swissprot 0003723 MF
4-epimerase
0003978 MF
0005829 CC
338849162 Sobic.003G102400 Phytozome 0.000 A0A1B6Q2G5 Uncharacterized protein Uniprot - -
0000976 MF
Transcription factor 0003700 MF
Sobic.003G242800 Phytozome 13.345 WRK19_ORYSJ Swissprot
WRKY19 0005634 CC
338867844
0006952 BP
Uncharacterized conserved 0003779 MF
Sobic.003G242900 Phytozome 0.000 A0A1B6Q525 Uniprot
coiled-coil protein 0110165 CC
CA273132 NCBI 0.000 - - - - -
339008203 Predicted E3 0006511 BP
Sobic.005G133300 Phytozome 13.215 C5Y3B5 Uniprot
ubiquitin ligase 0061630 MF
LOC110436340 NCBI 12.959 - - - - -
UvrD-like helicase
Sobic.006G201900 Phytozome 1.228 A0A1Z5RES9 ATP-binding domain- Uniprot - -
containing protein
CobW C-terminal domain- 0016787 MF
Sobic.006G202000 Phytozome 0.000 A0A1Z5RER8 Uniprot
containing protein 0005737 CC
339052107
0031145 BP
0051301 BP
Cell division cycle 20.1,
Sobic.006G202100 Phytozome 2.574 CDC21_ARATH Swissprot 0005634 CC
cofactor of APC complex
0010997 MF
0019900 MF

94
Genome Kb from
SNP (AX-) Nearby gene Protein Protein description Protein database GO term (GO:) Ontology
database SNP
0016567 BP
0033597 CC
Cell division cycle 20.1, 0007049 BP
Sobic.006G202100 Phytozome 2.574 CDC21_ARATH Swissprot
cofactor of APC complex 0005680 CC
1990757 MF
1905786 BP
0006355 BP
0003677 MF
Myb family transcription
Sobic.006G202300 Phytozome 11.904 PHLB_ARATH Swissprot 0003700 MF
factor PHL11
0005634 CC
2000762 BP
0031145 BP
0051301 BP
339052107 0005634 CC
0010997 MF
0019900 MF
Cell division cycle 20.1,
Sobic.006G202150 Phytozome 3.515 CDC21_ARATH Swissprot 0016567 BP
cofactor of APC complex
0033597 CC
0007049 BP
0005680 CC
1990757 MF
1905786 BP
0005768 CC
0005884 CC
Sobic.006G202200 Phytozome 4.892 EPN1_ARATH Clathrin interactor EPSIN 1 Swissprot 0030276 MF
0005794 CC
0009579 CC

95
Genome Kb from
SNP (AX-) Nearby gene Protein Protein description Protein database GO term (GO:) Ontology
database SNP
0002020 MF
0030125 CC
0006897 BP
0072659 BP
339052107 Sobic.006G202200 Phytozome 4.892 EPN1_ARATH Clathrin interactor EPSIN 1 Swissprot
0005886 CC
0005802 CC
0005543 MF
0006623 BP
0005634 CC
0005525 MF
0005886 CC
Sobic.006G281800 Phytozome 6.640 RABC1_ARATH Ras-related protein RABC1 Swissprot
0005794 CC
339074829
0003924 MF
0006886 BP
No apical meristem (NAM) 0003677 MF
Sobic.006G281900 Phytozome 0.000 A0A1Z5RGM0 Uniprot
protein 0006355 BP
0050832 BP
0005524 MF
0004674 MF
0005576 CC
Sobic.007G144501 Phytozome 6.236 RPK1_IPONI Receptor-like protein kinase Swissprot
0005886 CC
339099778 0106310 MF
0006468 BP
0019199 MF
0050832 BP
Sobic.007G144600 Phytozome 0.000 RPK1_IPONI Receptor-like protein kinase Swissprot 0005524 MF
0004674 MF

96
Genome Kb from
SNP (AX-) Nearby gene Protein Protein description Protein database GO term (GO:) Ontology
database SNP
0005576 CC
0005886 CC
Sobic.007G144600 Phytozome 0.000 RPK1_IPONI Receptor-like protein kinase Swissprot 0106310 MF
0006468 BP
0019199 MF
0050832 BP
339099778 0005524 MF
0004674 MF
0005576 CC
Sobic.007G144700 Phytozome 11.272 RPK1_IPONI Receptor-like protein kinase Swissprot
0005886 CC
0106310 MF
0006468 BP
0019199 MF
0006071 BP
0000287 MF
0009507 CC
Glycero-phosphodiester 0030643 BP
Sobic.007G190700 Phytozome 0.000 GDPD1_ARATH phosphodiesterase GDPD1, Swissprot
chloroplastic 0008889 MF
0046475 BP
0009536 CC
339101001
0071456 BP
0005758 CC
0005829 CC
Mitochondrial import inner
membrane translocase 0015031 BP
Sobic.007G190800 Phytozome 0.301 TIM8_ARATH Swissprot
subunit 0005739 CC
TIM8
0009536 CC
0046872 MF

97
Genome Kb from
SNP (AX-) Nearby gene Protein Protein description Protein database GO term (GO:) Ontology
database SNP
Non-specific serine/ 0008270 MF
Sobic.007G190901 Phytozome 6.822 A0A1Z5RAS7 Uniprot
threonine protein kinase 0003676 MF
Sobic.007G191000 Phytozome 14.230 A0A1B6PIK6 Uncharacterized protein Uniprot - -
0005783 CC
0005886 CC
339101001
0019706 MF
Probable protein
Sobic.007G191100 Phytozome 4.592 ZDHC9_ARATH Swissprot 0005794 CC
S-acyltransferase 7
0018230 BP
0005829 CC
0006612 BP
0016567 BP
0004842 MF
SF3-RNA binding family
Sobic.008G001200 Phytozome 0.000 A0A1B6PAW2 Uniprot 0003723 MF
protein
0003676 MF
0030014 CC
339114381
0106310 MF
Probable LRR receptor-like 0004674 MF
serine/
Sobic.008G001300 Phytozome 3.667 Y1677_ARATH Swissprot 0006468 BP
threonine-protein kinase
At1g67720 0005524 MF
0016020 CC
LOC110437689 NCBI 5.700 - - - - -
0030139 CC
0090627 BP
339115613 Putative receptor protein 0009786 BP
Sobic.008G038200 Phytozome 6.452 CRI4_MAIZE Swissprot
kinase CRINKLY4 0106310 MF
0048829 BP
0046777 BP

98
Genome Kb from
SNP (AX-) Nearby gene Protein Protein description Protein database GO term (GO:) Ontology
database SNP
0009793 BP
0032585 CC
0042803 MF
0005886 CC
6.452 Putative receptor protein
Sobic.008G038200 Phytozome CRI4_MAIZE Swissprot 0009986 CC
kinase CRINKLY4
0004674 MF
0010311 BP
0048439 BP
0005524 MF
0019899 MF
0031969 CC
0043085 BP
Tetrapyrrole-binding
Sobic.008G038300 Phytozome 2.395 GUN4C_ARATH Swissprot 0009507 CC
protein, chloroplastic
339115613 0046906 MF
0010019 BP
0015995 BP
0005794 CC
SREBP regulating gene
Sobic.008G038400 Phytozome 0.000 C5YRT6 Uniprot 2000640 BP
protein
0016020 CC
0006285 BP
0042644 CC
0006284 BP
Endonuclease III homolog 0046872 MF
Sobic.008G038500 Phytozome 14.877 NTH1_ARATH 1, Swissprot
chloroplastic 0006296 BP
0051539 MF
0019104 MF
0003677 MF

99
Genome Kb from
SNP (AX-) Nearby gene Protein Protein description Protein database GO term (GO:) Ontology
database SNP
0000703 MF
Endonuclease III homolog 0140078 MF
339115613 Sobic.008G038500 Phytozome 14.877 NTH1_ARATH 1, Swissprot
chloroplastic 0005634 CC
0003906 MF
0008541 CC
0030163 BP
26S proteosome non- 0005634 CC
ATPase
Sobic.008G161800 Phytozome 13.216 PSD11_ARATH Swissprot 0000502 CC
regulatory subunit 11
homolog 0006511 BP
0005198 MF
0009506 CC
0005524 MF
0004635 MF

Histidine biosynthesis 0005829 CC


Sobic.008G162100 Phytozome 4.535 HIS2_ARATH bifunctional protein hisIE, Swissprot 0009507 CC
chloroplastic 0000105 BP
339136918
0009570 CC
0004636 MF
0016784 MF
0005739 CC
0016783 MF
Thiosulfate/3-
mercaptopyruvate 0019346 BP
Sobic.008G162000 Phytozome 0.000 STR1_ARATH Swissprot
sulfurtransferase 1, 0009507 CC
mitochondrial
0009793 BP
0005829 CC
0004792 MF
L-type lectin-domain
Sobic.008G161900 Phytozome 6.567 LRK91_ARATH Swissprot 0006468 BP
containing receptor kinase

100
Genome Kb from
SNP (AX-) Nearby gene Protein Protein description Protein database GO term (GO:) Ontology
database SNP
0005886 BP
0010726 BP
0004675 MF
0002229 BP
L-type lectin-domain
Sobic.008G161900 Phytozome 6.567 LRK91_ARATH Swissprot 0005524 MF
containing receptor kinase
0010942 BP
0042742 BP
0106310 MF
0030246 MF
0006468 BP
339136918
0005886 CC
0010726 BP
0004675 MF
L-type lectin-domain 0002229 BP
Sobic.008G162201 Phytozome 9.215 LRK91_ARATH containing receptor kinase Swissprot
IX.1 0005524 MF
0010942 BP
0042742 BP
0106310 MF
0030246 MF
Sobic.008G162300 Phytozome 12.216 A0A1Z5R859 Benzil reductase Uniprot - -
LOC110431062 NCBI 10.920 - - - - -
LOC110431224 NCBI 1.426 - - - - -
0010405 BP
339187981 0000139 CC
Hydroxyproline
Sobic.010G059700 Phytozome 13.611 B3GTA_ARATH O-galactosyltransferase Swissprot 0016757 MF
HPGT2 0008378 MF
1990714 MF

101
Genome Kb from
SNP (AX-) Nearby gene Protein Protein description Protein database GO term (GO:) Ontology
database SNP
Hydroxyproline 0008194 MF
Sobic.010G059700 Phytozome 13.611 B3GTA_ARATH O-galactosyltransferase Swissprot
HPGT2 0018258 BP
0016682 MF
Sobic.010G059800 Phytozome 6.458 SRG1_ARATH Protein SRG1 Swissprot 0010150 BP
0046872 MF
0016682 MF
Sobic.010G059900 Phytozome 3.219 SRG1_ARATH Protein SRG1 Swissprot 0010150 BP
0046872 MF
0006605 BP
Preprotein translocase 0009535 CC
Sobic.010G060000 Phytozome 0.000 SECE1_ARATH Swissprot
subunit SECE1 0008320 MF
0009306 BP
339187981
0120091 MF
1900150 BP
0051213 MF
Jasmonate-induced 0006952 BP
Sobic.010G060100 Phytozome 5.372 JOX4_ARATH Swissprot
oxygenase 4 0005829 CC
2000022 BP
0005506 MF
1900366 BP
0016682 MF
Sobic.010G060166 Phytozome 9.614 SRG1_ARATH Protein SRG1 Swissprot 0010150 BP
0046872 MF
Sobic.010G060232 Phytozome 11.449 A0A1W0VRQ9 Uncharacterized protein Uniprot - -
Zinc finger BED domain- 0003677 MF
339234895 LOC110431340 NCBI 11.532 RSLE2_ORYSJ containing protein Swissprot
ricesleeper 2 0009791 BP

102
Genome Kb from
SNP (AX-) Nearby gene Protein Protein description Protein database GO term (GO:) Ontology
database SNP
0003677 MF
0009791 BP
Zinc finger BED domain-
LOC110431340 NCBI 11.532 RSLE2_ORYSJ containing protein Swissprot 0046983 MF
ricesleeper 2
0032196 BP
0006310 BP
0005771 CC
0015031 BP
Vacuolar protein sorting- 0009898 CC
Sobic.010G188100 Phytozome 10.193 VP321_ARATH associated protein 32 Swissprot
homolog 1 0032511 BP
0000815 CC
0006900 BP
0016192 BP
339234895 Sobic.010G188200 Phytozome 2.750 C5Z5R0 Vesicle transport protein Uniprot 0016020 CC
0015031 BP
0006096 BP
0006094 BP
Fructose-biphosphate 0003729 MF
Sobic.010G188300 Phytozome 0.000 ALFC5_ARATH Swissprot
aldolase 5, cytosolic 0005829 CC
0004332 MF
0030388 BP
0009850 BP
0080148 BP
E3 ubiquitin-protein ligase
Sobic.010G188400 Phytozome 0.056 RGLG2_ARATH Swissprot 0009738 BP
RGLG2
0046872 MF
0005634 CC

103
Genome Kb from
SNP (AX-) Nearby gene Protein Protein description Protein database GO term (GO:) Ontology
database SNP
0004842 MF
0009690 BP
E3 ubiquitin-protein ligase
Sobic.010G188400 Phytozome 0.056 RGLG2_ARATH Swissprot 0005886 CC
RGLG2
0061630 MF
0070534 BP
339234895
0005576 CC
0004252 MF
Sobic.010G188500 Phytozome 7.578 AIR3_ARATH Subtilisin-like protease Swissprot 0006508 BP
0009733 BP
0010102 BP
A distance from SNP of 0.000 kb indicates that the SNP occurs within the gene. CA273132 is a Saccharum spp. transcript but not Sorghum bicolor transcript. CC: cellular component, MF:
molecular function, BP: biological process and "-" indicates that no information was found.

104

Você também pode gostar