Periodização automática

Estudos linguistíco-estatísticos de literatura lusófona

  • Diana Santos Linguateca / Universidade de Oslo
  • Emanoel Pires
  • Cláudia Freitas
  • Rebeca Schumacher Fuão
  • João Marques Lopes
Palavras-chave: leitura distante, linguística com corpos, literatura lusófona, escola literária, português, literatura brasileira, literatura portuguesa

Resumo

Neste artigo usamos um conjunto de características sintático-semânticas da língua portuguesa para classificar em períodos literários dois conjuntos de obras. Em que medida tais características são capazes de refletir distinções relevantes no âmbito dos estudos literários é uma das questões que pretendemos investigar.

O primeiro grupo de obras corresponde à replicação do trabalho relatado em 2009 por Barufaldi et al., que usaram métodos de compressão de dados sobre uma série de obras brasileiras classificadas em quatro períodos literários: barroco, arcadismo, romantismo e realismo, desde o Padre António Vieira até Raul Pompéia, contabilizando 15 autores diferentes e totalizando 37 obras.

O segundo grupo inclui muito mais obras (192), tanto portuguesas como brasileiras, mas apenas integra romances ou novelas publicadas no período de 1840 a 1919. As escolas literárias escolhidas foram o realismo, o romantismo, o simbolismo, o naturalismo, o decadentismo e o modernismo, mas, ao contrário da classificação anterior, permitimos que uma mesma obra pertença a várias escolas.

Usamos técnicas de classificação em R para a primeira tarefa, e análise de correspondências para a segunda. Também aplicamos técnicas de modelos de tópicos à segunda coleção para ver se é possível obter tópicos representativos de escolas literárias diferentes.

Publicado
2020-06-29
Como Citar
Santos, D., Pires, E., Freitas, C., Fuão, R. S., & Lopes, J. M. (2020). Periodização automática: Estudos linguistíco-estatísticos de literatura lusófona. Linguamática, 12(1), 81-95. https://doi.org/10.21814/lm.12.1.314
Edição
Secção
Artigos de Investigação