Proposta recebida em Outubro 2018 e aceite para publicação em Dezembro 2018.
Parafraseamento Automático de Registo Informal
em Registo Formal na Lı́ngua Portuguesa
Automated Paraphrasing of Portuguese Informal into Formal Language
Anabela Barreiro
Ida Rebelo-Arnold
Jorge Baptista
INESC-ID
anabela.barreiro@inesc-id.pt
Universidad de Valladolid
imdamotar@funge.uva.es
Universidade do Algarve
jbaptis@ualg.pt
Cristina Mota
Isabel Garcez
INESC-ID
cmota@islt.utl.pt
Universidade de Lisboa
isabelgarcez@campus.ul.pt
Resumo
Abstract
Este artigo apresenta o processo de automatização
de parafraseamento em português e conversão de
construções tı́picas do registo informal ou da linguagem falada em construções de registo formal usadas na
linguagem escrita. Ilustraremos o processo de automatização com exemplos extraı́dos do corpus e-PACT,
que envolvem a colocação normalizada de pronomes
clı́ticos quando co-ocorrem com compostos verbais.
A tarefa consiste em parafrasear e normalizar, entre outras, construções como vou-lhe/posso-lhe fazer
uma surpresa em vou/posso fazer-lhe uma surpresa,
em que o pronome clı́tico lhe migra de uma posição
enclı́tica imediatamente a seguir ao primeiro verbo do
composto verbal para uma posição enclı́tica a seguir
ao verbo principal, que é o verbo responsável pela
seleção do argumento pronominal. O primeiro verbo
é um verbo auxiliar ou um verbo volitivo, e.g., querer.
Este é um procedimento padronizado no processo de
revisão em português europeu. Casos como este representam fenómenos linguı́sticos em que os estudantes
de lı́ngua portuguesa e falantes em geral se confundem ou onde “tropeçam”. O artigo enfatiza a lı́ngua
padrão em que os fenómenos observados ocorrem,
descreve exemplos de interesse encontrados no corpus e apresenta uma solução automática, baseada na
aplicação de gramáticas transformacionais genéricas,
que facilitam a normalização de inadequações ou falhas sintáticas (registos informais) encontradas nas
construções pesquisadas em construções padronizadas
tı́picas da escrita formal ou escrita profissional.
This paper presents the automation process of paraphrasing and converting Portuguese constructions
typical of informal or spoken language into a formal
written language. We illustrate this automation process with examples extracted from the e-PACT corpus
that involve the placement of clitic pronouns in verbal compound contexts. Our task consists in paraphrasing and normalizing, among others, constructions
such as vou-lhe/posso-lhe fazer uma surpresa into
vou/posso fazer-lhe uma surpresa “lit: I will/can to
him/her make a surprise / I will/can make to him/her
a surprise; I will/can make him/her a surprise”, where
the clitic pronoun lhe migrates from an enclitic position immediately after the first verb of the verbal
compound to an enclitic position after the main verb,
which is the verb responsible for the selection of that
pronominal argument. The first verb is either an auxiliary verb or a volitive verb, e.g., querer “want”. This
is a standard revision procedure in European Portuguese. Cases like this represent linguistic phenomena
where language students and language users in general
get confused or “stumble”. The paper focuses on general language where the phenomena being observed
occur, describes examples of interest found in the corpus, and presents an automatic solution for the normalization of informal syntactic inadequacies found in
the researched structures into standard structures typical of formal or professional writing through the application of very generic transformational grammars.
Palavras chave
paráfrases, parafraseamento automático, registo formal e informal, compostos verbais, pronomes clı́ticos,
ordem das palavras, português europeu, português do
Brasil, aprendizagem da lı́ngua, escrita profissional
DOI: 10.21814/lm.10.2.282
This work is Licensed under a
Creative Commons Attribution 4.0 License
Keywords
paraphrases, automated paraphrasing, formal and informal language, verbal compounds, clitic pronouns,
word order, European Portuguese, Brazilian Portuguese, language learning, professional writing
Linguamática — ISSN: 1647–0818
Vol. 10 Núm. 2 2018 - Pág. 53–61
54– Linguamática
Anabela Barreiro Ida Rebelo-Arnold, Jorge Baptista, Cristina Mota & Isabel Garcez
1 Introdução
A automatização da revisão de conteúdos é uma
das funções mais desejadas para um revisor ou
editor profissional, especialmente para aquelas
tarefas enfadonhas que envolvem “lacunas” no
tipo de registo formal, que consomem tempo e
representam um entrave a uma revisão eficaz
e rápida de textos de autoria. Aqui, o termo
“lacuna” não significa necessariamente um erro
gramatical, mas o uso de construções informais
que são tı́picas do discurso oral, que são corrigidos pelos revisores na produção escrita de escritores profissionais. Além das vantagens ao
nı́vel da produção de escrita, um parafraseador
com funções automáticas de normalização e/ou
revisão poderá ser usado como uma aplicação
de aprendizagem para estudantes, em particular,
estudantes de lı́nguas, entre outras aplicações.
Neste artigo, apresentamos o processo de conversão de formas de expressão informais ou “menos polidas” em expressões formais utilizadas em
textos escritos, dado que desejamos criar uma
forma padronizada como as que existem em guias
de autoria e estilo, por exemplo, ou em guias
técnicos usados para obter uma publicação de
qualidade.
Ilustramos este processo automatizado com
construções de predicados verbais compostos (doravante, compostos verbais) envolvendo
sequências de dois (algumas vezes mais) verbos
e um pronome clı́tico, onde o clı́tico é um argumento do segundo verbo. O clı́tico pode ser
colocado imediatamente a seguir ao verbo de que
depende, e.g. queria ver-te. Esta é a construção
que os livros e as gramáticas de estilo geralmente
recomendam como “uso correto” no discurso formal; ou ser movido para junto do primeiro verbo,
e.g. queria-te ver em português europeu (PE),
te queria ver em português do Brasil (PB), que
é muitas vezes considerado como menos formal
ou até mesmo um uso “relaxado”. Enquanto o
segundo verbo do composto verbal é um verbo
pleno, também conhecido como verbo distribucional (i.e., um item lexical que seleciona argumentos e com um significado lexical definido intencionalmente), o primeiro verbo pode ser um
verbo auxiliar, no sentido definido por Cunha &
Lindley-Cintra (1986, 393–396), muitas vezes designados como perı́frases verbais ou locuções verbais 1 , e.g. estou a ver-te versus estou-te a ver
(PE), te estou a ver (PB), ou um verbo com-
pleto, incluindo os verbos volitivos, como querer,
desejar e outras construções verbais. Em todos
esses casos, a normalização exige que o pronome
clı́tico migre para uma posição enclı́tica e seja
anexado ao segundo verbo do composto verbal,
por exemplo, eu quero-o ver → eu quero vê-lo.
No exemplo normalizado, o verbo infinitivo sofre
uma mudança de ver para vê- e o pronome clı́tico
sofre uma mudança de o para lo, uma regra ortográfica motivada por razões fonéticas.
Em Processamento de Linguagem Natural
(PLN), a maioria dos analisadores sintáticos
(parsers) processa os verbos auxiliares portugueses da mesma maneira que qualquer outro verbo,
isto é, como um verbo pleno e completo; vejase, por exemplo, as árvores de análise produzidas pelo PALAVRAS (Bick, 2000)2 e o LxParser
(Silva et al., 2010)3 . Uma proposta diferente é
apresentada por Baptista et al. (2010), que processa construções auxiliares verbais de maneira
diferente, distinguindo o auxiliar do verbo principal, tomando em conta as diferentes opções de
posicionamento/colocação dos pronomes clı́ticos.
De facto, os verbos auxiliares requerem uma proposta adequada de sistematização que considere
não apenas as propriedades lexicais, mas também
as propriedades semântico-sintáticas desses verbos. A descrição dos verbos em PE realizada
no âmbito da Léxico-Gramática (Baptista, 2012,
2013; Baptista & Mamede, 2018) fornecem uma
lista de mais de 100 construções verbais auxiliares (entre mais de 330 construções verbais auxiliares). Desta forma, será possı́vel criar listas
de ocorrências e construir gramáticas locais que
podem ser usadas tanto por utilizadores humanos quanto por máquinas. É importante destacar
que todos os verbos ilustrados e analisados neste
artigo formam uma locução com outro verbo (o
verbo principal). Em muitas co-ocorrências, o
significado do verbo principal geralmente recebe
um valor aspectual. Há também verbos cujos significados são construı́dos com a co-ocorrência de
uma preposição seguida de outro verbo.
Como o tópico da nossa investigação é tão amplo em escopo e o nosso corpus inclui uma variedade tão vasta de casos de categorização e tratamento computacional difı́cil, decidimos focar-nos
apenas nos casos de compostos verbais que coocorrem com clı́ticos. Os exemplos ilustrados no
artigo foram extraı́dos do corpus e-PACT (Barreiro & Mota, 2017), que é composto por dois
romances da autoria de David Lodge. Os alinha-
1
Uma visão geral mais abrangente sobre o tópico pode
encontrar-se em (Pontes, 1973; Gonçalves, 1999; Paiva Raposo, 2013). Também vale a pena mencionar as propostas
de (Gross, 1998) para o sistema de verbos auxiliares em
francês.
2
http://www.visl.sdu.dk/visl/pt/parsing/
automatic/dependency.php
3
http://www.lxcenter.di.fc.ul.pt/services/pt/
LXParserPT.html
Parafraseamento Automático de Registo Informal em Formal na Lı́ngua Portuguesa
mentos parafrásticos foram realizados por meio
do uso da ferramenta de alinhamento CLUEAligner (Barreiro et al., 2016), já utilizada em
outros trabalhos de investigação sobre alinhamentos de paráfrases.4 O corpus contém exemplos simples e não padronizados, incluindo frases tı́picas de diálogos ou trechos de comunicação
informal, que caracterizam o tipo de textos literários que constituem o corpus. Analisámos
uma pequena quantidade de ocorrências no corpus e criámos uma tipologia de categorias de
compostos verbais. Em seguida, usámos essas
categorias para criar gramáticas locais genéricas
que serviram de base para o processamento automatizado de paráfrases, nomeadamente geração
e identificação em texto. Os pares não padronizados/padronizados de contrastes parafrásticos
resultantes deste estudo serão validados para a
sua integração na ferramenta de parafraseamento
eSPERTo, que, entre outras aplicações, visa permitir a adaptação e revisão de textos. Atualmente, o eSPERTo está integrado numa aplicação
online que fornece sugestões parafrásticas para
ajudar alunos de lı́ngua portuguesa. À medida
em que esta ferramenta for evoluindo, prevê-se
que os seus recursos sejam utilizados na produção
e revisão de textos.5 Outra aplicação experimental envolve a construção de um conjunto de dados
de contrastes parafrásticos entre as variedades
europeia e brasileira da lı́ngua portuguesa, um recurso indispensável para a conversão e adaptação
entre todas as variedades do português (Barreiro
& Mota, 2018; Rebelo-Arnold et al., 2018). Esses
esforços estão alinhados com a proposta de criar
um padrão internacional de português (Santos,
2015). Finalmente, como uma abordagem inicial, começamos a explorar o tópico de ensinar
aos alunos a distinção entre linguagem formal e
informal através do uso de agentes conversacionais representando o papel de professores.
É relevante mencionar que, embora o corpus e-PACT não seja o ideal, é o melhor recurso publicamente disponı́vel que serve os nossos propósitos, porque contém frases paralelas
alinhadas que são traduções dos mesmos textos
literários, e essas frases frequentemente contêm
linguagem informal. A falta de corpora paralelos
de paráfrases em geral, mas especialmente para o
4
Com o objetivo de economizar espaço neste artigo,
apresentamos os exemplos no modo convencional, marcados a negrito em exemplos enumerados.
5
A utilidade das capacidades parafrásticas do
eSPERTo foi explorada em duas outras aplicações
descritas por Mota et al. (2016a): (i) num sistema de
perguntas e respostas para aumentar o conhecimento
linguı́stico de um agente conversacional inteligente e (ii)
numa ferramenta de sumarização para auxiliar a tarefa
de parafraseamento.
Linguamática – 55
português, é uma necessidade que não foi tratada
com a importância que merece. Outro fator instrumental é que as frases paralelas no e-PACT
correspondem a duas variedades diferentes da
lı́ngua portuguesa, a europeia e a brasileira, que
temos contrastado em trabalhos recentes (Barreiro & Mota, 2018). Essas caracterı́sticas-chave
são essenciais para a adaptação e revisão das variedades. Neste artigo, concentramo-nos na revisão
de texto, mas o artigo serve os dois propósitos,
conversão de PE/PB informal em PE/PB formal
e adaptação da variedade PB na variedade de
PE e vice-versa. O artigo apresenta uma contribuição pequena mas positiva para a melhoria
dos padrões de edição e revisão, bem como para
a automatização de transformações especı́ficas do
discurso informal para o formal.
2 Trabalho Relacionado
Os compostos verbais, que são objeto do nosso
estudo, têm a particularidade de incluir um pronome clı́tico tanto nas frases em PE como nas
frases em PB ou ter esse clı́tico implicado numa
paráfrase das construções dos compostos verbais
numa ou noutra variedade da lı́ngua portuguesa
(cf. exemplo (2)). Em português, um pronome
clı́tico desempenha um papel sintático ao nı́vel
da frase e segue diferentes regras de colocação ou
ordenação, dependendo da variedade da lı́ngua
(PE ou PB), do número e da semântica dos predicados, co-ocorrência com uma preposição, entre
outros fatores.
Existem estudos que se centram na aquisição
de pronomes clı́ticos em PE, dos quais os trabalhos de Silva (2008) e Costa & Grolla (2017) são
apenas exemplos entre muitos, que foram referenciados em trabalhos realizados recentemente
(Rebelo-Arnold et al., 2018). Esses estudos estão
relacionados principalmente com dificuldades no
desempenho quando se trata do uso de clı́ticos em
fases iniciais de aquisição da linguagem. As dificuldades de aquisição dos clı́ticos são materializadas, em particular, por escolhas fora da norma
para a sua colocação em frases. Quando olhamos para os nossos dados, verificamos que as hesitações e dificuldades se estendem até à idade
adulta, e há padrões de variação na seleção e
posição dos clı́ticos em qualquer corpus de registo
oral ou simplesmente de transcrição escrita da
oralidade, onde a informalidade é recorrente na
escrita moderna, incluindo meios de comunicação
social (redes socais), mas também em canais de
comunicação mais “sérios”, como jornais, artigos
de opinião ou escrita literária cuja revisão não é
contemplada com a devida importância.
56– Linguamática
Anabela Barreiro Ida Rebelo-Arnold, Jorge Baptista, Cristina Mota & Isabel Garcez
Em PB, por sua vez, vários estudos enfocam a observação das construções espontâneas
de falantes mais ou menos escolarizados envolvendo o uso de clı́ticos (Neves, 1999, 2000; Castilho, 2001; Naro & Scherre, 2007, entre outros).
Essa observação revela uma distância entre as
duas variedades em relação à aplicação das regras de seleção e colocação de clı́ticos em português. Tudo isso tem impacto tanto no trabalho dos revisores e tradutores quanto na aprendizagem de lı́nguas, quer para o português como
lı́ngua materna (PLM) quer para o português
como lı́ngua estrangeira (PLE). O eSPERTo pode
ser usado num ambiente de aprendizagem de
lı́ngua(s), onde os estudantes de PLM e PLE podem aprender a produzir e aplicar paráfrases de
grande precisão (ou seja, frases semanticamente
equivalentes). Portanto, os recursos aqui criados podem ajudar a auxiliar escritores e revisores na produção, revisão ou adaptação de textos, mas também podem ser valiosos num ambiente de sala de aula. Neste artigo, continuamos
uma linha de investigação anterior (Barreiro &
Mota, 2018), onde foi apresentada uma primeira
introdução geral a uma tarefa mais ampla de encontrar variantes parafrásticas PE-PB, seguida
por uma abordagem mais restrita da questão das
paráfrases entre PE e PB envolvendo o clı́tico
de terceira pessoa com valor dativo, lhe (RebeloArnold et al., 2018). Neste estudo, concentramonos no alinhamento das construções de compostos verbais, quando essas construções envolvem
pronomes clı́ticos. A nossa pequena experiência
mostra que a metodologia e a abordagem são
viáveis num projeto autónomo maior, desde que
haja uma quantidade suficiente de corpora adequados para fornecer uma cobertura suficientemente abrangente para um processo de normalização eficaz, como o que é exigido no desenvolvimento de um sistema de parafraseamento de
larga escala. Esses dados também constituirão
os pilares basilares para a criação de gramáticas
aplicáveis a vários casos, não apenas para a
lı́ngua portuguesa, mas para outras lı́nguas.
3 Colocação dos Clı́ticos em Compostos
Verbais
Os clı́ticos em português podem deslocar-se para
a esquerda ou para a direita, quer do verbo auxiliar, quer do verbo principal. Algumas das nuances da colocação do clı́tico em compostos verbais
serão ilustradas neste artigo com exemplos do
corpus e-PACT. Parte das dificuldades em estabelecer categorias parafrásticas está relacionada
com o valor aproximado de construções aparen-
temente “equivalentes”. Os exemplos ilustram
que, em cada par parafrástico PE–PB, uma frase
contém um composto verbal com um clı́tico e a
outra frase contém uma paráfrase da primeira.
Às vezes, a paráfrase apresenta uma estrutura
do composto verbal bastante diferente, que pode
nem sequer incluir o pronome clı́tico que ocorre
na frase equivalente.
3.1 PROCLDAT ou
VPARTPASS
ACC
VAUX-ter
Os exemplos (1)–(3) representam contrastes importantes com a regra evidentemente produtiva
de posição enclı́tica em PE. Esses contrastes ocorrem na presença do auxiliar ter (VAUX-ter ) e são
provavelmente o modelo que gera a incorreção
na construção lhes voltava a telefonar. Este é o
caso de uma falsa analogia porque, de facto, a
regra de colocação de enclı́ticos deveria ter sido
aplicada neste caso, e.g., voltava a telefonar-lhes.
Na paráfrase em PB, o pronome clı́tico desaparece através da utilização de uma transformação
mais “livre”. Existe uma tendência notável em
PB para evitar o uso pronomes clı́ticos em construções deste tipo e noutras.
(1)
EN - It was rumoured that he collected the
phone numbers of likely-sounding girls and
called them back after the programme to
make dates.
P E - Dizia-se que colecionava os números
das raparigas que mais lhe agradavam e lhes
voltava a telefonar depois, a marcar encontros.
P B - Diziam até que ele colecionava números
de telefone de garotas com voz macia para
ligar mais tarde e marcar encontros.
No exemplo (2), a paráfrase em PB, [N VAUXter NP[boa viagem]] (simplificada ‘[Y ter boa X]’)
apresenta uma inversão do tópico de modo a evitar o uso do clı́tico na 3a pessoa exigido pelo
verbo agradar como uma paráfrase do PE [SN[a
viagem] VPRINC agradou PREPa N] (simplificado ‘[X agradar a Y]’). Em PB, a seleção lexical
diferente explica a ausência de ENCLITDAT. Na
frase em PE, a presença do pronome clı́tico lhes
é suprimida em PB pela inversão do tópico. O
verbo agradar em português exige o uso da preposição a (PREPa), que não é exigida pelo verbo
please em inglês. A paráfrase em PE é mais formal enquanto que a paráfrase em PB é mais neutra. O pronome lhe nunca pode estar ligado a
um particı́pio passado em construções auxiliares
[VAUX-ter + VPP].
Parafraseamento Automático de Registo Informal em Formal na Lı́ngua Portuguesa
(2)
- he hopes they have enjoyed the flight
- diz esperar que a viagem lhes tenha
agradado.
P B - ele desejava que tivessem tido uma
boa viagem
EN
PE
No exemplo (3), o PE também apresenta uma
paráfrase mais formal (mais próxima da construção / forma de expressão original em inglês)
do que em PB. A variação de uma paráfrase noutra presume uma escolha do tradutor. Em detalhe, a paráfrase em PB seleciona o mesmo item
lexical em PE, mudar, que ocorre com o pronome reflexivo se, mas com um infinitivo pessoal
composto e PROCLIT do clı́tico ao verbo principal (VPRINC). No entanto, o verbo mudar-se
(de X para Y ) é ambı́guo, i.e., o reflexivo (-se)
é opcional (a frase estaria, ainda assim, correta
se o pronome reflexivo estivesse omitido como
em tivessem mudado para. . . ). Esta ocorrência
(menos formal em PB) é atestada, contudo, na
gramática do PB que rejeita o uso dos clı́ticos
antes de VAUX. A variedade determina a ordem
do clı́tico. Numa oração subordinada em PE o
pronome reflexivo se aparece antes de VAUX.
(3)
EN - though they moved in due course to
better insulated accommodation
P E - embora mais tarde se tivessem mudado para uma habitação bem isolada
P B - mesmo depois de terem se mudado
para acomodações mais isoladas
3.2 VAUX PREP VINF+ENCLITDATlhe versus VAUX2 lhe VGER NP
No exemplo (4), o composto verbal em PB é normalizado, mas a sua paráfrase em PE é muito
mais próxima da estrutura usada na frase original
do texto fonte em inglês, o que faz com que pareça
um pouco estranha. Não existe evidência se isto
está relacionado com uma fidelidade intencional
à frase original, ou uma tentativa mal sucedida
para usar linguagem controlada. A paráfrase em
PE consiste na construção perifrástica [continuar
a + VINF ENCLDAT]. Em PB, a paráfrase relativamente complexa envolve o auxiliar modal
dever seguido de um advérbio, ainda, seguido da
construção [VAUX-estar PROCL-lhe VGER causando NP]. Toda a sequência de elementos em
PB tem como eixo semântico a noção aspetual
de ação em progresso, idêntica à da paráfrase em
PE, que é expressa numa construção muito mais
simples e mais concisa. Este exemplo ilustra a
necessidade, já mencionada neste artigo, de construir gramáticas para o fim especı́fico de gerar
paráfrases que são adequadas e úteis a revisores,
Linguamática – 57
editores e estudantes de português como lı́ngua
estrangeira (PLE). Não podemos afirmar categoricamente que a versão em PB se deve ao uso
recorrente da construção nesta variedade ou se se
trata simplesmente de uma má interpretação por
parte do tradutor. Além disso, pode incluir não
apenas os pronomes com valor dativo DAT lhe,
mas também os de valor acusativo ACC, quando
o verbo principal está na forma infinitiva, VINF.
Esta regra aplica-se até na presença do advérbio
de negação não que precede o verbo na posição
VAUX no composto verbal. O verbo continuar é
um VAUX (ter, ser, etc.) tı́pico de uma perı́frase
verbal, pelo que atribui um significado aspetual
ao verbo principal doer, ocupando a posição de
um auxiliar atı́pico, tal como em não conseguiram dominá-la.
(4)
- There’s no bally reason why [ ] should
be giving you any more pain.
P E - Não há a mı́nima razão para [ ] continuar a doer-lhe
P B - Não há um pingo de razão por que [
] deva ainda estar lhe causando essa
dor
EN
3.3 PREP-a VINF+REFLPRO-se →
PROCLITse VGER
No exemplo (5), o PE determina o uso enclı́tico
enquanto que o PB determina o uso proclı́tico.
É interessante notar que ambas as variedades
mantêm a noção aspetual de progressão. Esta
noção é duplamente representada, tanto pela
seleção de PREP-a VINF em PE e um gerundivo VGER em PB com a elipse do auxiliar estar
em ambas as construções, e pela seleção lexical,
pela qual ambos os verbos reflexivos formar-se
e preparar-se expressam a noção de uma ação
em curso. Estes não correspondem a paráfrases
no sentido transformacional definido por Gross
(1975, 1981), contudo, a tarefa de alinhamento
parafrástico fornece candidatos que podem ser
perfeitamente adicionados a um sistema de parafraseamento como pares parafrásticos. Esta é
uma formalização importante e necessária que
propõe sistematizar as paráfrases entre PE e PB,
mesmo que a sua implementação seja, à partida,
complexa. A importância deste exemplo reside
no facto de a oposição PREP-a VINF → VGER
ser uma marca distintiva entre as duas variedades
do português. Assim, torna-se necessário oferecer
listas exaustivas de possibilidades parafrásticas
sempre com o maior cuidado para que o significado das paráfrases seja de boa qualidade, independentemente de o nosso objetivo ser estabe-
58– Linguamática
Anabela Barreiro Ida Rebelo-Arnold, Jorge Baptista, Cristina Mota & Isabel Garcez
Figura 1: Gramática para normalizar linguagem informal em linguagem formal com o uso de clı́ticos.
lecer uma versão controlada do português, para
dar assistência à tarefa da revisão, para apoiar a
edição de texto ou o ensino de PLE.
(5)
EN - I sense a storm of depression flickering
on the horizon, and a tidal wave of despair
gathering itself to swamp me.
P E - Sinto uma tempestade de depressão
avolumar-se no horizonte e uma maré de desespero a formar-se para me engolir.
P B - Pressinto a chegada de uma tempestade de depressão se formando no horizonte
e uma onda de desespero se preparando
para me engolir.
4 Normalização de Linguagem Informal
em Linguagem Formal
Baseados nas principais caracterı́sticas apontadas na Secção 3 relativamente à colocação dos
clı́ticos em compostos verbais em vários contextos: (i) co-ocorrência com modais (VMOD)
em orações relativas; (ii) vários casos do uso de
proclı́ticos ou enclı́ticos em contextos formais e
informais (3.1); (iii) co-ocorrência com verbos
aspetuais (VASP) em construções perifrásticas
(3.2); ou (iv) co-ocorrência com verbos aspetuais
com significado progressivo (3.3), propomos aqui
a criação de uma gramática local que permite
a normalização de uma construção verbal composta informal, onde o pronome enclı́tico aparece
depois de um verbo (V). Este verbo pode ser um
auxiliar (VAUX) ou qualquer outra forma verbal (VASP, VMOD, etc.). Esta construção verbal
informal está normalizada numa construção formal equivalente através de uma gramática local
ilustrada na Figura 1. O clı́tico, que na construção informal se encontra ligado ao verbo auxiliar (guardado na variável $VAUX), que por sua
vez será guardado na variável $PRO, transita para
uma posição a seguir ao verbo principal (que está
na forma infinitiva <V INF> e que será guardado
na variável $V). Essa transição corresponde a delimitar a construção informal com a etiqueta
<REESCREVE+TIPO=INFORM2FORM+TEXTO=$VAUX$V INF-#l$PRO>
atribuindo a TEXTO a concatenação dos valores
de $VAUX, da forma infinitiva ($V INF) do verbo
principal modificada quando está na presença de
um clı́tico +c, seguida do clı́tico antecedido por
-l (-l$PRO) em que # é usado para garantir que
+c e -l não são lidas como um todo, i.e., apenas como uma sequência +c-l, mas sim como
duas sequências). Esta gramática foi desenvolvida no NooJ (Silberztein, 2016) e está disponı́vel
publicamente através do módulo do Port4NooJ
v3.0 (Mota et al., 2016b).
Baseados na gramática proposta, centenas de
procedimentos de normalização/parafraseamento
ocorrem. Estas paráfrases normalizadas podem
integrar o sistema de parafraseamento eSPERTo
depois de validação por um linguista e os resultados podem ser reproduzidos através deste sistema. A Figura 2 ilustra a capacidade de revisão dentro do eSPERTo, onde uma frase escrita numa linguagem mais ou menos informal ou
menos cuidada, pode ser revista com sugestões
que são mais polidas, ou correspondem a uma
norma da linguagem escrita. Por exemplo, para
a frase A menina generosa queria-o surpreender todos os dias, o eSPERTo apresenta, como
opção de conversão para o composto verbal informal com clı́tico queria-o surpreender, o seu
equivalente formal queria surpreendê-lo. O sistema parafrástico oferece esta sugestão de parafraseamento ao utilizador, onde o clı́tico migra
de uma posição enclı́tica ligada ao verbo querer
para uma posição enclı́tica ligada ao verbo principal. Esta transformação faz com que a forma
infinitiva do verbo principal, surpreender, mude
para surpreendê- antes dos pronomes enclı́ticos
com valor acusativo ACC -lo, -la, -los, -las, uma
regra ortográfica motivada por razões fonéticas,
como nos exemplos anteriores (cf. Secção 1).
5 Conclusões e Trabalho Futuro
A revisão estilı́stica representa uma funcionalidade importante do projeto eSPERTo, cujo enfoque principal é o desenvolvimento de um sistema de parafraseamento inovador com capacidade para produzir frases semanticamente equivalentes e formas de expressão, sempre visando a
melhoria da qualidade de cada texto. Neste artigo, tentámos estabelecer algumas categorias definidas com base na estrutura sintática das cons-
Parafraseamento Automático de Registo Informal em Formal na Lı́ngua Portuguesa
Linguamática – 59
Figura 2: Conversão de um composto verbal informal com um pronome clı́tico num equivalente formal
onde o clı́tico surge depois do verbo principal.
truções de compostos verbais envolvendo clı́ticos.
Fizemos este estudo com base em pares de construções parafrásticas extraı́das de frases de dois
romances de David Lodge traduzidas para PE e
PB. É importante notar que, especialmente em
textos literários, os tradutores frequentemente
usam uma tradução livre, que (idealmente) preserva o significado do texto original, mas envolve
a reestruturação da sintaxe, às vezes com um uso
flexı́vel do léxico ou expressões para oferecer uma
articulação natural das palavras na lı́ngua de destino. Daı́ resulta que o texto traduzido possa
parecer “mais leve e flexı́vel” ou mais ou menos
idiomático relativamente ao texto original. Nesse
processo, até mesmo os tradutores humanos profissionais podem introduzir erros, tornando uma
parte especı́fica de uma tradução infiel ao original. Em suma, a tradução pode ser vista como
um processo de parafraseamento usando palavras noutro idioma, onde a introdução de diferentes palavras e estruturas pode criar uma certa
distância entre as lı́nguas de origem e de destino.
Neste sentido, no nosso estudo, as paráfrases
assumem uma equivalência semântica completa
competindo com paráfrases que retêm uma equivalência conceptual aproximada (Barzilay & McKeown, 2001). As primeiras são indispensáveis
para obter precisão, mas não podemos dispensar as segundas porque elas também desempe-
nham um papel importante nas tarefas de parafraseamento, nomeadamente na revisão ou mudança estilı́stica, ou quasi-parafraseamento (Barreiro, 2009).
Os dados extraı́dos dos corpora, embora sejam úteis e contenham significância estatı́stica,
requerem análise linguı́stica e categorização
de padrões e estruturas que comportam equivalências semânticas. Esperamos que a nossa
tentativa de definir uma tipologia e usar conhecimento linguı́stico para normalizar construções
informais tenha continuidade, porque revela uma
tarefa crucial no desenvolvimento de uma ferramenta de revisão ou melhoria da lı́ngua. Este
artigo esclarece a necessidade de incluir um recurso que distingue os registos formal/informal
em várias aplicações para edição e revisão de
texto, inclusivamente para ser usado num ambiente de aprendizagem de lı́nguas, no qual os
estudantes precisam de compreender as formas
formais e informais de comunicação e de saber
quando utilizar umas e outras. Num futuro
próximo, discutiremos o tópico da utilização de
agentes conversacionais que interagem com os
alunos e lhes ensinam as diferenças entre a linguagem formal e a informal, com base na escrita do próprio aluno. Para textos escritos numa
linguagem muito formal, os agentes conversacionais podem sugerir frases mais informais, ou vice-
60– Linguamática
Anabela Barreiro Ida Rebelo-Arnold, Jorge Baptista, Cristina Mota & Isabel Garcez
versa, de acordo com o contexto comunicativo.
Este tópico será explorado no âmbito de trabalhos colaborativos da Ação COST enetCollect,
onde os agentes conversacionais terão um papel
de professores numa aplicação de aprendizagem
de lı́nguas.
Agradecimentos
Este trabalho foi parcialmente financiado pela
Fundação para a Ciência e Tecnologia através do
projeto com a referência UID/CEC/50021/2013,
do projeto exploratório eSPERTo com a referência EXPL/MHC-LIN/2260/2013, e através
da bolsa de pós-doutoramento com a referência
SFRH/BPD/91446/2012.
Referências
Baptista, Jorge. 2012.
ViPEr: A lexicongrammar of European Portuguese verbs. Em
31st International Conference on Lexis and
Grammar, 10–16.
Baptista, Jorge. 2013. ViPEr: uma base de dados de construções léxico-sintáticas de verbos
do Português Europeu. Em Actas do XXVIII
Encontro da APL - Textos Selecionados, 111–
129.
Baptista, Jorge & Nuno Mamede. 2018. Dicionário gramatical de verbos do português europeu. Universidade de Aveiro.
Baptista, Jorge, Nuno Mamede & Fernando Gomes. 2010. Auxiliary verbs and verbal chains
in European Portuguese. Em Computational
Processing of the Portuguese Language (PROPOR), 110–119.
Barreiro, Anabela. 2009. Make it simple with paraphrases: Automated paraphrasing for authoring aids and machine translation: Universidade do Porto. Tese de Doutoramento.
Barreiro, Anabela & Cristina Mota. 2017. ePACT: eSPERTo Paraphrase Aligned Corpus
of EN-EP/BP Translations. Tradução em Revista 1(22). 87–102.
Barreiro, Anabela & Cristina Mota. 2018. Paraphrastic variance between European and
Brazilian Portuguese. Em 5th Workshop on
NLP for Similar Languages, Varieties and Dialects (VarDial), 111–121.
Barreiro, Anabela, Francisco Raposo & Tiago
Luı́s. 2016. CLUE-Aligner: An alignment tool
to annotate pairs of paraphrastic and translation units. Em 10th Language Resources and
Evaluation Conference (LREC), 7–13.
Barzilay, Regina & Kathleen McKeown. 2001.
Extracting paraphrases from a parallel corpus.
Em 39th Annual Meeting on Association for
Computational Linguistics, 50–57.
Bick, Eckard. 2000. The parsing system “palavras”. automatic grammatical analysis of portuguese in a constraint grammar framework.
Arhus University Press.
Castilho, Ataliba. 2001. O português do Brasil.
Em Linguı́stica Românica, 237–269. Ática.
Costa, João & Elaine Grolla. 2017. Pronomes,
clı́ticos e objetos nulos: dados de produção e
compreensão. Em Aquisição de lı́ngua materna
e não materna: questões gerais e dados do português, 177–199. Language Science Press.
Cunha, Celso & Luı́s Lindley-Cintra. 1986. Nova
gramática do português contemporâneo. João
Sá da Costa.
Gonçalves, Anabela. 1999. Predicados complexos verbais em contexto de infinitivo nãopreposicionado do português europeu: Universidade de Lisboa. Tese de Doutoramento.
Gross, Maurice. 1975. Méthodes en syntaxe:
régime des constructions complétives Actualités scientifiques et industrielles. Hermann.
Gross, Maurice. 1981. Les bases empiriques de
la notion de prédicat sémantique. Langages
15(63). 7–52.
Gross, Maurice. 1998. La fonction sémantique des
verbes supports. Travaux de Linguistique: Revue Internationale de Linguistique Française
37(1). 25–46.
Mota, Cristina, Anabela Barreiro, Francisco Raposo, Ricardo Ribeiro, Sérgio Curto & Luı́sa
Coheur. 2016a. eSPERTo’s paraphrastic knowledge applied to question-answering and summarization. Em Automatic Processing of Natural Language Electronic Texts with NooJ, 208–
220.
Mota, Cristina, Paula Carvalho & Anabela Barreiro. 2016b. Port4NooJ v3.0: Integrated linguistic resources for Portuguese NLP. Em
10th Language Resources and Evaluation Conference (LREC), 1264–1269.
Naro, Anthony Julius & Maria Marta Pereira
Scherre. 2007. Origens do português brasileiro.
Parábola.
Neves, Maria Helena Moura. 1999. Gramática do
português falado. UNICAMP.
Neves, Maria Helena Moura. 2000. Gramática de
usos do português. UNESP.
Parafraseamento Automático de Registo Informal em Formal na Lı́ngua Portuguesa
Paiva Raposo, Eduardo. 2013. Verbos auxiliares. Em Gramática do Português, vol. 2, 1221–
1281. Fundação Calouste Gulbenkian.
Pontes, Eunice. 1973. Verbos auxiliares em português Perspectivas Linguı́sticas. Vozes.
Rebelo-Arnold, Ida, Anabela Barreiro, Paulo
Quaresma & Cristina Mota. 2018. Alinhamentos parafrásticos PE–PB de construções de predicados verbais com o pronome clı́tico lhe. Linguamática 10(2). 3–11.
Santos, Diana. 2015. Portuguese language identity in the world: adventures and misadventures of an international language. Em Language
- Nation - Identity: The questione della lingua
in an Italian and non-Italian context, 31–54.
Cambridge Scholars Publishing.
Silberztein, Max. 2016. Formalizing Natural Languages: the NooJ Approach. Wiley Eds.
Silva, Carolina G. A. G. 2008. Assimetrias na
Aquisição de Clı́ticos Diferenciados em Português Europeu: Universidade Nova de Lisboa.
Tese de Mestrado.
Silva, João, António Branco, Sérgio Castro & Ruben Reis. 2010. Out-of-the-box robust parsing of Portuguese. Em 9th Conference on
the Computational Processing of Portuguese
(PROPOR), 75–85.
Linguamática – 61