[go: up one dir, main page]

Academia.eduAcademia.edu
Proposta recebida em Outubro 2018 e aceite para publicação em Dezembro 2018. Parafraseamento Automático de Registo Informal em Registo Formal na Lı́ngua Portuguesa Automated Paraphrasing of Portuguese Informal into Formal Language Anabela Barreiro Ida Rebelo-Arnold Jorge Baptista INESC-ID anabela.barreiro@inesc-id.pt Universidad de Valladolid imdamotar@funge.uva.es Universidade do Algarve jbaptis@ualg.pt Cristina Mota Isabel Garcez INESC-ID cmota@islt.utl.pt Universidade de Lisboa isabelgarcez@campus.ul.pt Resumo Abstract Este artigo apresenta o processo de automatização de parafraseamento em português e conversão de construções tı́picas do registo informal ou da linguagem falada em construções de registo formal usadas na linguagem escrita. Ilustraremos o processo de automatização com exemplos extraı́dos do corpus e-PACT, que envolvem a colocação normalizada de pronomes clı́ticos quando co-ocorrem com compostos verbais. A tarefa consiste em parafrasear e normalizar, entre outras, construções como vou-lhe/posso-lhe fazer uma surpresa em vou/posso fazer-lhe uma surpresa, em que o pronome clı́tico lhe migra de uma posição enclı́tica imediatamente a seguir ao primeiro verbo do composto verbal para uma posição enclı́tica a seguir ao verbo principal, que é o verbo responsável pela seleção do argumento pronominal. O primeiro verbo é um verbo auxiliar ou um verbo volitivo, e.g., querer. Este é um procedimento padronizado no processo de revisão em português europeu. Casos como este representam fenómenos linguı́sticos em que os estudantes de lı́ngua portuguesa e falantes em geral se confundem ou onde “tropeçam”. O artigo enfatiza a lı́ngua padrão em que os fenómenos observados ocorrem, descreve exemplos de interesse encontrados no corpus e apresenta uma solução automática, baseada na aplicação de gramáticas transformacionais genéricas, que facilitam a normalização de inadequações ou falhas sintáticas (registos informais) encontradas nas construções pesquisadas em construções padronizadas tı́picas da escrita formal ou escrita profissional. This paper presents the automation process of paraphrasing and converting Portuguese constructions typical of informal or spoken language into a formal written language. We illustrate this automation process with examples extracted from the e-PACT corpus that involve the placement of clitic pronouns in verbal compound contexts. Our task consists in paraphrasing and normalizing, among others, constructions such as vou-lhe/posso-lhe fazer uma surpresa into vou/posso fazer-lhe uma surpresa “lit: I will/can to him/her make a surprise / I will/can make to him/her a surprise; I will/can make him/her a surprise”, where the clitic pronoun lhe migrates from an enclitic position immediately after the first verb of the verbal compound to an enclitic position after the main verb, which is the verb responsible for the selection of that pronominal argument. The first verb is either an auxiliary verb or a volitive verb, e.g., querer “want”. This is a standard revision procedure in European Portuguese. Cases like this represent linguistic phenomena where language students and language users in general get confused or “stumble”. The paper focuses on general language where the phenomena being observed occur, describes examples of interest found in the corpus, and presents an automatic solution for the normalization of informal syntactic inadequacies found in the researched structures into standard structures typical of formal or professional writing through the application of very generic transformational grammars. Palavras chave paráfrases, parafraseamento automático, registo formal e informal, compostos verbais, pronomes clı́ticos, ordem das palavras, português europeu, português do Brasil, aprendizagem da lı́ngua, escrita profissional DOI: 10.21814/lm.10.2.282 This work is Licensed under a Creative Commons Attribution 4.0 License Keywords paraphrases, automated paraphrasing, formal and informal language, verbal compounds, clitic pronouns, word order, European Portuguese, Brazilian Portuguese, language learning, professional writing Linguamática — ISSN: 1647–0818 Vol. 10 Núm. 2 2018 - Pág. 53–61 54– Linguamática Anabela Barreiro Ida Rebelo-Arnold, Jorge Baptista, Cristina Mota & Isabel Garcez 1 Introdução A automatização da revisão de conteúdos é uma das funções mais desejadas para um revisor ou editor profissional, especialmente para aquelas tarefas enfadonhas que envolvem “lacunas” no tipo de registo formal, que consomem tempo e representam um entrave a uma revisão eficaz e rápida de textos de autoria. Aqui, o termo “lacuna” não significa necessariamente um erro gramatical, mas o uso de construções informais que são tı́picas do discurso oral, que são corrigidos pelos revisores na produção escrita de escritores profissionais. Além das vantagens ao nı́vel da produção de escrita, um parafraseador com funções automáticas de normalização e/ou revisão poderá ser usado como uma aplicação de aprendizagem para estudantes, em particular, estudantes de lı́nguas, entre outras aplicações. Neste artigo, apresentamos o processo de conversão de formas de expressão informais ou “menos polidas” em expressões formais utilizadas em textos escritos, dado que desejamos criar uma forma padronizada como as que existem em guias de autoria e estilo, por exemplo, ou em guias técnicos usados para obter uma publicação de qualidade. Ilustramos este processo automatizado com construções de predicados verbais compostos (doravante, compostos verbais) envolvendo sequências de dois (algumas vezes mais) verbos e um pronome clı́tico, onde o clı́tico é um argumento do segundo verbo. O clı́tico pode ser colocado imediatamente a seguir ao verbo de que depende, e.g. queria ver-te. Esta é a construção que os livros e as gramáticas de estilo geralmente recomendam como “uso correto” no discurso formal; ou ser movido para junto do primeiro verbo, e.g. queria-te ver em português europeu (PE), te queria ver em português do Brasil (PB), que é muitas vezes considerado como menos formal ou até mesmo um uso “relaxado”. Enquanto o segundo verbo do composto verbal é um verbo pleno, também conhecido como verbo distribucional (i.e., um item lexical que seleciona argumentos e com um significado lexical definido intencionalmente), o primeiro verbo pode ser um verbo auxiliar, no sentido definido por Cunha & Lindley-Cintra (1986, 393–396), muitas vezes designados como perı́frases verbais ou locuções verbais 1 , e.g. estou a ver-te versus estou-te a ver (PE), te estou a ver (PB), ou um verbo com- pleto, incluindo os verbos volitivos, como querer, desejar e outras construções verbais. Em todos esses casos, a normalização exige que o pronome clı́tico migre para uma posição enclı́tica e seja anexado ao segundo verbo do composto verbal, por exemplo, eu quero-o ver → eu quero vê-lo. No exemplo normalizado, o verbo infinitivo sofre uma mudança de ver para vê- e o pronome clı́tico sofre uma mudança de o para lo, uma regra ortográfica motivada por razões fonéticas. Em Processamento de Linguagem Natural (PLN), a maioria dos analisadores sintáticos (parsers) processa os verbos auxiliares portugueses da mesma maneira que qualquer outro verbo, isto é, como um verbo pleno e completo; vejase, por exemplo, as árvores de análise produzidas pelo PALAVRAS (Bick, 2000)2 e o LxParser (Silva et al., 2010)3 . Uma proposta diferente é apresentada por Baptista et al. (2010), que processa construções auxiliares verbais de maneira diferente, distinguindo o auxiliar do verbo principal, tomando em conta as diferentes opções de posicionamento/colocação dos pronomes clı́ticos. De facto, os verbos auxiliares requerem uma proposta adequada de sistematização que considere não apenas as propriedades lexicais, mas também as propriedades semântico-sintáticas desses verbos. A descrição dos verbos em PE realizada no âmbito da Léxico-Gramática (Baptista, 2012, 2013; Baptista & Mamede, 2018) fornecem uma lista de mais de 100 construções verbais auxiliares (entre mais de 330 construções verbais auxiliares). Desta forma, será possı́vel criar listas de ocorrências e construir gramáticas locais que podem ser usadas tanto por utilizadores humanos quanto por máquinas. É importante destacar que todos os verbos ilustrados e analisados neste artigo formam uma locução com outro verbo (o verbo principal). Em muitas co-ocorrências, o significado do verbo principal geralmente recebe um valor aspectual. Há também verbos cujos significados são construı́dos com a co-ocorrência de uma preposição seguida de outro verbo. Como o tópico da nossa investigação é tão amplo em escopo e o nosso corpus inclui uma variedade tão vasta de casos de categorização e tratamento computacional difı́cil, decidimos focar-nos apenas nos casos de compostos verbais que coocorrem com clı́ticos. Os exemplos ilustrados no artigo foram extraı́dos do corpus e-PACT (Barreiro & Mota, 2017), que é composto por dois romances da autoria de David Lodge. Os alinha- 1 Uma visão geral mais abrangente sobre o tópico pode encontrar-se em (Pontes, 1973; Gonçalves, 1999; Paiva Raposo, 2013). Também vale a pena mencionar as propostas de (Gross, 1998) para o sistema de verbos auxiliares em francês. 2 http://www.visl.sdu.dk/visl/pt/parsing/ automatic/dependency.php 3 http://www.lxcenter.di.fc.ul.pt/services/pt/ LXParserPT.html Parafraseamento Automático de Registo Informal em Formal na Lı́ngua Portuguesa mentos parafrásticos foram realizados por meio do uso da ferramenta de alinhamento CLUEAligner (Barreiro et al., 2016), já utilizada em outros trabalhos de investigação sobre alinhamentos de paráfrases.4 O corpus contém exemplos simples e não padronizados, incluindo frases tı́picas de diálogos ou trechos de comunicação informal, que caracterizam o tipo de textos literários que constituem o corpus. Analisámos uma pequena quantidade de ocorrências no corpus e criámos uma tipologia de categorias de compostos verbais. Em seguida, usámos essas categorias para criar gramáticas locais genéricas que serviram de base para o processamento automatizado de paráfrases, nomeadamente geração e identificação em texto. Os pares não padronizados/padronizados de contrastes parafrásticos resultantes deste estudo serão validados para a sua integração na ferramenta de parafraseamento eSPERTo, que, entre outras aplicações, visa permitir a adaptação e revisão de textos. Atualmente, o eSPERTo está integrado numa aplicação online que fornece sugestões parafrásticas para ajudar alunos de lı́ngua portuguesa. À medida em que esta ferramenta for evoluindo, prevê-se que os seus recursos sejam utilizados na produção e revisão de textos.5 Outra aplicação experimental envolve a construção de um conjunto de dados de contrastes parafrásticos entre as variedades europeia e brasileira da lı́ngua portuguesa, um recurso indispensável para a conversão e adaptação entre todas as variedades do português (Barreiro & Mota, 2018; Rebelo-Arnold et al., 2018). Esses esforços estão alinhados com a proposta de criar um padrão internacional de português (Santos, 2015). Finalmente, como uma abordagem inicial, começamos a explorar o tópico de ensinar aos alunos a distinção entre linguagem formal e informal através do uso de agentes conversacionais representando o papel de professores. É relevante mencionar que, embora o corpus e-PACT não seja o ideal, é o melhor recurso publicamente disponı́vel que serve os nossos propósitos, porque contém frases paralelas alinhadas que são traduções dos mesmos textos literários, e essas frases frequentemente contêm linguagem informal. A falta de corpora paralelos de paráfrases em geral, mas especialmente para o 4 Com o objetivo de economizar espaço neste artigo, apresentamos os exemplos no modo convencional, marcados a negrito em exemplos enumerados. 5 A utilidade das capacidades parafrásticas do eSPERTo foi explorada em duas outras aplicações descritas por Mota et al. (2016a): (i) num sistema de perguntas e respostas para aumentar o conhecimento linguı́stico de um agente conversacional inteligente e (ii) numa ferramenta de sumarização para auxiliar a tarefa de parafraseamento. Linguamática – 55 português, é uma necessidade que não foi tratada com a importância que merece. Outro fator instrumental é que as frases paralelas no e-PACT correspondem a duas variedades diferentes da lı́ngua portuguesa, a europeia e a brasileira, que temos contrastado em trabalhos recentes (Barreiro & Mota, 2018). Essas caracterı́sticas-chave são essenciais para a adaptação e revisão das variedades. Neste artigo, concentramo-nos na revisão de texto, mas o artigo serve os dois propósitos, conversão de PE/PB informal em PE/PB formal e adaptação da variedade PB na variedade de PE e vice-versa. O artigo apresenta uma contribuição pequena mas positiva para a melhoria dos padrões de edição e revisão, bem como para a automatização de transformações especı́ficas do discurso informal para o formal. 2 Trabalho Relacionado Os compostos verbais, que são objeto do nosso estudo, têm a particularidade de incluir um pronome clı́tico tanto nas frases em PE como nas frases em PB ou ter esse clı́tico implicado numa paráfrase das construções dos compostos verbais numa ou noutra variedade da lı́ngua portuguesa (cf. exemplo (2)). Em português, um pronome clı́tico desempenha um papel sintático ao nı́vel da frase e segue diferentes regras de colocação ou ordenação, dependendo da variedade da lı́ngua (PE ou PB), do número e da semântica dos predicados, co-ocorrência com uma preposição, entre outros fatores. Existem estudos que se centram na aquisição de pronomes clı́ticos em PE, dos quais os trabalhos de Silva (2008) e Costa & Grolla (2017) são apenas exemplos entre muitos, que foram referenciados em trabalhos realizados recentemente (Rebelo-Arnold et al., 2018). Esses estudos estão relacionados principalmente com dificuldades no desempenho quando se trata do uso de clı́ticos em fases iniciais de aquisição da linguagem. As dificuldades de aquisição dos clı́ticos são materializadas, em particular, por escolhas fora da norma para a sua colocação em frases. Quando olhamos para os nossos dados, verificamos que as hesitações e dificuldades se estendem até à idade adulta, e há padrões de variação na seleção e posição dos clı́ticos em qualquer corpus de registo oral ou simplesmente de transcrição escrita da oralidade, onde a informalidade é recorrente na escrita moderna, incluindo meios de comunicação social (redes socais), mas também em canais de comunicação mais “sérios”, como jornais, artigos de opinião ou escrita literária cuja revisão não é contemplada com a devida importância. 56– Linguamática Anabela Barreiro Ida Rebelo-Arnold, Jorge Baptista, Cristina Mota & Isabel Garcez Em PB, por sua vez, vários estudos enfocam a observação das construções espontâneas de falantes mais ou menos escolarizados envolvendo o uso de clı́ticos (Neves, 1999, 2000; Castilho, 2001; Naro & Scherre, 2007, entre outros). Essa observação revela uma distância entre as duas variedades em relação à aplicação das regras de seleção e colocação de clı́ticos em português. Tudo isso tem impacto tanto no trabalho dos revisores e tradutores quanto na aprendizagem de lı́nguas, quer para o português como lı́ngua materna (PLM) quer para o português como lı́ngua estrangeira (PLE). O eSPERTo pode ser usado num ambiente de aprendizagem de lı́ngua(s), onde os estudantes de PLM e PLE podem aprender a produzir e aplicar paráfrases de grande precisão (ou seja, frases semanticamente equivalentes). Portanto, os recursos aqui criados podem ajudar a auxiliar escritores e revisores na produção, revisão ou adaptação de textos, mas também podem ser valiosos num ambiente de sala de aula. Neste artigo, continuamos uma linha de investigação anterior (Barreiro & Mota, 2018), onde foi apresentada uma primeira introdução geral a uma tarefa mais ampla de encontrar variantes parafrásticas PE-PB, seguida por uma abordagem mais restrita da questão das paráfrases entre PE e PB envolvendo o clı́tico de terceira pessoa com valor dativo, lhe (RebeloArnold et al., 2018). Neste estudo, concentramonos no alinhamento das construções de compostos verbais, quando essas construções envolvem pronomes clı́ticos. A nossa pequena experiência mostra que a metodologia e a abordagem são viáveis num projeto autónomo maior, desde que haja uma quantidade suficiente de corpora adequados para fornecer uma cobertura suficientemente abrangente para um processo de normalização eficaz, como o que é exigido no desenvolvimento de um sistema de parafraseamento de larga escala. Esses dados também constituirão os pilares basilares para a criação de gramáticas aplicáveis a vários casos, não apenas para a lı́ngua portuguesa, mas para outras lı́nguas. 3 Colocação dos Clı́ticos em Compostos Verbais Os clı́ticos em português podem deslocar-se para a esquerda ou para a direita, quer do verbo auxiliar, quer do verbo principal. Algumas das nuances da colocação do clı́tico em compostos verbais serão ilustradas neste artigo com exemplos do corpus e-PACT. Parte das dificuldades em estabelecer categorias parafrásticas está relacionada com o valor aproximado de construções aparen- temente “equivalentes”. Os exemplos ilustram que, em cada par parafrástico PE–PB, uma frase contém um composto verbal com um clı́tico e a outra frase contém uma paráfrase da primeira. Às vezes, a paráfrase apresenta uma estrutura do composto verbal bastante diferente, que pode nem sequer incluir o pronome clı́tico que ocorre na frase equivalente. 3.1 PROCLDAT ou VPARTPASS ACC VAUX-ter Os exemplos (1)–(3) representam contrastes importantes com a regra evidentemente produtiva de posição enclı́tica em PE. Esses contrastes ocorrem na presença do auxiliar ter (VAUX-ter ) e são provavelmente o modelo que gera a incorreção na construção lhes voltava a telefonar. Este é o caso de uma falsa analogia porque, de facto, a regra de colocação de enclı́ticos deveria ter sido aplicada neste caso, e.g., voltava a telefonar-lhes. Na paráfrase em PB, o pronome clı́tico desaparece através da utilização de uma transformação mais “livre”. Existe uma tendência notável em PB para evitar o uso pronomes clı́ticos em construções deste tipo e noutras. (1) EN - It was rumoured that he collected the phone numbers of likely-sounding girls and called them back after the programme to make dates. P E - Dizia-se que colecionava os números das raparigas que mais lhe agradavam e lhes voltava a telefonar depois, a marcar encontros. P B - Diziam até que ele colecionava números de telefone de garotas com voz macia para ligar mais tarde e marcar encontros. No exemplo (2), a paráfrase em PB, [N VAUXter NP[boa viagem]] (simplificada ‘[Y ter boa X]’) apresenta uma inversão do tópico de modo a evitar o uso do clı́tico na 3a pessoa exigido pelo verbo agradar como uma paráfrase do PE [SN[a viagem] VPRINC agradou PREPa N] (simplificado ‘[X agradar a Y]’). Em PB, a seleção lexical diferente explica a ausência de ENCLITDAT. Na frase em PE, a presença do pronome clı́tico lhes é suprimida em PB pela inversão do tópico. O verbo agradar em português exige o uso da preposição a (PREPa), que não é exigida pelo verbo please em inglês. A paráfrase em PE é mais formal enquanto que a paráfrase em PB é mais neutra. O pronome lhe nunca pode estar ligado a um particı́pio passado em construções auxiliares [VAUX-ter + VPP]. Parafraseamento Automático de Registo Informal em Formal na Lı́ngua Portuguesa (2) - he hopes they have enjoyed the flight - diz esperar que a viagem lhes tenha agradado. P B - ele desejava que tivessem tido uma boa viagem EN PE No exemplo (3), o PE também apresenta uma paráfrase mais formal (mais próxima da construção / forma de expressão original em inglês) do que em PB. A variação de uma paráfrase noutra presume uma escolha do tradutor. Em detalhe, a paráfrase em PB seleciona o mesmo item lexical em PE, mudar, que ocorre com o pronome reflexivo se, mas com um infinitivo pessoal composto e PROCLIT do clı́tico ao verbo principal (VPRINC). No entanto, o verbo mudar-se (de X para Y ) é ambı́guo, i.e., o reflexivo (-se) é opcional (a frase estaria, ainda assim, correta se o pronome reflexivo estivesse omitido como em tivessem mudado para. . . ). Esta ocorrência (menos formal em PB) é atestada, contudo, na gramática do PB que rejeita o uso dos clı́ticos antes de VAUX. A variedade determina a ordem do clı́tico. Numa oração subordinada em PE o pronome reflexivo se aparece antes de VAUX. (3) EN - though they moved in due course to better insulated accommodation P E - embora mais tarde se tivessem mudado para uma habitação bem isolada P B - mesmo depois de terem se mudado para acomodações mais isoladas 3.2 VAUX PREP VINF+ENCLITDATlhe versus VAUX2 lhe VGER NP No exemplo (4), o composto verbal em PB é normalizado, mas a sua paráfrase em PE é muito mais próxima da estrutura usada na frase original do texto fonte em inglês, o que faz com que pareça um pouco estranha. Não existe evidência se isto está relacionado com uma fidelidade intencional à frase original, ou uma tentativa mal sucedida para usar linguagem controlada. A paráfrase em PE consiste na construção perifrástica [continuar a + VINF ENCLDAT]. Em PB, a paráfrase relativamente complexa envolve o auxiliar modal dever seguido de um advérbio, ainda, seguido da construção [VAUX-estar PROCL-lhe VGER causando NP]. Toda a sequência de elementos em PB tem como eixo semântico a noção aspetual de ação em progresso, idêntica à da paráfrase em PE, que é expressa numa construção muito mais simples e mais concisa. Este exemplo ilustra a necessidade, já mencionada neste artigo, de construir gramáticas para o fim especı́fico de gerar paráfrases que são adequadas e úteis a revisores, Linguamática – 57 editores e estudantes de português como lı́ngua estrangeira (PLE). Não podemos afirmar categoricamente que a versão em PB se deve ao uso recorrente da construção nesta variedade ou se se trata simplesmente de uma má interpretação por parte do tradutor. Além disso, pode incluir não apenas os pronomes com valor dativo DAT lhe, mas também os de valor acusativo ACC, quando o verbo principal está na forma infinitiva, VINF. Esta regra aplica-se até na presença do advérbio de negação não que precede o verbo na posição VAUX no composto verbal. O verbo continuar é um VAUX (ter, ser, etc.) tı́pico de uma perı́frase verbal, pelo que atribui um significado aspetual ao verbo principal doer, ocupando a posição de um auxiliar atı́pico, tal como em não conseguiram dominá-la. (4) - There’s no bally reason why [ ] should be giving you any more pain. P E - Não há a mı́nima razão para [ ] continuar a doer-lhe P B - Não há um pingo de razão por que [ ] deva ainda estar lhe causando essa dor EN 3.3 PREP-a VINF+REFLPRO-se → PROCLITse VGER No exemplo (5), o PE determina o uso enclı́tico enquanto que o PB determina o uso proclı́tico. É interessante notar que ambas as variedades mantêm a noção aspetual de progressão. Esta noção é duplamente representada, tanto pela seleção de PREP-a VINF em PE e um gerundivo VGER em PB com a elipse do auxiliar estar em ambas as construções, e pela seleção lexical, pela qual ambos os verbos reflexivos formar-se e preparar-se expressam a noção de uma ação em curso. Estes não correspondem a paráfrases no sentido transformacional definido por Gross (1975, 1981), contudo, a tarefa de alinhamento parafrástico fornece candidatos que podem ser perfeitamente adicionados a um sistema de parafraseamento como pares parafrásticos. Esta é uma formalização importante e necessária que propõe sistematizar as paráfrases entre PE e PB, mesmo que a sua implementação seja, à partida, complexa. A importância deste exemplo reside no facto de a oposição PREP-a VINF → VGER ser uma marca distintiva entre as duas variedades do português. Assim, torna-se necessário oferecer listas exaustivas de possibilidades parafrásticas sempre com o maior cuidado para que o significado das paráfrases seja de boa qualidade, independentemente de o nosso objetivo ser estabe- 58– Linguamática Anabela Barreiro Ida Rebelo-Arnold, Jorge Baptista, Cristina Mota & Isabel Garcez Figura 1: Gramática para normalizar linguagem informal em linguagem formal com o uso de clı́ticos. lecer uma versão controlada do português, para dar assistência à tarefa da revisão, para apoiar a edição de texto ou o ensino de PLE. (5) EN - I sense a storm of depression flickering on the horizon, and a tidal wave of despair gathering itself to swamp me. P E - Sinto uma tempestade de depressão avolumar-se no horizonte e uma maré de desespero a formar-se para me engolir. P B - Pressinto a chegada de uma tempestade de depressão se formando no horizonte e uma onda de desespero se preparando para me engolir. 4 Normalização de Linguagem Informal em Linguagem Formal Baseados nas principais caracterı́sticas apontadas na Secção 3 relativamente à colocação dos clı́ticos em compostos verbais em vários contextos: (i) co-ocorrência com modais (VMOD) em orações relativas; (ii) vários casos do uso de proclı́ticos ou enclı́ticos em contextos formais e informais (3.1); (iii) co-ocorrência com verbos aspetuais (VASP) em construções perifrásticas (3.2); ou (iv) co-ocorrência com verbos aspetuais com significado progressivo (3.3), propomos aqui a criação de uma gramática local que permite a normalização de uma construção verbal composta informal, onde o pronome enclı́tico aparece depois de um verbo (V). Este verbo pode ser um auxiliar (VAUX) ou qualquer outra forma verbal (VASP, VMOD, etc.). Esta construção verbal informal está normalizada numa construção formal equivalente através de uma gramática local ilustrada na Figura 1. O clı́tico, que na construção informal se encontra ligado ao verbo auxiliar (guardado na variável $VAUX), que por sua vez será guardado na variável $PRO, transita para uma posição a seguir ao verbo principal (que está na forma infinitiva <V INF> e que será guardado na variável $V). Essa transição corresponde a delimitar a construção informal com a etiqueta <REESCREVE+TIPO=INFORM2FORM+TEXTO=$VAUX$V INF-#l$PRO> atribuindo a TEXTO a concatenação dos valores de $VAUX, da forma infinitiva ($V INF) do verbo principal modificada quando está na presença de um clı́tico +c, seguida do clı́tico antecedido por -l (-l$PRO) em que # é usado para garantir que +c e -l não são lidas como um todo, i.e., apenas como uma sequência +c-l, mas sim como duas sequências). Esta gramática foi desenvolvida no NooJ (Silberztein, 2016) e está disponı́vel publicamente através do módulo do Port4NooJ v3.0 (Mota et al., 2016b). Baseados na gramática proposta, centenas de procedimentos de normalização/parafraseamento ocorrem. Estas paráfrases normalizadas podem integrar o sistema de parafraseamento eSPERTo depois de validação por um linguista e os resultados podem ser reproduzidos através deste sistema. A Figura 2 ilustra a capacidade de revisão dentro do eSPERTo, onde uma frase escrita numa linguagem mais ou menos informal ou menos cuidada, pode ser revista com sugestões que são mais polidas, ou correspondem a uma norma da linguagem escrita. Por exemplo, para a frase A menina generosa queria-o surpreender todos os dias, o eSPERTo apresenta, como opção de conversão para o composto verbal informal com clı́tico queria-o surpreender, o seu equivalente formal queria surpreendê-lo. O sistema parafrástico oferece esta sugestão de parafraseamento ao utilizador, onde o clı́tico migra de uma posição enclı́tica ligada ao verbo querer para uma posição enclı́tica ligada ao verbo principal. Esta transformação faz com que a forma infinitiva do verbo principal, surpreender, mude para surpreendê- antes dos pronomes enclı́ticos com valor acusativo ACC -lo, -la, -los, -las, uma regra ortográfica motivada por razões fonéticas, como nos exemplos anteriores (cf. Secção 1). 5 Conclusões e Trabalho Futuro A revisão estilı́stica representa uma funcionalidade importante do projeto eSPERTo, cujo enfoque principal é o desenvolvimento de um sistema de parafraseamento inovador com capacidade para produzir frases semanticamente equivalentes e formas de expressão, sempre visando a melhoria da qualidade de cada texto. Neste artigo, tentámos estabelecer algumas categorias definidas com base na estrutura sintática das cons- Parafraseamento Automático de Registo Informal em Formal na Lı́ngua Portuguesa Linguamática – 59 Figura 2: Conversão de um composto verbal informal com um pronome clı́tico num equivalente formal onde o clı́tico surge depois do verbo principal. truções de compostos verbais envolvendo clı́ticos. Fizemos este estudo com base em pares de construções parafrásticas extraı́das de frases de dois romances de David Lodge traduzidas para PE e PB. É importante notar que, especialmente em textos literários, os tradutores frequentemente usam uma tradução livre, que (idealmente) preserva o significado do texto original, mas envolve a reestruturação da sintaxe, às vezes com um uso flexı́vel do léxico ou expressões para oferecer uma articulação natural das palavras na lı́ngua de destino. Daı́ resulta que o texto traduzido possa parecer “mais leve e flexı́vel” ou mais ou menos idiomático relativamente ao texto original. Nesse processo, até mesmo os tradutores humanos profissionais podem introduzir erros, tornando uma parte especı́fica de uma tradução infiel ao original. Em suma, a tradução pode ser vista como um processo de parafraseamento usando palavras noutro idioma, onde a introdução de diferentes palavras e estruturas pode criar uma certa distância entre as lı́nguas de origem e de destino. Neste sentido, no nosso estudo, as paráfrases assumem uma equivalência semântica completa competindo com paráfrases que retêm uma equivalência conceptual aproximada (Barzilay & McKeown, 2001). As primeiras são indispensáveis para obter precisão, mas não podemos dispensar as segundas porque elas também desempe- nham um papel importante nas tarefas de parafraseamento, nomeadamente na revisão ou mudança estilı́stica, ou quasi-parafraseamento (Barreiro, 2009). Os dados extraı́dos dos corpora, embora sejam úteis e contenham significância estatı́stica, requerem análise linguı́stica e categorização de padrões e estruturas que comportam equivalências semânticas. Esperamos que a nossa tentativa de definir uma tipologia e usar conhecimento linguı́stico para normalizar construções informais tenha continuidade, porque revela uma tarefa crucial no desenvolvimento de uma ferramenta de revisão ou melhoria da lı́ngua. Este artigo esclarece a necessidade de incluir um recurso que distingue os registos formal/informal em várias aplicações para edição e revisão de texto, inclusivamente para ser usado num ambiente de aprendizagem de lı́nguas, no qual os estudantes precisam de compreender as formas formais e informais de comunicação e de saber quando utilizar umas e outras. Num futuro próximo, discutiremos o tópico da utilização de agentes conversacionais que interagem com os alunos e lhes ensinam as diferenças entre a linguagem formal e a informal, com base na escrita do próprio aluno. Para textos escritos numa linguagem muito formal, os agentes conversacionais podem sugerir frases mais informais, ou vice- 60– Linguamática Anabela Barreiro Ida Rebelo-Arnold, Jorge Baptista, Cristina Mota & Isabel Garcez versa, de acordo com o contexto comunicativo. Este tópico será explorado no âmbito de trabalhos colaborativos da Ação COST enetCollect, onde os agentes conversacionais terão um papel de professores numa aplicação de aprendizagem de lı́nguas. Agradecimentos Este trabalho foi parcialmente financiado pela Fundação para a Ciência e Tecnologia através do projeto com a referência UID/CEC/50021/2013, do projeto exploratório eSPERTo com a referência EXPL/MHC-LIN/2260/2013, e através da bolsa de pós-doutoramento com a referência SFRH/BPD/91446/2012. Referências Baptista, Jorge. 2012. ViPEr: A lexicongrammar of European Portuguese verbs. Em 31st International Conference on Lexis and Grammar, 10–16. Baptista, Jorge. 2013. ViPEr: uma base de dados de construções léxico-sintáticas de verbos do Português Europeu. Em Actas do XXVIII Encontro da APL - Textos Selecionados, 111– 129. Baptista, Jorge & Nuno Mamede. 2018. Dicionário gramatical de verbos do português europeu. Universidade de Aveiro. Baptista, Jorge, Nuno Mamede & Fernando Gomes. 2010. Auxiliary verbs and verbal chains in European Portuguese. Em Computational Processing of the Portuguese Language (PROPOR), 110–119. Barreiro, Anabela. 2009. Make it simple with paraphrases: Automated paraphrasing for authoring aids and machine translation: Universidade do Porto. Tese de Doutoramento. Barreiro, Anabela & Cristina Mota. 2017. ePACT: eSPERTo Paraphrase Aligned Corpus of EN-EP/BP Translations. Tradução em Revista 1(22). 87–102. Barreiro, Anabela & Cristina Mota. 2018. Paraphrastic variance between European and Brazilian Portuguese. Em 5th Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial), 111–121. Barreiro, Anabela, Francisco Raposo & Tiago Luı́s. 2016. CLUE-Aligner: An alignment tool to annotate pairs of paraphrastic and translation units. Em 10th Language Resources and Evaluation Conference (LREC), 7–13. Barzilay, Regina & Kathleen McKeown. 2001. Extracting paraphrases from a parallel corpus. Em 39th Annual Meeting on Association for Computational Linguistics, 50–57. Bick, Eckard. 2000. The parsing system “palavras”. automatic grammatical analysis of portuguese in a constraint grammar framework. Arhus University Press. Castilho, Ataliba. 2001. O português do Brasil. Em Linguı́stica Românica, 237–269. Ática. Costa, João & Elaine Grolla. 2017. Pronomes, clı́ticos e objetos nulos: dados de produção e compreensão. Em Aquisição de lı́ngua materna e não materna: questões gerais e dados do português, 177–199. Language Science Press. Cunha, Celso & Luı́s Lindley-Cintra. 1986. Nova gramática do português contemporâneo. João Sá da Costa. Gonçalves, Anabela. 1999. Predicados complexos verbais em contexto de infinitivo nãopreposicionado do português europeu: Universidade de Lisboa. Tese de Doutoramento. Gross, Maurice. 1975. Méthodes en syntaxe: régime des constructions complétives Actualités scientifiques et industrielles. Hermann. Gross, Maurice. 1981. Les bases empiriques de la notion de prédicat sémantique. Langages 15(63). 7–52. Gross, Maurice. 1998. La fonction sémantique des verbes supports. Travaux de Linguistique: Revue Internationale de Linguistique Française 37(1). 25–46. Mota, Cristina, Anabela Barreiro, Francisco Raposo, Ricardo Ribeiro, Sérgio Curto & Luı́sa Coheur. 2016a. eSPERTo’s paraphrastic knowledge applied to question-answering and summarization. Em Automatic Processing of Natural Language Electronic Texts with NooJ, 208– 220. Mota, Cristina, Paula Carvalho & Anabela Barreiro. 2016b. Port4NooJ v3.0: Integrated linguistic resources for Portuguese NLP. Em 10th Language Resources and Evaluation Conference (LREC), 1264–1269. Naro, Anthony Julius & Maria Marta Pereira Scherre. 2007. Origens do português brasileiro. Parábola. Neves, Maria Helena Moura. 1999. Gramática do português falado. UNICAMP. Neves, Maria Helena Moura. 2000. Gramática de usos do português. UNESP. Parafraseamento Automático de Registo Informal em Formal na Lı́ngua Portuguesa Paiva Raposo, Eduardo. 2013. Verbos auxiliares. Em Gramática do Português, vol. 2, 1221– 1281. Fundação Calouste Gulbenkian. Pontes, Eunice. 1973. Verbos auxiliares em português Perspectivas Linguı́sticas. Vozes. Rebelo-Arnold, Ida, Anabela Barreiro, Paulo Quaresma & Cristina Mota. 2018. Alinhamentos parafrásticos PE–PB de construções de predicados verbais com o pronome clı́tico lhe. Linguamática 10(2). 3–11. Santos, Diana. 2015. Portuguese language identity in the world: adventures and misadventures of an international language. Em Language - Nation - Identity: The questione della lingua in an Italian and non-Italian context, 31–54. Cambridge Scholars Publishing. Silberztein, Max. 2016. Formalizing Natural Languages: the NooJ Approach. Wiley Eds. Silva, Carolina G. A. G. 2008. Assimetrias na Aquisição de Clı́ticos Diferenciados em Português Europeu: Universidade Nova de Lisboa. Tese de Mestrado. Silva, João, António Branco, Sérgio Castro & Ruben Reis. 2010. Out-of-the-box robust parsing of Portuguese. Em 9th Conference on the Computational Processing of Portuguese (PROPOR), 75–85. Linguamática – 61