Skip to main content
L’objectif de cet article est de présenter les difficultés formelles concernant la traduction automatique des adverbes de l’espagnol (ES) vers le portugais (PT). Nous ne nous intéressons pas directement aux questions d’implémentation,... more
L’objectif de cet article est de présenter les difficultés formelles concernant la traduction automatique des adverbes de l’espagnol (ES) vers le portugais (PT). Nous ne nous intéressons pas directement aux questions d’implémentation, notre but étant de trouver les clés qu’il est nécessaire d’inclure dans un module de transfert ES>PT pour qu’un système de traduction automatique ou assisté puisse choisir, parmi les équivalents donnés, la meilleure traduction. Nous prenons appui sur le dictionnaire des adverbes composés de l’espagnol (Català, 2003) et celui de Palma (2009) et aussi sur une base de données relationnelle contenant les équivalences entre les expressions des deux langues. Notre approche consiste à décrire pour chaque adverbe de l’espagnol ses équivalents portugais. Pour la sélection des expressions équivalentes, nous nous sommes efforcés, autant que possible, de maintenir les correspondances lexicales et structurelles, mais en prenant compte aussi d’autres informations...
This paper analyses the influence of the distance learning modality (synchronous/asynchronous) in the learning of anaphora in English and Spanish as foreign languages, based on the results of a course offered to Modern Language students... more
This paper analyses the influence of the distance learning modality (synchronous/asynchronous) in the learning of anaphora in English and Spanish as foreign languages, based on the results of a course offered to Modern Language students at a Brazilian university in the first semester of 2020. Factors as the level of proficiency, type of task, and degree of motivation were also considered. Two experimental groups and one control group were compared in four written tests. English learners demonstrated a higher prior knowledge of anaphora than Spanish learners and showed the best test results. A positive and moderate correlation was found between the knowledge of anaphora, level of proficiency, and degree of motivation to study the language. Although the experimental groups made progress in the reading tests, the same did not happen in the writing tests. Finally, the difference was not significant between the two experimental groups.
There are several tools for the Portuguese language. However, and due to different choices at the basis of these tools' behaviour (different preprocessing, different labels, etc.), it becomes difficult to have an idea of each... more
There are several tools for the Portuguese language. However, and due to different choices at the basis of these tools' behaviour (different preprocessing, different labels, etc.), it becomes difficult to have an idea of each one's comparative performance. In this work, we propose an evaluation of tools, publicly available and free, that perform the tasks of Part-of-Speech Tagging and Named Entity Recognition, for the Portuguese language. We evaluate twelve different models for the first task and eight for the second. All the resources used in this evaluation (mapping tables between labels, testing corpora, etc.) will be made available, allowing to replicate/fine-tune the results here presented. We also present a qualitative analysis of two dependency parsers. To the best of our knowledge, no recent work that considers the recent available tools, was carried out for the Portuguese language.Têm sido desenvolvidas várias ferramentas para o processamento da língua portuguesa. N...
This study aims to determine how (a) ambiguity resolution differs in English, Spanish, and Portuguese; (b) L2 learners are influenced by their L1 regarding ambiguity resolution; and (c) the order of the clauses, (d) the salience of the... more
This study aims to determine how (a) ambiguity resolution differs in English, Spanish, and Portuguese; (b) L2 learners are influenced by their L1 regarding ambiguity resolution; and (c) the order of the clauses, (d) the salience of the anaphor, or (e) the choice of verbs may affect this process. A total of 181 people answered an online survey and selected the antecedent of the anaphor for 16 ambiguous sentences. The Position of Antecedent Strategy was tested for the three languages and the conclusion was that it applies to European and Brazilian Portuguese, but not for Spanish or English. While Spanish and English native speakers tend to interpret the subject of the subordinate clause as corresponding to the subject of the main clause, learners are influenced by their L1 and seem uncertain especially on how to resolve pronominal cataphora. Finally, we have concluded that semantics has a great influence on the resolution of ambiguous anaphora in these languages, and we suggest that i...
RESUMO Este artigo apresenta uma análise da utilização de diferentes modalidades de ensino no ensino superior, considerando o contexto atual provocado pela COVID-19. O estudo baseia-se em uma revisão da literatura sobre o tema e... more
RESUMO Este artigo apresenta uma análise da utilização de diferentes modalidades de ensino no ensino superior, considerando o contexto atual provocado pela COVID-19. O estudo baseia-se em uma revisão da literatura sobre o tema e questionário aplicado a 225 estudantes e professores universitários do Brasil e de Portugal, dos quais 144 tiveram suas aulas presenciais substituídas por aulas a distância. A maioria dos respondentes considera o ensino a distância pior do que o presencial, a comunicação pior, a avaliação mais difícil, a exigência maior e a aprendizagem pior. Além disso, os professores julgam empregar muito mais de seu tempo e dedicação para o ensino a distância, enquanto os alunos parecem dedicar-se menos. Ao serem questionados sobre o futuro do ensino superior, a maioria acredita que a modalidade de ensino mais utilizada será a híbrida. Apesar de o ensino a distância proporcionar diversas vantagens, os participantes sentem falta da interação face a face.
Neste trabalho descreve-se a nova versao do dicionario de formas flexionadas do Unitex-PB, adaptado ao Acordo Ortograficode 1990. Apresenta ainda a avaliacao das formas verbais, que foi realizada a partir dos parâmetros utilizados nas... more
Neste trabalho descreve-se a nova versao do dicionario de formas flexionadas do Unitex-PB, adaptado ao Acordo Ortograficode 1990. Apresenta ainda a avaliacao das formas verbais, que foi realizada a partir dos parâmetros utilizados nas Primeiras Morfolimpiadas para o Portugu es (2003).
RESUMO Este artigo apresenta um estudo-piloto no qual se pretende analisar as diferenças na resolução de ambiguidade anafórica em português, inglês e espanhol como primeiras línguas (L1) e como segundas línguas (L2). Para a obtenção dos... more
RESUMO Este artigo apresenta um estudo-piloto no qual se pretende analisar as diferenças na resolução de ambiguidade anafórica em português, inglês e espanhol como primeiras línguas (L1) e como segundas línguas (L2). Para a obtenção dos dados, foi elaborado um questionário, divulgado entre os estudantes nacionais e estrangeiros da Universidade do Algarve, Portugal. Conclui-se que os falantes nativos da língua inglesa costumam interpretar o pronome anafórico em posição de sujeito da oração subordinada como correspondente ao sujeito da oração principal, independentemente de o pronome receber ou não ênfase. Já os falantes de português e espanhol parecem seguir a Estratégia da Posição do Antecedente (CARMINATI, 2002) nos casos de anáfora, mas a preferência torna-se menos evidente ao inverter a ordem das orações (casos de catáfora). Além de considerar variáveis sintáticas, as frases foram elaboradas de modo a investigar a influência das relações semânticas entre os verbos para a resoluçã...
This paper describes metaTED ― a freely available corpus of metadiscursive acts in spoken language collected via crowdsourcing. Metadiscursive acts were annotated on a set of 180 randomly chosen TED talks in English, spanning over... more
This paper describes metaTED ― a freely available corpus of metadiscursive acts in spoken language collected via crowdsourcing. Metadiscursive acts were annotated on a set of 180 randomly chosen TED talks in English, spanning over different speakers and topics. The taxonomy used for annotation is composed of 16 categories, adapted from Adel(2010). This adaptation takes into account both the material to annotate and the setting in which the annotation task is performed. The crowdsourcing setup is described, including considerations regarding training and quality control. The collected data is evaluated in terms of quantity of occurrences, inter-annotator agreement, and annotation related measures (such as average time on task and self-reported confidence). Results show different levels of agreement among metadiscourse acts (α ∈ [0.15; 0.49]). To further assess the collected material, a subset of the annotations was submitted to expert appreciation, who validated which of the marked o...
STRING is a Natural Language Processing (NLP) chain developed at LF / INESC-ID Lisboa and LexMan is the module responsible to realize the tokenization and morphological analysis. This paper addresses the challenge of improve LexMan... more
STRING is a Natural Language Processing (NLP) chain developed at LF / INESC-ID Lisboa and LexMan is the module responsible to realize the tokenization and morphological analysis. This paper addresses the challenge of improve LexMan submodule responsible for propose correct pairs (lemma + tag) to unknown words.
A conversao e uma operacao formal que estabelece uma relacao nao-orientada parafrastica entre duas frases elementares. O verbo-suporte standard, de orientacao ativa – no caso o verbo "dar" – e substituido por outro, um... more
A conversao e uma operacao formal que estabelece uma relacao nao-orientada parafrastica entre duas frases elementares. O verbo-suporte standard, de orientacao ativa – no caso o verbo "dar" – e substituido por outro, um verbo-suporte converso, de orientacao passiva – no caso o verbo "levar" ou o verbo "receber": "Zeze Di Camargo deu uma explicacao ao publico sobre o que aconteceu na vespera" "O publico recebeu uma explicacao do Zeze Di Camargo sobre [...]" Essa operacao foi apontada inicialmente por Gaston Gross (1982, 1989) para o frances. Baptista (1997) descreve as construcoes conversas com os verbos "dar" e "levar" em portugues europeu. Grande parte das constatacoes feitas naquele artigo, no entanto, nao podem ser reproduzidas para o portugues brasileiro, o que nos motivou a elaborar um estudo contrastivo dos nomes predicativos que fazem conversao com o verbo "levar", nomeadamente a classe DL (dar–lev...
 Têm sido desenvolvidas várias ferramentas para o processamento da língua portuguesa. No entanto, devido a escolhas variadas na base dos comportamentos destas ferramentas (diferentes opções de pré-processamento, diferentes conjuntos de... more
 Têm sido desenvolvidas várias ferramentas para o processamento da língua portuguesa. No entanto, devido a escolhas variadas na base dos comportamentos destas ferramentas (diferentes opções de pré-processamento, diferentes conjuntos de etiquetas morfossintáticas e de dependências, etc.), torna-se difícil ter uma ideia do desempenho comparativo de cada uma. Neste trabalho, avaliamos um conjunto de ferramentas gratuitas e publicamente disponíveis, que realizam as tarefas de Etiquetação Morfossintática e de Reconhecimento de Entidades Mencionadas, para a língua portuguesa. São tidos em conta doze modelos diferentes para a primeira tarefa e oito para a segunda. Todos os recursos usados nesta avaliação (tabelas de mapeamento de etiquetas, corpora de referência, etc.) são disponibilizados, permitindo replicar/afinar os resultados. Apresentamos ainda um estudo qualitativo de dois analisadores de dependências. Não temos conhecimento de nenhum trabalho similar recente, isto é, que tenha em c...
As expressões cristalizadas (EC), sobretudo na perspectiva teórico‑metodológica do Léxico‑Gramática (GROSS, 1982), têm sido habitualmente tratadas na ótica de sua identificação e/ou classificação formal. As possíveis relações dessas... more
As expressões cristalizadas (EC), sobretudo na perspectiva teórico‑metodológica do Léxico‑Gramática (GROSS, 1982), têm sido habitualmente tratadas na ótica de sua identificação e/ou classificação formal. As possíveis relações dessas expressões com as construções livres (CL) das quais podem (ou não) derivar não têm sido objeto de estudo sistemático neste quadro, pelo menos para o português. Neste sentido, este trabalho contribui para os estudos da lexicologia ao estabelecer relações formais entre as expressões cristalizadas do português do Brasil (VALE, 2001), construídas com verbos locativos, e as construções livres (BAPTISTA, 2013) desses mesmos verbos. Concluímos que um elevado número de ECs é construído com verbos locativos (827/3.551), sobretudo em construções nas quais o verbo seleciona um nome na posição de complemento direto e outro, na posição de complemento preposicionado locativo de destino (pregar chiclete na cruzEC vs. pregar um quadro na paredeCL). Além disso, as ECs po...
Este artigo apresenta o processo de automatização de parafraseamento em português e conversão de construções típicas do registo informal ou da linguagem falada em construções de registo formal usadas na linguagem escrita. Ilustraremos o... more
Este artigo apresenta o processo de automatização de parafraseamento em português e conversão de construções típicas do registo informal ou da linguagem falada em construções de registo formal usadas na linguagem escrita. Ilustraremos o processo de automatização com exemplos extraídos do corpus e-PACT, que envolvem a colocação normalizada de pronomes clíticos quando co-ocorrem com compostos verbais. A tarefa consiste em parafrasear e normalizar, entre outras, construções como vou-lhe/posso-lhe fazer uma surpresa em vou/posso fazer\-lhe uma surpresa, em que o pronome clítico lhe migra de uma posição enclítica imediatamente a seguir ao primeiro verbo do composto verbal para uma posição enclítica a seguir ao verbo principal, que é o verbo responsável pela seleção do argumento pronominal. O primeiro verbo é um verbo auxiliar ou um verbo volitivo, e.g., querer. Este é um procedimento padronizado no processo de revisão em português europeu. Casos como este representam fenómenos linguístic...
Este volume contém os trabalhos apresentados no POP -- Por Outras Palavras, o 1º seminário sobre Ferramentas e Recursos Linguísticos para Parafraseamento em Português, realizado a 24 de Setembro de 2018 em Canela (RS), Brasil. O seminário... more
Este volume contém os trabalhos apresentados no POP -- Por Outras Palavras, o 1º seminário sobre Ferramentas e Recursos Linguísticos para Parafraseamento em Português, realizado a 24 de Setembro de 2018 em Canela (RS), Brasil. O seminário teve como objetivo reunir investigadores linguistas e que trabalham na área do Processamento de Linguagem Natural interessados em discutir novas ideias sobre o desenvolvimento e uso de recursos linguísticos orientados para pararafraseamento em português com aplicações do mundo real. As paráfrases são extremamente importantes na comunicação humana, tanto na produção como na compreensão da linguagem, e assumem um papel cada vez mais importante em atividades e projetos de investigação. Diversas experiências linguísticas mostraram a viabilidade de usar recursos parafrásticos numa ampla variedade de aplicações de software, pois permitem reconhecer e gerar formas equivalentes de expressar o mesmo conteúdo, permitindo que os sistemas forneçam ao utilizado...
Neste artigo, partimos da análise léxico-sintático-semântica das propriedades que foram usadas para classificar advérbios terminados em -mente mais frequentes em português e exploramos a geração de diferentes padrões de paráfrase, tanto... more
Neste artigo, partimos da análise léxico-sintático-semântica das propriedades que foram usadas para classificar advérbios terminados em -mente mais frequentes em português e exploramos a geração de diferentes padrões de paráfrase, tanto estruturas regulares ou muito gerais, tais como os advérbios de modo e de ponto de vista, bem como outros, menos produtivos (e às vezes idiomáticas). O objetivo é fornecer um abrangente conjunto de estratégias de paráfrase, que podem ser usadas em várias aplicações de processamento de linguagem natural, como a simplificação de texto ou até mesmo tradução automática.
Research Interests:
1. Introdução Apesar de há já bastante tempo terem sido referenciadas na literatura (Borillo 1971; Gross 1975; Boons, Guillet & Leclère 1976; Picabia 1978), as construções simétricas não têm sido objecto de descrição explícita nas... more
1. Introdução Apesar de há já bastante tempo terem sido referenciadas na literatura (Borillo 1971; Gross 1975; Boons, Guillet & Leclère 1976; Picabia 1978), as construções simétricas não têm sido objecto de descrição explícita nas gramáticas do Português, já que – tanto ...
Este artigo dá continuidade a um estudo piloto e compara os dados obtidos com falantes portugueses e brasileiros na tarefa de resolução de ambiguidade anafórica em português, inglês e espanhol. As respostas foram comparadas, também, às... more
Este artigo dá continuidade a um estudo piloto e compara os dados obtidos com falantes portugueses e brasileiros na tarefa de resolução de ambiguidade anafórica em português, inglês e espanhol. As respostas foram comparadas, também, às respostas de falantes nativos das línguas estrangeiras. A análise baseia-se em um questionário online respondido por 52 estudantes universitários no Brasil e em Portugal. O instrumento investigou a resolução de anáfora intrafrásica, considerando como variáveis a ordem das orações, a saliência ou não do sujeito, e a escolha dos verbos. Concluiu-se que, em português e espanhol, os falantes pareciam seguir a Estratégia da Posição do Antecedente (CARMINATI, 2002) nas frases consideradas “neutras” semanticamente, mas não nas “tendenciosas”. Em relação à língua inglesa, os falantes nativos tendiam a interpretar o pronome em posição de sujeito da oração subordinada como correferente ao sujeito da oração principal. Os aprendizes de inglês, por outro lado, mos...
This article presents a proposal for the analysis of transitive-predicative verbal constructions, not derivable transformationally from completive constructions. The theoretical framework of operator-transformational grammar and the... more
This article presents a proposal for the analysis of transitive-predicative verbal constructions, not derivable transformationally from completive constructions. The theoretical framework of operator-transformational grammar and the methodological principles of the reference framework of the Lexicon-Grammar are adopted herein. The article identifies a set of constructions and distinguishes them from other structures, usually identified as transitive-predicative structures in the literature
▪ ABSTRACT: This paper presents the results of a pilot study that aims to analyse the differences in the resolution of ambiguous anaphora in Portuguese, English, and Spanish as first languages (L1) and as second languages (L2). To collect... more
▪ ABSTRACT: This paper presents the results of a pilot study that aims to analyse the differences in the resolution of ambiguous anaphora in Portuguese, English, and Spanish as first languages (L1) and as second languages (L2). To collect the data, a questionnaire was developed and applied to national and foreign students at the University of Algarve, in Faro, Portugal. The conclusions are that native English speakers usually interpret the anaphoric pronoun in the subject position of the subordinate clause as corresponding to the subject of the main clause, regardless of whether the pronoun receives emphasis or not. Portuguese and Spanish native speakers, on the other hand, seem to use the Position of Antecedent Strategy (CARMINATI, 2002) in cases of anaphora, but the preference becomes less evident when reversing the order of sentences (cases of cataphora). Besides the syntactic variables, the phrases were designed to investigate the influence of the semantic relation between the v...
We report in this paper the coreference annotation process of the CSTNews corpus as part of a collective task of the IberEval 2017 conference. The annotated corpus is composed of 140 news texts written in Brazilian Portuguese language and... more
We report in this paper the coreference annotation process of the CSTNews corpus as part of a collective task of the IberEval 2017 conference. The annotated corpus is composed of 140 news texts written in Brazilian Portuguese language and counts with several annotation layers, including annotations in the morphosyntax/syntax, semantics, and discourse levels. The annotation, focused on nominal references, was conducted in a semi-automatic way by five teams, achieving satisfactory annotation agreement results.
This paper describes a corpus of Brazilian Portuguese texts built in view of the construction of an Anaphora Resolution system, which is part of a fully-fledged Natural Language Processing system (STRING). The ZAC corpus is aimed at the... more
This paper describes a corpus of Brazilian Portuguese texts built in view of the construction of an Anaphora Resolution system, which is part of a fully-fledged Natural Language Processing system (STRING). The ZAC corpus is aimed at the resolution of the so-called zero-anaphora, that is, an anaphora relation where the anaphoric expression (or anaphor) has been zeroed The paper briefly discusses the linguistic issues in the process of zero anaphora resolution, and describes the annotation process in detail, as well as the main aspects of the anaphoric relations thus annotated.
The support verb constructions (SVC) are a type of nominal construction, where the core predicate is the noun, called 'predicative noun' (Npred), which is assisted by a verb, called 'support verb' (Vsup). The... more
The support verb constructions (SVC) are a type of nominal construction, where the core predicate is the noun, called 'predicative noun' (Npred), which is assisted by a verb, called 'support verb' (Vsup). The Lexicon‑Grammar theoretical and methodological framework was adopted, in this paper, for the linguistic description and formalization of SVC in Portuguese. Considering the syntactic and semantic differences between SVC and other types of constructions, the purpose of this paper is to present the methodology and results of creating a corpus annotated with Vsup and Npred. A list with 4,668 SVC was built, considering 45 variants of Vsup and around 3,200 different Npred. Based on this list, we extracted 121,198 sentences from PLN.Br full corpus, from which 2,646 sentences have been manually annotated. This sample may constitute a reference corpus for the processing of SVC and used as a golden standard for evaluating the automatic tasks of identification, extraction ...
O principal objetivo deste estudo é apresentar o ‘mínimo paremiológico’ do português europeu, isto é, a lista dos provérbios mais conhecidos e mais frequentemente utilizados pela generalidade dos falantes da comunidade linguística do... more
O principal objetivo deste estudo é apresentar o ‘mínimo paremiológico’ do português europeu, isto é, a lista dos provérbios mais conhecidos e mais frequentemente utilizados pela generalidade dos falantes da comunidade linguística do português europeu. Para o estabelecimento do ‘mínimo paremiológico’ do português europeu foram utilizados diferentes procedimentos metodológicos ao longo de cinco anos. Numa primeira fase, coligiu-se uma base de dados digital com mais de 114.000 entradas (provérbios e variantes) e fez-se uma primeira seleção manual dos provérbios considerados mais usuais, tendo-se depois calculado a concordância entre anotadores, que foi bastante elevada. Procedeu-se também ao cálculo da frequência de provérbios e variantes (n. de ocorrências) em várias fontes: (1) em dicionários e coletâneas de provérbios; (2) num corpus de textos jornalísticos (CETEMPúblico, Santos & Rocha, 2001); (3) em manuais escolares de Português e de Português Língua não Materna; e (4) em dois m...
Neste artigo nos propomos a: (i) descrever as propriedades sintático-semânticas das construções verbais locativas em língua portuguesa; (ii) descrever e analisar duas propostas de classificação sintático-semântica dessas construções para... more
Neste artigo nos propomos a: (i) descrever as propriedades sintático-semânticas das construções verbais locativas em língua portuguesa; (ii) descrever e analisar duas propostas de classificação sintático-semântica dessas construções para as variantes do português brasileiro (Catálogo) e do português europeu (ViPEr); e (iii) estabelecer os pontos comuns e divergentes entre as duas classificações selecionadas e contrastadas. Definimos os verbos locativos como aqueles que estabelecem uma relação de localização entre um nome, que designa um lugar, e outro nome, que designa o objeto desse lugar. Os complementos locativos podem ser essenciais para a construção do predicado verbal ou meros adjuntos adverbiais, cuja inserção na frase de base se faz por meio de um verbo-suporte de ocorrência. No que se refere à análise contrastiva do Catálogo e do ViPEr, pode-se afirmar que, ainda que sejam trabalhos que partam de bases teórico-metodológicas distintas, foi possível identificar uma elevada co...
Os provérbios são expressões de uso generalizado, utilizados em diferentes situações conversacionais e assumindo diferentes funções no discurso em que se integram. Do ponto de vista sintático, este tipo de expressões apresenta uma grande... more
Os provérbios são expressões de uso generalizado, utilizados em diferentes situações conversacionais e assumindo diferentes funções no discurso em que se integram. Do ponto de vista sintático, este tipo de expressões apresenta uma grande variedade de estruturas. Tendo isto em conta, o objetivo principal deste trabalho é estabelecer uma classificação formal sintática dos provérbios do português europeu. Para tal, pretendemos desenvolver e aprofundar a tipologia de classificação formal proposta por Rassi et al. (2014). Por conseguinte, será considerada uma subclassificação para as classes que apresentam um elevado número de provérbios e uma eventual reclassificação de alguns dos tipos. A proposta de classificação foi validada pela anotação independente por dois linguistas de uma lista de provérbios muito usuais, medindo-se depois o acordo entre anotadores, que foi muito elevado. Esta classificação, por sua vez, será o ponto de partida para o desenvolvimento de um procedimento de class...

And 62 more