We present the joint contribution of IST and Unbabel to the WMT 2021 Shared Task on Quality Estim... more We present the joint contribution of IST and Unbabel to the WMT 2021 Shared Task on Quality Estimation. Our team participated on two tasks: Direct Assessment and Post-Editing Effort, encompassing a total of 35 submissions. For all submissions, our efforts focused on training multilingual models on top of OpenKiwi predictor-estimator architecture, using pre-trained multilingual encoders combined with adapters. We further experiment with and uncertainty-related objectives and features as well as training on out-of-domain direct assessment data.
Proceedings of the XIV Brazilian Symposium on Information Systems - SBSI'18, 2018
Software size estimation may be costly due to the time spent in estimation, even using referenced... more Software size estimation may be costly due to the time spent in estimation, even using referenced method, such as, Functional Size Measurement methods. This research objective is to reduce estimation cost in the very early stage of software development life cycle based on user stories and COSMIC method. We propose automated size estimation in order to reduce estimation cost and increase the accuracy. We conducted a quasi-experiment where the control group is composed of certified professionals and the experimental group is actually the proposed automated estimation tool. Results show promising evidence of success in terms of estimation precision. Based on these preliminary results we conclude that user story size automation is valuable and may be more objective and precise that manual estimation.
We present the joint contribution of IST and Unbabel to the WMT 2020 Shared Task on Quality Estim... more We present the joint contribution of IST and Unbabel to the WMT 2020 Shared Task on Quality Estimation. Our team participated on all tracks (Direct Assessment, Post-Editing Effort, Document-Level), encompassing a total of 14 submissions. Our submitted systems were developed by extending the OpenKiwi framework to a transformer-based predictor-estimator architecture, and to cope with glass-box, uncertainty-based features coming from neural machine translation systems.
In this paper we describe our work in building an online tool for manually annotating texts in an... more In this paper we describe our work in building an online tool for manually annotating texts in any spoken language with SignWriting in any sign language. The existence of such tool will allow the creation of parallel corpora between spoken and sign languages that can be used to bootstrap the creation of efficient tools for the Deaf community. As an example, a parallel corpus between English and American Sign Language could be used for training Machine Learning models for automatic translation between the two languages. Clearly, this kind of tool must be designed in a way that it eases the task of human annotators, not only by being easy to use, but also by giving smart suggestions as the annotation progresses, in order to save time and effort. By building a collaborative, online, easy to use annotation tool for building parallel corpora between spoken and sign languages we aim at helping the development of proper resources for sign languages that can then be used in state-of-the-art...
A interdisciplinaridade e um conceito cada vez mais presente nas universidades e de grande import... more A interdisciplinaridade e um conceito cada vez mais presente nas universidades e de grande importância para o meio academico. Este trabalho propoe quantificar a interdisciplinaridade de pesquisadores com base nas informacoes de estrato Qualis/CAPES. Para tanto, foi utilizada a base Lattes para identificar as publicacoes de cada pesquisador, assim como o qualis e area de conhecimento de cada publicacao. Tambem, foi criado um coeficiente de interdisciplinaridade para uma avaliacao mais precisa desses dados. Como e um trabalho em andamento, o resultado parcial obtido e o coeficiente de interdisciplinaridade. A criacao da medida ira contribuir para identificar padroes de pesquisadores e sua variacao interdisciplinar.
Anais do IX Simpósio Brasileiro de Sistemas de Informação (SBSI 2013), 2013
A cada semestre o Exército Brasileiro gera relatórios sumarizados a respeito de cada militar e su... more A cada semestre o Exército Brasileiro gera relatórios sumarizados a respeito de cada militar e suas atividades. Para isso é necessário encontrar referências relevantes a cada militar dentro de um conjunto de documentos produzidos periodicamente no intervalo de seis meses. Este trabalho propõe formas de realizar essa classificação de maneira automática, utilizando o método Naive Bayes de aprendizado probabilístico. Para isso, também é necessário identificar quais sentenças em um documento são relativas a cada militar, de modo que apenas elas sejam usadas durante o treinamento do classificador. Assim, este trabalho propõe duas heurísticas de seleção de sentenças que escolhem trechos de texto que aparecem próximos ao nome de cada militar. Os experimentos mostram que é possível atingir 76, 7% de medida-f na recuperação de documentos relevantes, e que a seleção de sentenças e o tamanho da base de treinamento desempenham papéis importantes na tarefa.
Mesmo após anos de implantação e evolução do voto eletrônico, as urnas eletrônicas continu... more Mesmo após anos de implantação e evolução do voto eletrônico, as urnas eletrônicas continuam sendo alvo crescente de críticas, tanto por parte de especialistas em segurança da informação quanto pela sociedade. Os principais desafios no uso desse tipo de urnas são garantir a transparência, a auditabilidade e a confiabilidade do sistema de votação, ao mesmo tempo em que garante-se também a integridade, a confidencialidade e a privacidade dos votos. No sistema brasileiro, entretanto, os principais pontos criticados são exatamente a pouca transparência e a restrita auditabilidade das urnas, que nos poucos casos em que foram concedidos à sociedade civil fora de períodos eleitorais, levaram a descobertas de falhas de segurança. Não é surpresa, portanto, que isso, somado à atual impossibilidade de se auditar os resultados eleitorais, coloque em cheque a confiabilidade no sistema. Neste survey, nós apresentamos e analisamos a evolução dos sistemas de votação ele...
Transactions of the Association for Computational Linguistics
Translation quality estimation is a task of growing importance in NLP, due to its potential to re... more Translation quality estimation is a task of growing importance in NLP, due to its potential to reduce post-editing human effort in disruptive ways. However, this potential is currently limited by the relatively low accuracy of existing systems. In this paper, we achieve remarkable improvements by exploiting synergies between the related tasks of word-level quality estimation and automatic post-editing. First, we stack a new, carefully engineered, neural model into a rich feature-based word-level quality estimation system. Then, we use the output of an automatic post-editing system as an extra feature, obtaining striking results on WMT16: a word-level FMULT1 score of 57.47% (an absolute gain of +7.95% over the current state of the art), and a Pearson correlation score of 65.56% for sentence-level HTER prediction (an absolute gain of +13.36%).
RESUMO. Dado um texto, queremos atribuir a cada palavra em contexto uma categoria morfossintática... more RESUMO. Dado um texto, queremos atribuir a cada palavra em contexto uma categoria morfossintática. Para isto, implementamos um etiquetador morfossintático que usa cadeias de Markov de ordem fixa dois, e mostramos seu funcionameto e alguns resultados obtidos. Apresentamos os problemas e desafios mais comuns a serem resolvidos, e então propomos a implementação de um etiquetador morfossintático utilizando uma nova abordagem, baseada em cadeias de Markov de tamanho variável. Mostramos a teoria ...
We present the joint contribution of IST and Unbabel to the WMT 2021 Shared Task on Quality Estim... more We present the joint contribution of IST and Unbabel to the WMT 2021 Shared Task on Quality Estimation. Our team participated on two tasks: Direct Assessment and Post-Editing Effort, encompassing a total of 35 submissions. For all submissions, our efforts focused on training multilingual models on top of OpenKiwi predictor-estimator architecture, using pre-trained multilingual encoders combined with adapters. We further experiment with and uncertainty-related objectives and features as well as training on out-of-domain direct assessment data.
Proceedings of the XIV Brazilian Symposium on Information Systems - SBSI'18, 2018
Software size estimation may be costly due to the time spent in estimation, even using referenced... more Software size estimation may be costly due to the time spent in estimation, even using referenced method, such as, Functional Size Measurement methods. This research objective is to reduce estimation cost in the very early stage of software development life cycle based on user stories and COSMIC method. We propose automated size estimation in order to reduce estimation cost and increase the accuracy. We conducted a quasi-experiment where the control group is composed of certified professionals and the experimental group is actually the proposed automated estimation tool. Results show promising evidence of success in terms of estimation precision. Based on these preliminary results we conclude that user story size automation is valuable and may be more objective and precise that manual estimation.
We present the joint contribution of IST and Unbabel to the WMT 2020 Shared Task on Quality Estim... more We present the joint contribution of IST and Unbabel to the WMT 2020 Shared Task on Quality Estimation. Our team participated on all tracks (Direct Assessment, Post-Editing Effort, Document-Level), encompassing a total of 14 submissions. Our submitted systems were developed by extending the OpenKiwi framework to a transformer-based predictor-estimator architecture, and to cope with glass-box, uncertainty-based features coming from neural machine translation systems.
In this paper we describe our work in building an online tool for manually annotating texts in an... more In this paper we describe our work in building an online tool for manually annotating texts in any spoken language with SignWriting in any sign language. The existence of such tool will allow the creation of parallel corpora between spoken and sign languages that can be used to bootstrap the creation of efficient tools for the Deaf community. As an example, a parallel corpus between English and American Sign Language could be used for training Machine Learning models for automatic translation between the two languages. Clearly, this kind of tool must be designed in a way that it eases the task of human annotators, not only by being easy to use, but also by giving smart suggestions as the annotation progresses, in order to save time and effort. By building a collaborative, online, easy to use annotation tool for building parallel corpora between spoken and sign languages we aim at helping the development of proper resources for sign languages that can then be used in state-of-the-art...
A interdisciplinaridade e um conceito cada vez mais presente nas universidades e de grande import... more A interdisciplinaridade e um conceito cada vez mais presente nas universidades e de grande importância para o meio academico. Este trabalho propoe quantificar a interdisciplinaridade de pesquisadores com base nas informacoes de estrato Qualis/CAPES. Para tanto, foi utilizada a base Lattes para identificar as publicacoes de cada pesquisador, assim como o qualis e area de conhecimento de cada publicacao. Tambem, foi criado um coeficiente de interdisciplinaridade para uma avaliacao mais precisa desses dados. Como e um trabalho em andamento, o resultado parcial obtido e o coeficiente de interdisciplinaridade. A criacao da medida ira contribuir para identificar padroes de pesquisadores e sua variacao interdisciplinar.
Anais do IX Simpósio Brasileiro de Sistemas de Informação (SBSI 2013), 2013
A cada semestre o Exército Brasileiro gera relatórios sumarizados a respeito de cada militar e su... more A cada semestre o Exército Brasileiro gera relatórios sumarizados a respeito de cada militar e suas atividades. Para isso é necessário encontrar referências relevantes a cada militar dentro de um conjunto de documentos produzidos periodicamente no intervalo de seis meses. Este trabalho propõe formas de realizar essa classificação de maneira automática, utilizando o método Naive Bayes de aprendizado probabilístico. Para isso, também é necessário identificar quais sentenças em um documento são relativas a cada militar, de modo que apenas elas sejam usadas durante o treinamento do classificador. Assim, este trabalho propõe duas heurísticas de seleção de sentenças que escolhem trechos de texto que aparecem próximos ao nome de cada militar. Os experimentos mostram que é possível atingir 76, 7% de medida-f na recuperação de documentos relevantes, e que a seleção de sentenças e o tamanho da base de treinamento desempenham papéis importantes na tarefa.
Mesmo após anos de implantação e evolução do voto eletrônico, as urnas eletrônicas continu... more Mesmo após anos de implantação e evolução do voto eletrônico, as urnas eletrônicas continuam sendo alvo crescente de críticas, tanto por parte de especialistas em segurança da informação quanto pela sociedade. Os principais desafios no uso desse tipo de urnas são garantir a transparência, a auditabilidade e a confiabilidade do sistema de votação, ao mesmo tempo em que garante-se também a integridade, a confidencialidade e a privacidade dos votos. No sistema brasileiro, entretanto, os principais pontos criticados são exatamente a pouca transparência e a restrita auditabilidade das urnas, que nos poucos casos em que foram concedidos à sociedade civil fora de períodos eleitorais, levaram a descobertas de falhas de segurança. Não é surpresa, portanto, que isso, somado à atual impossibilidade de se auditar os resultados eleitorais, coloque em cheque a confiabilidade no sistema. Neste survey, nós apresentamos e analisamos a evolução dos sistemas de votação ele...
Transactions of the Association for Computational Linguistics
Translation quality estimation is a task of growing importance in NLP, due to its potential to re... more Translation quality estimation is a task of growing importance in NLP, due to its potential to reduce post-editing human effort in disruptive ways. However, this potential is currently limited by the relatively low accuracy of existing systems. In this paper, we achieve remarkable improvements by exploiting synergies between the related tasks of word-level quality estimation and automatic post-editing. First, we stack a new, carefully engineered, neural model into a rich feature-based word-level quality estimation system. Then, we use the output of an automatic post-editing system as an extra feature, obtaining striking results on WMT16: a word-level FMULT1 score of 57.47% (an absolute gain of +7.95% over the current state of the art), and a Pearson correlation score of 65.56% for sentence-level HTER prediction (an absolute gain of +13.36%).
RESUMO. Dado um texto, queremos atribuir a cada palavra em contexto uma categoria morfossintática... more RESUMO. Dado um texto, queremos atribuir a cada palavra em contexto uma categoria morfossintática. Para isto, implementamos um etiquetador morfossintático que usa cadeias de Markov de ordem fixa dois, e mostramos seu funcionameto e alguns resultados obtidos. Apresentamos os problemas e desafios mais comuns a serem resolvidos, e então propomos a implementação de um etiquetador morfossintático utilizando uma nova abordagem, baseada em cadeias de Markov de tamanho variável. Mostramos a teoria ...
Uploads
Papers