Toolkit in Portuguese – Toolkit-CETAPS

We exist to ensure

safe acess timely acess accurate information

No matter what language you speak!

Este módulo online foi desenvolvido por Lettie Dorst (a.g.dorst@hum.leidenuniv.nl) como parte do projeto NRO Comenius Senior Fellow “O Valor da Tradução Automática na Comunidade Académica Multilíngue” (https://www.nwo.nl/projecten/40520865446-0). O objetivo é fornecer tanto a estudantes como a professores informações úteis e materiais para aumentar o conhecimento sobre tradução automática e desenvolver “literacia em tradução automática”, permitindo-nos utilizar esta tecnologia de forma mais eficaz, segura e responsável na nossa comunidade académica, cada vez mais multilíngue e multicultural.

O que é Tradução Automática?

Eu utilizo tradução automática?

A resposta é, provavelmente, “sim”. Para muitos de nós, utilizar programas de tradução automática, como o Google Tradutor, o Microsoft Bing ou o DeepL Tradutor, tornou-se parte das nossas rotinas diárias. É possível que também tenha utilizado a função de tradução automática em plataformas de redes sociais como o Facebook ou o Twitter. Ou talvez tenha permitido que um plugin no seu navegador traduzisse automaticamente uma página Web quando clicou numa ligação e descobriu que a página estava numa língua que não conhecia.

Chama-se tradução automática quando um computador ou aplicação móvel traduz automaticamente um texto de uma língua para outra sem qualquer supervisão ou interferência humana. A si, cabe-lhe copiar e colar o texto na aplicação, ou utilizar o leitor ótico no seu telemóvel, e carregar em Enter. A máquina faz a sua magia e, em segundos, obtém uma tradução.

A página Web do Google Tradutor está disponível em 109 línguas e processa mais de 100 mil milhões de palavras todos os dias.

Sem entrar em demasiados pormenores técnicos, podemos distinguir quatro tipos de tradução automática (abreviada como TA). Os primeiros sistemas, desenvolvidos logo após a Segunda Guerra Mundial, eram baseados em regras (daí a designação Rule-Based Machine Translation) e recorriam à combinação de um dicionário bilingue com muitas regras gramaticais. A partir dos anos 80, os programadores começaram a utilizar grandes corpora para que o computador procurasse exemplos em textos previamente traduzidos, o que deu origem à tradução automática baseada em exemplos (Example-Based Machine Translation), e também modelos estatísticos capazes de prever a tradução correta com base em enormes conjuntos de dados, o que constitui a tradução automática de base estatística (Statistical Machine Translation). Todavia, desde 2015, a maioria dos sistemas utiliza redes neuronais artificiais para produzir traduções, daí designar-se por tradução automática neuronal (Neural Machine Translation). Graças à inteligência artificial e a um processo chamado aprendizagem profunda (deep learning), a TAN continua a aprender e a treinar-se a si mesma, melhorando a cada tradução que produz. Enquanto os resultados da TABR eram previsíveis e os erros podiam ser corrigidos ajustando as regras, a TAN é, simplesmente, uma espécie de “caixa negra”. Se utilizar um sistema de TAN como o Google Tradutor para traduzir a mesma frase em três dias diferentes, é muito provável que obtenha três traduções diferentes.

Embora a qualidade da tradução automática tenha melhorado consideravelmente, a maioria dos resultados da tradução automática ainda contém erros.

É aqui que a pós-edição e a pré-edição entram em cena.

Recorrer à tradução automática não está isento de riscos. A maioria das traduções automáticas ainda apresenta erros e necessita de um humano para os corrigir, num processo chamado pós-edição. É claro que não precisamos de pós-edição se estivermos simplesmente a traduzir uma ementa durante as férias em França ou se quisermos saber o significado de uma canção espanhola que passa na rádio, mas, em muitos casos, precisamos de estar cientes de que a tradução pode apresentar erros. É necessário ter muito cuidado com dados pessoais, sensíveis ou confidenciais.

Na verdade, atualmente, a maioria das traduções automáticas é ilusoriamente boa. A tradução é tão fluida e idiomática que se torna difícil perceber se há erros de conteúdo, omissões indesejadas ou acrescentos. E, normalmente, não podemos consultar o texto original para confirmar se é este o caso!

Daí o propósito desta página: o objetivo é ajudar a melhorar a literacia digital na utilização de software de tradução automática.

Literacia em Tradução Automática

A professora Lynne Bowker (Universidade de Ottawa, Canadá) tem sido a principal investigadora no movimento Machine Translation Literacy (Literacia em Tradução Automática). Desenvolveu vários infográficos sobre temas centrais da Literacia em Tradução Automática, que se encontram na sua página Web, na secção Recursos de Ensino.

O que é pós-edição?

Embora a tecnologia de tradução automática tenha melhorado significativamente nos últimos anos, não é perfeita e pode cometer erros. É aqui que entra a pós-edição: o processo de verificação e correção da tradução gerada por um motor de tradução automática antes de esta ser utilizada. A pós-edição é, normalmente, efetuada por um tradutor ou linguista profissional, mas os estudantes também podem querer pós-editar as suas traduções automáticas antes de as utilizarem, por exemplo, na redação de um trabalho ou dissertação.

A pós-edição de textos traduzidos automaticamente nem sempre é necessária, especialmente quando se utiliza a tradução apenas para compreensão algo e não se pretende utilizá-la ou publicá-la. No entanto, quando o objetivo é utilizar o texto num contexto profissional, por exemplo, numa página Web, num rótulo de produto, num folheto ou num artigo académico, é essencial que o texto seja preciso em termos de conteúdo e aceitável em termos de uso da língua. Ou seja, pretende-se uma qualidade publicável semelhante à humana.

Pós-edição ligeira versus completa:

Para textos que pretende utilizar só informalmente, quando quer apenas saber o que um texto diz ou quando não há tempo para aperfeiçoar o resultado final, a pós-edição ligeira pode ser uma solução útil. Durante a pós-edição ligeira, verificam-se erros graves, como acrescentos ou omissões incorretas ou traduções manifestamente erradas, e edita-se qualquer conteúdo obviamente ofensivo, inadequado ou culturalmente inaceitável. Como o texto servirá apenas para a sua compreensão, pode optar por ignorar erros de ortografia, gramática e pontuação, embora isso possa ser difícil!

Se pretender uma qualidade publicável, então é necessária uma pós-edição completa. Atenção que isto pode implicar conhecimentos especializados (por exemplo, para verificar se a terminologia médica ou jurídica está correta), bem como competências linguísticas avançadas (para identificar e corrigir erros) e conhecimentos culturais suficientes. Durante uma pós-edição completa, o objetivo é obter uma tradução gramática, sintática, semântica e estilisticamente correta. Verifica-se se não há informações acrescentadas ou omitidas por acidente, se não existem conteúdos ofensivos, inadequados ou culturalmente inaceitáveis e garante-se também que a terminologia é utilizada correta e consistentemente, que o texto não apresenta erros linguísticos e que a formatação está correta.

É por isso que as empresas costumam contratar tradutores ou linguistas para efetuarem a pós-edição; a pós-edição está longe de ser um processo simples ou fácil!

Vários aspetos a ter em conta:

Os sistemas de tradução automática são frequentemente inconsistentes no uso da linguagem formal ou informal e nas formas de tratamento. Por exemplo, ao traduzir do inglês para neerlandês, francês ou alemão, o pronome "you" pode ser traduzido como "U/Vous/Sie" numa frase e "Jij/Tu/Du" noutra. Verifique como as línguas com que está a trabalhar sinalizam a formalidade (por exemplo, lexical ou gramaticalmente) e certifique-se de que a tradução final está correta e é apropriada.
Como os motores de tradução automática trabalham com base em estatística e probabilidades, é possível que várias palavras diferentes numa língua sejam traduzidas recorrendo à mesma palavra noutra língua. Isto pode causar confusão ou quebrar a fluência do seu texto.
Convenções e diferenças culturais podem igualmente exigir pós-edição. Por exemplo, os motores de tradução automática não convertem milhas em quilómetros, libras em euros nem Celsius em Fahrenheit, embora às vezes pareça que foi feita uma conversão: o Google Tradutor, por exemplo, traduz "The difference was five feet" por "A diferença era de 5 metros», o que leva a crer que os pés foram convertidos para metros, mas trata-se apenas de uma substituição lexical e não de uma conversão efetiva (5 pés = 1,5 metros). Verifique sempre qual é o sistema utilizado em ambas as línguas e se é necessária uma conversão na tradução. Em alguns casos, pode querer manter as milhas em vez dos quilómetros, mas a questão é se isso fará sentido para o público-alvo da tradução. Certifique-se de que verifica a conversão.
Os preconceitos podem infiltrar-se nas traduções automáticas, uma vez que os motores de tradução automática são treinados com dados imperfeitos e tendenciosos. Abordaremos o preconceito de género em pormenor mais à frente.

Verificou?

Há acrescentos ou omissões?
Existem palavras ou frases repetidas? Essas repetições são intencionais?
A terminologia está correta e é consistente?
Há traduções incorretas (sobretudo no caso de palavras com significados muito diferentes)?
A ordem das palavras nas frases está correta e é natural?
Há erros de género, número, caso ou tempo verbal?
Existem erros de pontuação, hifenização ou uso das maiúsculas?
Há problemas com artigos, pronomes ou preposições incorretos ou em falta?
O nível de formalidade é o adequado?
Os nomes próprios estão corretos ou foram traduzidos (por exemplo, Theresa May > Theresa Mei)?
Foram tidas em consideração a adequação, as normas e as convenções culturais?
Existem exemplos de preconceitos de género ou raciais?
As unidades e as medidas estão corretas?
As palavras não traduzidas devem mesmo ficar por traduzir? Há palavras que não deveriam ter sido traduzidas, mas foram?

Pré-editar o seu texto

Outra forma de melhorar a qualidade das suas traduções automáticas é através da pré-edição dos textos que introduz. A pré-edição consiste em melhorar e alterar o seu texto antes de o traduzir automaticamente. Implica tornar o texto mais legível para o motor de tradução automática e prevenir erros comuns. Isto é particularmente relevante quando escreve um texto numa língua e o traduz para várias outras línguas. Lynne Bowker e Jairo Buitrago Ciro (2019) apresentam as seguintes 10 diretrizes para uma escrita que facilite a tradução:

Utilizar frases curtas. Mantenha as frases tão simples e curtas quanto possível, ainda que assegurando contexto suficiente. Evite ambiguidades e frases e expressões desnecessariamente complexas. Escreva orações subordinadas como frases separadas. Torne explícita a relação entre frases (adicionando palavras como “porque” ou “por isso”). Utilize a ordem padrão das palavras sempre que possível (em português, utilize Sujeito – Verbo – Objeto).
Recorrer à voz ativa. A voz ativa é muito mais fácil de traduzir do que a voz passiva. Além disso, torna os textos mais diretos e fáceis de compreender.
Evitar longas sequências de nomes ou acumulação de modificadores. O inglês é conhecido pelas suas longas sequências de nomes. Tente dividi-las o mais possível e indique a relação entre as partes da sequência. Para línguas como o neerlandês e o alemão, os grandes nomes compostos escritos como uma única palavra são frequentemente problemáticos na tradução automática, especialmente se a forma de palavra única não for frequente nos dados. Os verbos separáveis no neerlandês e no alemão também são difíceis, sobretudo se a preposição ou o advérbio estiver longe do verbo (por exemplo: “Ik belde hem nadat ik klaar was met douchen en aankleden vanuit de auto op“).
Utilizar pronomes relativos, como “that” e “which”. Em inglês, os pronomes relativos como “that” e “which” são frequentemente omitidos, mas clarificam a relação entre os elementos da frase. Numa escrita que facilita a tradução, é preferível acrescentar estes elementos normalmente opcionais.
Evitar a verbosidade. Mantenha as frases simples e precisas e evite palavras ou informações desnecessárias (isto também significa evitar frases feitas vazias, comuns na escrita académica). O objetivo não é impressionar o leitor com palavras excessivamente difíceis ou frases complexas, mas, sim, transmitir a sua mensagem de forma clara e precisa.
Utilizar nomes em vez de pronomes pessoais. Na escrita normal, utilizamos pronomes para que o nosso texto não pareça repetitivo se recorrermos ao mesmo nome várias vezes. No entanto, numa escrita que facilite a tradução, é preferível utilizar repetições explícitas (ainda que não pareçam nada bem) para garantir que a tradução será a correta, podendo depois a tradução ser ajustada durante a pós-edição. Os pronomes e outros elementos deíticos são claramente difíceis para a tradução automática.
Utilizar a terminologia de forma consistente. Como já foi dito, é preferível ser claro e um pouco repetitivo a confundir o sistema ao utilizar vários sinónimos para o mesmo conceito. Utilize o mesmo termo de forma consistente ao longo do texto para referir o mesmo conceito. A variação estilística pode ser introduzida mais tarde, durante a pós-edição.
Escolher palavras inequívocas. Muitas palavras têm vários significados, logo determinar o significado correto para a tradução é difícil para uma máquina que não tem conhecimento do mundo. Isto pode, por vezes, resultar numa tradução que se refere a algo completamente diferente (ver o exemplo advogado-abacate no vídeo Porque é que o Google Tradutor não é um dicionário?). Se existirem sinónimos adequados que sejam mais claros e menos propensos a erros de tradução, opte por esses, mesmo que isso implique uma ligeira perda de nuance.
Evitar formas abreviadas. Embora seja tentador usar abreviaturas porque poupam tempo, espaço e esforço, e muitas são tão comuns que nem damos conta de que as utilizamos, é frequente darem origem a confusão na tradução automática. Um motor de tradução automática não tem conhecimento do mundo nem compreende o texto que está a traduzir, pelo que não será fiável na tradução de abreviaturas. Por exemplo, o inglês “MS” pode significar esclerose múltipla (multiple sclerosis), mestre em ciências (master of science), manuscrito ou ser uma forma de tratamento para mulheres em francês. Para nós, humanos, é óbvio compreender o significado relevante para determinado texto, mas para uma máquina não é.
Evitar expressões idiomáticas, humor e referências culturais. Qualquer tipo de expressão na qual o significado do todo dependa de mais do que apenas o significado das palavras individuais é difícil de traduzir, e não apenas para as máquinas! Mesmo que uma tradução literal possa fazer algum sentido, tais expressões requerem normalmente uma adaptação cultural para serem eficazes na comunicação da mensagem pretendida.

Referências sobre pós-edição

Lee, J., & Liao, P. (2011). A Comparative Study of Human Translation and Machine Translation with Post-editing. Compilation and Translation Review, 4(2), 105–149.

Massardo, I., van der Meer, J., O’Brien, S., Hollowood, F., Aranberri, N., & Drescher, K. (2016). MT Post-Editing Guidelines. TAUS Signature Editions.

Savoldi, B., Gaido, M., Bentivogli, L., Negri, M., & Turchi, M. (2021). Gender Bias in Machine Translation. Transactions of the Association for Computational Linguistics, 9, 845–874. https://doi.org/10.1162/tacl_a_00401

Zaretskaya, A. (2017). Machine Translation Post-Editing at TransPerfect – the ‘Human’ Side of the Process. Revista Tradumàtica, 15, 116–123. https://doi.org/10.5565/rev/tradumatica.201

Se quiser ler mais sobre pré-edição:

Bernth, A., & Gdaniec, C. (2001). MTranslatability. Machine Translation, 16, 175– 218. https://doi-org.ezproxy.leidenuniv.nl/10.1023/A:1019867030786

Bowker, L., & Ciro, J. B. (2019). Machine Translation and Global Research: Towards Improved Machine Translation Literacy in the Scholarly Community, 64–70. Emerald Publishing Limited. https://doi.org/10.1108/978-1-78756-721- 420191005

Matsui, J., & Magnusson, D. (2011). Six Pre-edit Techniques for Enhancing Japanese to English Machine Translations. Interpreting and Translation Studies: The Journal of the Japan Association for Interpreting and Translation Studies. 11, 173–184. https://doi.org/10.50837/its.1113

História da Tradução Automática

Estes conteúdos estão também disponíveis em texto simples, infográfico e formato animado.

A área da tradução automática é muito mais antiga do que provavelmente imagina!

A tecnologia remonta à Segunda Guerra Mundial e à era da criptografia. O exército alemão tinha a Enigma, uma máquina utilizada para enviar mensagens encriptadas. Durante muito tempo, acreditou-se que este código era indecifrável, até que Alan Turing e outros criptógrafos em Bletchley Park construíram outra máquina e resolveram o enigma.

Ainda que esta história tenha dado origem a empolgantes filmes e programas de televisão, é importante perceber que, naquela época, os computadores não eram em nada semelhantes aos que temos hoje e não havia Internet. A tecnologia ainda estava em fase de desenvolvimento. No entanto, Warren Weaver, um matemático americano, já vislumbrava o potencial das traduções automáticas. Escreveu um memorando no qual argumentava que a tradução poderia ser algo semelhante a decifrar código, visto que uma mensagem na língua A tem de ser primeiro codificada numa língua de transferência e, depois, descodificada na língua B.

O memorando de Weaver incentivou muita investigação sobre a primeira geração de sistemas de tradução automática, especialmente por parte dos governos americano e russo. Na altura, ambos travavam a Guerra Fria e necessitavam desesperadamente de traduzir mensagens inimigas sem depender de um tradutor humano que poderia muito bem ser um espião ou um agente duplo.

Embora a história e o desenvolvimento da TA estejam intimamente associados à guerra e ao lucro económico (o setor procura simplesmente mais tradução, mais rápida e mais barata), não devemos esquecer que, no atual mundo globalizado e multicultural, a TA também desempenha uma função social muito importante ao permitir o acesso justo às informações por parte de, por exemplo, refugiados, migrantes e minorias étnicas.

O Massachusetts Institute of Technology (MIT) contratou o primeiro investigador de TA a tempo inteiro, Yehoshua Bar-Hillel, que organizou a primeira conferência internacional sobre TA em 1952 e liderou a experiência Georgetown-IBM em 1954. Este sistema experimental de TA do russo para o inglês conseguiu traduzir 60 frases durante uma demonstração. Embora o sucesso deste primeiro sistema baseado em regras tenha sido, na verdade, bastante limitado, gerou grande atenção mediática e atraiu enorme financiamento. Acreditava-se, então, que a tradução automática de elevada qualidade seria, em breve, uma realidade.

Infelizmente, tal não aconteceu, uma vez que os sistemas baseados em regras não serviam para traduzir nada além de frases altamente controladas e sem ambiguidades. Em 1966, o Automatic Language Processing Advisory Committee (ALPAC) avaliou o estado da investigação em TA. Concluíram que a TA era demasiado lenta, demasiado cara e de qualidade insuficiente. Propuseram concentrar os esforços no desenvolvimento de ferramentas que apoiassem tradutores humanos, como bases terminológicas e memórias de tradução, em vez de continuar a insistir na tradução completamente automatizada. Em resultado disso, grande parte do financiamento foi cortado e pouco ou nada se fez na área da investigação em TA durante muito tempo.

Mas! A tecnologia informática desenvolveu-se rapidamente na década de 80.

Os computadores passaram a ser muito mais pequenos, muito mais rápidos e muito mais potentes. Além disso, a Internet e a World Wide Web estavam a tornar-se cada vez mais populares. Assim, os engenheiros de TA começaram a pensar na tradução automática de uma forma diferente e decidiram que não deveriam tentar fazer com que as máquinas traduzissem como os humanos, mas deveriam, sim, tentar fazer com que elas fizessem aquilo em que são boas: identificar padrões e efetuar cálculos.

Isto levou ao desenvolvimento dos primeiros sistemas de tradução automática de base estatística, que utilizavam grandes corpora paralelos eletrónicos como dados de treino. Em vez de usar vocabulários e regras gramaticais, o sistema assentava na estatística para prever a tradução certa. Os resultados destes sistemas de TAE eram muito melhores do que os dos sistemas mais antigos, baseados em regras, porque:

a) os computadores são extremamente eficazes no reconhecimento de padrões e a efetuar cálculos; e

b) agora tinham acesso a uma grande quantidade de dados, graças aos corpora eletrónicos e à Internet.

Consequentemente, esta área encontrou novo fôlego e captou novo financiamento. A corrida pelos sistemas totalmente automáticos voltava a ganhar vida.

Os sistemas de TAE mantiveram-se dominantes desde meados dos anos 90 até ao lançamento do sistema de TA neuronal do Google Tradutor, em 2016, o que alterou por completo este setor. De repente, qualquer pessoa, em qualquer lugar, tinha acesso gratuito e ilimitado a traduções automáticas de elevada qualidade entre mais de 150 línguas. A mudança dos sistemas de base estatística para os sistemas neuronais representou um grande avanço em termos de qualidade. Na verdade, a qualidade dos sistemas de tradução automática neuronal atuais é ilusoriamente boa e muitos utilizadores informais podem até pensar que o resultado é quase perfeito. Tornou-se muito mais difícil detetar erros e os sistemas de TAN são muito menos previsíveis. Isto deu origem ao movimento Machine Translation Literacy (Literacia em Tradução Automática), no qual se integram os nossos vídeos, infográficos e página Web. Utilizar sistemas de TAN gratuitos online é fácil, mas saber como utilizar estes sistemas de forma eficaz e ética não é.

Se quiser saber mais, recomendamos vivamente o capítulo de Lynne Bowker sobre Tradução Automática no seu mais recente livro “De-mystifying Translation”, que pode descarregar gratuitamente aqui.

Como funciona a Tradução Automática?

Estes conteúdos estão também disponíveis em texto simples, infográfico e formato animado.

Na introdução, mencionámos brevemente os principais tipos de tradução automática. Aqui, vamos explorar três tipos de arquiteturas de tradução automática: baseada em regras, de base estatística e neuronal.

Tradução Automática baseada em regras

As arquiteturas de tradução automática baseada em regras (TABR) foram as primeiros a ser desenvolvidas. Recorriam a uma forma simples de procurar e substituir. Primeiro, cada palavra numa frase era traduzida recorrendo a um grande dicionário. Depois, a tradução era ajustada aplicando longas listas de regras gramaticais específicas para cada par de línguas. Graças a estas regras gramaticais, as palavras eram colocadas na ordem correta, as formas verbais eram corrigidas quanto ao tempo e ao modo e os nomes eram corrigidos relativamente ao género e número, entre outros exemplos.

Na TABR, é necessário criar uma nova regra para cada diferença entre duas línguas e para cada par linguístico. Uma vantagem importante deste sistema é oferecer maior controlo do processo de tradução. Se houver um erro, é relativamente fácil diagnosticar e ajustar as regras. No entanto, escrever estas regras requer um vasto conhecimento linguístico e pode ser muito dispendioso em termos de tempo e recursos humanos. Além disso, estes sistemas baseados em regras têm dificuldade em lidar com ambiguidades ou significados não literais, como acontece com homónimos ou expressões idiomáticas.

Tradução automática de base estatística

À medida que os computadores iam ficando mais potentes, nas décadas de 1980 e 1990, a tradução automática de base estatística (TAE) tornou-se o novo padrão na tradução automática. Estes sistemas baseiam-se na ideia de que os computadores são eficientes no processamento de grandes volumes de dados e na realização de cálculos rápidos, logo a tecnologia da tradução devia explorar essas vantagens.

A TAE utiliza grandes coleções eletrónicas de textos, chamadas corpora, como dados de treino, para encontrar padrões e calcular a probabilidade de uma determinada tradução estar correta. A tradução automática de base estatística resultou em muito melhores traduções muito melhores, especialmente nas línguas com grandes volumes de dados disponíveis.

Tradução automática neuronal

Por fim, a tradução automática neuronal (TAN) utiliza redes neurais artificiais e espaços vetoriais para prever a tradução correta. Em 2016, o Google Tradutor passou da tradução automática de base estatística à tradução automática neuronal, oferecendo ao mundo acesso gratuito a traduções de elevada qualidade em muitas línguas. Os sistemas neuronais rapidamente ultrapassaram os sistemas de base estatística, tornando-se a norma na maioria dos serviços atuais, seja como sistemas puramente neuronais ou como sistemas híbridos, que combinam as forças dos métodos neuronais e de base estatística.

Graças à aprendizagem profunda (deep learning), a TAN aprende com cada novo exemplo traduzido, e não apenas com os dados de treino. As arquiteturas TAN colocam cada palavra num espaço vetorial, um espaço multidimensional no qual as palavras fortemente relacionadas aparecem juntas e as palavras não relacionadas aparecem afastadas. É por este motivo que os sistemas neuronais precisam das palavras no contexto de uma frase para calcular a distância entre elas e determinar qual é o significado e, consequentemente, a tradução correta.

Considerações importantes

Embora a TAN funcione muito bem, é uma espécie de “caixa negra”, o que significa que não compreendemos todos os mecanismos internos que geram o resultado. Traduzir a mesma frase em dias diferentes pode produzir resultados diferentes sem motivo aparente e os sistemas neuronais são conhecidos por, ocasionalmente, gerarem resultados fluentes, mas incorretos, bem como “alucinações” – traduções completamente afastadas do texto original.

Em relação tanto à TABE como à TAN, é importante perceber que o sistema funciona com base em estatística e algoritmos e não compreende o significado das palavras ou do texto como um ser humano. O sistema não tem conhecimento do mundo e não reconhece diferenças culturais, humor ou tabu. Calcula a probabilidade de a palavra A ser seguida pela palavra B e não pela C, mas não tem em consideração se isso faz sentido ou é apropriado. É por este motivo que, em contextos profissionais, as traduções automáticas são normalmente verificadas e corrigidas por pós-editores humanos antes de serem utilizadas.

Google Tradutor - um dicionário?

Estes conteúdos estão também disponíveis em texto simples, infográfico e formato animado.

Os estudantes utilizam frequentemente a tradução automática para traduzir palavras isoladas, expressões idiomáticas ou frases, procurar sinónimos ou verificar o significado ou a ortografia de uma palavra desconhecida (Dorst et al., 2022).

Mas será que esta é realmente a forma correta de utilizar a tradução automática? Agora que temos alguma noção de como funciona a tradução automática, vejamos alguns exemplos práticos.

Exemplo 1

Comecemos por traduzir a seguinte frase de inglês para francês.

Se fizermos a retroversão para inglês, obtemos:

Para um motor de TA, avocado (abacate) faz tanto sentido quanto lawyer (advogado) porque não faz ideia do que são abacates e advogados. Isto demonstra que a TA não tem conhecimento do mundo real, da comunicação humana nem do contexto. Não lê nem compreende os textos, mas calcula distâncias entre palavras em redes neurais e espaços vetoriais. Calcula a probabilidade de uma palavra seguir outra e de palavras serem utilizadas em conjunto. Por conseguinte, precisa de outras palavras para determinar se falamos de um advogado ou de um abacate.

Neste caso, indicámos uma frase inteira, mas a frase era ambígua em termos de contexto. Nada nela indicava ao motor de TA se falávamos da fruta ou da pessoa. Logo, é importante que o resto da frase fale de saladas e tomates ou de crimes e tribunais. Desse modo, pode determinar, com base nas restantes palavras da frase, se a palavra correta é ‘abacate’ ou ‘advogado’.

Com mais contexto, a retroversão de francês para inglês atribuirá corretamente ‘abacate’ em vez de ‘advogado’.

Este exemplo mostra que é importante: 1) não traduzir palavras isoladas 2) não traduzir frases sem contexto.

Exemplo 2

Quando se leem textos especializados, mesmo as palavras mais simples podem ser difíceis de traduzir. O texto seguinte, um excerto sobre endocardite (uma doença cardíaca), ilustra bem esta situação. No texto em neerlandês, a palavra “klachten” normalmente traduz-se por “complaint” em inglês. No entanto, num contexto clínico, esta não é a tradução que procuramos. Precisamos da palavra “sintoma”. Mas o motor de TA optou por “queixa” em todos os casos.

Aqui, fica claro que, em alguns casos, é necessário consultar um dicionário a sério (monolingue ou bilingue), que ofereça diferentes definições e exemplos contextualizados do uso das palavras.

Por exemplo, no principal dicionário inglês-neerlandês, o dicionário Van Dale, o dicionário apresenta vários contextos diferentes com frases a exemplificar que ilustram como cada palavra é usada.

Quando estiver a ler um texto com MT, em vez de o escrever, normalmente não tem controlo sobre a formulação das frases nem sobre quão explícito é o contexto para indicar ao motor que significado da palavra é preciso. É por isso que os resultados da TA costumam ser corrigidos por um profissional humano, num processo chamado pós-edição, antes de o texto ser efetivamente utilizado.

Em suma, é importante perceber que, por vezes, a melhor opção é consultar um dicionário a sério. O Google Tradutor e outros serviços de tradução automática não são dicionários, pois não apresentam diferentes definições ou significados de uma palavra em diferentes contextos nem ilustram como palavras em particular são utilizadas em áreas diferentes.

Conceito importante: os motores de TA não compreendem o que os seus textos significam!

Referências

Dorst, A.G., Valdez, S. & Bouman, H.M.C. (2022). Machine translation in the multilingual classroom: How, when and why do humanities students at a Dutch university use machine translation? Translation and Translanguaging in Multilingual Contexts, 8(1): 49–66.

Um agradecimento especial a Lynne Bowker pelo exemplo abacate-advogado.

Ler e citar fontes com a Tradução Automática

Estes conteúdos estão também disponíveis em texto simples, infográfico e formato animado.

A tradução automática tem permitido que as pessoas interajam com informações que antes não estavam ao seu alcance devido a uma mera barreira linguística. Existem muitas situações nas quais, enquanto estudante, poderá recorrer à tradução automática, seja para ler artigos ou manuais que não estejam numa língua que domine, seja para fins de estudo ou elaboração de dissertações. No entanto, é importante saber como ler e citar fontes ao utilizar serviços de tradução automática.

Vamos imaginar que encontrou um artigo académico que parece ser relevante para a sua dissertação:

Em primeiro lugar, não avance logo para o texto completo. Comece pelo resumo. Verifique se o autor disponibilizou uma tradução do resumo. Se esta não estiver disponível acima ou abaixo do resumo no texto original, procure no perfil do autor em ResearchGate ou em Academia.edu. O autor pode também ter uma página institucional ou uma página Web pessoal.

Se não encontrar uma tradução disponibilizada pelo autor, copie e cole o resumo numa das muitas páginas Web públicas de tradução automática e traduza-o para inglês. Faça-o mesmo que o inglês não seja a sua língua de chegada de eleição. É preferível traduzir da língua de partida para inglês e, em seguida, de inglês para a sua língua de chegada do que traduzir diretamente da língua de partida para a de chegada.

Não se esqueça de que não precisa que a tradução seja perfeita nesta fase! Está a ler o resumo para decidir se quer ler o artigo completo. Se decidir que este é um artigo relevante e pretender ler o texto completo, traduza a totalidade do artigo recorrendo a um navegador com funcionalidade de tradução automática. Estes navegadores podem ser facilmente instalados, caso ainda não tenha um.

Para traduzir citações que pretende usar no seu trabalho, como citações diretas, selecione o excerto e traduza frase a frase. A tradução de frases individuais produz resultados de melhor qualidade do que a tradução de parágrafos inteiros. Utilize a lista suspensa dos serviços de tradução automática para selecionar sinónimos mais adequados e para esclarecer o significado de determinadas palavras.

A atribuição e a referenciação adequadas das informações são fundamentais, especialmente no caso de excertos traduzidos por tradução automática. Pondere citar o excerto na língua original e acrescentar a sua tradução editada a seguir ao excerto original.

Exemplo de citação no texto: Repare no reconhecimento do serviço de tradução automática DeepL na referência, assim como em que medida foi utilizado.

Se um humano tiver pós-editado o resultado de um motor de tradução automática, significa que a tradução teve o apoio da tradução automática e tal deve ser indicado entre parênteses após a tradução. Por exemplo, pode escrever “tradução nossa com o apoio do Google Tradutor”. No caso de não ter sido feita qualquer pós-edição, indique que a tradução é uma “tradução automática do DeepL”. Inclua o autor, o ano e o número da página do excerto que está a citar diretamente no texto e indique a referência completa na secção da bibliografia. Para além disto, mencione na secção da metodologia que foram utilizados motores de tradução automática para entender o significado geral de um texto e para auxiliar o seu processo de tradução.

Referências

Anđelić. J. T. (2022). Traduire les médias dans une communauté de pratique virtuelle: Expérience du portail francophone le Courrier des Balkans. Journal of Specialised Translation, 37, 55–74.

Corrius, M. & Zabalbeascoa, P. (2019). Translating code-switching on the screen: Spanglish and L3-as-theme. Journal of Audiovisual Translation, 2(2),72–91.

Montalt, V., & Gonzalez-Davies, M. (2014). Medical translation step by step: Learning by drafting. Routledge, 291.

Preconceito na Tradução Automática

Estes conteúdos estão também disponíveis em texto simples, infográfico e formato animado.

Existe mesmo preconceito nas nossas máquinas?

Seria de esperar que o uso das máquinas eliminasse qualquer forma de preconceito consciente ou inconsciente. Infelizmente, não é este o caso e ainda existe um preconceito inerente aos sistemas de tradução automática. Aqui, exploramos o preconceito de género, mas o preconceito na tradução automática não se restringe apenas ao género, aplicando-se, por exemplo, também a questões de raça, religião, etnia ou orientação sexual. Por isso, é importante estar ciente do preconceito inerente aos textos traduzidos por TA.

Para começar, vejamos uma tradução de neerlandês para inglês. O texto neerlandês deveria ser traduzido como “a agricultora está a fazer o seu trabalho” em vez de “a mulher do agricultor está a fazer o seu trabalho”.

O texto neerlandês deveria ser traduzido como “a agricultora está a fazer o seu trabalho” em vez de “a mulher do agricultor está a fazer o seu trabalho”.

O neerlandês tem duas formas: boer, que significa agricultor, e boerin, que se refere a agricultora. O inglês tem apenas uma forma neutra, farmer, pelo que o género do/a agricultor/a tem de ser explicitado ou indicado por um pronome, neste caso “her” (dela). Contudo, os sistemas de tradução automática frequentemente traduzem incorretamente as formas com género, neste caso trocando agricultora por mulher do agricultor.

Problemas semelhantes surgem ao traduzir de uma língua neutra para uma língua com género. Por exemplo, a palavra inglesa nurse (enfermeiro/a) é sempre traduzida para o neerlandês verpleegster, no feminino, mesmo quando é especificado que o enfermeiro é um homem.

Aqui, numa tradução de neerlandês para português, para ambas as pessoas envolvidas o género foi mal interpretado. A frase neerlandesa diz “a maestrina falou com o bailarino”, sendo de dirigente feminino e de danser masculino. No entanto, na tradução para português, maestro é masculino e bailarina é feminino.

Este preconceito na tradução automática contribui para e reforça preconceitos mais latos na sociedade, o que resulta na sub-representação e na estereotipagem de mulheres e pessoas não binárias. Além disso, pode conduzir a erros de género, potenciais falhas de comunicação e discriminação.

Por que razão existe este preconceito na Tradução Automática?

Primeiro, as traduções automáticas são tão boas quanto os dados com que são treinadas. Qualquer disparidade de género presente nos dados de treino reflete-se nas traduções automáticas. Por exemplo, em inglês, podem existir referências desnecessárias ao facto de alguém ser mulher, como no caso das expressões medical doctor (mulher médica) ou medical scientist (mulher cientista), em comparação com os termos doctor (médico) ou scientist (cientista). Estes dois últimos são muitas vezes considerados masculinos por defeito nas traduções automáticas.
Em segundo lugar, pode existir um preconceito técnico na criação, conceção e teste dos sistemas de tradução automática. Como os sistemas de TA se baseiam, habitualmente, em princípios estatísticos, o que são treinados com dados com uma elevada frequência de termos masculinos irão substituir mais frequentemente referências femininas por masculinas. A linguagem neutra ou ambígua em termos de género também tende a ser traduzida por formas masculinas.
Por fim, pode existir um preconceito emergente nos sistemas de TA. Isto ocorre quando são concebidos para contextos e públicos diferentes daqueles com os quais são efetivamente utilizados. Por exemplo, dados históricos com os quais as ferramentas sejam treinadas podem refletir estereótipos do passado e falta de diversidade, não sendo, por esse motivo, apropriados para os dias de hoje. Sistemas de TA que não sejam criados para dar resposta a uma base de utilizadores diversificada não produzem traduções individualizadas para grupos não dominantes e acabam por adotar a forma masculina padrão. Aceite os desvios. As aventuras mais gratificantes começam frequentemente com um desvio inesperado. Quem sabe se essa distração não o irá orientar no caminho.

Agora que compreendemos por que razão este preconceito ocorre, como pode cada um ser responsabilizado?

Particularmente, tendo em conta que o preconceito em textos que são produto da tradução automática é amplamente introduzido no próprio software de tradução.

Primeiro, certifique-se de que compreende como o género é tratado tanto na língua de partida como na de chegada, bem como no seu próprio texto. Embora o preconceito de género ocorra com mais frequência em línguas com género, como o espanhol ou o português, as traduções em línguas sem género não estão isentas de preconceitos.
Em segundo lugar, pré-edite o seu texto para fornecer contexto suficiente e torná-lo mais conciso e claro. Tenha em conta como as línguas de partida e de chegada incorporam o género e, se apropriado, remova ou altere situações onde o género é ambíguo para reduzir a probabilidade de erros introduzidos por serviços de TA.
Finalmente, pós-edite as suas traduções para corrigir quaisquer erros, incluindo possíveis casos de preconceito de género. Muitas vezes, os sistemas de TA apresentam diferentes opções de tradução de uma palavra ou frase, incluindo formas com géneros diferentes. Pode também experimentar vários serviços de tradução automática, como Bing, DeepL e Systran, e comparar os resultados. Neste caso, o DeepL determinou corretamente que de danser deveria ser maculino, enquanto o Google Tradutor não. Todavia, ambos os sistemas traduziram incorretamente de dirigente.

Referências

Savoldi, B., Gaido, M., Bentivogli, L., Negri, M. and Turchi, M., 2021. Gender bias in machine translation. Transactions of the Association for Computational Linguistics, 9, 845-874.

Segurança, privacidade e plágio

Estes conteúdos estão também disponíveis em texto simples, infográfico e formato animado.

Segurança e privacidade de dados - devo preocupar-me?

A utilização de motores de tradução automática aumentou drasticamente nos últimos anos, reduzindo muitas barreiras linguísticas. Contudo, a literacia digital não acompanhou esta evolução. Isto levanta várias questões, tais como: Quem é o proprietário dos dados traduzidos automaticamente? Como podemos utilizar a tradução automática para melhorar o acesso a bens e serviços? Quem utiliza a tradução automática? E em que contextos? De que devemos estar cientes ao utilizarmos páginas Web, apps e plugins de tradução automática?

Para abordar estas questões, comecemos por discutir um dos principais benefícios trazidos pelo crescimento da tradução automática: existem muitos mais serviços de cuidados de saúde acessíveis prestados a refugiados, migrantes e outros falantes não nativos. Embora a TA permita que mais pessoas obtenham a assistência médica de que necessitam, existem importantes implicações ao utilizar-se a tradução automática no contexto da prestação de cuidados de saúde.

Em primeiro lugar, pode haver o perigo de interpretação incorreta tanto por parte do médico como do doente. O médico toma decisões e faz diagnósticos com base em informações traduzidas automaticamente e o doente tem de compreender esse aconselhamento médico para o poder seguir. Se houver uma tradução incorreta, as consequências para a saúde de uma pessoa podem ser graves. Por esse motivo, é importante formar tanto os médicos como os doentes para utilizarem eficazmente a tradução automática.
Em segundo lugar, surge a questão da segurança e privacidade dos dados. Imagine que recebeu uma carta do seu médico numa língua que não consegue ler ou que não domina totalmente. Tira uma fotografia ao documento com o seu telemóvel e gera automaticamente uma tradução. Contudo, a página contém um número de identificação pessoal, juntamente com informações pormenorizadas sobre o seu historial clínico. Estas informações passam a ser propriedade da empresa que oferece o motor de tradução automática.

É claro que estas questões não se restringem a contextos de prestação de cuidados de saúde. Quando apaga uma tradução ou fecha o navegador da Internet, o conteúdo da tradução não desaparece como por magia. Ele fica armazenado na empresa que oferece o motor de tradução automática que utilizou. Isto significa que quaisquer dados sensíveis, privados, confidenciais ou protegidos por direitos de autor, uma vez traduzidos, passam a ser propriedade da empresa e podem ser partilhados com terceiros. A forma como as empresas utilizam os seus dados costuma estar descrita nas letras pequenas que não lemos quando aceitamos o acordo de utilizador. Os seus dados podem igualmente estar sujeitos a fugas de dados, dado que a maioria é habitualmente armazenada na nuvem.

Os serviços gratuitos de Tradução Automática não são efetivamente gratuitos. Paga com os seus dados.

Os termos e condições de muitos serviços gratuitos de tradução, como Google Tradutor, Microsoft Bing, DeepL, Naver Papago e Yandex, incluem afirmações como: “ao utilizar o produto, o utilizador consente que os seus dados sejam usados pelo serviço e por terceiros”. Acontece que muitas pessoas não leem os termos e condições e não percebem o que estão a consentir ao recorrerem a serviços de tradução automática.

Não se esqueça de que os atuais desenvolvimento em software de IA, como o ChatGPT, também se enquadram nesta categoria, pelo que dados pessoais ou sensíveis não devem ser introduzidos.

E quanto ao plágio e à fraude?

O nosso recente inquérito sobre os hábitos e atitudes dos estudantes universitários em relação à tradução automática revelou falta de conhecimento sobre questões de segurança, privacidade ou plágio. Isto dá ênfase à necessidade de melhorar a literacia em tradução automática para avaliar criticamente o valor ou a utilização da tradução automática em diferentes situações.

Na Universidade de Leiden (Países Baixos), o plágio é definido como "a cópia total ou parcial de textos ou declarações de outros autores, incluindo colegas, sem usar aspas e sem reconhecimento preciso da fonte".

No entanto, existem poucas políticas ao nível de universidade, faculdade ou programa sobre a utilização de tradução automática nos cursos universitários, o que aumenta o potencial para plágio entre línguas ou plágio por tradução.

A resposta mais comum dos estudantes a um inquérito da Universidade de Leiden foi a seguinte: a tradução automática é considerada plágio, se não houver referência ao autor original e se for apresentada como uma tradução da própria pessoa. No entanto, não ficou claro se recorrer à tradução automática em si é considerado plágio ou uma violação das diretrizes de integridade académica. Isto deve-se provavelmente à forma como os estudantes decidem utilizar a tradução automática. Por exemplo, mais de metade dos estudantes inquiridos relatou utilizar a TA como um dicionário para definições de palavras isoladas e não para reescrever frases ou parágrafos.

Referências

Dorst, A.G., Valdez, S. & Bouman, H.M.C. (2022), Machine translation in the multilingual classroom: how, when and why do humanities students at a Dutch university use machine translation?, Translation and Translanguaging in Multilingual Contexts, 8(1): 49-66.

Resumo

Depois de ter trabalhado todos os tópicos, deverá agora:

Compreender como se desenvolveu a área da tradução automática.
Compreender o funcionamento da tradução automática e a razão pela qual um motor de tradução automática não é um dicionário.
Compreender as diferenças entre as três principais arquiteturas de tradução automática e como funcionam.
Compreender que, por vezes, precisamos de pós-editar ou pré-editar os nossos textos.
Compreender os riscos e possíveis armadilhas da utilização da tradução automática e saber como os mitigar.

Agradecemos que tenha visitado esta página Web!

Esperamos que a tenha considerado útil e que a partilhe com os seus alunos e colegas.

Se encontrou algum erro ou se tiver perguntas ou comentários, envie um e-mail para Lettie Dorst (a.g.dorst@hum.leidenuniv.nl).

Equipa envolvida no projeto

Os seguintes elementos do corpo docente e estudantes colaboraram neste projeto:

Investigadora principal: Doutora Lettie Dorst

Inquérito sobre literacia em tradução automática: Doutora Lettie Dorst, Doutora Susana Valdez, Heather Bouman

Desenvolvimento dos tópicos e percursos de aprendizagem: Doutora Lettie Dorst, Doutora Susana Valdez, Stijn van der Veen, Maaike Vercouteren, Rosalynn Hoogeveen, Lisanne Noordeloos

Desenvolvimento dos infográficos: Doutora Lettie Dorst, Doutora Susana Valdez, Imogen van den Oord, Olaf Ingels, Louise Kerkmeester, Nina Steenmijn

Desenvolvimento dos vídeos animados: Doutora Lettie Dorst, Doutora Susana Valdez, Ellis Wiersma, Thomas Vorisek, Max van Arnhem

Desenvolvimento da página Web: Doutora Lettie Dorst, Ellis Wiersma

E um agradecimento muito especial a Lynne Bowker por todo o seu apoio!

Projetos relacionados

Machine Translation Literacy – Lynne Bowker

Página Web do projeto Machine Translation Literacy liderado por Lynne Bowker, com Recursos para o Ensino (incluindo infográficos em diferentes línguas), Resultados da Investigação, Notícias e Eventos. Página Web.

Projeto Post-Edit Me – Marie-Aude Lefer

postedit.me é uma app de código aberto desenvolvida pela Louvain School of Translation and Interpreting (LSTI, UCLouvain) para dar apoio à avaliação da qualidade da pós-edição (PE) feita por estudantes. Consiste em duas interfaces: a interface do professor e a interface do estudante. O projeto é financiado pelo UCLouvain Fonds de développement pédagogique (2021-2023). Página Web.

MATEO – Bram Vanroy

MAchine Translation Evaluation Online (MATEO) (avaliação online da tradução automática) é um projeto que visa facilitar a avaliação da tradução automática (TA) através de uma interface de fácil utilização capaz de avaliar traduções automáticas com um conjunto de métricas automáticas. Destina-se tanto a utilizadores experientes como a principiantes que trabalhem com tradução automática (TA), tais como criadores de sistemas de TA, investigadores das Ciências Sociais e Humanas, bem como professores e estudantes de tradução (automática). Página Web.

Literacy in Responsible AI Translation

We exist to ensure

safe acess timely acess accurate information

No matter what language you speak!

Eu utilizo tradução automática?

Embora a qualidade da tradução automática tenha melhorado consideravelmente, a maioria dos resultados da tradução automática ainda contém erros.

É aqui que a pós-edição e a pré-edição entram em cena.

Literacia em Tradução Automática

Pós-edição ligeira versus completa:

Vários aspetos a ter em conta:

Verificou?

Pré-editar o seu texto

A área da tradução automática é muito mais antiga do que provavelmente imagina!

Mas! A tecnologia informática desenvolveu-se rapidamente na década de 80.

Tradução Automática baseada em regras

Tradução automática de base estatística

Tradução automática neuronal

Considerações importantes

Exemplo 1

Exemplo 2

Exemplo de citação no texto: Repare no reconhecimento do serviço de tradução automática DeepL na referência, assim como em que medida foi utilizado.

Existe mesmo preconceito nas nossas máquinas?

Por que razão existe este preconceito na Tradução Automática?

Agora que compreendemos por que razão este preconceito ocorre, como pode cada um ser responsabilizado?

Segurança e privacidade de dados - devo preocupar-me?

E quanto ao plágio e à fraude?

Na Universidade de Leiden (Países Baixos), o plágio é definido como "a cópia total ou parcial de textos ou declarações de outros autores, incluindo colegas, sem usar aspas e sem reconhecimento preciso da fonte".

Depois de ter trabalhado todos os tópicos, deverá agora:

Agradecemos que tenha visitado esta página Web!

Machine Translation Literacy – Lynne Bowker

Projeto Post-Edit Me – Marie-Aude Lefer

MATEO – Bram Vanroy

Literacy in Responsible AI Translation

We exist to ensure

safe acess timely acess accurate information

No matter what language you speak!