Este módulo online foi desenvolvido por Lettie Dorst (a.g.dorst@hum.leidenuniv.nl) como parte do projeto NRO Comenius Senior Fellow “O Valor da Tradução Automática na Comunidade Académica Multilíngue” (https://www.nwo.nl/projecten/40520865446-0). O objetivo é fornecer tanto a estudantes como a professores informações úteis e materiais para aumentar o conhecimento sobre tradução automática e desenvolver “literacia em tradução automática”, permitindo-nos utilizar esta tecnologia de forma mais eficaz, segura e responsável na nossa comunidade académica, cada vez mais multilíngue e multicultural.
A resposta é, provavelmente, “sim”. Para muitos de nós, utilizar programas de tradução automática, como o Google Tradutor, o Microsoft Bing ou o DeepL Tradutor, tornou-se parte das nossas rotinas diárias. É possível que também tenha utilizado a função de tradução automática em plataformas de redes sociais como o Facebook ou o Twitter. Ou talvez tenha permitido que um plugin no seu navegador traduzisse automaticamente uma página Web quando clicou numa ligação e descobriu que a página estava numa língua que não conhecia.
Chama-se tradução automática quando um computador ou aplicação móvel traduz automaticamente um texto de uma língua para outra sem qualquer supervisão ou interferência humana. A si, cabe-lhe copiar e colar o texto na aplicação, ou utilizar o leitor ótico no seu telemóvel, e carregar em Enter. A máquina faz a sua magia e, em segundos, obtém uma tradução.
A página Web do Google Tradutor está disponível em 109 línguas e processa mais de 100 mil milhões de palavras todos os dias.
Sem entrar em demasiados pormenores técnicos, podemos distinguir quatro tipos de tradução automática (abreviada como TA). Os primeiros sistemas, desenvolvidos logo após a Segunda Guerra Mundial, eram baseados em regras (daí a designação Rule-Based Machine Translation) e recorriam à combinação de um dicionário bilingue com muitas regras gramaticais. A partir dos anos 80, os programadores começaram a utilizar grandes corpora para que o computador procurasse exemplos em textos previamente traduzidos, o que deu origem à tradução automática baseada em exemplos (Example-Based Machine Translation), e também modelos estatísticos capazes de prever a tradução correta com base em enormes conjuntos de dados, o que constitui a tradução automática de base estatística (Statistical Machine Translation). Todavia, desde 2015, a maioria dos sistemas utiliza redes neuronais artificiais para produzir traduções, daí designar-se por tradução automática neuronal (Neural Machine Translation). Graças à inteligência artificial e a um processo chamado aprendizagem profunda (deep learning), a TAN continua a aprender e a treinar-se a si mesma, melhorando a cada tradução que produz. Enquanto os resultados da TABR eram previsíveis e os erros podiam ser corrigidos ajustando as regras, a TAN é, simplesmente, uma espécie de “caixa negra”. Se utilizar um sistema de TAN como o Google Tradutor para traduzir a mesma frase em três dias diferentes, é muito provável que obtenha três traduções diferentes.
Recorrer à tradução automática não está isento de riscos. A maioria das traduções automáticas ainda apresenta erros e necessita de um humano para os corrigir, num processo chamado pós-edição. É claro que não precisamos de pós-edição se estivermos simplesmente a traduzir uma ementa durante as férias em França ou se quisermos saber o significado de uma canção espanhola que passa na rádio, mas, em muitos casos, precisamos de estar cientes de que a tradução pode apresentar erros. É necessário ter muito cuidado com dados pessoais, sensíveis ou confidenciais.
Na verdade, atualmente, a maioria das traduções automáticas é ilusoriamente boa. A tradução é tão fluida e idiomática que se torna difícil perceber se há erros de conteúdo, omissões indesejadas ou acrescentos. E, normalmente, não podemos consultar o texto original para confirmar se é este o caso!
Daí o propósito desta página: o objetivo é ajudar a melhorar a literacia digital na utilização de software de tradução automática.
A professora Lynne Bowker (Universidade de Ottawa, Canadá) tem sido a principal investigadora no movimento Machine Translation Literacy (Literacia em Tradução Automática). Desenvolveu vários infográficos sobre temas centrais da Literacia em Tradução Automática, que se encontram na sua página Web, na secção Recursos de Ensino.
Embora a tecnologia de tradução automática tenha melhorado significativamente nos últimos anos, não é perfeita e pode cometer erros. É aqui que entra a pós-edição: o processo de verificação e correção da tradução gerada por um motor de tradução automática antes de esta ser utilizada. A pós-edição é, normalmente, efetuada por um tradutor ou linguista profissional, mas os estudantes também podem querer pós-editar as suas traduções automáticas antes de as utilizarem, por exemplo, na redação de um trabalho ou dissertação.
A pós-edição de textos traduzidos automaticamente nem sempre é necessária, especialmente quando se utiliza a tradução apenas para compreensão algo e não se pretende utilizá-la ou publicá-la. No entanto, quando o objetivo é utilizar o texto num contexto profissional, por exemplo, numa página Web, num rótulo de produto, num folheto ou num artigo académico, é essencial que o texto seja preciso em termos de conteúdo e aceitável em termos de uso da língua. Ou seja, pretende-se uma qualidade publicável semelhante à humana.
Para textos que pretende utilizar só informalmente, quando quer apenas saber o que um texto diz ou quando não há tempo para aperfeiçoar o resultado final, a pós-edição ligeira pode ser uma solução útil. Durante a pós-edição ligeira, verificam-se erros graves, como acrescentos ou omissões incorretas ou traduções manifestamente erradas, e edita-se qualquer conteúdo obviamente ofensivo, inadequado ou culturalmente inaceitável. Como o texto servirá apenas para a sua compreensão, pode optar por ignorar erros de ortografia, gramática e pontuação, embora isso possa ser difícil!
Se pretender uma qualidade publicável, então é necessária uma pós-edição completa. Atenção que isto pode implicar conhecimentos especializados (por exemplo, para verificar se a terminologia médica ou jurídica está correta), bem como competências linguísticas avançadas (para identificar e corrigir erros) e conhecimentos culturais suficientes. Durante uma pós-edição completa, o objetivo é obter uma tradução gramática, sintática, semântica e estilisticamente correta. Verifica-se se não há informações acrescentadas ou omitidas por acidente, se não existem conteúdos ofensivos, inadequados ou culturalmente inaceitáveis e garante-se também que a terminologia é utilizada correta e consistentemente, que o texto não apresenta erros linguísticos e que a formatação está correta.
É por isso que as empresas costumam contratar tradutores ou linguistas para efetuarem a pós-edição; a pós-edição está longe de ser um processo simples ou fácil!
Outra forma de melhorar a qualidade das suas traduções automáticas é através da pré-edição dos textos que introduz. A pré-edição consiste em melhorar e alterar o seu texto antes de o traduzir automaticamente. Implica tornar o texto mais legível para o motor de tradução automática e prevenir erros comuns. Isto é particularmente relevante quando escreve um texto numa língua e o traduz para várias outras línguas. Lynne Bowker e Jairo Buitrago Ciro (2019) apresentam as seguintes 10 diretrizes para uma escrita que facilite a tradução:
Referências sobre pós-edição
Lee, J., & Liao, P. (2011). A Comparative Study of Human Translation and Machine Translation with Post-editing. Compilation and Translation Review, 4(2), 105–149.
Massardo, I., van der Meer, J., O’Brien, S., Hollowood, F., Aranberri, N., & Drescher, K. (2016). MT Post-Editing Guidelines. TAUS Signature Editions.
Savoldi, B., Gaido, M., Bentivogli, L., Negri, M., & Turchi, M. (2021). Gender Bias in Machine Translation. Transactions of the Association for Computational Linguistics, 9, 845–874. https://doi.org/10.1162/tacl_a_00401
Zaretskaya, A. (2017). Machine Translation Post-Editing at TransPerfect – the ‘Human’ Side of the Process. Revista Tradumàtica, 15, 116–123. https://doi.org/10.5565/rev/tradumatica.201
Se quiser ler mais sobre pré-edição:
Bernth, A., & Gdaniec, C. (2001). MTranslatability. Machine Translation, 16, 175– 218. https://doi-org.ezproxy.leidenuniv.nl/10.1023/A:1019867030786
Bowker, L., & Ciro, J. B. (2019). Machine Translation and Global Research: Towards Improved Machine Translation Literacy in the Scholarly Community, 64–70. Emerald Publishing Limited. https://doi.org/10.1108/978-1-78756-721- 420191005
Matsui, J., & Magnusson, D. (2011). Six Pre-edit Techniques for Enhancing Japanese to English Machine Translations. Interpreting and Translation Studies: The Journal of the Japan Association for Interpreting and Translation Studies. 11, 173–184. https://doi.org/10.50837/its.1113
A tecnologia remonta à Segunda Guerra Mundial e à era da criptografia. O exército alemão tinha a Enigma, uma máquina utilizada para enviar mensagens encriptadas. Durante muito tempo, acreditou-se que este código era indecifrável, até que Alan Turing e outros criptógrafos em Bletchley Park construíram outra máquina e resolveram o enigma.
Ainda que esta história tenha dado origem a empolgantes filmes e programas de televisão, é importante perceber que, naquela época, os computadores não eram em nada semelhantes aos que temos hoje e não havia Internet. A tecnologia ainda estava em fase de desenvolvimento. No entanto, Warren Weaver, um matemático americano, já vislumbrava o potencial das traduções automáticas. Escreveu um memorando no qual argumentava que a tradução poderia ser algo semelhante a decifrar código, visto que uma mensagem na língua A tem de ser primeiro codificada numa língua de transferência e, depois, descodificada na língua B.
O memorando de Weaver incentivou muita investigação sobre a primeira geração de sistemas de tradução automática, especialmente por parte dos governos americano e russo. Na altura, ambos travavam a Guerra Fria e necessitavam desesperadamente de traduzir mensagens inimigas sem depender de um tradutor humano que poderia muito bem ser um espião ou um agente duplo.
O Massachusetts Institute of Technology (MIT) contratou o primeiro investigador de TA a tempo inteiro, Yehoshua Bar-Hillel, que organizou a primeira conferência internacional sobre TA em 1952 e liderou a experiência Georgetown-IBM em 1954. Este sistema experimental de TA do russo para o inglês conseguiu traduzir 60 frases durante uma demonstração. Embora o sucesso deste primeiro sistema baseado em regras tenha sido, na verdade, bastante limitado, gerou grande atenção mediática e atraiu enorme financiamento. Acreditava-se, então, que a tradução automática de elevada qualidade seria, em breve, uma realidade.
Infelizmente, tal não aconteceu, uma vez que os sistemas baseados em regras não serviam para traduzir nada além de frases altamente controladas e sem ambiguidades. Em 1966, o Automatic Language Processing Advisory Committee (ALPAC) avaliou o estado da investigação em TA. Concluíram que a TA era demasiado lenta, demasiado cara e de qualidade insuficiente. Propuseram concentrar os esforços no desenvolvimento de ferramentas que apoiassem tradutores humanos, como bases terminológicas e memórias de tradução, em vez de continuar a insistir na tradução completamente automatizada. Em resultado disso, grande parte do financiamento foi cortado e pouco ou nada se fez na área da investigação em TA durante muito tempo.
Os computadores passaram a ser muito mais pequenos, muito mais rápidos e muito mais potentes. Além disso, a Internet e a World Wide Web estavam a tornar-se cada vez mais populares. Assim, os engenheiros de TA começaram a pensar na tradução automática de uma forma diferente e decidiram que não deveriam tentar fazer com que as máquinas traduzissem como os humanos, mas deveriam, sim, tentar fazer com que elas fizessem aquilo em que são boas: identificar padrões e efetuar cálculos.
Isto levou ao desenvolvimento dos primeiros sistemas de tradução automática de base estatística, que utilizavam grandes corpora paralelos eletrónicos como dados de treino. Em vez de usar vocabulários e regras gramaticais, o sistema assentava na estatística para prever a tradução certa. Os resultados destes sistemas de TAE eram muito melhores do que os dos sistemas mais antigos, baseados em regras, porque:
a) os computadores são extremamente eficazes no reconhecimento de padrões e a efetuar cálculos; e
b) agora tinham acesso a uma grande quantidade de dados, graças aos corpora eletrónicos e à Internet.
Consequentemente, esta área encontrou novo fôlego e captou novo financiamento. A corrida pelos sistemas totalmente automáticos voltava a ganhar vida.
Os sistemas de TAE mantiveram-se dominantes desde meados dos anos 90 até ao lançamento do sistema de TA neuronal do Google Tradutor, em 2016, o que alterou por completo este setor. De repente, qualquer pessoa, em qualquer lugar, tinha acesso gratuito e ilimitado a traduções automáticas de elevada qualidade entre mais de 150 línguas. A mudança dos sistemas de base estatística para os sistemas neuronais representou um grande avanço em termos de qualidade. Na verdade, a qualidade dos sistemas de tradução automática neuronal atuais é ilusoriamente boa e muitos utilizadores informais podem até pensar que o resultado é quase perfeito. Tornou-se muito mais difícil detetar erros e os sistemas de TAN são muito menos previsíveis. Isto deu origem ao movimento Machine Translation Literacy (Literacia em Tradução Automática), no qual se integram os nossos vídeos, infográficos e página Web. Utilizar sistemas de TAN gratuitos online é fácil, mas saber como utilizar estes sistemas de forma eficaz e ética não é.
Se quiser saber mais, recomendamos vivamente o capítulo de Lynne Bowker sobre Tradução Automática no seu mais recente livro “De-mystifying Translation”, que pode descarregar gratuitamente aqui.
Na introdução, mencionámos brevemente os principais tipos de tradução automática. Aqui, vamos explorar três tipos de arquiteturas de tradução automática: baseada em regras, de base estatística e neuronal.
As arquiteturas de tradução automática baseada em regras (TABR) foram as primeiros a ser desenvolvidas. Recorriam a uma forma simples de procurar e substituir. Primeiro, cada palavra numa frase era traduzida recorrendo a um grande dicionário. Depois, a tradução era ajustada aplicando longas listas de regras gramaticais específicas para cada par de línguas. Graças a estas regras gramaticais, as palavras eram colocadas na ordem correta, as formas verbais eram corrigidas quanto ao tempo e ao modo e os nomes eram corrigidos relativamente ao género e número, entre outros exemplos.
Na TABR, é necessário criar uma nova regra para cada diferença entre duas línguas e para cada par linguístico. Uma vantagem importante deste sistema é oferecer maior controlo do processo de tradução. Se houver um erro, é relativamente fácil diagnosticar e ajustar as regras. No entanto, escrever estas regras requer um vasto conhecimento linguístico e pode ser muito dispendioso em termos de tempo e recursos humanos. Além disso, estes sistemas baseados em regras têm dificuldade em lidar com ambiguidades ou significados não literais, como acontece com homónimos ou expressões idiomáticas.
À medida que os computadores iam ficando mais potentes, nas décadas de 1980 e 1990, a tradução automática de base estatística (TAE) tornou-se o novo padrão na tradução automática. Estes sistemas baseiam-se na ideia de que os computadores são eficientes no processamento de grandes volumes de dados e na realização de cálculos rápidos, logo a tecnologia da tradução devia explorar essas vantagens.
A TAE utiliza grandes coleções eletrónicas de textos, chamadas corpora, como dados de treino, para encontrar padrões e calcular a probabilidade de uma determinada tradução estar correta. A tradução automática de base estatística resultou em muito melhores traduções muito melhores, especialmente nas línguas com grandes volumes de dados disponíveis.
Por fim, a tradução automática neuronal (TAN) utiliza redes neurais artificiais e espaços vetoriais para prever a tradução correta. Em 2016, o Google Tradutor passou da tradução automática de base estatística à tradução automática neuronal, oferecendo ao mundo acesso gratuito a traduções de elevada qualidade em muitas línguas. Os sistemas neuronais rapidamente ultrapassaram os sistemas de base estatística, tornando-se a norma na maioria dos serviços atuais, seja como sistemas puramente neuronais ou como sistemas híbridos, que combinam as forças dos métodos neuronais e de base estatística.
Graças à aprendizagem profunda (deep learning), a TAN aprende com cada novo exemplo traduzido, e não apenas com os dados de treino. As arquiteturas TAN colocam cada palavra num espaço vetorial, um espaço multidimensional no qual as palavras fortemente relacionadas aparecem juntas e as palavras não relacionadas aparecem afastadas. É por este motivo que os sistemas neuronais precisam das palavras no contexto de uma frase para calcular a distância entre elas e determinar qual é o significado e, consequentemente, a tradução correta.



Embora a TAN funcione muito bem, é uma espécie de “caixa negra”, o que significa que não compreendemos todos os mecanismos internos que geram o resultado. Traduzir a mesma frase em dias diferentes pode produzir resultados diferentes sem motivo aparente e os sistemas neuronais são conhecidos por, ocasionalmente, gerarem resultados fluentes, mas incorretos, bem como “alucinações” – traduções completamente afastadas do texto original.
Em relação tanto à TABE como à TAN, é importante perceber que o sistema funciona com base em estatística e algoritmos e não compreende o significado das palavras ou do texto como um ser humano. O sistema não tem conhecimento do mundo e não reconhece diferenças culturais, humor ou tabu. Calcula a probabilidade de a palavra A ser seguida pela palavra B e não pela C, mas não tem em consideração se isso faz sentido ou é apropriado. É por este motivo que, em contextos profissionais, as traduções automáticas são normalmente verificadas e corrigidas por pós-editores humanos antes de serem utilizadas.
Os estudantes utilizam frequentemente a tradução automática para traduzir palavras isoladas, expressões idiomáticas ou frases, procurar sinónimos ou verificar o significado ou a ortografia de uma palavra desconhecida (Dorst et al., 2022).
Mas será que esta é realmente a forma correta de utilizar a tradução automática? Agora que temos alguma noção de como funciona a tradução automática, vejamos alguns exemplos práticos.
Comecemos por traduzir a seguinte frase de inglês para francês.
Se fizermos a retroversão para inglês, obtemos:
Para um motor de TA, avocado (abacate) faz tanto sentido quanto lawyer (advogado) porque não faz ideia do que são abacates e advogados. Isto demonstra que a TA não tem conhecimento do mundo real, da comunicação humana nem do contexto. Não lê nem compreende os textos, mas calcula distâncias entre palavras em redes neurais e espaços vetoriais. Calcula a probabilidade de uma palavra seguir outra e de palavras serem utilizadas em conjunto. Por conseguinte, precisa de outras palavras para determinar se falamos de um advogado ou de um abacate.
Neste caso, indicámos uma frase inteira, mas a frase era ambígua em termos de contexto. Nada nela indicava ao motor de TA se falávamos da fruta ou da pessoa. Logo, é importante que o resto da frase fale de saladas e tomates ou de crimes e tribunais. Desse modo, pode determinar, com base nas restantes palavras da frase, se a palavra correta é ‘abacate’ ou ‘advogado’.
Com mais contexto, a retroversão de francês para inglês atribuirá corretamente ‘abacate’ em vez de ‘advogado’.
Quando se leem textos especializados, mesmo as palavras mais simples podem ser difíceis de traduzir. O texto seguinte, um excerto sobre endocardite (uma doença cardíaca), ilustra bem esta situação. No texto em neerlandês, a palavra “klachten” normalmente traduz-se por “complaint” em inglês. No entanto, num contexto clínico, esta não é a tradução que procuramos. Precisamos da palavra “sintoma”. Mas o motor de TA optou por “queixa” em todos os casos.
Aqui, fica claro que, em alguns casos, é necessário consultar um dicionário a sério (monolingue ou bilingue), que ofereça diferentes definições e exemplos contextualizados do uso das palavras.
Por exemplo, no principal dicionário inglês-neerlandês, o dicionário Van Dale, o dicionário apresenta vários contextos diferentes com frases a exemplificar que ilustram como cada palavra é usada.
Quando estiver a ler um texto com MT, em vez de o escrever, normalmente não tem controlo sobre a formulação das frases nem sobre quão explícito é o contexto para indicar ao motor que significado da palavra é preciso. É por isso que os resultados da TA costumam ser corrigidos por um profissional humano, num processo chamado pós-edição, antes de o texto ser efetivamente utilizado.
Em suma, é importante perceber que, por vezes, a melhor opção é consultar um dicionário a sério. O Google Tradutor e outros serviços de tradução automática não são dicionários, pois não apresentam diferentes definições ou significados de uma palavra em diferentes contextos nem ilustram como palavras em particular são utilizadas em áreas diferentes.
Referências
Dorst, A.G., Valdez, S. & Bouman, H.M.C. (2022). Machine translation in the multilingual classroom: How, when and why do humanities students at a Dutch university use machine translation? Translation and Translanguaging in Multilingual Contexts, 8(1): 49–66.
Um agradecimento especial a Lynne Bowker pelo exemplo abacate-advogado.
A tradução automática tem permitido que as pessoas interajam com informações que antes não estavam ao seu alcance devido a uma mera barreira linguística. Existem muitas situações nas quais, enquanto estudante, poderá recorrer à tradução automática, seja para ler artigos ou manuais que não estejam numa língua que domine, seja para fins de estudo ou elaboração de dissertações. No entanto, é importante saber como ler e citar fontes ao utilizar serviços de tradução automática.
Vamos imaginar que encontrou um artigo académico que parece ser relevante para a sua dissertação:
Em primeiro lugar, não avance logo para o texto completo. Comece pelo resumo. Verifique se o autor disponibilizou uma tradução do resumo. Se esta não estiver disponível acima ou abaixo do resumo no texto original, procure no perfil do autor em ResearchGate ou em Academia.edu. O autor pode também ter uma página institucional ou uma página Web pessoal.
Se não encontrar uma tradução disponibilizada pelo autor, copie e cole o resumo numa das muitas páginas Web públicas de tradução automática e traduza-o para inglês. Faça-o mesmo que o inglês não seja a sua língua de chegada de eleição. É preferível traduzir da língua de partida para inglês e, em seguida, de inglês para a sua língua de chegada do que traduzir diretamente da língua de partida para a de chegada.
Não se esqueça de que não precisa que a tradução seja perfeita nesta fase! Está a ler o resumo para decidir se quer ler o artigo completo. Se decidir que este é um artigo relevante e pretender ler o texto completo, traduza a totalidade do artigo recorrendo a um navegador com funcionalidade de tradução automática. Estes navegadores podem ser facilmente instalados, caso ainda não tenha um.
Para traduzir citações que pretende usar no seu trabalho, como citações diretas, selecione o excerto e traduza frase a frase. A tradução de frases individuais produz resultados de melhor qualidade do que a tradução de parágrafos inteiros. Utilize a lista suspensa dos serviços de tradução automática para selecionar sinónimos mais adequados e para esclarecer o significado de determinadas palavras.
A atribuição e a referenciação adequadas das informações são fundamentais, especialmente no caso de excertos traduzidos por tradução automática. Pondere citar o excerto na língua original e acrescentar a sua tradução editada a seguir ao excerto original.
Se um humano tiver pós-editado o resultado de um motor de tradução automática, significa que a tradução teve o apoio da tradução automática e tal deve ser indicado entre parênteses após a tradução. Por exemplo, pode escrever “tradução nossa com o apoio do Google Tradutor”. No caso de não ter sido feita qualquer pós-edição, indique que a tradução é uma “tradução automática do DeepL”. Inclua o autor, o ano e o número da página do excerto que está a citar diretamente no texto e indique a referência completa na secção da bibliografia. Para além disto, mencione na secção da metodologia que foram utilizados motores de tradução automática para entender o significado geral de um texto e para auxiliar o seu processo de tradução.
Referências
Anđelić. J. T. (2022). Traduire les médias dans une communauté de pratique virtuelle: Expérience du portail francophone le Courrier des Balkans. Journal of Specialised Translation, 37, 55–74.
Corrius, M. & Zabalbeascoa, P. (2019). Translating code-switching on the screen: Spanglish and L3-as-theme. Journal of Audiovisual Translation, 2(2),72–91.
Montalt, V., & Gonzalez-Davies, M. (2014). Medical translation step by step: Learning by drafting. Routledge, 291.
Seria de esperar que o uso das máquinas eliminasse qualquer forma de preconceito consciente ou inconsciente. Infelizmente, não é este o caso e ainda existe um preconceito inerente aos sistemas de tradução automática. Aqui, exploramos o preconceito de género, mas o preconceito na tradução automática não se restringe apenas ao género, aplicando-se, por exemplo, também a questões de raça, religião, etnia ou orientação sexual. Por isso, é importante estar ciente do preconceito inerente aos textos traduzidos por TA.
Para começar, vejamos uma tradução de neerlandês para inglês. O texto neerlandês deveria ser traduzido como “a agricultora está a fazer o seu trabalho” em vez de “a mulher do agricultor está a fazer o seu trabalho”.
O texto neerlandês deveria ser traduzido como “a agricultora está a fazer o seu trabalho” em vez de “a mulher do agricultor está a fazer o seu trabalho”.
O neerlandês tem duas formas: boer, que significa agricultor, e boerin, que se refere a agricultora. O inglês tem apenas uma forma neutra, farmer, pelo que o género do/a agricultor/a tem de ser explicitado ou indicado por um pronome, neste caso “her” (dela). Contudo, os sistemas de tradução automática frequentemente traduzem incorretamente as formas com género, neste caso trocando agricultora por mulher do agricultor.
Problemas semelhantes surgem ao traduzir de uma língua neutra para uma língua com género. Por exemplo, a palavra inglesa nurse (enfermeiro/a) é sempre traduzida para o neerlandês verpleegster, no feminino, mesmo quando é especificado que o enfermeiro é um homem.
Aqui, numa tradução de neerlandês para português, para ambas as pessoas envolvidas o género foi mal interpretado. A frase neerlandesa diz “a maestrina falou com o bailarino”, sendo de dirigente feminino e de danser masculino. No entanto, na tradução para português, maestro é masculino e bailarina é feminino.
Particularmente, tendo em conta que o preconceito em textos que são produto da tradução automática é amplamente introduzido no próprio software de tradução.
Referências
Savoldi, B., Gaido, M., Bentivogli, L., Negri, M. and Turchi, M., 2021. Gender bias in machine translation. Transactions of the Association for Computational Linguistics, 9, 845-874.
A utilização de motores de tradução automática aumentou drasticamente nos últimos anos, reduzindo muitas barreiras linguísticas. Contudo, a literacia digital não acompanhou esta evolução. Isto levanta várias questões, tais como: Quem é o proprietário dos dados traduzidos automaticamente? Como podemos utilizar a tradução automática para melhorar o acesso a bens e serviços? Quem utiliza a tradução automática? E em que contextos? De que devemos estar cientes ao utilizarmos páginas Web, apps e plugins de tradução automática?
Para abordar estas questões, comecemos por discutir um dos principais benefícios trazidos pelo crescimento da tradução automática: existem muitos mais serviços de cuidados de saúde acessíveis prestados a refugiados, migrantes e outros falantes não nativos. Embora a TA permita que mais pessoas obtenham a assistência médica de que necessitam, existem importantes implicações ao utilizar-se a tradução automática no contexto da prestação de cuidados de saúde.
É claro que estas questões não se restringem a contextos de prestação de cuidados de saúde. Quando apaga uma tradução ou fecha o navegador da Internet, o conteúdo da tradução não desaparece como por magia. Ele fica armazenado na empresa que oferece o motor de tradução automática que utilizou. Isto significa que quaisquer dados sensíveis, privados, confidenciais ou protegidos por direitos de autor, uma vez traduzidos, passam a ser propriedade da empresa e podem ser partilhados com terceiros. A forma como as empresas utilizam os seus dados costuma estar descrita nas letras pequenas que não lemos quando aceitamos o acordo de utilizador. Os seus dados podem igualmente estar sujeitos a fugas de dados, dado que a maioria é habitualmente armazenada na nuvem.
Os termos e condições de muitos serviços gratuitos de tradução, como Google Tradutor, Microsoft Bing, DeepL, Naver Papago e Yandex, incluem afirmações como: “ao utilizar o produto, o utilizador consente que os seus dados sejam usados pelo serviço e por terceiros”. Acontece que muitas pessoas não leem os termos e condições e não percebem o que estão a consentir ao recorrerem a serviços de tradução automática.
Não se esqueça de que os atuais desenvolvimento em software de IA, como o ChatGPT, também se enquadram nesta categoria, pelo que dados pessoais ou sensíveis não devem ser introduzidos.
O nosso recente inquérito sobre os hábitos e atitudes dos estudantes universitários em relação à tradução automática revelou falta de conhecimento sobre questões de segurança, privacidade ou plágio. Isto dá ênfase à necessidade de melhorar a literacia em tradução automática para avaliar criticamente o valor ou a utilização da tradução automática em diferentes situações.
No entanto, existem poucas políticas ao nível de universidade, faculdade ou programa sobre a utilização de tradução automática nos cursos universitários, o que aumenta o potencial para plágio entre línguas ou plágio por tradução.
A resposta mais comum dos estudantes a um inquérito da Universidade de Leiden foi a seguinte: a tradução automática é considerada plágio, se não houver referência ao autor original e se for apresentada como uma tradução da própria pessoa. No entanto, não ficou claro se recorrer à tradução automática em si é considerado plágio ou uma violação das diretrizes de integridade académica. Isto deve-se provavelmente à forma como os estudantes decidem utilizar a tradução automática. Por exemplo, mais de metade dos estudantes inquiridos relatou utilizar a TA como um dicionário para definições de palavras isoladas e não para reescrever frases ou parágrafos.
Referências
Dorst, A.G., Valdez, S. & Bouman, H.M.C. (2022), Machine translation in the multilingual classroom: how, when and why do humanities students at a Dutch university use machine translation?, Translation and Translanguaging in Multilingual Contexts, 8(1): 49-66.
Esperamos que a tenha considerado útil e que a partilhe com os seus alunos e colegas.
Se encontrou algum erro ou se tiver perguntas ou comentários, envie um e-mail para Lettie Dorst (a.g.dorst@hum.leidenuniv.nl).
Os seguintes elementos do corpo docente e estudantes colaboraram neste projeto:
Investigadora principal: Doutora Lettie Dorst
Inquérito sobre literacia em tradução automática: Doutora Lettie Dorst, Doutora Susana Valdez, Heather Bouman
Desenvolvimento dos tópicos e percursos de aprendizagem: Doutora Lettie Dorst, Doutora Susana Valdez, Stijn van der Veen, Maaike Vercouteren, Rosalynn Hoogeveen, Lisanne Noordeloos
Desenvolvimento dos infográficos: Doutora Lettie Dorst, Doutora Susana Valdez, Imogen van den Oord, Olaf Ingels, Louise Kerkmeester, Nina Steenmijn
Desenvolvimento dos vídeos animados: Doutora Lettie Dorst, Doutora Susana Valdez, Ellis Wiersma, Thomas Vorisek, Max van Arnhem
Desenvolvimento da página Web: Doutora Lettie Dorst, Ellis Wiersma
E um agradecimento muito especial a Lynne Bowker por todo o seu apoio!
Página Web do projeto Machine Translation Literacy liderado por Lynne Bowker, com Recursos para o Ensino (incluindo infográficos em diferentes línguas), Resultados da Investigação, Notícias e Eventos. Página Web.
postedit.me é uma app de código aberto desenvolvida pela Louvain School of Translation and Interpreting (LSTI, UCLouvain) para dar apoio à avaliação da qualidade da pós-edição (PE) feita por estudantes. Consiste em duas interfaces: a interface do professor e a interface do estudante. O projeto é financiado pelo UCLouvain Fonds de développement pédagogique (2021-2023). Página Web.
MAchine Translation Evaluation Online (MATEO) (avaliação online da tradução automática) é um projeto que visa facilitar a avaliação da tradução automática (TA) através de uma interface de fácil utilização capaz de avaliar traduções automáticas com um conjunto de métricas automáticas. Destina-se tanto a utilizadores experientes como a principiantes que trabalhem com tradução automática (TA), tais como criadores de sistemas de TA, investigadores das Ciências Sociais e Humanas, bem como professores e estudantes de tradução (automática). Página Web.




Literacy in Responsible AI Translation 2024: Todos os direitos reservados