O texto seguinte servirá de base para responder à questão.
O plágio encoberto em textos do ChatGPT
Pesquisadores da Universidade do Estado da Pensilvânia (Penn State), nos Estados Unidos, investigaram até que ponto modelos de linguagem natural como o ChatGPT, que usam inteligência artificial para formular uma prosa realista e articulada em resposta a perguntas de usuários, conseguem gerar conteúdo que não se caracterize como plágio. Isso porque esses sistemas processam, memorizam e reproduzem informações preexistentes, baseadas em gigantescos volumes de dados disponíveis na internet, tais como livros, artigos científicos, páginas da Wikipédia e notícias.
O grupo analisou 210 mil textos gerados pelo programa GPT-2, da startup OpenAI, criadora do ChatGPT, em busca de indícios de três diferentes tipos de plágio: a transcrição literal, obtida copiando e colando trechos; a paráfrase, que troca palavras por sinônimos a fim de obter resultados ligeiramente diferentes; e o uso de uma ideia elaborada por outra pessoa sem mencionar sua autoria, mesmo que formulada de maneira diferente.
A conclusão do estudo foi de que todos os três tipos de cópia estão presentes. E, quanto maior é o conjunto de parâmetros usados para treinar os modelos, mais frequentemente a má conduta foi registrada. A análise utilizou dois tipos de modelos - os pré-treinados, baseados em um amplo espectro de dados, e os de ajuste fino, aprimorados pela equipe da PennState, a fim de concentrar e refinar a análise em um conjunto menor de documentos científicos e jurídicos, artigos acadêmicos relacionados à Covid-19 e solicitações de patentes. A escolha desse tipo de conteúdo não foi ocasional - nesses textos, a prática de plágio é considerada muito problemática e não costuma ser tolerada.
No material gerado pelos pré-treinados, a ocorrência mais prevalente foi de transcrições literais, enquanto nos de ajuste fino eram mais comuns paráfrases e apropriação de ideias sem referência à fonte. "Constatamos que o plágio aparece com diferentes sabores", disse um dos autores do trabalho, Dongwon Lee, cientista da computação da Faculdade de Tecnologia e Ciências da Informação da Penn State, de acordo com o serviço de notícias Eurekalert. Os achados serão divulgados com mais detalhes na Web Conference, um evento da ACM que acontece entre 30 de abril e 4 de maio na cidade de Austin, nos Estados Unidos.
O ChatGPT é um entre vários sistemas baseados em inteligência artificial e ganhou grande notoriedade porque foi disponibilizado para uso público. Desde novembro, já foi testado por mais de 100 milhões de pessoas e impressionou por sua capacidade de gerar textos coerentes que mimetizam a escrita dos seres humanos. Uma das polêmicas que levantou envolveu justamente a originalidade de suas respostas e o receio de que se transforme em uma fonte de má conduta acadêmica.
"As pessoas perseguem grandes modelos de linguagem porque, quanto maior um modelo fica, mais suas habilidades aumentam", disse o autor principal do trabalho, Jooyoung Lee, estudante de doutorado na Faculdade de Ciências e Tecnologia da Informação da Penn State. Ferramentas de escrita de inteligência artificial conseguem criar respostas únicas e individualizadas a perguntas apresentadas por usuários, mesmo extraindo as informações de um banco de dados. Essa habilidade, contudo, não livra a ferramenta de ser uma fonte de plágio, mesmo em formatos mais difíceis de detectar. "Ensinamos os modelos a imitar a escrita humana, mas não os ensinamos a não plagiar", afirmou Lee.
Várias ferramentas estão sendo desenvolvidas para detectar conteúdo gerado por softwares de inteligência artificial. A própria OpenAI desenvolveu um programa capaz de apontar textos feitos por robôs. Há outras do gênero na internet, como o Writer AI Content Detector e o Content at Scale. Como os sistemas de linguagem natural estão em desenvolvimento, também será necessário atualizar continuamente a tecnologia para rastrear sua produção.
Uma equipe da Escola de Engenharias e Ciências Aplicadas da mesma PennState mostrou que é possível treinar as pessoas para identificar esses textos, sem precisar depender exclusivamente de programas detectores. Apresentado em fevereiro em um congresso da Associação para o Avanço da Inteligência Artificial realizado em Washington, Estados Unidos, o estudo, liderado pelo cientista da computação Chris Callison-Burch, mostrou que essas ferramentas já são muito eficientes em produzir prosa fluente e seguir as regras gramaticais. "Mas eles cometem tipos distintos de erros que podemos aprender a identificar", disse ao blog Penn Engineering Today o cientista da computação Liam Dugan, aluno de doutorado da Penn State e um dos autores do artigo.
Retirado e adaptado de: MARQUES, Fabrício. O plágio encoberto em textos do ChatGPT. Revista Pesquisa FAPESP. Disponível em: gpt/ s://revistapesquisa.fapesp.br/o-plagio-encoberto-em-textos-do-chatgpt/ Acesso em: 13 mar.,2023.