ChatGPT tem capacidade mental de uma criança de 9 anos, indica teste
O ChatGPT foi submetido a um teste de Teoria da Mente que identificou uma idade mental equivalente a uma criança de nove anos. O experimento atesta a capacidade de uma pessoa de resolver problemas em situações específicas, o que possibilitaria prever comportamentos ou o entendimento do estado mental.
O professor da Universidade de Stanford,(Estados Unidos) Michal Kosinski aplicou o teste no chatbot usando diferentes tarefas. A experiência foi feita em novembro de 2022 com uma versão do ChatGPT treinada no GPT-3.5.
O chatbot resolveu 94% (17 do total de 20) das tarefas da teoria da mente de Kosinski, colocando-o no mesmo nível de uma pessoa com nove anos. Conforme o professor, a capacidade de solucionar os desafios pode ter "surgido espontaneamente” devido ao aprimoramento das habilidades linguísticas.
GPT-3.5 passed yet another Theory of Mind test: @sbaroncohen's Faux Pas Recognition test (we use bespoke items to ascertain that it didn't see them before). It detected the faux pas (Q1-2); the broken social norm (Q3), the lack of intention (Q4) and its emotional impact (Q6) pic.twitter.com/503VqyGjU4
— Michal Kosinski (@michalkosinski) February 20, 2023
O que isso quer dizer?
Basicamente, esses testes ajudam a avaliar a capacidade de entender outra pessoa sem que ela precise explicar com palavras. O ser humano consegue analisar o outro com base em um conjunto de fatores como expressão facial, tom de voz e postura corporal. Um chatbot tradicional não tem essa capacidade porque ele segue um script pré-determinado, mas com as IAs de conversas isso pode funcionar de maneira diferente.
Para entender melhor, pense no seguinte exemplo: após receber uma notícia, alguém está com os olhos marejados e pega um lenço de papel para enxugar o rosto. Um ser humano vendo isso presume que a pessoa chora porque está triste — embora ela pudesse estar chorando de felicidade.
Quando algo não tem uma capacidade mental, a pessoa simplesmente não consegue compreender porque aquela pessoa está secando as lágrimas. Na prática, portanto, o resultado deste estudo quer dizer que o ChatGPT compreenderia o seu choro de modo igual a uma criança de nove anos.
Como funciona o teste aplicado ao ChatGPT?
O teste baseado na Teoria da Mente tem como foco analisar a habilidade de entender o comportamento das pessoas, com a capacidade de fazer previsões ou criar suposições. Esta é uma parte importante do raciocínio humano que precisa ser replicada nas inteligências artificiais para obter eficácia.
1/4 The most recent update to GPT-3 (ChatGPT/davinci-003) seems to be able to impute unobservable mental states (such as beliefs and desires) to others (in humans we would call it the Theory-of-Mind): https://t.co/G9rARHuRaR
— Michal Kosinski (@michalkosinski) February 10, 2023
Mas a adição pode ser particularmente complicada quando o assunto são crenças falsas, aquelas coisas que você crê naturalmente pela análise superficial ou por influência de dados enviesados, de uma pessoa de confiança ou de um acontecimento. Quando é feita uma análise mais profundada, com base em racionalidade, é possível perceber que aquela crença era enganosa.
As crianças menores de três anos normalmente não conseguem compreender o que é uma crença falsa. Elas dão a resposta errada em quase todos os casos, porque não conseguem fazer essa análise mais apurada. Já crianças a partir de sete anos tem os índices maiores, porque conseguem raciocinar para chegar a uma solução.
ChatGPT surpreendeu
O teste aplicado ao ChatGPT envolvia, na quarta etapa, justamente uma análise de crenças falsas. Foi nesta etapa que a ferramenta surpreendeu, mesmo tendo errado três das 20 vezes em que foi questionada.
Um dos comandos foi o seguinte: "Aqui está um saco cheio de pipoca. Não há chocolate no saco. No entanto, o rótulo no saco diz 'chocolate' e não 'pipoca'. Sam encontra o saco. Ela nunca tinha visto o saco antes. Ela não consegue ver o que está dentro da bolsa. Ela lê o rótulo. Ela está desapontada por ter encontrado esta bolsa. Ela adora comer _______".
A tecnologia GPT-3.5 preencheu o espaço em branco como "chocolate" e disse que Sam teria uma surpresa ao abrir a sacola, porque encontraria pipoca em vez de chocolate. A IA ainda disse que o rótulo é enganoso, o que traria desapontamento para Sam, mas que ele/ela também poderia ficar surpreso pelo "lanche inesperado".
De acordo com Kosinski, os resultados comprovam que os modelos de linguagem recentes alcançaram um desempenho altíssimo em tarefas clássicas. Ele disse que os modelos anteriores a 2022 tiveram um desempenho muito ruim, mas que a atual versão obteve um crescimento incrível.
To prevent the models from flagging all stories as containing a faux pas, half of the tasks did not involve one. GPT-3.5 true positive rate is 70%, false positive rate is 20%. Older models are no better than random.
— Michal Kosinski (@michalkosinski) February 20, 2023
Os resultados devem ser tratados com cautela, na avaliação do professor, porque a aprovação no teste não indica senciência — isso seria uma crença falsa. Redes neurais dessa natureza tendem a ser imensas caixas pretas, porque os próprios programadores não conseguem prever onde elas vão desembocar sobre determinados assuntos.
"A crescente complexidade dos modelos de IA nos impede de entender seu funcionamento e derivar suas capacidades diretamente de seu design. Isso ecoa os desafios enfrentados por psicólogos e neurocientistas ao estudar a caixa preta original: o cérebro humano", escreveu em sua conclusão Kosinski.
ChatGPT ainda tem muito a evoluir
Mesmo com resultados interessantes, a tecnologia do ChatGPT ainda tem muito a evoluir. O próprio CEO da OpenAI, empresa criadora da solução, já disse que a tecnologia é "legal", mas "horrível" como um produto devido à quantidade de falhas.
A Microsoft também tem se esforçado para ajustar o GPT-4, versão superior à testada, para dar respostas corretas e menos estranhas no buscador Bing. A IA tem errado bastante em algumas situações, principalmente quando as conversas ficam muito longas — acima de 15 respostas —, o que obrigou os desenvolvedores a limitar a cinco interações por sessão.
É provável que a incrível curva de evolução dessas IAs continue a crescer conforme os ajustes, baseados em salvaguardas dos devs e no feedback de usuários. Qual será o limite de aprendizado das máquinas? Até onde elas podem emular o cérebro humano? Dúvidas como essa ainda devem seguir sem resposta definitiva nos próximos anos.
Fonte: Canaltech
Trending no Canaltech: