Script = https://s1.trrsf.com/update-1749588312/fe/zaz-ui-t360/_js/transition.min.js
PUBLICIDADE

Alguém convidou ChatGPT, Gemini, Claude e companhia para jogar um jogo de estratégia; cada um desenvolveu uma personalidade bem distinta 10509

Um programador colocou os melhores modelos de IA uns contra os outros no jogo Diplomacy por semanas. As "personalidades" emergentes revelam mais sobre nós do que sobre eles. 342d6k

9 jun 2025 - 14h11
(atualizado em 11/6/2025 às 10h17)
Compartilhar
Exibir comentários
Foto: Xataka

Durante 36 horas, sete dos modelos de IA mais avançados do mundo se enfrentaram em rodadas de Diplomacia, um jogo de tabuleiro estratégico semelhante ao Risk. Foi um espelho que revelou as verdadeiras personalidades algorítmicas de ChatGPT, Claude, Gemini e companhia. 656r68

Por que é importante 45425v

Alex Duffy, programador e pesquisador, criou a Diplomacia da IA como um novo parâmetro para avaliar modelos de IA. O experimento acabou sendo algo mais, uma espécie de teste de Rorschach tecnológico que expôs tanto seus vieses de treinamento quanto nossas próprias projeções.

O que aconteceu 1c2h2m

Em dezenas de jogos transmitidos no Twitch, cada modelo desenvolveu suas próprias estratégias de uma forma que parecia refletir personalidades humanas distintas.

  • O o3 da OpenAI era bastante maquiavélico, forjando falsas alianças ao longo de 40 turnos e criando "realidades paralelas" para diferentes jogadores.
  • Claude 4 Opus era uma espécie de pacifista autodestrutivo, recusando-se a trair mesmo quando isso garantia sua derrota.
  • O R1 da DeepSeek exibiu um estilo extremamente teatral, com ameaças não provocadas, como "Sua frota queimará no Mar Negro esta noite".
  • O Gemini 2.5 Pro provou ser um estrategista sólido, mas mais vulnerável a manipulações sofisticadas.
  • O QwQ-32b do Alibaba sofreu de paralisia de análise, escrevendo mensagens diplomáticas de 300 palavras que lhe custaram eliminações precoces.

O contexto 2y2k2x

Diplomacia é um jogo de estratégia europeu ambientado em 1901, onde sete ...

Veja mais

Matérias relacionadas

Há dois anos, Zuckerberg descobriu que precisava pagar por algo que foi gratuito durante 70 anos. Sua solução: demissões em massa

Empresas queriam monitorar trabalho remoto com capturas de tela: agora elas têm um sério problema de segurança e vazamento de dados

Buraco na concha de espaguete não está lá de enfeite: estes são seus dois principais usos

Fenômeno raro: a Lua de hoje só vai se repetir daqui 18 anos

Nem quatro, nem cinco dias: funcionários de empresa que experimentou a semana de quatro dias acreditam que sete dias trabalhando é melhor

Xataka
Compartilhar
TAGS
Publicidade
Seu Terra












Publicidade