Cientistas treinam a IA para ser má e descobrem que não podem reverte-la

Compartilhe com a galáxia!

Tempo de leitura: 2 min.

Quanto mais os pesquisadores investigavam a Inteligência Artificial (IA), melhor ela conseguia esconder seu comportamento nefasto.

Crédito da imagem ilustrativa: n3m3/Bing/DALL-E

Os humanos contam todo tipo de mentiras para conseguir o que desejam. E à medida que desenvolvemos inteligência artificial mais poderosa para rivalizar com os humanos, é uma preocupação genuína que uma IA possa ser tão (se não ainda mais) enganadora.

Este é o ímpeto por trás de um novo artigo de pesquisa pré-impresso que descobre que a forma como as IAs são treinadas poderia ajudá-las a enganar os usuários de uma forma que os testes de segurança padrão não conseguiriam detectar.

O estudo é um esforço colaborativo de pesquisadores da empresa “responsável” de IA Anthropic, da Universidade de Oxford e de várias outras instituições de IA. Eles treinaram deliberadamente uma IA para exibir comportamento indesejável quando solicitado por determinados gatilhos. A ideia era ver se eles conseguiam detectar o mau comportamento usando testes de segurança e depois corrigir o modelo usando técnicas como aprendizado por reforço.

O que descobriram é que a IA agia como um “agente adormecido”, parecendo comportar-se de forma responsável enquanto escondia o seu comportamento nefasto com uma subtileza crescente à medida que os investigadores tentavam testá-la e corrigi-la. Em alguns experimentos, a IA parecia adepta de saber quando ocultar seu comportamento malicioso para evitar ser detectada e eliminada, e melhorou nisso com o tempo.

As razões pelas quais uma IA pode optar por se comportar mal variam, desde um problema inerente plantado por maus intervenientes durante a sua formação até à procura de atingir objetivos políticos ou econômicos.

Os pesquisadores se esforçam para apontar que os tipos de cenários que eles testam no artigo não parecem ter se tornado realidade —ainda. Mas à medida que a popularidade da IA continua a aumentar, o seu trabalho poderá ajudar a proteger contra os receios de uma IA maligna.

(Fonte)

Compartilhe com a galáxia!

…E não esqueça: Nossa página principal é atualizada diariamente, com novos artigos podendo ser publicados ao longo do dia. Clique aqui para acessá-la.

ATENÇÃO: Qualquer artigo aqui publicado serve somente para cumprir a missão deste site. Assim, o OVNI Hoje não avaliza sua veracidade totalmente ou parcialmente.

IMPORTANTE: Se puder, colabore para manter o OVNI Hoje no ar, pois cada doação, por menor que seja, é crucial para manter este espaço de informação e conhecimento disponível para todos os interessados. Ao utilizar o QR code do PIX abaixo ou a chave PIX “OVNIHoje” (sem aspas), você está desempenhando um papel fundamental na sustentação deste site.

Lembre-se que as doações não são apenas um ato de generosidade, mas também uma demonstração do seu compromisso em apoiar o compartilhamento de informações relevantes e o crescimento da comunidade interessada em assuntos tão fascinantes, possibilitando a continuação das pesquisas, análises e publicações que enriquecem nosso entendimento.

Seja parte deste movimento contínuo em prol do conhecimento. O OVNI Hoje e seus leitores agradecem sinceramente por seu apoio dedicado.

Agradecimentos aos colaboradores do mês: Edward Vaz Jr. ❤️ Silas Raposo ❤️ Franklin Viana ❤️Leopoldo Della Rocca ❤️ Jessica Luana de Souza ❤️

Muito obrigado!

ÁREA DE COMENTÁRIOS
(Mais abaixo…👇)

ATENÇÃO:

-Os comentários são de responsabilidade única e exclusiva de cada pessoa que comenta, portanto aja com responsabilidade.

-O OVNI Hoje não se responsabiliza por transtornos, rixas ou quaisquer outras disposições causadas pelos comentários.

-Comente educadamente e com ética, sempre tratando seu colega de comentários como você mesmo queira ser tratado.

-Comentários com “pregação” política ou religiosa, obsceno ou inapropriado serão prontamente apagados.

-Se não concordar com o que foi escrito por outros colega e quiser fazer um contraponto, limite-se a defender seu ponto de vista sem ataques pessoais. Aqueles que fizerem comentários com ataques pessoais diretos ou indiretos a outros participantes serão banidos.

-AJUDE NA MODERAÇÃO JUSTA DA ÁREA DE COMENTÁRIOS: Como pode ser visto na foto abaixo, no canto superior direito de cada comentário há uma pequena bandeira que, quando clicada, marca um comentário como “inapropriado“. Utilize-a com responsabilidade para alertar os moderadores sobre alguém que não esteja seguindo as regras da área de comentários.

-O respeito mútuo é essencial para bom andamento da área de comentários. Evite ser banido.

-O USUÁRIO QUE TENTAR DESOBEDECER AS REGRAS ACIMA SERÁ BANIDO, SEM RECURSOS.