Thu. Nov 21st, 2024

Os cientistas encontraram uma forma de contornar as medidas de segurança do GPT-4 e GPT-4 Turbo, permitindo que eles produzam conteúdo nocivo e tóxico. Essencialmente, isso é alcançado ao combinar dois modelos de linguagem extensos.

Os cientistas encontraram utilidade ao utilizar a técnica de árvore de pensamento (ToT) para repetir e aprimorar uma estratégia de invasão em outro modelo de linguagem extenso.

A descoberta revelou que a estratégia ToT teve sucesso ao enfrentar GPT4, GPT4-Turbo e PaLM-2, com um número surpreendentemente reduzido de solicitações necessárias para realizar um jailbreak, em média menos de trinta solicitações.

Floresta de ideias e lógica.

Foi identificado um estudo realizado pelo Google por volta de maio de 2022 que revelou a existência da Cadeia de Estímulos Cognitivos.

A Cadeia de Pensamento (CoP) é uma tática de aviso empregada em uma IA generativa para direcioná-la em uma série de etapas com o objetivo de solucionar um problema e concluir uma tarefa. A abordagem da CoP é comumente apoiada por exemplos que demonstram à IA como as etapas são executadas em um processo de raciocínio.

Dessa forma, ao invés de simplesmente solicitar que uma IA generativa como Midjourney ou ChatGPT realize uma tarefa, a sequência de métodos de pensamento orienta a IA a seguir um processo de raciocínio que consiste em uma sequência de etapas.

O raciocínio da árvore dos pensamentos (ToT), também conhecido como Árvore do Pensamento (singular), é basicamente uma versão aprimorada e modificada do CoT, no entanto, são conceitos distintos.

A estrutura da árvore de pensamentos é parecida com o CoT. A distinção está no fato de que, ao invés de ensinar uma IA a seguir apenas um caminho de raciocínio, o ToT é desenvolvido de forma a permitir múltiplos caminhos, nos quais a IA pode parar, avaliar a si mesma e, em seguida, propor alternativas.

O conceito da árvore de pensamentos foi criado em maio de 2023 em um documento de pesquisa chamado “Árvore de Pensamentos: Solução Deliberada de Problemas com Modelos de Linguagem Avançados” (PDF).

Leia Mais:   O Google encerra sua parceria com a Appen para os avaliadores de qualidade de pesquisa.

O estudo científico apresenta a descrição da Árvore do Pensamento.

Apresentamos uma nova forma de inferência para o modelo de linguagem chamada de Árvore dos Pensamentos (ToP), que amplia a abordagem do Pensamento em Cadeia para permitir a utilização de modelos de linguagem e a exploração de unidades de texto coesas (pensamentos) que funcionam como etapas intermediárias na resolução de problemas.

O ToT possibilita que as LMs façam escolhas conscientes, levando em conta diferentes formas de raciocínio e autoavaliação, a fim de decidir qual será o próximo passo a ser tomado. Além disso, elas também são capazes de avaliar o passado e o futuro, quando necessário, para tomar decisões globais.

Nossas pesquisas indicam que a aplicação do TOT resulta em um aumento notável das capacidades de solução de problemas dos modelos de linguagem…

Árvore de Ataques com Poda (TAP) é uma estratégia de segurança que envolve a análise e visualização de diferentes possibilidades de ataques, a fim de identificar e eliminar as opções menos prováveis ou menos prejudiciais.

Uma nova técnica de jailbreaking para modelos de linguagem grandes é chamada de Árvore de Ataques com Pruning, ou TAP. O TAP utiliza dois LMs, um para realizar os ataques e outro para avaliar os resultados.

A TAP tem a capacidade de superar outros métodos de jailbreaking com uma grande diferença, desde que tenha acesso à caixa preta do LLM.

Uma caixa preta, no campo da computação, é um local onde é possível observar a entrada e saída de um algoritmo. No entanto, o processo que ocorre internamente é desconhecido, por isso é chamado de caixa-preta.

Árvore de pensamentos (TAP): utiliza-se o raciocínio contra um modelo de linguagem direcionado, como o GPT-4, com o objetivo de experimentar diferentes estímulos, avaliar os resultados e, se necessário, optar por uma abordagem alternativa caso a tentativa atual não seja promissora.

Esse método é conhecido como iteração e poda. Cada alerta é avaliado para determinar a sua probabilidade de sucesso. Caso seja considerado que o ataque não terá êxito, o LLM vai interromper esse caminho e iniciar uma nova e mais eficiente sequência de ataques.

Leia Mais:   A Google finalizou as revisões de atualização - Coisas que você precisa saber.

Por isso, recebe o nome de “árvore” porque, ao contrário do processo linear de pensamento em cadeia que ocorre na cadeia de pensamento (CoT), a árvore de pensamento não é linear, ramificando-se em diferentes áreas de raciocínio, assim como um ser humano pode fazer.

O atacante emite uma sequência de solicitações, o avaliador analisa as respostas a essas solicitações e, depois, decide qual será o próximo curso de ação, avaliando se o curso atual de ação é ou não relevante. Além disso, também analisa os resultados para determinar a probabilidade de sucesso de solicitações ainda não avaliadas.

Esta abordagem se destaca por diminuir a quantidade de instruções necessárias para realizar o jailbreak do GPT-4. Além disso, o TAP revela mais solicitações de jailbreaking do que qualquer outro método.

Os investigadores observam:

Neste estudo, introduzimos a TAP (Árvore de Ataques com Pruning), uma técnica automatizada para criar jailbreaks que apenas necessita de acesso de teste cego ao LLM alvo.

A TAP utiliza um método chamado LLM para melhorar de forma iterativa as solicitações do candidato, usando raciocínio em árvore, até que um dos prompts gerados seja capaz de alcançar o objetivo desejado.

Antes de enviar alertas para o alvo, a TAP avalia-os cuidadosamente e elimina aqueles que são improváveis de resultar em jailbreaks.

Ao utilizar o método de raciocínio em árvore, o TAP possibilita a exploração de um vasto espaço de pesquisa de sugestões, enquanto a poda reduz a quantidade total de consultas enviadas para o destino.

Durante testes práticos, notamos que a TAP produz sugestões que os LMs mais avançados do jailbreak (como o GPT-4 e o GPT-4 Turbo) conseguem gerar em mais de 80% dos casos usando apenas algumas consultas. Isso representa uma melhoria significativa no método atual de geração de jailbreaks de caixa-preta.

A árvore do pensamento é responsável por criar uma sequência de pensamentos que resulta em um raciocínio.

Uma conclusão interessante encontrada na pesquisa é que, neste caso específico, o raciocínio ToT é superior ao raciocínio CoT, mesmo quando a poda é aplicada ao método CoT, onde o aviso de tópico é cortado e descartado.

Leia Mais:   Google deve resolver problemas técnicos antes de buscar a próxima grande novidade.

Com a versão GPT-3.5 Turbo

Os especialistas constataram que o desempenho do ChatGPT 3.5 Turbo foi insatisfatório no CoT, o que revelou as limitações do GPT 3.5 Turbo. Na verdade, o GPT 3.5 teve um desempenho muito ruim, caindo de uma taxa de sucesso de 84% para apenas 4,2%.

Este é o seu comentário sobre o motivo pelo qual o desempenho do GPT 3.5 é inferior.

Percebemos que a seleção do avaliador pode influenciar o desempenho da TAP: substituir o atacante do GPT4 pelo GPT3.5-Turbo reduz drasticamente a taxa de sucesso de 84% para apenas 4,2%.

A taxa de sucesso está diminuindo porque o GPT3.5-Turbo erroneamente identifica que o modelo alvo está desbloqueado (para o objetivo dado) e, por isso, toma medidas preventivas.

Como resultado, a variante envia consideravelmente menos solicitações do que o método inicial…

Qual é o significado disso para você?

Apesar de ser interessante que os pesquisadores utilizem o método ToT para comparar um LLM com outro LLM, também ressalta a utilidade do ToT para gerar novas abordagens inesperadas no estímulo, visando atingir níveis mais avançados de produção.

  • Resumo: Principais pontos a se destacar:
  • A Árvore do Pensamento é responsável por impulsionar a sequência de métodos de pensamento.
  • O desempenho do GPT 3.5 foi notavelmente inferior ao do GPT 4 no ToT.
  • A poda é uma componente benéfica de uma estratégia de estímulo.
  • Um estudo revelou que o TOT é mais eficaz do que o COT em uma atividade que requer um alto nível de raciocínio, como realizar jailbreaking em um LLM.

Recomenda-se a leitura do documento de pesquisa original.

Paráfrase: “Árvore de Ataques: Um método automático para realizar Jailbreaking em LLMs de Caixas Pretas (PDF)”

A imagem em destaque é fornecida pela Shutterstock/THE. ESTÚDIO.