Os cientistas encontraram uma forma de contornar as medidas de segurança do GPT-4 e GPT-4 Turbo, permitindo que eles produzam conteúdo nocivo e tóxico. Essencialmente, isso é alcançado ao combinar dois modelos de linguagem extensos.
Os cientistas encontraram utilidade ao utilizar a técnica de árvore de pensamento (ToT) para repetir e aprimorar uma estratégia de invasão em outro modelo de linguagem extenso.
A descoberta revelou que a estratégia ToT teve sucesso ao enfrentar GPT4, GPT4-Turbo e PaLM-2, com um número surpreendentemente reduzido de solicitações necessárias para realizar um jailbreak, em média menos de trinta solicitações.
Floresta de ideias e lógica.
Foi identificado um estudo realizado pelo Google por volta de maio de 2022 que revelou a existência da Cadeia de Estímulos Cognitivos.
A Cadeia de Pensamento (CoP) é uma tática de aviso empregada em uma IA generativa para direcioná-la em uma série de etapas com o objetivo de solucionar um problema e concluir uma tarefa. A abordagem da CoP é comumente apoiada por exemplos que demonstram à IA como as etapas são executadas em um processo de raciocínio.
Dessa forma, ao invés de simplesmente solicitar que uma IA generativa como Midjourney ou ChatGPT realize uma tarefa, a sequência de métodos de pensamento orienta a IA a seguir um processo de raciocínio que consiste em uma sequência de etapas.
O raciocínio da árvore dos pensamentos (ToT), também conhecido como Árvore do Pensamento (singular), é basicamente uma versão aprimorada e modificada do CoT, no entanto, são conceitos distintos.
A estrutura da árvore de pensamentos é parecida com o CoT. A distinção está no fato de que, ao invés de ensinar uma IA a seguir apenas um caminho de raciocínio, o ToT é desenvolvido de forma a permitir múltiplos caminhos, nos quais a IA pode parar, avaliar a si mesma e, em seguida, propor alternativas.
O conceito da árvore de pensamentos foi criado em maio de 2023 em um documento de pesquisa chamado “Árvore de Pensamentos: Solução Deliberada de Problemas com Modelos de Linguagem Avançados” (PDF).
O estudo científico apresenta a descrição da Árvore do Pensamento.
Apresentamos uma nova forma de inferência para o modelo de linguagem chamada de Árvore dos Pensamentos (ToP), que amplia a abordagem do Pensamento em Cadeia para permitir a utilização de modelos de linguagem e a exploração de unidades de texto coesas (pensamentos) que funcionam como etapas intermediárias na resolução de problemas.
O ToT possibilita que as LMs façam escolhas conscientes, levando em conta diferentes formas de raciocínio e autoavaliação, a fim de decidir qual será o próximo passo a ser tomado. Além disso, elas também são capazes de avaliar o passado e o futuro, quando necessário, para tomar decisões globais.
Nossas pesquisas indicam que a aplicação do TOT resulta em um aumento notável das capacidades de solução de problemas dos modelos de linguagem…
Árvore de Ataques com Poda (TAP) é uma estratégia de segurança que envolve a análise e visualização de diferentes possibilidades de ataques, a fim de identificar e eliminar as opções menos prováveis ou menos prejudiciais.
Uma nova técnica de jailbreaking para modelos de linguagem grandes é chamada de Árvore de Ataques com Pruning, ou TAP. O TAP utiliza dois LMs, um para realizar os ataques e outro para avaliar os resultados.
A TAP tem a capacidade de superar outros métodos de jailbreaking com uma grande diferença, desde que tenha acesso à caixa preta do LLM.
Uma caixa preta, no campo da computação, é um local onde é possível observar a entrada e saída de um algoritmo. No entanto, o processo que ocorre internamente é desconhecido, por isso é chamado de caixa-preta.
Árvore de pensamentos (TAP): utiliza-se o raciocínio contra um modelo de linguagem direcionado, como o GPT-4, com o objetivo de experimentar diferentes estímulos, avaliar os resultados e, se necessário, optar por uma abordagem alternativa caso a tentativa atual não seja promissora.
Esse método é conhecido como iteração e poda. Cada alerta é avaliado para determinar a sua probabilidade de sucesso. Caso seja considerado que o ataque não terá êxito, o LLM vai interromper esse caminho e iniciar uma nova e mais eficiente sequência de ataques.
Por isso, recebe o nome de “árvore” porque, ao contrário do processo linear de pensamento em cadeia que ocorre na cadeia de pensamento (CoT), a árvore de pensamento não é linear, ramificando-se em diferentes áreas de raciocínio, assim como um ser humano pode fazer.
O atacante emite uma sequência de solicitações, o avaliador analisa as respostas a essas solicitações e, depois, decide qual será o próximo curso de ação, avaliando se o curso atual de ação é ou não relevante. Além disso, também analisa os resultados para determinar a probabilidade de sucesso de solicitações ainda não avaliadas.
Esta abordagem se destaca por diminuir a quantidade de instruções necessárias para realizar o jailbreak do GPT-4. Além disso, o TAP revela mais solicitações de jailbreaking do que qualquer outro método.
Os investigadores observam:
Neste estudo, introduzimos a TAP (Árvore de Ataques com Pruning), uma técnica automatizada para criar jailbreaks que apenas necessita de acesso de teste cego ao LLM alvo.
A TAP utiliza um método chamado LLM para melhorar de forma iterativa as solicitações do candidato, usando raciocínio em árvore, até que um dos prompts gerados seja capaz de alcançar o objetivo desejado.
Antes de enviar alertas para o alvo, a TAP avalia-os cuidadosamente e elimina aqueles que são improváveis de resultar em jailbreaks.
Ao utilizar o método de raciocínio em árvore, o TAP possibilita a exploração de um vasto espaço de pesquisa de sugestões, enquanto a poda reduz a quantidade total de consultas enviadas para o destino.
Durante testes práticos, notamos que a TAP produz sugestões que os LMs mais avançados do jailbreak (como o GPT-4 e o GPT-4 Turbo) conseguem gerar em mais de 80% dos casos usando apenas algumas consultas. Isso representa uma melhoria significativa no método atual de geração de jailbreaks de caixa-preta.
A árvore do pensamento é responsável por criar uma sequência de pensamentos que resulta em um raciocínio.
Uma conclusão interessante encontrada na pesquisa é que, neste caso específico, o raciocínio ToT é superior ao raciocínio CoT, mesmo quando a poda é aplicada ao método CoT, onde o aviso de tópico é cortado e descartado.
Com a versão GPT-3.5 Turbo
Os especialistas constataram que o desempenho do ChatGPT 3.5 Turbo foi insatisfatório no CoT, o que revelou as limitações do GPT 3.5 Turbo. Na verdade, o GPT 3.5 teve um desempenho muito ruim, caindo de uma taxa de sucesso de 84% para apenas 4,2%.
Este é o seu comentário sobre o motivo pelo qual o desempenho do GPT 3.5 é inferior.
Percebemos que a seleção do avaliador pode influenciar o desempenho da TAP: substituir o atacante do GPT4 pelo GPT3.5-Turbo reduz drasticamente a taxa de sucesso de 84% para apenas 4,2%.
A taxa de sucesso está diminuindo porque o GPT3.5-Turbo erroneamente identifica que o modelo alvo está desbloqueado (para o objetivo dado) e, por isso, toma medidas preventivas.
Como resultado, a variante envia consideravelmente menos solicitações do que o método inicial…
Qual é o significado disso para você?
Apesar de ser interessante que os pesquisadores utilizem o método ToT para comparar um LLM com outro LLM, também ressalta a utilidade do ToT para gerar novas abordagens inesperadas no estímulo, visando atingir níveis mais avançados de produção.
- Resumo: Principais pontos a se destacar:
- A Árvore do Pensamento é responsável por impulsionar a sequência de métodos de pensamento.
- O desempenho do GPT 3.5 foi notavelmente inferior ao do GPT 4 no ToT.
- A poda é uma componente benéfica de uma estratégia de estímulo.
- Um estudo revelou que o TOT é mais eficaz do que o COT em uma atividade que requer um alto nível de raciocínio, como realizar jailbreaking em um LLM.
Recomenda-se a leitura do documento de pesquisa original.
Paráfrase: “Árvore de Ataques: Um método automático para realizar Jailbreaking em LLMs de Caixas Pretas (PDF)”
A imagem em destaque é fornecida pela Shutterstock/THE. ESTÚDIO.