Pesquisadores ampliam o GPT-4 através de uma nova abordagem de estímulo.

A Microsoft divulgou um estudo de pesquisa que revela como as técnicas avançadas de promoção podem permitir que um AI generalista, como o GPT-4, tenha um desempenho tão bom ou até superior a um AI especialista treinado em um tópico específico. Os pesquisadores descobriram que conseguiram fazer com que o modelo Med-PaLM 2, treinado especificamente no GPT-4, se destacasse nesse tópico em particular.

Promopagem é uma estratégia de promoção avançada que utiliza técnicas inovadoras.

A pesquisa confirma descobertas feitas por usuários experientes de IA generativa que estão utilizando esses conhecimentos para criar imagens ou textos impressionantes.

A engenharia reversa, também conhecida como prompting avançado, é frequentemente mencionada como um processo profundo. No entanto, este estudo de pesquisa destaca que as técnicas avançadas de prompting são fundamentadas em princípios sólidos.

Por exemplo, muitos usuários experientes de IA generativa descobriram e utilizaram de forma produtiva uma técnica chamada Chain of Thought (CoT), que é empregada por pesquisadores.

O Prompting Chain of Thought é uma abordagem desenvolvida pelo Google por volta de maio de 2022, que possibilita à inteligência artificial dividir uma tarefa em passos lógicos através do raciocínio.

Fiz uma abordagem sobre o estudo do Google acerca da sequência de pensamento que possibilitou que uma inteligência artificial dividisse uma tarefa em passos, concedendo-lhe a habilidade de resolver diversos tipos de problemas de palavras, inclusive matemáticos, e de desenvolver um raciocínio baseado no senso comum.

Esses diretores, em algum momento, exploraram como os usuários da inteligência artificial generativa conseguiram gerar resultados de alta qualidade, seja na criação de imagens ou na produção de texto.

Peter Hatherley, criador das suítes de aplicativos web da Inteligência Autorizada, expressou sua admiração pela eficácia da abordagem mental que incentiva:

Quando o pensamento é modificado, suas ideias começam como pequenas sementes e se transformam em algo excepcional.

Peter também percebeu que ele usa CoT em seus GPTs personalizados para torná-los mais eficientes.

A sequência de ideias levou à constatação de que simplesmente pedir a uma IA generativa não é o bastante, pois o resultado obtido será sempre abaixo do ideal.

O Prompting CoT tem como objetivo estabelecer os passos necessários para que a IA generativa alcance o resultado desejado.

A pesquisa progrediu ao combinar o raciocínio COT com outras duas técnicas, resultando em níveis de qualidade surpreendentes que até então eram considerados impossíveis.

Essa técnica é conhecida como MedPrompt.

O MedPrompt demonstra a eficácia de técnicas avançadas de incentivo.

Os cientistas realizaram experimentos para avaliar a eficácia de sua técnica em quatro modelos de fundação distintos.

Flan-Palm 540B es un nombre utilizado para referirse a un producto específico.
Med-PALM 2 é uma abreviação utilizada para se referir a um programa ou projeto relacionado à área médica.
GPT-4 é a quarta versão do modelo GPT.
GPT-4 MedPrompt es un programa de asistencia de última generación.

Eles empregaram conjuntos de dados de referência desenvolvidos para avaliar o conhecimento médico. Alguns desses conjuntos foram utilizados para testar habilidades de pensamento lógico, enquanto outros foram compostos por perguntas de exames médicos.

Existem quatro grupos de informações médicas padrão.

Pergunta que requer uma resposta de múltipla escolha baseada em um conjunto de dados.
Conjunto de dados de perguntas e respostas que contém as opções de sim, não e talvez.
Dados abrangentes com várias opções e temas.
Os cientistas apenas empregaram as atividades ligadas à área médica, como habilidades clínicas, genética médica, anatomia, práticas médicas, biologia de nível universitário e conhecimentos médicos avançados.

O desempenho do GPT-4 com o Medprompt foi notavelmente superior a todos os outros competidores testados nos quatro conjuntos de dados médicos.

A tabela demonstra como Medprompt se destacou em relação a outros modelos de Fundação.

Screenshot showing how Medprompt performance scores exceeded those of more advanced specialist foundation models — Imagem: timmossholder/GettyImages

Qual a importância do Medprompt?

Os pesquisadores identificaram que a utilização do raciocínio CoT, aliado a outras estratégias de orientação, poderia resultar em um modelo de base ampla, como os modelos especializados de desempenho GPT-4, os quais foram treinados apenas em um campo específico de conhecimento.

O motivo pelo qual essa pesquisa se destaca para aqueles que utilizam IA generativa é que a técnica MedPrompt tem a capacidade de obter resultados de alta qualidade em qualquer campo de conhecimento, não se limitando apenas à área médica.

As consequências dessa descoberta são que não é preciso investir quantias consideráveis de recursos para desenvolver um modelo de linguagem extenso e especializado a fim de se tornar um especialista em uma área específica.

Basta seguir os princípios do MedPrompt para alcançar um resultado de IA generativa excepcional.

Três maneiras de incentivar ou estimular.

Os pesquisadores elaboraram três maneiras diferentes de emitir alertas.

Seleção de um número reduzido de tiros de forma dinâmica.
Processo de geração de pensamentos internos.
Opte por selecionar aleatoriamente para se parecer.

Seleção ativa de um pequeno número de disparos.

A seleção de poucos disparos de forma dinâmica permite que o modelo de inteligência artificial escolha exemplos relevantes durante o processo de treinamento.

Aprender alguns tiros é uma forma de o modelo fundamental aprender e se adaptar a tarefas específicas com apenas alguns exemplos.

Neste método, os modelos adquirem conhecimento a partir de um conjunto reduzido de exemplos, em vez de utilizar bilhões de exemplos. O objetivo é que esses exemplos sejam representativos de diversas questões relevantes para o domínio do conhecimento.

Tradicionalmente, os especialistas costumam criar esses exemplos manualmente, o que pode ser difícil de garantir que abranjam todas as possibilidades. Uma alternativa é a aprendizagem dinâmica de poucos tiros, onde são utilizados exemplos semelhantes às tarefas que o modelo precisa resolver, selecionados a partir de um conjunto de dados de treinamento mais amplo.

No método Medprompt, os especialistas escolheram casos de treinamento que possuem semelhança de significado com um determinado caso de teste. Essa abordagem dinâmica é mais eficaz do que os métodos convencionais, pois utiliza os dados de treinamento já existentes sem necessidade de atualizações extensas no modelo.

Processo mental autônomo de geração de pensamentos.

A abordagem de Cadeia de Pensamento Auto-Gerada emprega frases em linguagem natural para orientar um modelo de IA através de várias etapas de raciocínio, automatizando a geração de exemplos de cadeia de pensamento. Isso permite que o modelo se desprenda da dependência de especialistas humanos.

O objetivo do artigo de pesquisa é esclarecer:

O Chain-of-thought (CoT) utiliza frases em linguagem natural, como “Vamos analisar de forma gradual”, para encorajar de forma clara o modelo a criar uma sequência de passos de raciocínio intermediário.

Foi descoberta uma maneira de aprimorar consideravelmente a habilidade dos modelos de fundamentação para realizar raciocínio complicado.

A maioria das estratégias para gerar cadeias de pensamento no contexto do centro da cadeia de pensamento envolvem a utilização de especialistas para criar manualmente alguns exemplos. No entanto, em vez de depender de especialistas humanos, estamos buscando automatizar esse processo através de um mecanismo.

Encontramos uma maneira de solicitar ao GPT-4 que crie uma sequência de pensamentos para os exemplos de treinamento, utilizando o seguinte estímulo:

Os pesquisadores identificaram que essa abordagem poderia gerar resultados incorretos, também conhecidos como resultados ilusórios. Para solucionar esse problema, eles optaram por solicitar ao GPT-4 que realizasse uma etapa adicional de verificação.

Desta forma, os pesquisadores realizaram o procedimento.

Uma dificuldade essencial com esse método é que as justificativas CoT geradas automaticamente apresentam o risco de conter pensamentos delirantes ou incorretos.

Diminuímos essa inquietação ao utilizar o GPT-4 para produzir tanto uma lógica quanto uma previsão da resposta mais provável a ser dada nessa sequência de pensamentos.

Caso essa resposta não seja verdadeira, rejeitamos completamente a amostra, pois assumimos que não podemos confiar no raciocínio.

Apesar de um pensamento confuso ou incorreto ainda poder levar a uma resposta final correta (ou seja, resultados errôneos), concluímos que esse simples processo de verificação de informações age como um bom filtro para evitar resultados negativos falsos.

Opte pelo Shuffle Ensemble.

Um desafio relacionado à resposta de perguntas de múltipla escolha é que os modelos de base (como o GPT-4) podem apresentar tendências de inclinação.

Geralmente, o viés de posição é uma inclinação que as pessoas têm em escolher as opções mais vantajosas em uma lista de escolhas.

Por exemplo, de acordo com a pesquisa realizada, foi constatado que quando os usuários são apresentados a uma lista de resultados de pesquisa, a maioria tende a escolher os resultados mais bem classificados, mesmo que eles estejam incorretos. É surpreendente que os modelos de base apresentem o mesmo padrão de comportamento.

Os cientistas desenvolveram uma estratégia para enfrentar a discriminação de posição quando o modelo de base é desafiado a responder a uma pergunta com opções de escolha múltipla.

Essa estratégia amplia a variedade de respostas, contrariando o que é conhecido como “decodificação heurística”, que é quando modelos de linguagem como o GPT-4 optam pela palavra ou frase mais provável em um conjunto de palavras ou frases.

Na decodificação gananciosa, durante cada etapa de geração de uma sequência de palavras (ou no caso de uma imagem, pixels), o modelo seleciona a palavra/frase/pixel mais provável (também conhecido como token) com base no contexto atual.

O modelo toma decisões em cada fase sem levar em conta como isso afeta a sequência completa.

O Ensemble de Embaralhamento Escolhido resolve duas questões:

Paráfrase: Tendência de posicionamento.
Decodificação de elegância

Dessa forma é esclarecido:

A fim de diminuir esse viés, sugerimos encurtar as opções e posteriormente analisar a coerência das respostas para cada ordem de classificação das escolhas múltiplas.

Em consequência, executamos a seleção shuffle e a autoconsistência alertando. A autoconsistência substitui o método ingênuo de seguir apenas um caminho ou a decodificação gananciosa, utilizando um conjunto variado de caminhos de raciocínio quando solicitado repetidamente em uma temperatura maior que zero. Essa abordagem introduz um elemento de aleatoriedade nas gerações.

Ao optarmos pelo embaralhamento, reorganizamos a sequência das opções de resposta antes de criar cada linha de raciocínio. Em seguida, selecionamos a resposta mais coerente, ou seja, aquela que é menos afetada pela reorganização das opções.

A escolha aleatória melhora a diversidade de cada caminho de raciocínio e, juntamente com a amostragem de temperatura, aumenta a qualidade do conjunto final.

Utilizamos essa estratégia também na criação de etapas intermediárias de CoT para exemplos de treinamento. Para cada exemplo, realizamos um embaralhamento das opções diversas vezes e geramos uma etapa intermediária para cada variação. Apenas mantemos os exemplos que possuem a resposta correta.

Assim, ao limitar as opções e avaliar a coerência das respostas, essa abordagem não apenas diminui a influência do preconceito, mas também melhora o desempenho em conjuntos de dados de referência, superando até mesmo modelos avançados e treinados especificamente, como o Med-PaLM 2.

Obtenção de êxito em cross-domain por meio da técnica de engenharia de solicitação.

Por fim, o que faz com que este estudo de pesquisa seja excepcional é que as conclusões são aplicáveis não apenas na área da medicina, mas a técnica pode ser utilizada em qualquer contexto de conhecimento.

Os cientistas redigem:

Observamos que, embora o Medprompt tenha um excelente desempenho em conjuntos de dados médicos de referência, o algoritmo é versátil e não se limita apenas ao campo médico ou a perguntas de múltipla escolha.

Achamos que o conceito global de juntar a seleção criteriosa de alguns exemplos, a sequência autogerada de etapas de pensamento lógico e a votação da maioria que se assemelha pode ser amplamente utilizado em outros campos de problemas, inclusive em tarefas menos restritas de resolução de problemas.

Essa é uma realização significativa, pois indica que os resultados em espera podem ser aplicados em quase qualquer assunto, sem a necessidade de gastar tempo e recursos intensivamente para treinar um modelo em áreas de conhecimento específicas.

O significado de Medprompt para a Inteligência Artificial Generativa.

A Medprompt apresentou uma forma inovadora de obter recursos de modelos aprimorados, tornando a IA generativa mais flexível e versátil em diferentes áreas de conhecimento, com menos necessidade de treinamento e esforço do que antes era necessário.

As consequências para o porvir da inteligência artificial generativa são significativas, além de se considerar como isso pode afetar a capacidade da engenharia ágil.

Confira o mais recente artigo científico para leitura.

Será que o Modelo de Fundação Generalista tem a capacidade de superar o Ajuste de Propósito Específico? Análise de um caso de estudo na área da medicina (PDF).

A imagem principal é fornecida pela Shutterstock, creditada a Asier Romero.