El nuevo lenguaje GPT-3 de OpenAI se explica en menos de 3 minutos

El nuevo lenguaje GPT-3 de OpenAI se explica en menos de 3 minutos

Entonces, has visto algunas demostraciones increíbles de GPT-3 en Twitter (si no, ¿dónde has estado?). Este mega modelo de aprendizaje automático, creado por OpenAI, puede escribir sus propios artículos de opinión, poemas, artículos e incluso código de trabajo:

Si desea probar GPT-3 hoy, deberá solicitar que OpenAI lo incluya en la lista blanca. Pero las aplicaciones de este modelo parecen infinitas: aparentemente podría usarlo para consultar una base de datos SQL en inglés simple, comentar automáticamente el código, automáticamente generar código, escribir titulares de artículos de moda, escribir Tweets virales y mucho más.

Pero, ¿qué está pasando bajo el capó de este increíble modelo? Aquí hay un (breve) vistazo al interior

GPT-3 es un modelo de lenguaje alimentado por redes neuronales. UNA modelo de lenguaje es un modelo que predice la probabilidad de que exista una oración en el mundo. Por ejemplo, un modelo de lenguaje puede etiquetar la oración: "Saco a pasear a mi perro" como más probable que exista (es decir, en Internet) que la oración: "Saco a caminar mi banana". Esto es cierto tanto para las oraciones como para las frases y, más generalmente, cualquier secuencia de caracteres.

Como la mayoría de los modelos de idiomas, GPT-3 está elegantemente entrenado en un conjunto de datos de texto sin etiqueta (en este caso, los datos de entrenamiento incluyen entre otros Rastreo común y Wikipedia). Las palabras o frases se eliminan al azar del texto, y el modelo debe aprender a completarlas usando solo las palabras circundantes como contexto. Es una tarea de capacitación simple que resulta en un modelo poderoso y generalizable.

La arquitectura del modelo GPT-3 en sí es un basado en transformador red neuronal Esta arquitectura se hizo popular hace unos 2-3 años, y es la base del popular modelo de PNL BERT y el predecesor de GPT-3, GPT-2. ¡Desde una perspectiva de arquitectura, GPT-3 no es realmente muy novedoso!

¿Qué lo hace tan especial y mágico?

ES REALMENTE GRANDE. quiero decir De Verdad grande. Con 175 mil millones de parámetros, es el modelo de lenguaje más grande jamás creado (¡un orden de magnitud más grande que su competidor más cercano!), Y recibió capacitación sobre el conjunto de datos más grande de cualquier modelo de idioma. Al parecer, esta es la razón principal por la que GPT-3 es tan impresionantemente "inteligente" y con un sonido humano.

Pero aquí está la parte realmente mágica. Como resultado de su enorme tamaño, GPT-3 puede hacer lo que ningún otro modelo puede hacer (bueno): realizar específico tareas sin ningún ajuste especial. Puede pedirle a GPT-3 que sea traductor, programador, poeta o autor famoso, y puede hacerlo con su usuario (usted) proporcionando menos de 10 ejemplos de capacitación. Maldición.

Esto es lo que hace que GPT-3 sea tan emocionante para los profesionales del aprendizaje automático. Otros modelos de idiomas (como BERT) requieren un paso de ajuste fino donde se reúnen miles de ejemplos de (digamos) pares de oraciones francés-inglés para enseñarle cómo hacer la traducción. Para adaptar el BERT a una tarea específica (como traducción, resumen, detección de spam, etc.), debe salir y encontrar un gran conjunto de datos de capacitación (del orden de miles o decenas de miles de ejemplos), que puede ser engorroso o a veces imposible, dependiendo de la tarea. Con GPT-3, no necesita hacer ese paso de ajuste. Este es el corazón de esto. Esto es lo que entusiasma a la gente acerca de GPT-3: tareas de lenguaje personalizadas sin datos de capacitación.

Hoy, GPT-3 está en beta privada, pero no puedo esperar para tenerlo en mis manos.

Esta artículo fue escrito por Dale Markowitz, ingeniera de IA aplicada en Google con sede en Austin, Texas, donde trabaja en la aplicación del aprendizaje automático a nuevos campos e industrias. También le gusta resolver sus propios problemas de vida con IA, y habla de ello en YouTube.

Publicado 23 de julio de 2020-11: 56 UTC

Deja un comentario