Modelos de IA grandes y creativos transformarán vidas y mercados laborales
Traen enormes promesas y peligros. En el primero de tres artículos especiales te explicamos cómo funcionan
Desde noviembre de 2022, cuando Open ai , la compañía que fabrica Chat gpt , abrió por primera vez el chatbot al público, ha habido poco más de lo que la élite tecnológica haya querido hablar. Mientras se escribía este artículo, el fundador de una empresa de tecnología de Londres le envió un mensaje a su corresponsal para decirle que este tipo de ia es "esencialmente en todo lo que estoy pensando en estos días". Dice que está en el proceso de rediseñar su empresa, valorada en muchos miles de millones de dólares, a su alrededor. Él no está solo.
Chat gpt incorpora más conocimiento del que cualquier ser humano haya conocido jamás. Puede conversar convincentemente sobre la extracción de minerales en Papua Nueva Guinea, o sobre tsmc , una empresa de semiconductores taiwanesa que se encuentra en la mira geopolítica. gpt -4, la red neuronal artificial que impulsa a Chat gpt , ha superado los exámenes que sirven como puerta de entrada para que las personas ingresen a las carreras de derecho y medicina en Estados Unidos. Puede generar canciones, poemas y ensayos. otros modelos de “ ia generativa ” pueden producir fotografías, dibujos y animaciones digitales.
Junto con este entusiasmo existe una profunda preocupación , dentro de la industria tecnológica y más allá, de que los modelos generativos de ia se están desarrollando demasiado rápido. gpt -4 es un tipo de ia generativa llamada modelo de lenguaje grande ( llm ). Gigantes tecnológicos como Alphabet, Amazon y Nvidia han capacitado a sus propios llm y les han dado nombres como p a lm , Megatron, Titan y Chinchilla.
El señuelo se hace más grande
El jefe de tecnología de Londres dice que está "increíblemente nervioso por la amenaza existencial" que plantea la ia , incluso mientras la persigue, y está "hablando con [otros] fundadores al respecto todos los días". Los gobiernos de Estados Unidos, Europa y China han comenzado a considerar nuevas regulaciones. Voces destacadas piden que se detenga el desarrollo de la inteligencia artificial, para que el software no se salga de control y dañe, o incluso destruya, a la sociedad humana. Para calibrar qué tan preocupado o emocionado debería estar con esta tecnología, es útil comprender primero de dónde proviene, cómo funciona y cuáles son los límites para su crecimiento.
La explosión contemporánea de las capacidades del software de ia comenzó a principios de la década de 2010, cuando se hizo popular una técnica de software llamada "aprendizaje profundo". Usando la combinación mágica de vastos conjuntos de datos y computadoras potentes que ejecutan redes neuronales en unidades de procesamiento de gráficos ( gpu ), el aprendizaje profundo mejoró drásticamente las capacidades de las computadoras para reconocer imágenes, procesar audio y jugar juegos. A fines de la década de 2010, las computadoras podían hacer muchas de estas tareas mejor que cualquier humano.
Pero las redes neuronales tendían a estar integradas en software con una funcionalidad más amplia, como clientes de correo electrónico, y los que no eran codificadores rara vez interactuaban directamente con estas ia . Aquellos que lo hicieron, a menudo describieron su experiencia en términos casi espirituales. Lee Sedol, uno de los mejores jugadores del mundo de Go, un antiguo juego de mesa chino, se retiró del juego después de que el software AlphaGo basado en redes neuronales de Alphabet lo aplastara en 2016. “Incluso si me convierto en el número uno”, dijo, “ hay una entidad que no puede ser derrotada.”
Al trabajar en el medio más humano, la conversación, Chat gpt ahora permite que el público usuario de Internet experimente algo similar, una especie de vértigo intelectual causado por un software que ha mejorado repentinamente hasta el punto de poder realizar tareas que antes eran exclusivamente en el dominio de la inteligencia humana.
A pesar de esa sensación de magia, un llm es, en realidad, un ejercicio gigante de estadística. Pida a Chat gpt que termine la oración: "La promesa de los modelos de lenguaje grande es que ellos..." y obtendrá una respuesta inmediata. ¿Como funciona?
Primero, el lenguaje de la consulta se convierte de palabras, que las redes neuronales no pueden manejar, en un conjunto representativo de números (ver gráfico). gpt -3, que impulsó una versión anterior de Chat gpt , hace esto al dividir el texto en fragmentos de caracteres, llamados tokens, que comúnmente aparecen juntos. Estos tokens pueden ser palabras, como "love" o "are", afijos, como "dis" o "ised", y puntuación, como "?". el diccionario de gpt -3 contiene detalles de 50,257 tokens.
Tokenización
El
464 promesa
6991 de
286 grande
1588 idioma
3303 modelos
4981 es
318 eso
326 ellos
484gpt -3 puede procesar un máximo de 2048 tokens a la vez, lo que equivale aproximadamente a la extensión de un artículo extenso en The Economist . gpt -4, por el contrario, puede manejar entradas de hasta 32,000 tokens de largo, una novela corta. Cuanto más texto pueda absorber el modelo, más contexto podrá ver y mejores serán sus respuestas. Hay una trampa: el cálculo requerido aumenta de forma no lineal con la longitud de la entrada, lo que significa que las entradas un poco más largas necesitan mucha más potencia informática.
Luego, a las fichas se les asigna el equivalente de definiciones colocándolas en un "espacio de significado" donde las palabras que tienen significados similares se ubican en áreas cercanas.
incrustación

Luego despliega su "red de atención" para hacer conexiones entre diferentes partes del mensaje. Alguien que lea nuestro mensaje, "la promesa de los grandes modelos de lenguaje es que ellos...", sabría cómo funciona la gramática inglesa y entendería los conceptos detrás de las palabras en la oración. Sería obvio para ellos qué palabras se relacionan entre sí; es el modelo el que es grande, por ejemplo. Sin embargo, un llm debe aprender estas asociaciones desde cero durante su fase de entrenamiento: durante miles de millones de carreras de entrenamiento, su red de atención codifica lentamente la estructura del lenguaje que ve como números (llamados "pesos") dentro de su red neuronal. Si entiende el idioma en absoluto, lo hace de una manera estadística, más que gramatical. Se parece mucho más a un ábaco que a una mente.
Atención
Una vez que se ha procesado el aviso, el llm inicia una respuesta. En este punto, para cada uno de los tokens en el vocabulario del modelo, la red de atención ha producido una probabilidad de que ese token sea el más apropiado para usar a continuación en la oración que está generando. El token con el puntaje de probabilidad más alto no siempre es el elegido para la respuesta: la forma en que el llm toma esta decisión depende de qué tan creativo le hayan dicho los operadores al modelo.
Genera una palabra y luego retroalimenta el resultado en sí mismo. La primera palabra se genera basándose únicamente en el indicador. La segunda palabra se genera al incluir la primera palabra en la respuesta, luego la tercera palabra al incluir las dos primeras palabras generadas, y así sucesivamente. Este proceso, llamado autorregresión, se repite hasta que finaliza .
Aunque es posible escribir las reglas sobre cómo funcionan, los resultados de los llm no son del todo predecibles; Resulta que estos ábacos extremadamente grandes pueden hacer cosas que los más pequeños no pueden, de formas que sorprenden incluso a las personas que los fabrican. Jason Wei, investigador de Open ai , ha contado 137 habilidades llamadas "emergentes" en una variedad de diferentes llm .
Las habilidades que emergen no son mágicas: todas están representadas de alguna forma dentro de los datos de entrenamiento de los llm (o las indicaciones que se les dan), pero no se hacen evidentes hasta que los llm cruzan un cierto umbral muy grande en su tamaño. En un tamaño, un llm no sabe cómo escribir oraciones que incluyan género en alemán mejor que si lo hiciera al azar. Sin embargo, haga el modelo un poco más grande y, de repente, aparecerá una nueva habilidad. gpt -4 aprobó el Examen Uniforme de Abogados de Estados Unidos, diseñado para evaluar las habilidades de los abogados antes de que obtengan la licencia, en el percentil 90. El gpt -3.5, un poco más pequeño, lo reprobó.
Las habilidades emergentes son emocionantes, porque insinúan el potencial sin explotar de los datos . Jonas Degrave, ingeniero de DeepMind, una empresa de investigación de inteligencia artificial propiedad de Alphabet, ha demostrado que se puede convencer a Chat gpt para que actúe como la terminal de línea de comandos de una computadora, aparentemente compilando y ejecutando programas con precisión. Solo un poco más grande, piensa, y los modelos de repente pueden hacer todo tipo de cosas nuevas y útiles. Pero los expertos se preocupan por la misma razón. Un análisis muestra que surgen ciertos sesgos sociales cuando los modelos se vuelven grandes. No es fácil saber qué comportamientos dañinos podrían estar latentes, esperando un poco más de escala para desencadenarse.
Procesar los datos
El éxito reciente de los llm en la generación de texto convincente, así como sus sorprendentes habilidades emergentes, se debe a la unión de tres cosas: cantidades asombrosas de datos, algoritmos capaces de aprender de ellos y el poder computacional para hacerlo (ver gráfico) . Los detalles de la construcción y la función de gpt -4 aún no son públicos, pero los de gpt -3 sí lo son, en un artículo llamado "Language Models are Few-Shot Learners", publicado en 2020 por Open ai .
Potencia informática utilizada en el entrenamiento de sistemas de IA
Sistemas seleccionados, operaciones de coma flotante, escala logarítmica
Antes de que vea cualquier dato de entrenamiento, los pesos en la red neuronal de gpt -3 son en su mayoría aleatorios. Como resultado, cualquier texto que genere será un galimatías. Empujar su salida hacia algo que tenga sentido, y eventualmente algo que sea fluido, requiere entrenamiento. gpt -3 se entrenó en varias fuentes de datos, pero la mayor parte proviene de instantáneas de todo Internet entre 2016 y 2019 tomadas de una base de datos llamada Common Crawl. Hay una gran cantidad de texto basura en Internet, por lo que los 45 terabytes iniciales se filtraron utilizando un modelo de aprendizaje automático diferente para seleccionar solo el texto de alta calidad: 570 gigabytes, un conjunto de datos que podría caber en una computadora portátil moderna. Además, gpt-4 fue entrenado en una cantidad desconocida de imágenes, probablemente varios terabytes. En comparación, AlexNet, una red neuronal que reavivó la emoción del procesamiento de imágenes en la década de 2010, se entrenó en un conjunto de datos de 1,2 millones de imágenes etiquetadas, un total de 126 gigabytes, menos de una décima parte del tamaño del conjunto de datos probable de GPT- 4 .
Para entrenar, el llm se autocuestiona sobre el texto que se le entrega. Toma un trozo, cubre algunas palabras al final y trata de adivinar qué podría ir allí. Luego, el llm descubre la respuesta y la compara con su suposición. Debido a que las respuestas están en los propios datos, estos modelos se pueden entrenar de manera "autosupervisada" en conjuntos de datos masivos sin necesidad de etiquetadores humanos.
El objetivo del modelo es hacer que sus conjeturas sean lo más buenas posible cometiendo la menor cantidad de errores posible. Sin embargo, no todos los errores son iguales. Si el texto original es "Me encanta el helado", adivinar "Me encanta el hockey sobre hielo" es mejor que "Me encanta el hielo". Lo malo que es una conjetura se convierte en un número llamado pérdida. Después de algunas conjeturas, la pérdida se envía de vuelta a la red neuronal y se usa para empujar los pesos en una dirección que producirá mejores respuestas.
Pioneros en un aturdimiento
La red de atención del llm es clave para aprender de cantidades tan grandes de datos. Integra en el modelo una forma de aprender y usar asociaciones entre palabras y conceptos, incluso cuando aparecen separados entre sí dentro de un texto, y le permite procesar montones de datos en un tiempo razonable. Muchas redes de atención diferentes operan en paralelo dentro de un llm típico y esta paralelización permite que el proceso se ejecute en múltiples gpus. Las versiones más antiguas de los modelos de lenguaje que no se basan en la atención no habrían podido procesar tal cantidad de datos en un período de tiempo razonable. “Sin atención, la escala no sería manejable computacionalmente”, dice Yoshua Bengio, director científico de Mila, un destacado instituto de investigación de IA en Quebec.
La gran escala a la que los llm pueden procesar datos ha estado impulsando su crecimiento reciente. gpt -3 tiene cientos de capas, miles de millones de pesos y se entrenó en cientos de miles de millones de palabras. Por el contrario, la primera versión de gpt , creada hace cinco años, tenía solo una diezmilésima parte del tamaño.
Pero hay buenas razones, dice el Dr. Bengio, para pensar que este crecimiento no puede continuar indefinidamente. Los insumos de los llm (datos, poder de cómputo, electricidad, mano de obra calificada) cuestan dinero. Training gpt -3, por ejemplo, usó 1,3 gigavatios-hora de electricidad (suficiente para alimentar 121 hogares en Estados Unidos durante un año) y le costó a Open ai un estimado de $ 4,6 millones. gpt -4, que es un modelo mucho más grande, tendrá un costo desproporcionadamente mayor (en el ámbito de $ 100 millones) para entrenar. Dado que los requisitos de potencia de cómputo aumentan drásticamente más rápido que los datos de entrada, la capacitación de los llm se vuelve costosa más rápido de lo que mejora. De hecho, Sam Altman, el jefe de Open ai, parece pensar que ya ha llegado un punto de inflexión. El 13 de abril le dijo a una audiencia en el Instituto Tecnológico de Massachusetts: “Creo que estamos al final de la era en la que van a ser estos, como, modelos gigantes, gigantes. Los mejoraremos de otras maneras”.
Pero el límite más importante para la mejora continua de los llm es la cantidad de datos de capacitación disponibles. gpt -3 ya recibió capacitación sobre lo que equivale a todo el texto de alta calidad que está disponible para descargar de Internet. Un artículo publicado en octubre de 2022 concluyó que “el stock de datos lingüísticos de alta calidad se agotará pronto; probablemente antes de 2026”. Ciertamente hay más texto disponible, pero está guardado en pequeñas cantidades en bases de datos corporativas o en dispositivos personales, inaccesible a la escala y al bajo costo que permite Crawl.
Las computadoras se volverán más poderosas con el tiempo, pero no habrá hardware nuevo que ofrezca un salto en el rendimiento tan grande como el que se logró con el uso de gpu a principios de la década de 2010, por lo que entrenar modelos más grandes probablemente será cada vez más costoso, tal vez por eso el Sr. Altman no le entusiasma la idea. Las mejoras son posibles, incluidos nuevos tipos de chips, como la Unidad de procesamiento de tensores de Google, pero la fabricación de chips ya no mejora exponencialmente a través de la ley de Moore y la reducción de circuitos.
También habrá problemas legales. Stability ai , una empresa que produce un modelo de generación de imágenes llamado Stable Diffusion, ha sido demandada por Getty Images, una agencia de fotografía. Los datos de entrenamiento de Stable Diffusion provienen del mismo lugar que gpt -3 y gpt -4, Common Crawl, y los procesa de manera muy similar, utilizando redes de atención. Algunos de los ejemplos más llamativos de la destreza generativa de la ia han sido las imágenes. Las personas en Internet ahora se ven atrapadas regularmente por la emoción de las aparentes fotos de escenas que nunca ocurrieron: el Papa con una chaqueta de Balenciaga; Donald Trump siendo arrestado.
Getty señala imágenes producidas por Stable Diffusion que contienen su marca de agua de derechos de autor, lo que sugiere que Stable Diffusion ha ingerido y está reproduciendo material protegido por derechos de autor sin permiso (Stability AI aún no ha comentado públicamente sobre la demanda). El mismo nivel de evidencia es más difícil de obtener cuando se examina la salida de texto de Chat gpt , pero no hay duda de que se ha entrenado con material protegido por derechos de autor. Open ai esperará que su generación de texto esté cubierta por el "uso justo", una disposición en la ley de derechos de autor que permite el uso limitado de material protegido por derechos de autor con fines "transformadores". Esa idea probablemente algún día será probada en la corte.
Un electrodoméstico importante
Pero incluso en un escenario en el que los llm dejaran de mejorar este año y una demanda de gran éxito llevara a Open ai a la bancarrota, el poder de los grandes modelos de lenguaje se mantendría. Los datos y las herramientas para procesarlos están ampliamente disponibles, incluso si la escala lograda por Open ai sigue siendo costosa.
Las implementaciones de código abierto, cuando se entrenan de forma cuidadosa y selectiva, ya están imitando el rendimiento de gpt -4. Esto es bueno: tener el poder de los llm en muchas manos significa que muchas mentes pueden idear nuevas aplicaciones innovadoras, mejorando todo, desde la medicina hasta la ley.
Pero también significa que el riesgo catastrófico que mantiene despierta a la élite tecnológica se ha vuelto más imaginable. los llm ya son increíblemente poderosos y han mejorado tan rápido que muchos de los que trabajan en ellos se han asustado. Las capacidades de los modelos más grandes han superado la comprensión y el control de sus creadores. Eso genera riesgos, de todo tipo.