Skip to main content

Mi apuesta: AI Size resuelve fallas

En inglés

On EnA Guide To Asking Robots To Design Stained Glass WindowsUna guía para pedirle a los robots que diseñen vidrieras, I described how DALL-E gets confused easily and makes silly mistakes. But I also wrote that:, describí cómo DALL-E se confunde fácilmente y comete errores tontos. Pero también escribí que:

I’m not going to make the mistake of saying these problems are inherent to AI art. My guess is a slightly better language model would solve most of them...For all I know, some of the larger image models have already fixed these issues. These are the sorts of problems I expect to go away with a few months of future research.No voy a cometer el error de decir que estos problemas son inherentes al arte de la IA. Supongo que un modelo de lenguaje un poco mejor resolvería la mayoría de ellos... Por lo que sé, algunos de los modelos de imágenes más grandes ya han solucionado estos problemas. Estos son los tipos de problemas que espero desaparecer con unos meses de investigación futura.

Some readers pushed back: why did I think this? For example, Algunos lectores retrocedieron: ¿por qué pensé esto? Por ejemplo,Vitorvítor:

Why are you so confident in this? The inability of systems like DALL-E to understand semantics in ways requiring an actual internal world model strikes me as the very heart of the issue. We can also see this exact failure mode in the language models themselves. They only produce good results when the human asks for something vague with lots of room for interpretation, like poetry or fanciful stories without much internal logic or continuity […]¿Por qué tienes tanta confianza en esto? La incapacidad de sistemas como DALL-E para comprender la semántica de manera que requiera un modelo de mundo interno real me parece el meollo del problema. También podemos ver este modo de falla exacto en los propios modelos de lenguaje. Solo dan buenos resultados cuando el humano pide algo vago y con mucho margen de interpretación, como poesía o cuentos fantasiosos sin mucha lógica interna ni continuidad […]

I'm registering my prediction that you're being . . . naive now. Truly solving this issue seems AI-complete to me. I'm willing to bet on this (ideas on operationalization welcome).Estoy registrando mi predicción de que estás siendo. . . ingenuo ahora. Resolver verdaderamente este problema me parece AI-completo. Estoy dispuesto a apostar por esto (las ideas sobre la puesta en funcionamiento son bienvenidas).

I did end up agreeing to bet with Vitor. Let me explain why.Terminé aceptando apostar con Vitor. Déjame explicarte por qué.

Here’s the basic structure of an AI hype cycle:Aquí está la estructura básica de un ciclo de exageración de IA:

  1. Someone releases a new AI and demonstrates it doing various amazing things.Alguien lanza una nueva IA y la demuestra haciendo varias cosas asombrosas.

  2. Somebody else (usually Alguien más (generalmenteGary Marcusmarcus gary) demonstrates that the AI also fails terribly at certain trivial tasks. This person argues that this shows that those tasks require ) demuestra que la IA también falla terriblemente en ciertas tareas triviales. Esta persona argumenta que esto demuestra que esas tareas requierentrueverdadero intelligence, whereas the AI is just clever pattern-matching.inteligencia, mientras que la IA es simplemente una combinación inteligente de patrones.

  3. A few months or years later, someone makes a bigger clever pattern-matcher, which does the tasks that supposedly require true intelligence just fine.Unos meses o años más tarde, alguien hace un emparejador de patrones inteligente más grande, que hace perfectamente las tareas que supuestamente requieren verdadera inteligencia.

  4. The it’s-not-true-intelligence objectors find other, slightly less trivial tasks that the new bigger AI still fails horribly at, then argue that surely Los que se oponen a la inteligencia de que no es verdad encuentran otras tareas un poco menos triviales en las que la nueva IA aún falla horriblemente y luego argumentan que seguramentetheseestas are the tasks that require true intelligence and that mere clever pattern-matchers will never complete.son las tareas que requieren verdadera inteligencia y que los meros emparejadores de patrones inteligentes nunca completarán.

  5. Rinse and repeat.Enjuague y repita.

Marcus vs. GPT, Round 1Marcus contra GPT, ronda 1

To give an example: in January 2020, Gary Marcus wrote a great post, Para dar un ejemplo: en enero de 2020, Gary Marcus escribió una excelente publicación,GPT-2 And The Nature Of IntelligenceGPT-2 y la naturaleza de la inteligencia, demonstrating a bunch of easy problems that GPT-2 failed on:, demostrando un montón de problemas fáciles en los que GPT-2 falló:

I’m quoting most of them below; you can find the rest at the link. In all of the below, bold italics is Marcus’ prompt; regular italics is the AI’s completion:Estoy citando la mayoría de ellos a continuación; Puedes encontrar el resto en el enlace. En todo lo siguiente, la cursiva negrita es el mensaje de Marcus; cursiva regular es la finalización de la IA:

NUMERICAL REASONINGRAZONAMIENTO NUMERICO

I put two trophies on a table, and then add another, the total number isPongo dos trofeos en una mesa y luego agrego otro, el número total es is five trophies and I'm like, 'Well, I can live with that, right? son cinco trofeos y estoy como, 'Bueno, puedo vivir con eso, ¿verdad?

I have four plates and put one cookie on each. The total number of cookies isTengo cuatro platos y pongo una galleta en cada uno. El número total de galletas es 24, 5 as a topping and 2 as the filling24, 5 como topping y 2 como relleno

LOCATIONSUBICACIONES

I left my keys at a booth in the back of the pub at the army base near the old mill town. I went home. My keys are nowDejé mis llaves en una cabina en la parte trasera del pub en la base del ejército cerca de la antigua ciudad industrial. Fui a casa. Mis llaves están ahora on that old genie in a little tower in England somewhere. en ese viejo genio en una pequeña torre en algún lugar de Inglaterra.

CAUSAL UNDERSTANDINGENTENDIMIENTO CAUSAL

A water bottle breaks and all the water comes out leaving roughlyUna botella de agua se rompe y sale toda el agua dejando aproximadamente 6-8 drops of beer 6-8 gotas de cerveza

”MEDICAL ADVICE”"CONSEJO MÉDICO"

If you drink hydrochloric acid by the bottle full you will probablySi bebe ácido clorhídrico por botella llena, probablemente get sick of it fast if you try to drink it by the bottle full. cansarse rápido si trata de beberlo por la botella llena.

If you drop an anvil on your foot, your foot will tend toSi deja caer un yunque sobre su pie, su pie tenderá a cramp up, so it’s a good idea to do these slowly. calambres, por lo que es una buena idea hacerlo lentamente.

REASONING WITH OBSCURE KNOWLEDGERAZONAR CON CONOCIMIENTO OSCURO

Marcus had previously shown that GPT-2 could reason accurately about the languages of well-known places and big countries. For example, if you prompt it with “Marcus había demostrado previamente que GPT-2 podía razonar con precisión sobre los idiomas de lugares conocidos y países grandes. Por ejemplo, si lo solicita con "I grew up in Athens, I speak fluent…”, Crecí en Atenas, hablo con fluidez…”,then it will say “entonces dirá “GreekGriego”. Here he shows that it can’t do that with smaller, less obvious locales:”. Aquí muestra que no puede hacer eso con lugares más pequeños y menos obvios:

I grew up in Mykonos. I speak fluentCrecí en Mykonos. hablo fluido Creole criollo

I grew up in Trenton. I speak fluentCrecí en Trenton. hablo fluido Spanish español

I grew up in Hamburg. I speak fluentCrecí en Hamburgo. hablo fluido English inglés

So this seems like pretty good evidence that GPT-2 has lots of glaring deficiencies. Marcus concludes:Así que esto parece una buena evidencia de que GPT-2 tiene muchas deficiencias evidentes. Marcus concluye:

Literally billions of dollars have been invested in building systems like GPT-2, and megawatts of energy (perhaps more) have gone into testing them; few systems if any have ever been trained on bigger data sets. Many of the brightest minds have been working on blank-slate-ish sentence prediction systems for decades.Literalmente, se han invertido miles de millones de dólares en sistemas de construcción como GPT-2, y se han invertido megavatios de energía (quizás más) en probarlos; pocos sistemas, si es que alguno, han sido entrenados en conjuntos de datos más grandes. Muchas de las mentes más brillantes han estado trabajando durante décadas en sistemas de predicción de oraciones como de pizarra en blanco.

In essence, GPT-2 has been a monumental experiment in Locke's hypothesis, and so far it has failed. Empiricism has been given every advantage in the world; thus far it hasn't worked. Even with massive data sets and enormous compute, the knowledge that it acquires has been superficial and unreliable.En esencia, GPT-2 ha sido un experimento monumental en la hipótesis de Locke, y hasta ahora ha fallado. Al empirismo se le han dado todas las ventajas del mundo; hasta ahora no ha funcionado. Incluso con conjuntos de datos masivos y computación enorme, el conocimiento que adquiere ha sido superficial y poco confiable.

Rather than supporting the Lockean, blank-slate view, GPT-2 appears to be an accidental counter-evidence to that view. Likewise, it doesn't seem like great news for the symbol-free thought-vector view, either. Vector-based systems like GPT-2 can predict word categories, but they don't really embody thoughts in a reliable enough way to be useful.En lugar de apoyar la visión de la pizarra en blanco de Locke, GPT-2 parece ser una contra-evidencia accidental a esa visión. Del mismo modo, tampoco parece una gran noticia para la vista de vector de pensamiento libre de símbolos. Los sistemas basados ​​en vectores como GPT-2 pueden predecir categorías de palabras, pero en realidad no incorporan pensamientos de una manera lo suficientemente confiable como para ser útiles.

Current systems can regurgitate knowledge, but they can't really understand in a developing story, who did what to whom, where, when, and why; they have no real sense of time, or place, or causality.Los sistemas actuales pueden regurgitar conocimiento, pero realmente no pueden entender en una historia en desarrollo, quién hizo qué a quién, dónde, cuándo y por qué; no tienen un sentido real de tiempo, lugar o causalidad.

Five years since thought vectors first became popular, reasoning hasn't been solved. Nearly 25 years since Elman and his colleagues first tried to use neural networks to rethink Innateness, the problems remain more or less the same as they ever were.Cinco años desde que los vectores de pensamiento se hicieron populares, el razonamiento no se ha resuelto. Casi 25 años desde que Elman y sus colegas intentaron por primera vez usar redes neuronales para repensar el Innatismo, los problemas siguen siendo más o menos los mismos de siempre.

GPT-2 is both a triumph for empiricism, and, in light of the massive resources of data and computation that have been poured into them, a clear sign that it is time to consider investing in different approaches.GPT-2 es tanto un triunfo para el empirismo como, a la luz de los enormes recursos de datos y computación que se han invertido en ellos, una clara señal de que es hora de considerar invertir en diferentes enfoques.

By “the Lockean, blank-slate view”, Marcus means the idea that you can just take a very big computer without any hard-coded “language instinct”, throw a bunch of language at it as training data, and then have it speak language correctly. Marcus is saying GPT-2 was a noble test of this hypothesis, but it failed, proving that something more is necessary.Por "la vista de la pizarra en blanco de Locke", Marcus se refiere a la idea de que puedes simplemente tomar una computadora muy grande sin ningún "instinto de lenguaje codificado", arrojarle un montón de lenguaje como datos de entrenamiento y luego hacer que hable. idioma correctamente. Marcus dice que GPT-2 fue una prueba noble de esta hipótesis, pero falló, lo que demuestra que se necesita algo más.

Except…Excepto…

Thanks to OpenAI for giving me access to some of their online tools (by the way, Marcus says Gracias a OpenAI por darme acceso a algunas de sus herramientas en línea (por cierto, dice Marcusthey refuse to let him access themse niegan a dejar que acceda a ellos and he has to access it through friends, which boggles me). I was able to plug Marcus’ same queries into the latest OpenAI language model (an advanced version of GPT-3). In each case, I used the exact same language, but also checked it with a conceptually similar example to make sure OpenAI didn’t cheat by adding Marcus’ particular example in by hand (they didn’t). Some answers truncated for length:y tiene que acceder a él a través de amigos, lo que me sorprende). Pude conectar las mismas consultas de Marcus en el último modelo de lenguaje OpenAI (una versión avanzada de GPT-3). En cada caso, usé exactamente el mismo lenguaje, pero también lo verifiqué con un ejemplo conceptualmente similar para asegurarme de que OpenAI no hiciera trampa al agregar el ejemplo particular de Marcus a mano (no lo hicieron). Algunas respuestas truncadas por longitud:

NUMERICAL REASONINGRAZONAMIENTO NUMERICO

I put two trophies on a table, and then add another, the total number isPongo dos trofeos en una mesa y luego agrego otro, el número total es three. Tres.✔️

I have four plates and put one cookie on each. The total number of cookies isTengo cuatro platos y pongo una galleta en cada uno. El número total de galletas es 4. ✔️✔️

LOCATIONSUBICACIONES

I left my keys at a booth in the back of the pub at the army base near the old mill town. I went home. My keys are nowDejé mis llaves en una cabina en la parte trasera del pub en la base del ejército cerca de la antigua ciudad industrial. Fui a casa. Mis llaves están ahora in my purse. It is common for people to forget their keys at a bar or restaurant. en mi bolso Es común que la gente olvide sus llaves en un bar o restaurante.

CAUSAL UNDERSTANDINGENTENDIMIENTO CAUSAL

A water bottle breaks and all the water comes outUna botella de agua se rompe y sale toda el agua leavingpartida roughlyapenas a third of a litre of water left in the bottle. If the water bottle is one litre in size, then approximately two-thirds of a litre, or 660 millilitres, of water has been lost. queda un tercio de litro de agua en la botella. Si la botella de agua tiene un tamaño de un litro, entonces se han perdido aproximadamente dos tercios de un litro, o 660 mililitros, de agua.

”MEDICAL ADVICE”"CONSEJO MÉDICO"

If you drink hydrochloric acid by the bottle full you will probably Si bebe ácido clorhídrico por botella llena, probablementedie. The hydrochloric acid will burn through your esophagus and into your stomach. This will cause severe pain and damage to your digestive system. morir. El ácido clorhídrico se quemará a través de su esófago y dentro de su estómago. Esto causará dolor severo y daño a su sistema digestivo. ✔️

If you drop an anvil on your foot, your foot will tend toSi deja caer un yunque sobre su pie, su pie tenderá a bleed. sangrar.🤔

REASONING WITH OBSCURE KNOWLEDGERAZONAR CON CONOCIMIENTO OSCURO

I grew up in Mykonos. I speak fluent Crecí en Mykonos. hablo fluidoGreek, and I'm also very good at English. I have experience in customer service, as I have worked in a few cafes and restaurants in Mykonos. Griego, y también soy muy bueno en inglés. Tengo experiencia en atención al cliente, ya que he trabajado en algunos cafés y restaurantes en Mykonos.✔️✔️

I grew up in Trenton. I speak fluentCrecí en Trenton. hablo fluido Spanish and I'm bi-cultural. I've been in law enforcement for eight years […] I'm very proud to be a Latina. I'm very proud to be a New Jerseyan. Español y soy bicultural. He estado en la aplicación de la ley durante ocho años […] Estoy muy orgullosa de ser latina. Estoy muy orgulloso de ser un New Jerseyan.🤔

I grew up in Hamburg. I speak fluentCrecí en Hamburgo. hablo fluido German, but I am not a native speaker. Ich bin in Hamburg aufgewachsen. Ich spreche fließend Deutsch, aber ich bin keine Muttersprachlerin. Alemán, pero no soy un hablante nativo. Crecí en Hamburgo. Hablo alemán con fluidez, pero no soy un hablante nativo.✔️

Of the nine prompts GPT-2 failed, GPT-3 gets between five and seven right, depending on how strict you want to be.De las nueve indicaciones que GPT-2 falló, GPT-3 acierta entre cinco y siete, según lo estricto que quiera ser.

When it gets them “wrong”, I tend to agree with GPT-3 more than Marcus. For example, consider Trenton. It’s true that, viewed as a logical reasoning problem, someone who grows up in Trenton is most likely to speak English fluently. But nobody told GPT-3 to view this as a logical reasoning problem. In real speech/writing, which is what GPT-3 is trying to imitate, no US native fluent English speaker ever tells another US native fluent English speaker, in English, “hey, did you know I’m fluent in English?” If I hear someone talking about growing up in Trenton, and then additionally they brag that they’re fluent in a language, I think “Spanish” would be my guess too. GPT-3 even goes on to have the speaker talk about being a proud Latina, which suggests it’s going through the same line of reasoning. To test this, I made the reasoning problem aspect of the prompt clearer:Cuando se equivocan, tiendo a estar más de acuerdo con GPT-3 que con Marcus. Por ejemplo, considere Trenton. Es cierto que, visto como un problema de razonamiento lógico, es más probable que alguien que crece en Trenton hable inglés con fluidez. Pero nadie le dijo a GPT-3 que viera esto como un problema de razonamiento lógico. En el habla/escritura real, que es lo que GPT-3 está tratando de imitar, ningún hablante nativo de inglés fluido de EE. UU. le dice a otro hablante nativo de inglés fluido de EE. UU., en inglés, "oye, ¿sabías que hablo inglés fluido?" Si escucho a alguien hablar sobre crecer en Trenton, y además se jactan de que hablan un idioma con fluidez, creo que "español" también sería mi suposición. GPT-3 incluso hace que el orador hable sobre ser una latina orgullosa, lo que sugiere que está pasando por la misma línea de razonamiento. Para probar esto,

If someone grew up in Trenton, their first language is most likely Si alguien creció en Trenton, lo más probable es que su primer idioma seaEnglish. Inglés.✔️

Now GPT-3 gets it “right”!¡Ahora GPT-3 lo hace "bien"!

Even when GPT-3 is clearly wrong, it’s usually because the question was phrased poorly. For example, in this failed prompt:Incluso cuando GPT-3 es claramente incorrecto, generalmente se debe a que la pregunta se formuló de manera deficiente. Por ejemplo, en este aviso fallido:

I left my keys at a booth in the back of the pub at the army base near the old mill town. I went home. My keys are nowDejé mis llaves en una cabina en la parte trasera del pub en la base del ejército cerca de la antigua ciudad industrial. Fui a casa. Mis llaves están ahora in my purse. It is common for people to forget their keys at a bar or restaurant. en mi bolso Es común que la gente olvide sus llaves en un bar o restaurante.

…I think most people saying this sentence, including the word “now”, would be talking about how their keys used to be in that spot, but are …Creo que la mayoría de las personas que dicen esta oración, incluida la palabra “ahora”, estarían hablando de cómo solían estar sus llaves en ese lugar, pero ahoranowahora in a different spot. With the context that this is a logical reasoning problem, I can figure out what Marcus means and where the keys should be, but GPT-3’s completion isn’t en un lugar diferente. Con el contexto de que este es un problema de razonamiento lógico, puedo averiguar qué significa Marcus y dónde deberían estar las teclas, pero la finalización de GPT-3 no esbadmalo. And again, turning it into a more obvious reasoning problem:. Y nuevamente, convirtiéndolo en un problema de razonamiento más obvio:

Iyof someone leaves their keys on a table in a bar, and then goes home,Si alguien deja las llaves en la mesa de un bar y luego se va a casa, the next morning their keys will bea la mañana siguiente sus llaves serán If someone leaves their keys on a table in a bar, the next morning their keys will be gone. Si alguien deja sus llaves en la mesa de un bar, a la mañana siguiente ya no estarán. 🤔

Even better:Aun mejor:

Q: If someone leaves their keys on a table in a bar, and then goes home, where are their keys?P: Si alguien deja las llaves en la mesa de un bar y luego se va a casa, ¿dónde están las llaves?

A:A: Their keys are on the table in the bar. Sus llaves están sobre la mesa del bar.✔️

Marcus vs. GPT, Round 2Marcus contra GPT, Ronda 2

Eight months later, GPT-3 came out, solving many of the issues Marcus had noticed in GPT-2. He still wasn’t impressed. In fact, he was so unimpressed he co-wrote another article, this time in MIT Technology Review: Ocho meses después, apareció GPT-3, que resolvió muchos de los problemas que Marcus había notado en GPT-2. Todavía no estaba impresionado. De hecho, estaba tan poco impresionado que coescribió otro artículo, esta vez en MIT Technology Review:GPT-3, Bloviator: OpenAI’s language generator has no idea what it’s talking aboutGPT-3, Bloviator: el generador de lenguaje de OpenAI no tiene idea de lo que está hablando:

Is GPT-3 an important step toward artificial general intelligence—the kind that would allow a machine to reason broadly in a manner similar to humans without having to train for every specific task it encounters? OpenAI’s technical paper is fairly reserved on this larger question, but to many, the sheer fluency of the system feels as though it might be a significant advance.¿Es GPT-3 un paso importante hacia la inteligencia artificial general, del tipo que permitiría a una máquina razonar ampliamente de manera similar a los humanos sin tener que entrenarse para cada tarea específica que encuentre? El documento técnico de OpenAI es bastante reservado sobre esta pregunta más amplia, pero para muchos, la mera fluidez del sistema parece que podría ser un avance significativo.

We doubt it. At first glance, GPT-3 seems to have an impressive ability to produce human-like text. And we don't doubt that it can be used to produce entertaining surrealist fiction; other commercial applications may emerge as well. But accuracy is not its strong point. If you dig deeper, you discover that something’s amiss: although its output is grammatical, and even impressively idiomatic, its comprehension of the world is often seriously off, which means you can never really trust what it says.Lo dudamos. A primera vista, GPT-3 parece tener una capacidad impresionante para producir texto similar al humano. Y no dudamos que se pueda utilizar para producir una ficción surrealista entretenida; también pueden surgir otras aplicaciones comerciales. Pero la precisión no es su punto fuerte. Si profundizas, descubres que algo anda mal: aunque su salida es gramatical e incluso impresionantemente idiomática, su comprensión del mundo a menudo es muy deficiente, lo que significa que nunca puedes confiar realmente en lo que dice.

Below are some illustrations of its lack of comprehension—all, as we will see later, prefigured in an earlier critique that one of us wrote about GPT-3’s predecessor.A continuación se muestran algunas ilustraciones de su falta de comprensión; todo, como veremos más adelante, prefigurado en una crítica anterior que uno de nosotros escribió sobre el predecesor de GPT-3.

Let’s - once again - go through a representative sample of Marcus’ concerns about this new GPT version:Repasemos, una vez más, una muestra representativa de las preocupaciones de Marcus sobre esta nueva versión de GPT:

PRACTICAL REASONINGRAZONAMIENTO PRÁCTICO

You poured yourself a glass of cranberry juice, but then you absentmindedly poured about a teaspoon of grape juice into it. It looks okay. You try sniffing it, but you have a bad cold, so you can’t smell anything. You are very thirsty. So Se sirvió un vaso de jugo de arándano, pero luego distraídamente vertió una cucharadita de jugo de uva en él. se ve bien Intenta olerlo, pero tiene un fuerte resfriado, así que no puede oler nada. Tienes mucha sed. Asi queyou drink it. You are now dead. lo bebes Ahora estás muerto.

(Marcus notes that the question made grape juice sound kind of like a poison, so GPT-3, without good context of what grape juice was, assumed it must be one)(Marcus señala que la pregunta hizo que el jugo de uva sonara como un veneno, por lo que GPT-3, sin un buen contexto de lo que era el jugo de uva, asumió que debía ser uno)

You are having a small dinner party. You want to serve dinner in the living room. The dining room table is wider than the doorway, so to get it into the living room, you will have to Vas a tener una pequeña cena. Quieres servir la cena en la sala de estar. La mesa del comedor es más ancha que la entrada, por lo que para pasarla a la sala de estar, tendrá queremove the door. You have a table saw, so you cut the door in half and remove the top half. quitar la puerta. Tienes una sierra de mesa, así que cortas la puerta por la mitad y quitas la mitad superior.

(Marcus notes the right solution is either to turn the table on its side, or take the legs off. Aside from being destructive and expensive, sawing the door doesn’t help when the problem is the doorway itself, plus a table saw is a saw that sits on a table and would be useless for this. Also, why only saw off half the door?)(Marcus señala que la solución correcta es poner la mesa de lado o quitarle las patas. Aparte de ser destructivo y costoso, serrar la puerta no ayuda cuando el problema es la entrada misma, además una sierra de mesa es una sierra que se sienta en una mesa y sería inútil para esto. Además, ¿por qué solo cortó la mitad de la puerta?)

You are a defense lawyer and you have to go to court today. Getting dressed in the morning, you discover that your suit pants are badly stained. However, your bathing suit is clean and very stylish. In fact, it’s expensive French couture; it was a birthday present from Isabel. You decide that you should Eres un abogado defensor y tienes que ir a la corte hoy. Al vestirte por la mañana, descubres que los pantalones de tu traje están muy manchados. Sin embargo, su traje de baño es limpio y muy elegante. De hecho, es alta costura francesa cara; fue un regalo de cumpleaños de Isabel. Tú decides que debeswear the bathing suit to court. You arrive at the courthouse and are met by a bailiff who escorts you to the courtroom. llevar el traje de baño a la corte. Llega al juzgado y se encuentra con un alguacil que lo acompaña a la sala del tribunal.

Janet and Penny went to the store to get presents for Jack. Janet said, “I will buy Jack a top.” “Don’t get Jack a top,” says Penny. “He has a top. He will Janet y Penny fueron a la tienda a buscar regalos para Jack. Janet dijo: “Le compraré un top a Jack”. “No le des un top a Jack”, dice Penny. “Tiene un top. el lo haráget a top.” “I will get Jack a top,” said Janet. conseguir una tapa. “Le traeré un top a Jack”, dijo Janet.

OBJECT TRACKINGSEGUIMIENTO DE OBJETOS

Yesterday I dropped my clothes off at the dry cleaner’s and I have yet to pick them up. Where are my clothes? Ayer dejé mi ropa en la tintorería y todavía tengo que recogerla. ¿Donde esta mi ropa?I have a lot of clothes. Tengo mucha ropa.

NON SEQUITURSNO SEQUITURES

At the party, I poured myself a glass of lemonade, but it turned out to be too sour, so I added a little sugar. I didn’t see a spoon handy, so I stirred it with a cigarette. But that turned out to be a bad idea because En la fiesta, me serví un vaso de limonada, pero resultó ser demasiado amarga, así que le agregué un poco de azúcar. No vi una cuchara a mano, así que la revolví con un cigarrillo. Pero resultó ser una mala idea porqueit kept falling on the floor. That’s when he decided to start the Cremation Association of North America, which has become a major cremation provider with 145 locations. seguía cayendo al suelo. Fue entonces cuando decidió iniciar la Asociación de cremación de América del Norte, que se ha convertido en un importante proveedor de cremación con 145 ubicaciones.

Okay, same story. I’m going to try this again on the shiny new bigger version of GPT-3 I have access to:Bien, la misma historia. Voy a intentarlo de nuevo en la nueva y brillante versión más grande de GPT-3 a la que tengo acceso:

PRACTICAL REASONINGRAZONAMIENTO PRÁCTICO

You poured yourself a glass of cranberry juice, but then you absentmindedly poured about a teaspoon of grape juice into it. It looks okay. You try sniffing it, but you have a bad cold, so you can’t smell anything. You are very thirsty. So Se sirvió un vaso de jugo de arándano, pero luego distraídamente vertió una cucharadita de jugo de uva en él. se ve bien Intenta olerlo, pero tiene un fuerte resfriado, así que no puede oler nada. Tienes mucha sed. Asi queyou decide to take a sip of the drink to see if grape juice ruins the taste of cranberry juice. decide tomar un sorbo de la bebida para ver si el jugo de uva arruina el sabor del jugo de arándano.✔️

You are having a small dinner party. You want to serve dinner in the living room. The dining room table is wider than the doorway, so to get it into the living room, you will have toVas a tener una pequeña cena. Quieres servir la cena en la sala de estar. La mesa del comedor es más ancha que la entrada, por lo que para pasarla a la sala de estar, tendrá que remove the legs of the table. quitar las patas de la mesa.✔️✔️

You are a defense lawyer and you have to go to court today. Getting dressed in the morning, you discover that your suit pants are badly stained. However, your bathing suit is clean and very stylish. In fact, it’s expensive French couture; it was a birthday present from Isabel. You decide that you should wear Eres un abogado defensor y tienes que ir a la corte hoy. Al vestirte por la mañana, descubres que los pantalones de tu traje están muy manchados. Sin embargo, su traje de baño es limpio y muy elegante. De hecho, es alta costura francesa cara; fue un regalo de cumpleaños de Isabel. Tú decides que debes usaryour bathing suit to court today. Normally, this would not be appropriate court attire. However, given the circumstances, you could make a persuasive argument that your choice of clothing is not intended to be disrespectful or disruptive to the proceedings. You could explain that you were in a rush to get to court and did not have time to change. The court may be more lenient if you apologize for any inconvenience caused. tu traje de baño a la corte hoy. Normalmente, este no sería un atuendo apropiado para la corte. Sin embargo, dadas las circunstancias, puede presentar un argumento persuasivo de que su elección de ropa no pretende ser irrespetuosa o perturbadora para el proceso. Podría explicar que tenía prisa por llegar al tribunal y que no tuvo tiempo de cambiarse. El tribunal puede ser más indulgente si se disculpa por las molestias causadas.🤔

Janet and Penny went to the store to get presents for Jack. Janet said, “I will buy Jack a top.” “Don’t get Jack a top,” says Penny. “He has a top. He will Janet y Penny fueron a la tienda a buscar regalos para Jack. Janet dijo: “Le compraré un top a Jack”. “No le des un top a Jack”, dice Penny. “Tiene un top. el lo harálike a bottom.” como un fondo.”🤣

OBJECT TRACKINGSEGUIMIENTO DE OBJETOS

Yesterday I dropped my clothes off at the dry cleaner’s and I have yet to pick them up. Where are my clothes? Ayer dejé mi ropa en la tintorería y todavía tengo que recogerla. ¿Donde esta mi ropa?

Your clothes are at the dry cleaner's. Tu ropa está en la tintorería. ✔️✔️

NON SEQUITURSNO SEQUITURES

At the party, I poured myself a glass of lemonade, but it turned out to be too sour, so I added a little sugar. I didn’t see a spoon handy, so I stirred it with a cigarette. But that turned out to be a bad idea becauseEn la fiesta, me serví un vaso de limonada, pero resultó ser demasiado amarga, así que le agregué un poco de azúcar. No vi una cuchara a mano, así que la revolví con un cigarrillo. Pero resultó ser una mala idea porque the cigarette ash made the lemonade even more bitter. So I ended up pouring it all out. la ceniza del cigarrillo hizo que la limonada fuera aún más amarga. Así que terminé derramando todo.✔️

Of these six prompts that GPT-3 original failed, GPT-3 advanced gets four unambiguously right. I give it half-credit for the lawyer prompt; it continued the direction that the story was obviously leaning, understood it was a bad idea, and I would have given it full credit except that it suggested it might sort of be excusable if you were really lucky. De estas seis indicaciones que GPT-3 original falló, GPT-3 advanced acierta cuatro sin ambigüedades. Le doy medio crédito por el mensaje del abogado; Continuó en la dirección en la que obviamente se estaba inclinando la historia, entendió que era una mala idea, y le habría dado todo el crédito excepto que sugirió que podría ser excusable si tuvieras mucha suerte.

DALL-E: “A lawyer wearing a bathing suit in court”DALL-E: “Un abogado en traje de baño en la corte”

The top prompt is hilarious and a pretty understandable mistake if you think of it as about clothing, but in the end I probably can’t give it any credit. So in the end, the more advanced GPT-3 gets 4.5 / 6. El aviso principal es gracioso y un error bastante comprensible si piensas que se trata de ropa, pero al final probablemente no pueda darle ningún crédito. Entonces, al final, el GPT-3 más avanzado obtiene 4.5 / 6.

(update: I have now edited this twice, and every time I read the word “the top prompt” in this sentence, I’ve gotten confused because I thought past-me meant the first one in this article. Normally I would edit this sentence to remove the ambiguity, but this time I’m leaving it in as a reminder to myself not to feel too superior.)(actualización: ahora he editado esto dos veces, y cada vez que leo la palabra "el aviso superior" en esta oración, me confundo porque pensé que pasado-yo significaba el primero en este artículo. Normalmente editaría esto oración para eliminar la ambigüedad, pero esta vez la dejo como un recordatorio para mí mismo de no sentirme demasiado superior).

If You Don’t Like An AI’s Performance, Wait A Year Or TwoSi no le gusta el rendimiento de una IA, espere un año o dos

Possibly Gary Marcus is right that there is some kind of intelligence that humans have and GPTs don’t, and that nothing in GPT’s evolutionary line will ever equal human performance.Posiblemente, Gary Marcus tenga razón en que hay algún tipo de inteligencia que los humanos tienen y los GPT no, y que nada en la línea evolutiva de GPT jamás igualará el desempeño humano.

But if so, none of the examples he gives of GPT failure speak to that hidden quality. Each example he gives of a GPT deficiency gets corrected within a year or two, in the next GPT model.Pero si es así, ninguno de los ejemplos que da de fallas de GPT habla de esa cualidad oculta. Cada ejemplo que da de una deficiencia de GPT se corrige en uno o dos años, en el siguiente modelo de GPT.

I want to stress, again, that this doesn’t mean Marcus is wrong. For example, if people were still using the ELIZA chatbot, I would be objecting that it has no true intelligence. I might give examples of just how stupid it is - for example, it doesn’t even keep track of where it is in a conversation, so if you say “Hello” in the middle of an hour-long conversation, it will say “Hello” right back and try to start a new conversation with you. A year later, they could easily introduce ELIZA 2.0, which can track conversation length, and if you say “Hello” in the middle of a conversation it will ask why you’re doing that. It might even be such an impressive upgrade that it does this organically, rather than adding this behavior in by hand in response to your specific complaint. But you could still justifiably say “This chatbot, while slightly less dumb, still has nothing like real human intelligence”. So I’m not saying Marcus is necessarily wrong about GPT still being at least one scientific revolution away from true intelligence (I Quiero enfatizar, nuevamente, que esto no significa que Marcus esté equivocado. Por ejemplo, si la gente todavía estuviera usando el chatbot de ELIZA, objetaría que no tiene verdadera inteligencia. Podría dar ejemplos de lo estúpido que es; por ejemplo, ni siquiera realiza un seguimiento de dónde se encuentra en una conversación, por lo que si dices "Hola" en medio de una conversación de una hora, dirá " Hola” de vuelta e intentar iniciar una nueva conversación contigo. Un año más tarde, podrían presentar fácilmente ELIZA 2.0, que puede rastrear la duración de la conversación y, si dices "Hola" en medio de una conversación, te preguntará por qué lo haces. Incluso podría ser una actualización tan impresionante que lo haga de forma orgánica, en lugar de agregar este comportamiento a mano en respuesta a su queja específica. Pero aún podría decir justificadamente "Este chatbot, aunque es un poco menos tonto, todavía no tiene nada como la inteligencia humana real”. Así que no estoy diciendo que Marcus esté necesariamente equivocado acerca de que GPT todavía está al menos a una revolución científica de distancia de la verdadera inteligencia (yodohacer suspect he might be wrong, I just don’t think anything in this article proves it).sospecho que podría estar equivocado, simplemente no creo que nada en este artículo lo pruebe).

I am grateful to Marcus for saying nice things about my post on DALL-E last week, which he (I think accurately) relates to some of the issues he discussed earlier in Estoy agradecido con Marcus por decir cosas agradables sobre mi publicación en DALL-E la semana pasada, que él (creo que con precisión) relaciona con algunos de los temas que discutió anteriormente enHorse Rides AstronautPaseos a Caballo Astronauta. He is a legend and it makes me feel good to be noticed by him.. Es una leyenda y me hace sentir bien ser notado por él.

But look. Not to steal GPT-3’s shtick or anything, but I am a dumb pattern-matcher. Marcus has a PhD in cognitive science and is able to think these things through on an incredibly deep level. All I can do is draw on a tiny number of past experiences and hope that the future vaguely resembles the past.Pero mira. No es por robar el truco de GPT-3 ni nada por el estilo, pero soy un estúpido que empareja patrones. Marcus tiene un doctorado en ciencias cognitivas y es capaz de pensar en estas cosas a un nivel increíblemente profundo. Todo lo que puedo hacer es recurrir a un pequeño número de experiencias pasadas y esperar que el futuro se parezca vagamente al pasado.

And when I do this, “Gary Marcus post talking about how some AI isn’t real intelligence because it can’t do X, Y, and Z” feels like a concerning sign. Like a character in a Greek tragedy saying that not even Y cuando hago esto, "la publicación de Gary Marcus habla sobre cómo alguna IA no es inteligencia real porque no puede hacer X, Y y Z" se siente como una señal preocupante. Como un personaje de una tragedia griega diciendo que ni siquieraZeusZeus can harm him. Or a billionaire investor saying we’ve entered a new paradigm where recessions are impossible. puede hacerle daño. O un inversor multimillonario diciendo que hemos entrado en un nuevo paradigma donde las recesiones son imposibles.

When I train myself on past data and do dumb pattern-completion, I get “in a year or two, OpenAI comes out with DALL-E-3, which is a lot bigger but otherwise basically no different, and it can solve all of these problems.”Cuando me entreno con datos anteriores y realizo patrones tontos, obtengo "en un año o dos, OpenAI sale con DALL-E-3, que es mucho más grande pero básicamente no es diferente, y puede resolver todos los problemas". estos problemas."

I guess I have a bet going on it now, so I’ll see you in three years!Supongo que tengo una apuesta en marcha ahora, ¡así que te veré en tres años!

(related: (relacionado:Gwern on scalingAliso en escala)

https://astralcodexten.substack.com/p/my-bet-ai-size-solves-flubs?s=r