
Sign up to save your podcasts
Or
A no ser que estés en una cueva sin internet te habrás enterado del revuelo que está generando GPT-3, un modelo generativo de texto, entrenado por la empresa OpenAI que supone (¿o no?) un paso hacia la inteligencia artificial general.
No puedo entrevistar al mismísmo GPT-3 (y no creas que me interesaría demasiado hacerlo) pero sí hablar sobre las preguntas que habéis hecho por twitter:
- ¡hazle una entrevista al modelo!
- Comparativa con otras tecnologías de los últimos años en grado de posible impacto (similar a BitTorrent? ImageNet neural networks? Bitcoin? BERT?)
- Limitaciones de la tecnología y motivos de que sea un api privada
- Aplicaciones reales en empresas y startups
- Y como empezar a utilizarlo ya, si es que se puede
- Estaría genial una explicación pa cazurros como yo de las tripas del GPT-3 ¿un Transformer vitaminado? ¿Qué lo hace especial?¿Sólo el tamaño?
- No te da la sensación de que se ha roto otra barrera, de que la IA ha superado otro hito? La gente habla de GPT-3 en el tono en el que se hablaba antaño con el ajedrez o con AlphaGo ("vale, ganará al ajedrez pero nunca podrá...." y esos "nunca podrá" van cayendo) ¿hay miedo?
- Cual es el siguiente paso para GPT-4??Más cómputo??Mas parámetros???Más datos?? Dónde está el límite???
- Consciencia. ¿Es GPT-3 consciente de alguna forma? Tengo la sensación de que estamos cerca de alguna forma de consciencia
- Cuanta energia fue necesario para entrenarlo?
- ¿Vamos a tener que ir buscando trabajo los programadores a medio plazo?
- Si se puede dejar desatendido (spoiler:no)
- Ya sabemos que más datos y más parámetros mejoran el modelo, pero ¿hasta qué punto sigue siendo interesante entrenar estos modelos monstruosos que solo pueden poner en producción 4 empresas?
- ¿Estado para otros idiomas distintos al Inglés?
- Su aplicación para generación de imágenes. ¿Es posible usarlo para eso?
- Sesgos de entrenamiento
- ¿Se puede hacer fine-tuning no para tareas sino para idiomas? Aprovechar de alguna forma lo aprendido en inglés por el modelo para no tener que entrenar desde 0 un nuevo modelo en sueco, por ejemplo.
- La cantidad de recursos que hace falta para entrenarla y si vamos camino de que el deep learning deje de ser "abierto".
- 175B params es a ojo de buen cubero es 1Tb de memoria y no se si podría correr en CPU
* cómo crees que lo han puesto en producción?
- ¿Se podrá poner el modelo estándar de partículas en términos que el embending permita transferirlo al GPT-3 ? Y así saber si el campo de Higgs es metaestable ... entre otras cosas.
5
11 ratings
A no ser que estés en una cueva sin internet te habrás enterado del revuelo que está generando GPT-3, un modelo generativo de texto, entrenado por la empresa OpenAI que supone (¿o no?) un paso hacia la inteligencia artificial general.
No puedo entrevistar al mismísmo GPT-3 (y no creas que me interesaría demasiado hacerlo) pero sí hablar sobre las preguntas que habéis hecho por twitter:
- ¡hazle una entrevista al modelo!
- Comparativa con otras tecnologías de los últimos años en grado de posible impacto (similar a BitTorrent? ImageNet neural networks? Bitcoin? BERT?)
- Limitaciones de la tecnología y motivos de que sea un api privada
- Aplicaciones reales en empresas y startups
- Y como empezar a utilizarlo ya, si es que se puede
- Estaría genial una explicación pa cazurros como yo de las tripas del GPT-3 ¿un Transformer vitaminado? ¿Qué lo hace especial?¿Sólo el tamaño?
- No te da la sensación de que se ha roto otra barrera, de que la IA ha superado otro hito? La gente habla de GPT-3 en el tono en el que se hablaba antaño con el ajedrez o con AlphaGo ("vale, ganará al ajedrez pero nunca podrá...." y esos "nunca podrá" van cayendo) ¿hay miedo?
- Cual es el siguiente paso para GPT-4??Más cómputo??Mas parámetros???Más datos?? Dónde está el límite???
- Consciencia. ¿Es GPT-3 consciente de alguna forma? Tengo la sensación de que estamos cerca de alguna forma de consciencia
- Cuanta energia fue necesario para entrenarlo?
- ¿Vamos a tener que ir buscando trabajo los programadores a medio plazo?
- Si se puede dejar desatendido (spoiler:no)
- Ya sabemos que más datos y más parámetros mejoran el modelo, pero ¿hasta qué punto sigue siendo interesante entrenar estos modelos monstruosos que solo pueden poner en producción 4 empresas?
- ¿Estado para otros idiomas distintos al Inglés?
- Su aplicación para generación de imágenes. ¿Es posible usarlo para eso?
- Sesgos de entrenamiento
- ¿Se puede hacer fine-tuning no para tareas sino para idiomas? Aprovechar de alguna forma lo aprendido en inglés por el modelo para no tener que entrenar desde 0 un nuevo modelo en sueco, por ejemplo.
- La cantidad de recursos que hace falta para entrenarla y si vamos camino de que el deep learning deje de ser "abierto".
- 175B params es a ojo de buen cubero es 1Tb de memoria y no se si podría correr en CPU
* cómo crees que lo han puesto en producción?
- ¿Se podrá poner el modelo estándar de partículas en términos que el embending permita transferirlo al GPT-3 ? Y así saber si el campo de Higgs es metaestable ... entre otras cosas.