En este artículo vamos a resumir los principales resultados del año pasado en el mundo de la inteligencia artificial. Consideramos algunos de los mayores avances en visión por computadora, procesamiento de lenguaje natural, generación de imágenes y videos, y un avance importante en biología. ¡Brevemente sobre lo más importante del año en el mundo de la inteligencia artificial!

Creo que nuestra mente es un programa, mientras que el cerebro es análogo a una computadora. En teoría, es posible copiar el contenido del cerebro en un ordenador y así crear una forma de vida eterna. Hoy, sin embargo, está fuera de nuestro alcance.

– Steven Hawking

El mundo de la inteligencia artificial en 2020

GPT-3

Esta red neuronal de OpenAI impresionó a muchos en el verano: es capaz de escribir o agregar textos de manera muy realista, como si fuera una persona real. Por ejemplo este artículo, al principio nadie supo que estaba escrito por una red neuronal, o sea, que fue una trampa. En realidad el artículo mencionado fue hecho completamente por GPT-3. Esto provocó un tormentoso “chapoteo” de noticias sobre el tema.

Un gráfico que muestra de los modelo de GPT-3: el boom en el mundo de la inteligencia artificial en 2020
Los modelos más grandes permiten un uso más eficiente de la información contextual.

GPT-3 puede generar artículos, responder preguntas sobre el texto leído, escribir prosa, poesía, mantener un diálogo temático y mucho más. De hecho, el algoritmo requiere solo una pequeña cantidad de ejemplos para adaptarse a una tarea específica.

La nueva “creación” de OpenAI se probó con éxito en seis meses. Los desarrolladores ya la han utilizado para generar código, noticias y artículos, y a muchos les han gustado los resultados. Puede echar un vistazo a este sitio si estas interesado en más ejemplos. Ahí se seleccionan los mejores de los mejores. 

GPT-3 se ha convertido en una de las redes neuronales más populares de este año, y creo que con razón, ¡la calidad de la generación de texto es definitivamente fascinante!

GitHub | Sitio del proyecto

Make It Talk

Uno de los algoritmos más divertidos del año, que puede crear animación para cualquier pista de sonido. En general, el método es similar a la popular tecnología DeepFake, solo se toma audio, no video, como entrada para la animación.

MakeltTalk, que se desarrolló en Asia, tiene una amplia gama de usos. Por ejemplo, puede “animar” una salida o un dibujo, así como animar las caras de Mona Lisa y Ed Sheeran.

Google Colab | GitHub | Sitio del proyecto

Fotografía 3D

Este año, muchos investigadores de diferentes partes del mundo presentaron sus algoritmos capaces de convertir imágenes “planas” en versiones 3D. Pero yo prefiero este proyecto en particular. Su calidad es espectacular.

Por cierto, con la ayuda de “3d-photo-inpainting” crearon una extensión completa para Chrome, que te permite hojear Instagram, en el que todas las fotos están en 3D. Puedes intentar ejecutarlo en casa, aunque dicen que no va a ser nada fácil.

Google Colab | GitHub | Sitio del proyecto

Self-Supervised Scene De-occlusion

Este programa fue lanzado en abril y te permite “dividir” la imagen en objetos y “moverlos”. En mi opinión, muestra claramente un buen caso de uso de redes neuronales capaces de eliminar el fondo de las imágenes, solo que aquí todo tiene un “ángulo” ligeramente diferente, porque el fondo se elimina parcialmente y solo se crea una nueva capa.

GitHub | Sitio del proyecto

Depix

Este algoritmo se presentó en diciembre. Con la ayuda de la nueva herramienta puedes descifrar el texto “pixelado”. Solo necesitas especificar la imagen pixelada y el alfabeto escrito en la fuente esperada en el mismo tamaño.

Luego puedes ver una suposición relativamente precisa de lo que se esconde detrás de la pixelación. Los resultados son a la vez sorprendentes y aterradores. Aunque el algoritmo funciona con una pixelación bastante primitiva, muchos investigadores dicen que sigue siendo bueno y cumple su función.

Eliminación de obstrucciones

Eliminación de obstáculos

ObstructionRemoval también “hizo ruido”: el programa elimina obstáculos de las imágenes. Por lo tanto, se puede utilizar en aplicaciones para el procesamiento de fotografías.

Es cierto que muchos pronto notaron que solo se puede lograr un resultado de alta calidad con un procesamiento de imagen prolongado: una imagen con 720p para obtener el mejor resultado se procesará durante aproximadamente media hora. Sin embargo, si el aprendizaje profundo se mejora constantemente será posible lograr un buen resultado.

Google Colab | GitHub | Sitio del proyecto

SkyAR

Este proyecto no habría sido tan notable si no se hubiera presentado tal como sucedió. A la red neuronal se le enseñó a “reemplazar” el cielo en un video de manera hermosa y “dinámica”. Por ejemplo, agregar ovnis, rayos, planetas, lluvia o sol. El video de la demostración del proyecto es impresionante desde los primeros segundos.

Google Colab | GitHub | Sitio del proyecto

NVIDIA MAXINE 

Ejemplo de la tecnología de la presentación oficial

NVIDIA ha introducido algoritmos de redes neuronales con el nombre general de Maxine. Sus objetivos son: mejorar la calidad de las videollamadas, reducir drásticamente la carga en la red durante las videollamadas (compresión de video con la ayuda de redes neuronales) y la posibilidad de corrección de la mirada realista para crear la sensación de que el interlocutor está mirando a sus ojos y no a los suyos. monitor.

Sitio del proyecto

MuZero

Otra bestia del mundo RL de DeepMind Researchers. MuZero es un enfoque en el que no se requiere ningún conocimiento de las reglas del juego en la etapa inicial del entrenamiento. Cabe señalar aquí que el artículo MuZero v1 se publicó el 19 de noviembre de 2019 y MuZero v2, el 21 de febrero de 2020, por lo que esto puede considerarse un logro de 2019-2020.

Ilustracion de busqueda de arbol de Monte Carlo usando MuZero

MuZero busca en el árbol de Monte Carlo en cada paso, recopilando información sobre el estado actual y anterior del juego. A continuación, el aprendizaje profundo aprende a evaluar los resultados de varias acciones tomadas en cada etapa del juego.

Historia y dinámica de desarrollo de modelos RL de DeepMind desde AlphaGo a MuZero

El algoritmo ya sabe jugar los juegos a los que estamos acostumbrados en este ámbito: go, ajedrez y un montón de juegos para la consola Atari.

AlphaFold

De nuevo DeepMind con su algoritmo de red neuronal para predecir la estructura tridimensional de una proteína mediante una secuencia de aminoácidos: AlphaFold 2. La precisión de este algoritmo es de 92,4 puntos sobre 100, ¡lo cual es un récord para hoy! 

Cuando se lee información del ARN, se forma una molécula de proteína como una cadena de aminoácidos. Luego, dependiendo de las propiedades físicas y químicas, la cadena comienza a doblarse. Así, se forma la estructura terciaria de la proteína. De esta estructura dependen las propiedades de una proteína en particular.

La tarea de determinar la estructura de aminoácidos primaria de una proteína (la secuencia en sí) es elemental. Es fácil de leer directamente del ADN. Codón: un triplete de residuos de nucleótidos (triplete) forma 64 variantes, en concreto 4 (adenina, guanina, citosina, timina) en tercer grado. De estas, 61 combinaciones codifican ciertos aminoácidos en la futura proteína, y los 3 codones restantes señalan la terminación de la retransmisión y se denominan codones de parada. Al mismo tiempo, 61 combinaciones codifican un total de 20 aminoácidos proteicos diferentes. Aquellos familiarizados con las teorías de la información y la redundancia ya están sonriendo, pero los biólogos llaman a los codones que codifican los mismos aminoácidos codones isoacceptores.

Es casi imposible calcular la estructura terciaria de una proteína. Dado que para una precisión completa será necesario simular toda la dinámica no trivial del proceso de plegamiento de proteínas, teniendo en cuenta las leyes de la física que son más complicadas para un mundo así y un sistema colosal.

Una imagen con la esquema del funcionamiento de AlphaFond
Proceso de predicción de la estructura terciaria de las proteínas

Por lo tanto, en la última década los científicos han estado buscando una forma de predecir la estructura terciaria de una proteína para determinar las propiedades de una proteína en particular. Incluso para comprender cómo afectará tal o cual sustitución de aminoácidos a su estructura final. Esto abre horizontes de ingeniería genética sin precedentes.

Conclusión

En fin, el mundo de la inteligencia artificial sigue avanzando a un ritmo increíble. Por lo tanto, el futuro pertenece a la IA, aprendizaje automático y redes neuronales de una forma u otra. Con cada nuevo año este futuro se vuelve cada vez más claramente como una parte de nuestro presente.