Un grupo de investigadores de la Universidad de California, Irvine, acaban de anunciar que han desarrollado un nuevo tipo de técnica para Deep Learning, llamada "iteración autodidacta" que puede enseñarse a sí mismo cómo resolver el Cubo de Rubik sin ayuda humana. El truco que han empleado en tal logro es encontrar un método por el que la máquina es capaz de crear su propio sistema de recompensas.
Es decir, la máquina tiene que decidir si un movimiento específico es una mejora sobre la configuración existente o no. Para ello, tiene que evaluar el movimiento. La iteración autodidacta lo hace comenzando por el cubo terminado y trabajando hacia atrás para encontrar una configuración similar a la del movimiento propuesto. Es un procedimiento que no es perfecto, pero el aprendizaje profundo permite al sistema encontrar movimientos mejores que otros, por lo general.
Una vez entrando el modelo, la red neuronal usa un mecanismo estándar de árbol de búsqueda para encontrar los movimientos recomendados en cada caso. El resultado es un algoritmo que funciona notablemente bien y puede resolver el 100% de los cubos propuestos con una media de 30 movimientos, que es menos o lo mismo que invierte una persona en resolver un cubo. Este método tiene implicaciones en otros problemas donde los métodos actuales no son óptimos, como Sokoban o Montezuma Revenge, o la factorización de números primos.

Foto: Wikipedia