La IA generativa se ha convertido en el fenómeno mediático del sector tecnológico, invadiendo prácticamente todas las áreas de actividad del ser humano. La irrupción de OpenAI en el panorama “tech” con Chat GPT como chatbot y DALL-E como IA generativa de imágenes, están transformando desde la forma de estudiar hasta la de trabajar, pasando por la creación de obras de arte o incluso pasando por la ciberseguridad.
Pie: Chat GPT de Open AI ha sido la responsable de buena parte del auge de la IA en los últimos años.
Antes de Chat GPT, sin embargo, estaban, hace ya unas cuantas décadas, los llamados “padres de la IA”, como Marvin Minsky o Alan Turing. A mediados del siglo pasado se sentaron las bases de conceptos como las redes neuronales y las definiciones teóricas que ahora se usan para desarrollar los LLMs, por ejemplo, o los algoritmos de los modelos para la generación de imágenes en plataformas como Midjourney, Stable Diffusion o DALL-E.
En los últimos años, sin embargo, la tecnología de procesamiento de los ordenadores, estaciones de trabajo y centros de datos, ha aumentado hasta el punto de hacer que las tecnologías estadísticas en las que se basan los modelos de IA, arrojen resultados que empiezan a parecerse a los procesos de generación de contenidos de los propios seres humanos.
Pie: Los modelos de IA, como los LLMs, se "entrenan" en centros de datos con miles de tarjetas aceleradoras de IA, como las de NVIDIA de la familia Hopper.
Los modelos de IA con los que convivimos actualmente, son modelos de lenguaje o Language Models. Los LLM, como GPT, manejan miles de millones de parámetros. GPT4, por ejemplo, usa unos 100 billones de parámetros. Además de GPT, existen otros modelos de IA que se usan en la actualidad, como LLaMa 2 de Meta, Gemini Pro de Google, Claude 2 o Mistral. Microsoft, por su parte, como inversora de OpenAI que es, emplea GPT y DALL-E en su servicio Copilot.
Generalmente, el uso de estos LLMs se ciñe a la nube, con procesamiento cloud para generar las inferencias a partir de nuestros prompts, pero empieza a ser habitual encontrarnos con propuestas en las que los modelos de IA se ejecutan en los dispositivos en vez de en la nube.
La integración de aceleradores de procesamiento de cargas de IA en los procesadores de los dispositivos móviles o los equipos portátiles y PCs de sobremesa, empieza a ser tendencia. Intel, con su NPU integrada en los procesadores Meteor Lake es un ejemplo. AMD con su arquitectura XDNA, integrada en los procesadores Ryzen de nueva generación es otro. Qualcomm, con su NPU integrada en los Qualcomm Snapdragon de última generación para smartphones y para portátiles en unos meses, es otra de las empresas que apuestan por el procesamiento de cargas de IA en los propios dispositivos.
Las tarjetas gráficas, por su parte, también son buenas procesando cargas de IA, gracias al paralelismo inherente a las arquitecturas de fabricantes como NVIDIA, AMD o, ahora también, Intel.
Pie: Las tarjetas aceleradoras, como la NVIDIA H200, están tuneadas para maximizar el rendimiento en el cálculo de inferencias de IA, así como para minimizar el tiempo y la energía invertidos en el entrenamiento de los modelos de IA.
Para el procesamiento en los propios dispositivos, se usan modelos de IA con menos parámetros, de modo que puedan ser procesados por los SoC, las CPUs, NPUs y GPUs de los dispositivos. Qualcomm, sin ir más lejos, apuesta por la IA como un aspecto esencial de la experiencia de uso de la próxima plataforma Snapdragon X Elite que permitirá instalar Windows sobre ARM. Y, en los dispositivos móviles, la IA empieza a cobrar importancia también.
NVIDIA, la compañía de IA por excelencia
La compañía que ha empezado a hacerse “fuerte” en los medios desde hace pocos meses es NVIDIA. Sin embargo, esta compañía es la que está detrás del auge de la IA, en tanto en cuanto, es gracias a la tecnología de sus arquitecturas gráficas, que es posible desarrollar y entrenar, en muchos casos, merced a la existencia de centros de datos equipados con tarjetas gráficas profesionales de NVIDIA.
Las tarjetas gráficas para consumo, por su parte, también son capaces de procesar cargas de IA de un modo más eficiente y rápido que en el caso de los procesadores, e incluso que las primeras generaciones de NPUs. Recientemente, NVIDIA ha hecho su contribución particular a la tendencia que apunta hacia un uso local de los modelos de IA, generando inferencias sin necesidad de usar recursos de computación en la nube.
Chat with RTX, la IA “de andar por el ordenador” de NVIDIA
La propuesta de NVIDIA se llama “Chat with RTX” y es descargable sin coste alguno desde la web de NVIDIA dedicada a esta tecnología.
Los requisitos mínimos necesarios para instalar esta IA “local” son estos:
Platform | Windows |
GPU | NVIDIA GeForce™ RTX 30 or 40 Series GPU or NVIDIA RTX™ Ampere or Ada Generation GPU with at least 8GB of VRAM |
RAM | 16GB or greater |
OS | Windows 11 |
Driver | 535.11 or later |
File Size | 35 GB |
Es una propuesta que viene con un cómodo asistente de instalación, que equipa a nuestro ordenador con todo lo necesario para usar Chat with RTX en nuestro PC, ya sea de sobremesa o portátil y cumpla con los requisitos mínimos.
Chat with RTX viene con dos modelos de IA seleccionables: LLaMa 2 y Mistral 7B. Podemos usar Chat with RTX directamente como si fuera Chat GPT, con cualquiera de los dos modelos que vienen con Chat with RTX. Para que te hagas una idea, GPT3.5 o GPT4 serían dos posibles modelos para acompañar a LLaMa 2 o Mistral 7B si NVIDIA y OpenAI llegasen a un acuerdo para su uso.
La instalación de Chat with RTX no tiene dificultad alguna y tan solo precisa definir la carpeta de instalación y los modelos de IA que queremos usar, dentro de la modesta variedad disponible de momento: los dos modelos mencionados anteriormente.
Cuando finaliza la instalación, si tememos marcada la opción para ejecutar Chat with RTX, se lanzará una ventana del navegador web, apuntando a un servidor local: http://127.0.0.1:46564/ . De este modo, lanzaremos la interfaz de usuario.
En el siguiente apartado, hablaremos de lo que podemos hacer con Chat with RTX y daremos algunos detalles más sobre su funcionamiento.
Tienes un vídeo sobre Chat with RTX aquí: