Estamos acostumbrados a usar la inteligencia artificial generativa a través de diferentes herramientas para acceder a LLMs, como Copilot de Microsoft, ChatGPT de OpenAI, Mistral, Grok de xAI, Claude de Anthropic o Gemini de Google. Se trata de propuestas sujetas a diferentes condiciones de servicio y precios, con modalidades gratuitas bastante limitadas en cuanto a uso.
La IA generativa, a diferencia de la IA predictiva (que lleva ya varias décadas integrándose en distintos procesos de negocio e investigación), no había llegado a ser una tecnología al alcance de los usuarios finales. El uso de la IA predictiva pasa por obtener los datos que se van a procesar con las herramientas de IA, “limpiarlos”, ordenarlos y formatearlos adecuadamente y, posteriormente, realizar las consultas oportunas a través de herramientas especializadas, programas a medida o cualquier otro método desarrollado para ello.

Pie: Fuente M.IA en Linkedin.
Hablamos, por ejemplo, del análisis de imágenes en medicina, de la detección de patrones o tendencias en fuentes de datos para identificar posibles yacimientos petrolíferos, o del análisis de datos en comercios electrónicos que predicen nuestros gustos a partir de compras anteriores, búsquedas realizadas o información sobre nuestro trabajo, aficiones u otros datos que pudiéramos haber compartido en diferentes plataformas, incluidas las redes sociales.
Este tipo de IA se construye sobre tecnologías como el machine learning o el deep learning, capaces de identificar relaciones complejas en los datos a partir de procesos de entrenamiento previos, de modo que sea posible predecir patrones o identificarlos.
La IA generativa: el lenguaje es la clave
En la IA generativa se utilizan también métodos estadísticos y algoritmos propios de tecnologías como el machine learning o el deep learning, pero con el objetivo de generar inferencias en forma de texto, imágenes, vídeos, código de programación, música o voz.
La generación de imágenes y vídeos emplea otro tipo de modelos. A diferencia de los LLMs (Large Language Models), en la mayor parte de los casos se utilizan los llamados modelos de difusión, aunque combinados con LLMs en el proceso de identificación del tipo de imagen o vídeo en cuestión, o en el procesamiento de las instrucciones que damos a los modelos durante el flujo de trabajo.

Pie: Fuente keep coding
En los LLMs también se emplea IA predictiva, pero para calcular los miles de millones de parámetros que contienen estos grandes modelos de lenguaje. Dichos parámetros intervienen directamente en el proceso de generación de inferencias.
En este proceso intervienen los tokens, que son las unidades básicas de procesamiento del lenguaje utilizadas por los LLMs. Cada token se asocia a vectores de miles de dimensiones que lo vinculan con su “significado”. Los valores de estos vectores se calculan durante el entrenamiento y están relacionados con los distintos significados o acepciones que pueden tener los tokens en diferentes contextos.
Precisamente, estos vectores, procesados a través de los llamados transformers mediante el mecanismo de “atención”, permiten definir con gran precisión el significado de los prompts, de modo que se pueda diferenciar, por ejemplo, entre el “reina” de “era la reina de la fiesta” y el “reina” de “era la reina de España”.

Pie: Fuente Medium.
A partir de esta diferenciación, los valores numéricos de los distintos tokens se delimitan al contexto del prompt para iniciar el proceso de cálculo de los tokens de la inferencia. En dicho proceso intervienen operaciones con matrices y vectores de dimensiones enormes, que son las que se llevan a cabo en los centros de datos de IA generativa, donde las tarjetas gráficas de NVIDIA (mayoritariamente, a día de hoy) permiten que estos cálculos se realicen en tiempos reducidos.
Los tokens o los ladrillos de la IA generativa
La IA generativa tiene limitaciones que se han ido superando mediante distintos “trucos”. La más importante radica en la incapacidad de recalcular los parámetros de los LLMs en tiempo real para actualizarlos con datos recientes sobre temas en constante evolución. Por ejemplo, si hablamos de procesadores, las inferencias generadas por un LLM entrenado hace unos meses no podrán incluir aquellos que hayan sido presentados con posterioridad.
En el caso de empresas con datos que no son de dominio público, las inferencias tampoco contendrán información relevante o veraz. En cambio, en consultas sobre datos históricos los LLMs sí resultan útiles, al igual que en inferencias destinadas a analizar tendencias o estilos de un texto, o a realizar correcciones gramaticales u ortográficas.

Pie: NVIDIA blog.
Otra limitación son las llamadas “alucinaciones”, que consisten básicamente en inferencias descontextualizadas con errores, datos “inventados” o carentes de sentido. Los LLMs calculan las inferencias a partir de operaciones matemáticas complejas. Si, por ejemplo, durante el cálculo se producen desviaciones en el proceso de identificación del contexto del prompt, las inferencias pueden alejarse considerablemente de lo que consideraríamos coherente.
También existen factores que complican el uso de los LLMs, como el coste computacional de las inferencias, ya que intervienen operaciones algebraicas con vectores y matrices de dimensiones muy grandes.
Para solventar estas limitaciones se emplean técnicas como RAG (Retrieval Augmented Generation o generación aumentada por recuperación), MoE (Mixture of Experts), así como distintos mecanismos de verificación de inferencias.
RAG permite el uso de datos actualizados en la generación de inferencias. Tras procesar el prompt (por ejemplo, sobre procesadores de última generación), en lugar de generar directamente la respuesta, el modelo busca fuentes actuales en la web o en repositorios con documentos recientes sobre el tema. A partir de esta información, el modelo crea un nuevo prompt con los datos relevantes, que se incorpora parcialmente a la respuesta final.
Se trata de una solución ingeniosa, aunque a costa de aumentar el número de tokens que deben procesarse, lo que incrementa los cálculos y el coste de generación, tanto en consumo energético como en infraestructuras de centros de datos.

Pie: Fuente obot.
MoE divide internamente los LLMs en diferentes “expertos”, especializados en la generación de distintos tipos de inferencias. Los tokens se clasifican de forma que puedan redirigirse a los expertos correspondientes a su temática, reduciendo el número de parámetros implicados en la generación. Los modelos más recientes, a diferencia de los modelos densos convencionales, ya utilizan MoE de manera habitual.
La verificación de inferencias mediante supervisión humana o automatismos es otro método empleado para reducir las alucinaciones, aunque introduce un coste adicional.
Usar IA generativa sin que nos cueste dinero
Como puede verse, la IA generativa tiene un coste asociado que, incluso en las modalidades de pago, sigue siendo superior a los ingresos obtenidos mediante suscripciones, como las de OpenAI con ChatGPT o Google con Gemini. Incluso con las modalidades más caras, OpenAI pierde dinero si los usuarios hacen un uso intensivo de ChatGPT, especialmente en los modos de razonamiento, donde se multiplica el número de tokens empleados internamente en la generación de inferencias.
En la generación de imágenes y vídeos ocurre algo similar: el coste de los cálculos no siempre se amortiza con el precio de las suscripciones.
No obstante, existe una forma de utilizar algunos LLMs de manera gratuita y en nuestro propio ordenador: a través de modelos open source, descargables y utilizables mediante herramientas como LM Studio, Jan u Ollama, aunque hay otras como Anything LLM que también permiten hacerlo.

Pie: Fuente Jan.ai.
Estas herramientas permiten importar modelos en formato GGUF, que pueden descargarse y modificarse. GGUF (GPT-Generated Unified Format) es un formato de archivo binario moderno para modelos de IA, diseñado para cargarse y guardarse rápidamente, optimizado para ejecutarse en CPU (y GPU) con recursos limitados. Es el sucesor de GGML y almacena pesos y metadatos de forma unificada, permitiendo una cuantización flexible y retrocompatibilidad para ejecutar grandes modelos de lenguaje (LLMs) localmente en distintos tipos de hardware.
Cada herramienta tiene sus propias particularidades de uso, aunque para el objetivo que nos ocupa (acercar la IA generativa a usuarios que quieran experimentar con ella en su propio ordenador) hemos optado por LM Studio. Esta herramienta permite, desde su propia interfaz, cargar y ejecutar una amplia variedad de modelos abiertos, entre los que se encuentran Llama de Meta, Qwen de Alibaba, gpt-oss de OpenAI o DeepSeek R1 de DeepSeek, entre otros.
LM Studio es compatible con RAG, por lo que también permite obtener inferencias basadas en datos actualizados procedentes de repositorios documentales, aunque para ello es necesario definir la ubicación de dichas fuentes de información.
MCP, o cómo usar los LLMs para interactuar con dispositivos y servicios
Entre las novedades más interesantes del mundo de los LLMs se encuentra la tecnología MCP (Model Context Protocol), desarrollada por Anthropic como un proyecto de código abierto, lo que permite que cualquier empresa pueda utilizarla.

Pie: Fuente QNAP.
MCP es un protocolo de código abierto que actúa como un puente estandarizado para que los grandes modelos de lenguaje accedan a información y funcionalidades externas en tiempo real, superando sus limitaciones de conocimiento estático y permitiéndoles interactuar con sistemas, bases de datos y APIs del mundo real. Funciona como un “conector USB” que dota a las IA de contexto dinámico y capacidad de acción.
Nosotros ya hemos probado MCP en un caso real a través de QNAP, que ha implementado su propio servidor MCP para interactuar con algunos de sus modelos de NAS mediante lenguaje natural, usando el chatbot de Claude. Se trata de una propuesta muy interesante que abre la puerta a interactuar con todo tipo de tecnologías y servicios utilizando lenguaje natural. Es el servidor MCP el que se encarga de “hablar” con los dispositivos, convirtiendo las instrucciones en lenguaje natural en comandos comprensibles para estos, sin que el usuario tenga que navegar por menús de configuración o por las distintas opciones disponibles, por ejemplo, en un NAS.