Los NAS (Network Attached Storage, o almacenamiento unido a la red) se están convirtiendo casi en estaciones de trabajo conectadas. El repertorio de funcionalidades que ofrecen a los usuarios aumenta sin cesar, especialmente en las gamas de los fabricantes más concienciados con estar al día en cuanto a tendencias y tecnologías.
QNAP es uno de esos fabricantes, con mejoras constantes en su sistema operativo QNAP QTS, en todos aquellos aspectos relevantes para mejorar la experiencia de usuario de sus dispositivos de almacenamiento en red. Recientemente, hemos hablado de tecnologías y funcionalidades de QNAP relacionadas con la seguridad, como QNAP High Availability, QNAP Security Center o QNAP Airgap+, aunque ahora vamos a hablar de una funcionalidad más amable relacionada con la Inteligencia Artificial: las búsquedas potenciadas con LLMs y RAG (Retrieval Augmented Generation)

Pie: QNAP ha integrado la tecnología RAG (Retrieval Augmented Generation) en sus NAS a través del motor de búsqueda Qsirch.
La Inteligencia Artificial Generativa se ha convertido en la tendencia de moda, todo sea dicho. Pero, más allá de debates sobre si la IA es inteligente o no, que no conducen a ningún lado, tenemos aplicaciones reales y tangibles de esta tecnología que mejoran notablemente la experiencia de uso de los sistemas de almacenamiento. Como RAG.
Para entender qué es RAG, pensemos que la IA generativa lo que permite es “vectorizar” el conocimiento existente en el corpus de conocimiento digitalizado en forma de documentos, libros electrónicos, manuales, foros de discusión, páginas web e incluso imágenes, vídeos o sonidos. Esta vectorización es un poco como la digitalización de, por ejemplo, la música. Pasamos de una entidad analógica a una digital como puede ser un archivo MP3 o una secuencia de bits en Internet (streaming).

Pie: La vectorización del lenguaje es fundamental para implementar las tecnologías de los LLMs y de RAG. Fuente: Adrian Coyler en Medium.
Decimos vectorizar, porque las palabras (de imágenes y vídeos ya hablaremos en otros artículos) en los documentos se “trocean” en tokens, que pueden ser palabras o partes de las palabras u otros componentes del lenguaje. Cada token se asocia a un vector de decenas de miles de parámetros que codifican sus posibles significados diferentes dependientes del contexto. Por ejemplo, la palabra “hermana” puede referirse a parentesco o a una religiosa.
Cuando se usan los chatbots de IA, como ChatGPT o Gemini, al escribir el prompt, el siguiente paso consiste en identificar el contexto semántico. Esto se lleva a cabo a través de la tecnología de los transformers y del mecanismo de atención (Attention is All You Need) que, mediante operaciones matemáticas de álgebra lineal y normalización, identifica, dentro de los vectores de cada token, los parámetros que caracterizan el “significado” apropiado de los términos definidos en el prompt.
Después, estos vectores se usan para llevar a cabo la generación de las inferencias a partir del LLM (Large Language Model) que estemos usando. Estos LLMs son inmensas bases de datos vectoriales con miles de millones de parámetros calculados durante el entrenamiento de los modelos. De nuevo, mediante operaciones de álgebra lineal y normalización de funciones, entre otras matemáticas aplicadas, se van generando los tokens que conforman la inferencia, que serán convertidos a palabras.
Cómo funciona RAG
El conocimiento codificado en los LLMs, sin embargo, es un conocimiento caducado. No contiene las más recientes publicaciones de Internet, ni el conocimiento generado desde el entrenamiento. Ni contiene tampoco nuestro propio conocimiento, como pueden ser artículos, trabajos de la facultad, textos literarios, presentaciones de Power Point, hojas de Excel, etcétera.
Para que los chatbots de IA sean vigentes, tienen que tener acceso a este contenido y conocimiento reciente. Aquí es donde entra en juego RAG o Retrieval Augmented Generation. Básicamente, RAG lo que consigue es acceder a documentos, presentaciones, textos, artículos, páginas web o foros, entre otras fuentes y vectorizar esos contenidos adecuadamente para que formen parte de las inferencias.
Si usamos un chatbot para preguntar por los nuevos iPhone 17, por ejemplo, lo que hará será buscar en Internet fuentes relevantes relacionadas con estos dispositivos, vectorizará estos contenidos y, de acuerdo con el contexto de nuestro prompt, incluirá, como parte de un prompt intermedio, aquella información o conocimiento relevante para nuestra pregunta. Después, ese prompt se procesará a partir del LLM para generar la inferencia final. En cierto modo, RAG lo que hace es preparar una “chuleta” y le “dice” al LLM que incluya en la respuesta la información seleccionada de las fuentes elegidas. Es un método más complejo en la práctica, desde luego. Las matemáticas que intervienen en el proceso son complejas y potentes, pero efectivas.

Pie: La tecnología RAG es esencial para el uso de la IA en búsquedas, ya sean de Internet o en nuestros propios documentos y contenidos. Fuente: Gradient Flow.
Así pues, tenemos en RAG, o generación aumentada por recuperación, una forma de usar los LLMs con información y conocimiento reciente. Además, RAG hace posible que los usuarios usen sus propios documentos, textos y otros contenidos para obtener información a partir de ellos. Es lo que hace NotebookLM de Google, donde tenemos que añadir nuestras fuentes a los cuadernos de trabajo, ya sean enlaces de Internet, vídeos de YouTube, documentos de texto, PDFs, etcétera, para después hacer preguntas sobre sus contenidos.
Pues bien, QNAP ha integrado la tecnología RAG en sus NAS a través de Qsirch, la aplicación de búsqueda de los NAS de QNAP. De este modo, podemos hacer preguntas complejas a través de su interfaz acerca de los documentos que tengamos almacenados en el NAS, ya sea de forma global o en carpetas elegidas en las que tengamos almacenados los documentos sobre los que nos interese profundizar de un modo contextual o semántico a partir de sus contenidos.
Es decir, RAG “se lee” los documentos y archivos, vectoriza sus contenidos y los habilita para que podamos interaccionar con ellos a través del uso del lenguaje natural mediante preguntas o peticiones similares a las que haríamos a una persona que se los hubiera “empollado”.
Página oficial del servicio: QNAP Búsquedas Mediante RAG.