La inteligencia artificial evoluciona rápidamente. En este post vemos cómo OpenShift impulsa el despliegue de modelos de lenguaje y analizamos el papel de los SLM frente a los LLM, destacando sus ventajas en eficiencia, escalabilidad e innovación. ¡No te lo pierdas!

Índice de contenidos Ocultar

1 Red Hat OpenShift AI, el entorno de grado empresarial, soportado y escalable para AI

2 Cargas de inteligencia artificial en Red Hat OpenShift AI

3 Agentic AI – IA Agéntica

4 AI privada bajo control: nuestro cluster, nuestros datos, nuestro modelo

5 Training vs. Inferencing: Entrenamiento de modelos vs. inferencia

5.1 Enfoque Training vs. Inference

5.2 Adaptación de modelos y adición de documentación: fine-tuning y RAG

6 Small Language Models (SLM): el balance perfecto

6.1 Ventajas operativas y comparativa SLM vs. LLM

6.2 Algunos modelos SLM opensource de interés

6.2.1 IBM Granite models

6.2.2 Red Hat AI

7 Aceleradores soportados en Red Hat OpenShift AI

8 Ventajas de Red Hat OpenShift AI vs. Kubernetes vanilla

8.1 Soporte oficial del fabricante

8.2 Certificación de la solución y estabilidad

8.3 Escalabilidad y paralelismo masivo

8.4 Instalación simplificada y modelo de operadores

8.5 Actualizaciones sencillas y automatizadas

9 vLLM – Optimizando la inferencia

10 Red Hat AI Inference Server

11 Consideraciones de seguridad y privacidad de datos sensibles

12 Consideraciones técnicas: Cluster OpenShift AI, consumo de recursos

13 El futuro de la inteligencia artificial en Red Hat OpenShift AI

Red Hat OpenShift AI, el entorno de grado empresarial, soportado y escalable para AI

Red Hat OpenShift es la plataforma líder a nivel global para el despliegue de cargas de contenedores, virtualización e Inteligencia Artificial, OpenShift es un orquestador que se encarga de gestionar, escalar, balancear y optimizar la ejecución de las cargas de trabajo.

OpenShift está construido sobre la base de Kubernetes, el standard de facto de la industria.

Por diseño, un cluster OpenShift incorpora out-of-the-box:

Diseño de cluster de grado empresarial.

Arquitectura HA (alta disponibilidad) nativa.

Automatización total y transversal a nivel de plataforma.

Optimizado para el paralelismo masivo.

OpenShift cuenta con certificación y soporte de Red Hat.

Soporte certificado para escenarios DR (Disaster Recovery).

Cargas de inteligencia artificial en Red Hat OpenShift AI

Las cargas de AI desplegadas en clusters de OpenShift AI se pueden englobar en tres categorías principales:

AI Predictiva: Enfoque en la anticipación de resultados o comportamientos futuros. Incluye clasificación, regresión, sistemas de recomendación y detección de anomalías.

AI Generativa: Crea o genera contenido nuevo como texto, imágenes, música, código, etc. Usado en modelos de lenguaje, arte generativo o síntesis de voz.

AI Agéntica: se trata de sistemas autónomos AI que pueden tomar decisiones y realizar y ejecutar tareas sin intervención humana, excepto en ciertos check points configurados en los cuales el agente pide confirmación o feedback al usuario.

Las dos primeras categorías, AI Predictiva y AI Generativa, se centran en cargas de inferencia que se ejecutan principalmente y de un modo masivamente paralelo en aceleradores de AI (GPUs), con cargas muy reducidas sobre los procesadores de las máquinas, que en estos casos juegan un mero papel de gestión y orquestación de las cargas de inferencia.

Agentic AI – IA Agéntica

En cambio, el paradigma de Agentic AI, supone una ruptura total respecto al reparto de cargas, los procesadores toman un protagonismo crucial y gestionan al 100% el procesamiento y flujo de trabajo de los agentes, es decir, los agentes se ejecutan en los procesadores y utilizando el pool de memoria DDR5 ECC.

Estas cargas de trabajo agénticas demandan procesadores con un diseño multicore masivo y un ancho de banda de memoria ingente, de hecho, lo habitual es que múltiples agentes (decenas o más) se ejecuten en paralelo.

La dinámica de trabajo es la siguiente:

Los múltiples agentes (que se ejecutan en las CPUs) gestionan y hacen las peticiones, promts, a los modelos AI (modelos que son ejecutan en los AI Accelerators, o GPUs), todo ello de un modo concurrente.

Esto desplaza el foco hacia el procesamiento en CPUs, cuando en los modelos de AI Generativa o AI Predictiva, la carga de CPU es ligera y la de los aceleradores es de saturación.

Como curiosidad, con la actual generación de hardware los servers típicos que se despliegan para Agentic AI son máquinas con:

2 procesadores de 192 cores y 384 threads (para un total de 768 threads por server).

Con una memoria total DDR5 ECC que ronda los 3 a 6 TB por server.

Estos procesadores “alimentan” a 8 aceleradores AI masivamente paralelos, cada uno de ellos puede contar con 288 GB de memoria HBM4 (total de memoria en los aceleradores 2.3 TB).

En cuanto a memoria, el sweet spot está actualmente situado en un multiplicador 2:1 entre la RAM de DDR5 ECC de la máquina y la RAM HBM4 de los aceleradores (GPUs).

AI privada bajo control: nuestro cluster, nuestros datos, nuestro modelo

En el ámbito corporativo, todos somos conscientes del entorno regulado y altamente competitivo en el que desarrollamos nuestra actividad, por lo tanto, resulta crucial asegurar en todos los casos un cumplimiento estricto de la legislación y la normativa aplicable.

El conjunto de los datos corporativos y confidenciales que incorporamos a nuestros modelos AI conforman un activo fundamental para nuestra organización, representan un importante diferencial competitivo, dado que son datos de negocio, y por ello privados y estratégicos.

Red Hat OpenShift AI proporciona un control total en áreas críticas:

Gestión y administración centralizada de nuestro cluster OpenShift desde web console o CLI delimitada y granularmente definible.

Control estricto sobre nuestros datos a nivel de cluster y aplicaciones. en el caso de AI tenemos datos de aplicación, datos de training, modelos, datos derivados del inferencing (logs, históricos de chats, etc.), documentos para el RAG, …

Definición y control sobre la localización física de los datos en los storage providers configurados en la plataforma.

Gestión end-to-end del ciclo de vida de los modelos AI: definimos el modelo que utilizamos, puede ser propio o externo, controlamos de dónde procede, qué datos se utilizaron para su training, qué datos usamos para su fine-tuning, qué documentos aportamos (y su procedencia) al modelo para aumentarlo vía RAG, etc.

Training vs. Inferencing: Entrenamiento de modelos vs. inferencia

Enfoque Training vs. Inference

Training: Entrenamiento inicial del modelo en su fase de creación, es el proceso de “creación” del modelo.

Inference; Inferencia, cuando proporcionamos datos al modelo o le hacemos preguntas (prompt) y buscamos que el modelo haga predicciones basadas en los datos (Predictive AI), genere respuestas (Generative AI) o ejecute acciones (Agentic AI).

Adaptación de modelos y adición de documentación: fine-tuning y RAG

Fine-tuning consiste en el post entrenamiento de un modelo ya existente, normalmente se lleva a cabo sobre modelos de un tamaño reducido (SLM), dado que son mucho más manejables.

RAG (Retrieval-augmented generation) consiste en la aportación al modelo, mediante un pipeline ETL, de un corpus de documentación de un campo concreto para dotarle de una especialización y de un expertise profundo y dirigido. De hecho, el contexto del RAG se añade al prompt en la fase de inferencia.

Small Language Models (SLM): el balance perfecto

Todos somos conscientes de que en el campo de la AI unos meses son una eternidad, hoy podemos afirmar con rotundidad que en los últimos tiempos los SLM han emergido como una excelente alternativa a los tradicionales big LLMs (Large Language Models) y Foundational Models.

Tradicionalmente un SLM ha sido conveniente dado su pequeño tamaño (reducida huella de memoria) y su manejabilidad y velocidad. Desafortunadamente sus resultados en el pasado eran de baja calidad y mostraban un alto grado de alucinación (generación de respuestas incorrectas, pero con apariencia de plausibilidad).

Afortunadamente hoy en día, los actuales modelos SLM han explotado en calidad, nivel y precisión llegando a una calidad excelente.

Este desarrollo acelerado ha sido posible gracias al increíble ritmo de avance de algunas tecnologías AI, entre ellas:

Algoritmos de cuantización optimizados que posibilitan una reducción de la precisión de los weights del modelo sin apenas pérdida en la calidad final. Como jemplo el paso de datos FP16 o BF16 (ambos floating point 16 bit) a INT4 o a MXFP4, reduciendo con ello en este ejemplo en un factor 4 el uso de memoria.

Las nuevas y evolucionadas tecnologías de post-training, fine-tuning, RAG y distillation.

Un caso paradigmático son los SLM entrenados en el expertise relativo a un campo de conocimiento definido. Su increíble calidad y exactitud es comparable a Large Language Models que consumen fácilmente de 10 a 100 veces más recursos, tanto en cómputo como en memoria y ocupación en disco.

Ventajas operativas y comparativa SLM vs. LLM

Por todo lo comentado, los SLM dado su reducido tamaño permiten:

Ser desplegados en entornos más reducidos con un número limitado de aceleradores y con una huella de memoria moderada (incluso en el edge).

Una velocidad de procesamiento de tokens mucho más elevada tanto en casos de training como de inferencia.

Supongamos un SLM que necesite para ejecutarse 8 GB de memoria vs. un LLM Foundational Model que necesite 400 GB (los hay que superan con creces 1 TB):

El modelo SLM lo podemos desplegar en entornos con menos memoria disponible.

La velocidad de inferencia del modelo SLM (en tokens / s) será mucho más elevada, dado su menor uso de RAM (rondará un factor 50 –100x o más).

El tiempo de precarga del modelo (lectura desde el storage y copia a la memoria del compute node y a la HBM del acelerador) también se verá reducido (rondará un factor 50x o más).

Mejoramos exponencialmente la eficiencia energética de nuestro cluster en estas cargas de AI.

Nos brinda la posibilidad de ejecutar paralelamente un elevado número de pequeños SLM o de aumentar la concurrencia (servir a más usuarios con cada instancia del SLM).

Naturalmente, los LLM o Frontier Models, siguen siendo superiores cuando necesitamos conocimientos profundos generales y transversales para algunos usos concretos:

Para la escritura creativa de alta calidad.

Tareas de razonamiento complejas.

Aplicaciones que impliquen dominios del conocimiento muy dispares.

Asistencia en la investigación científica.

Algunos modelos SLM opensource de interés

IBM y Red Hat están apostando fuertemente por el desarrollo de los modelos SLM.

Ambos detectaron rápidamente el enorme potencial de los SLM y su viabilidad a nivel empresarial como target para cargas de inferencia, cuando estos SLM son complementados con un fine-tuning y / o les aportamos un corpus de conocimiento particular y definido en forma de documentación (RAG).

IBM Granite models

IBM está desarrollando enterprise-focused foundational models para impulsar el futuro de los negocios. La familia de foundational models Granite abarca diversas modalidades, como lenguaje, lenguaje hablado, visión, código y otras, como las series temporales.

IBM Granite está en constante evolución y lo podemos encontrar en Huggin Face.

Red Hat AI

Red Hat siempre ha ido de la mano de la AI, pero desde la adquisición de NeuralMagic, está apostando decididamente por la validación y cuantización de modelos AI de terceros (incluyendo Meta Llama, Mistral, Qwen, Google Gemma, DeepSeek, entre otros) para su uso en todo el ecosistema Red Hat AI, desde RHEL AI hasta OpenShift AI.

Un ejemplo:

En este caso, Red Hat (Neural Magic) ha cuantizado un modelo open source original de Meta (en concreto Llama-4-Scout-17B-16E-Instruct).

La cuantización nos ha llevado de FP16 a FP8, con ello se gana un factor 2x en velocidad y se reduce un 50% el uso de memoria, manteniendo la calidad de las respuestas prácticamente invariada.

Aceleradores soportados en Red Hat OpenShift AI

Red Hat OpenShift AI soporta los siguientes aceleradores:

https://access.redhat.com/support/policy/updates/rhaiaccelerator

NVIDIA GPU AI Accelerators

AMD Instinct® AI Accelerators

Intel® Gaudi® 2 & 3 AI Accelerators

Como hemos comentado, generalmente las cargas de procesamiento de AI no se llevan a cabo sobre procesadores de propósito general (CPUs), sino que se ejecutan en aceleradores específicos diseñados para AI por necesidades de rendimiento.

Ventajas de Red Hat OpenShift AI vs. Kubernetes vanilla

Soporte oficial del fabricante

Red Hat OpenShift y OpenShift AI son soluciones de grado empresarial, soportadas y certificadas por el fabricante.

Certificación de la solución y estabilidad

Gracias a la certificación de la plataforma Red Hat OpenShift podemos confiar en la estabilidad a largo plazo de nuestros clusters y de las aplicaciones que en ellos desplegamos, todo ello gracias a un roadmap futuro claro y definido sobre la sólida base de Kubernetes.

Escalabilidad y paralelismo masivo

Con el paralelismo masivo en mente, un diseño escalable a todos los niveles (nodes, pods, etc.) y a una arquitectura con HA out-of-the-box, Red Hat OpenShift nos aporta la escalabilidad y el margen de crecimiento futuro necesario para nuestras cargas.

Instalación simplificada y modelo de operadores

Red Hat simplifica al máximo los despliegues de OpenShift con modos de instalación con integración con las plataformas de líderes de virtualización, así como despliegues bare-metal altamente automatizados.

Todos los despliegues se llevan a cabo con consideraciones de HA, replicación y redundancia.

El modelo de operadores nos proporciona un modo directo para desplegar funcionalidades en nuestros clusters de OpenShift. Podemos encontrar estos operadores en el Operator Hub, con diferentes niveles de madurez y soporte.

Actualizaciones sencillas y automatizadas

Las actualizaciones de versión del cluster de OpenShift se llevan a cabo de manera automatizada, transparente y progresiva sobre todos los objetos implicados del cluster.

vLLM – Optimizando la inferencia

Red Hat AI Inference Server se basa en el proyecto vLLM, líder en la industria, iniciado por la Universidad de California en Berkeley a mediados de 2023.

La amplia compatibilidad de vLLM con modelos disponibles públicamente, junto con su integración desde el primer día con los principales frontier models (DeepSeek, Google Gemma, Llama, Llama Nemotron, Mistral, Phi…), lo posiciona como un estándar de facto para la futura innovación en inferencia de IA. Los principales proveedores de frontier models están adoptando cada vLLM, consolidando su papel crucial en el futuro de la IA generativa.

Red Hat AI Inference Server

Para una inferencia eficiente en toda la nube híbrida el porfolio de Red Hat AI incluye Red Hat AI Inference Server, que proporciona una inferencia veloz, uniforme y de bajo costo a gran escala en entornos de nube híbrida.

Esta importante incorporación viene incluida en las últimas versiones de Red Hat OpenShift AI y Red Hat Enterprise Linux AI (RHEL AI) y también está disponible como una solución autónoma, lo que permite a las empresas implementar aplicaciones inteligentes con mayor eficiencia, flexibilidad y rendimiento.

La idea de Red Hat AI Inference Server es satisfacer la demanda de inferencia de alto rendimiento y capacidad de respuesta a escala, manteniendo al mismo tiempo bajas las demandas de recursos y proporcionando una capa de inferencia común que admita cualquier modelo y se ejecute en cualquier acelerador en cualquier entorno.

Red Hat AI Inference Server ofrece a los usuarios una distribución robusta de vLLM con soporte del fabricante.

Consideraciones de seguridad y privacidad de datos sensibles

Como premisa, todo lo que despleguemos en un cluster OpenShift, sean cargas de AI, aplicaciones contenerizadas tradicionales, etc. siempre deben de proceder de orígenes de confianza.

Red Hat cuenta con registries de imágenes propios certificados para un origen seguro para nuestras aplicaciones.

Consideraciones técnicas: Cluster OpenShift AI, consumo de recursos

Un compute node típico destinado al despliegue de cargas de AI es un node bare metal, ya que, si utilizamos aceleradores, OpenShift necesita un acceso directo al HW.

A alto nivel, en este node encontramos el sistema operativo, Red Hat CoreOS, gestionado end-to-end por el cluster sin intervención alguna de los administradores de la plataforma.

La gestión de las cargas y aplicaciones AI contenerizadas que corran sobre dicho node se lleva a cabo vía la web console de OpenShift o desde la OpenShift CLI.

Por otro lado, la gestión a nivel operativo, balanceo de cargas, escalado, replicación, HA, etc. la lleva a cabo de modo automatizado el propio cluster por medio de los operadores.

El futuro de la inteligencia artificial en Red Hat OpenShift AI

OpenShift AI soporta hoy en día todos los tipos de aceleradores AI líderes del mercado en sus compute AI nodes.

Dado el compromiso de IBM y Red Hat + Neural Magic con todo el ecosistema AI y su roadmap claro y definido de futuro, podemos asegurar que, en los próximos años, gran parte de la explosión de la AI en los ámbitos de predicción, generación y agentes se llevará a cabo sobre clusters de Red Hat OpenShift.

Un artículo de:
Carlos Yus
Platform & DevOps Engineer Red Hat OpenShift
Consultoría Tecnológica Grupo Castilla

Comparte este artículo:

AI sobre OpenShift y el sentido de los SLM vs. LLMs (Small vs. Large Language Models)