La inteligencia artificial evoluciona rápidamente. En este post vemos cómo OpenShift impulsa el despliegue de modelos de lenguaje y analizamos el papel de los SLM frente a los LLM, destacando sus ventajas en eficiencia, escalabilidad e innovación. ¡No te lo pierdas!

Índice de contenidos Ocultar

1 Red Hat OpenShift AI, el entorno de grado empresarial, soportado y escalable para AI

1.1 Cargas de inteligencia artificial en Red Hat OpenShift AI

1.2 AI privada bajo control: nuestro clúster, nuestros datos, nuestro modelo

2 Training vs. Inferencing: Entrenamiento de modelos vs. inferencia

2.1 Enfoque Training vs. Inferencing

2.2 Adaptación de modelos: fine-tuning y RAG

3 Small Language Models (SLM): el balance perfecto

3.1 Ventajas operativas y comparativa SLM vs. LLM

3.2 Algunos modelos SLM open source de interés

4 Aceleradores soportados en Red Hat OpenShift AI

5 Ventajas de Red Hat OpenShift AI vs. Kubernetes vanilla

5.1 Soporte oficial del fabricante

5.2 Certificación de la solución y estabilidad

5.3 Escalabilidad y paralelismo masivo

5.4 Instalación simplificada y modelo de operadores

5.5 vLLM – Optimizando la inferencia

5.6 Red Hat AI Inference Server

5.7 Consideraciones de seguridad y privacidad de datos sensibles

5.8 Consideraciones técnicas: Clúster OpenShift AI, consumo de recursos

6 El futuro de la inteligencia artificial en Red Hat OpenShift AI

Red Hat OpenShift AI, el entorno de grado empresarial, soportado y escalable para AI

Red Hat OpenShift es la plataforma líder a nivel global para el despliegue de cargas de contenedores, virtualización e Inteligencia Artificial, OpenShift es un orquestador que se encarga de gestionar, escalar, balancear y optimizar la ejecución de las cargas de trabajo y está basado en Kubernetes, el standard de facto de la industria.

Por diseño, un cluster OpenShift incorpora out-of-the-box:

Diseño de cluster de grado empresarial.

Arquitectura HA (alta disponibilidad) nativa.

Automatización total y transversal a nivel de plataforma.

Optimizado para el paralelismo masivo.

OpenShift cuenta con certificación y soporte de Red Hat.

Soporte para escenarios DR (Disaster Recovery).

Cargas de inteligencia artificial en Red Hat OpenShift AI

Las cargas de AI desplegadas en clusters de OpenShift AI se pueden englobar en tres categorías principales:

AI Predictiva: Enfoque en la anticipación de resultados o comportamientos futuros. Incluye clasificación, regresión, sistemas de recomendación, y detección de anomalías.

AI Generativa: Crea o genera contenido nuevo como texto, imágenes, música, código, etc. Usado en modelos de lenguaje, arte generativo o síntesis de voz.

AI Agents: se trata de sistemas autónomos AI que pueden tomar decisiones y realizar y ejecutar tareas sin intervención humana.

AI privada bajo control: nuestro clúster, nuestros datos, nuestro modelo

En el ámbito corporativo, todos somos conscientes del entorno regulado y altamente competitivo en el que desarrollamos nuestra actividad, por lo tanto, resulta crucial asegurar en todos los casos un cumplimiento estricto de la legislación y la normativa aplicable.

El conjunto de los datos corporativos y confidenciales que incorporamos a nuestros modelos AI conforman un activo fundamental para nuestra organización, representan un importante diferencial competitivo, dado que son datos de negocio y por ello privados y estratégicos.

Red Hat OpenShift AI proporciona un control total en áreas críticas:

Gestión y administración centralizada de nuestro cluster OpenShift desde web console o CLI delimitada y granularmente definible.

Control estricto sobre nuestros datos a nivel de cluster y aplicaciones. en el caso de AI tenemos datos de aplicación, datos de training, modelos, datos derivados del inferencing (logs, históricos de chats, etc.), documentos para el RAG, …

Definición y control sobre la localización física de los datos en los storage providers configurados en la plataforma.

Gestión end-to-end del ciclo de vida de los modelos AI: qué modelo utilizamos, de dónde procede, qué datos se utilizaron para su training, qué datos usamos para su fine-tuning, qué documentos aportamos (y su procedencia) al modelo para aumentarlo vía RAG, etc.

Training vs. Inferencing: Entrenamiento de modelos vs. inferencia

Enfoque Training vs. Inferencing

Training: Entrenamiento inicial del modelo en su fase de creación.

Inferencing; Inferencia, cuando proporcionamos datos al modelo o le hacemos preguntas y buscamos que el modelo haga predicciones basadas en los datos (Predictive AI), genere respuestas (Generative AI) o ejecute acciones (Agentic AI).

Adaptación de modelos: fine-tuning y RAG

Fine-tuning consiste en el post entrenamiento de un modelo ya existente, normalmente se lleva a cabo sobre modelos de un tamaño reducido (SLM).

RAG (Retrieval-augmented generation) consiste en la aportación al modelo, mediante un pipeline ETL, de un corpus de documentación de un campo concreto para dotarle de una especialización y de un expertise profundo y dirigido.

Te interesa:
Aprendiendo Red Hat: qué es, como funciona y por qué elegirlo

Small Language Models (SLM): el balance perfecto

Todos somos conscientes de que en el campo de la AI unos meses son una eternidad, hoy podemos afirmar con rotundidad que en los últimos tiempos los SLM han emergido como una excelente alternativa a los tradicionales big-fat LLMs (Large Language Models) y Foundational Models.

Tradicionalmente un SLM ha sido conveniente dado su pequeño tamaño (reducida huella de memoria) y su manejabilidad y velocidad. Desafortunadamente sus resultados en el pasado eran de baja calidad y mostraban un alto grado de alucinación.

Afortunadamente hoy en día, los actuales modelos SLM han explotado en calidad, nivel y precisión.

Este desarrollo acelerado ha sido posible gracias al increíble ritmo de avance de algunas tecnologías AI, entre ellas:

Algoritmos de cuantización optimizados (reducción de la precisión de los datos del modelo sin apenas pérdida en la calidad final, ejemplo: paso de datos FP16 a INT4, reduciendo con ello en este ejemplo un factor 4 el uso de memoria).

Las nuevas y evolucionadas tecnologías de post-training, fine-tuning, RAG y distillation.

Un caso paradigmático son los SLM entrenados en el expertise relativo a un campo de conocimiento definido. Su increíble calidad y exactitud es comparable a Large Language Models que consumen fácilmente de 10 a 100 veces más recursos, tanto en cómputo como en memoria y ocupación en disco.

Ventajas operativas y comparativa SLM vs. LLM

Por todo lo comentado, los SLM, dado su reducido tamaño permiten:

Ser desplegados en entornos más reducidos con un número limitado de aceleradores y con una huella de memoria moderada (incluso en el edge).

Una velocidad de procesamiento de tokens mucho más elevada tanto en casos de training como de inferencia.

Pondremos un ejemplo concreto:

Supongamos un SLM que necesite para ejecutarse 8 GB de memoria vs. un LLM que necesite 400 GB (los hay que superan con creces 1 TB):

El modelo SLM lo podemos desplegar en entornos con menos memoria disponible.

La velocidad de inferencia del modelo SLM (en tokens / s) será mucho más elevada, dado su menor uso de RAM (rondará un factor 50 -100x).

El tiempo de precarga del modelo (lectura desde el storage y copia a la memoria del compute node y a la HBM del acelerador) también se verá reducido (rondará un factor 50x).

Mejoramos exponencialmente la eficiencia energética de nuestro cluster en estas cargas de AI.

Nos brinda la posibilidad de ejecutar paralelamente un elevado número de pequeños SLM o de aumentar la concurrencia (servir a más usuarios con cada instancia del SLM).

Naturalmente, los LLM siguen siendo superiores cuando necesitamos conocimientos profundos generales y transversales para algunos usos concretos:

Para la escritura creativa.

Tareas de razonamiento complejas.

Aplicaciones que impliquen dominios del conocimiento muy dispares.

Asistencia en la investigación científica.

Te interesa:
¿Qué es AWX y cuáles son sus características?

Algunos modelos SLM open source de interés

IBM y Red Hat están apostando fuertemente por el desarrollo de los modelos SLM.

Ambos detectaron rápidamente el enorme potencial de los SLM y su viabilidad a nivel empresarial como target para cargas de inferencia, cuando estos SLM son complementados con un fine-tuning y / o les aportamos un corpus de conocimiento particular y definido en forma de documentación (RAG).

IBM Granite models

IBM está desarrollando enterprise-focused foundation models para impulsar el futuro de los negocios. La familia de foundation models Granite abarca diversas modalidades, como lenguaje, lenguaje hablado, visión, código y otras, como las series temporales.

IBM Granite está en versión 3.3 y en preview ya tenemos la 4.0 en Huggin Face. Se espera una mejora cualitativa con esta nueva v.4.0.

Red Hat AI

Red Hat siempre ha ido de la mano de la AI, pero desde la adquisición de NeuralMagic, está apostando decididamente por la validación y cuantización de modelos AI de terceros (incluyendo Meta Llama, Mistral, Qwen, Google Gemma, DeepSeek, entre otros) para su uso en todo el ecosistema Red Hat AI, desde RHEL AI hasta OpenShift AI.

Un ejemplo:

En este caso, Red Hat (Neural Magic) ha cuantizado un modelo open source original de Meta (en concreto Llama-4-Scout-17B-16E-Instruct).

La cuantización nos ha llevado de FP16 a FP8, con ello se gana un factor 2x en velocidad y se reduce un 50% el uso de memoria, manteniendo la calidad de las respuestas prácticamente invariada.

Aceleradores soportados en Red Hat OpenShift AI

Red Hat OpenShift AI soporta los siguientes aceleradores:

https://access.redhat.com/support/policy/updates/rhaiaccelerator

NVIDIA GPU AI Accelerators

AMD Instinct® AI Accelerators

Intel® Gaudi® 2 & 3 AI Accelerators

Como hemos comentado, generalmente las cargas de procesamiento de AI no se llevan a cabo sobre procesadores de propósito general (CPUs), sino que se ejecutan en aceleradores específicos diseñados para AI por necesidades de rendimiento.

Ventajas de Red Hat OpenShift AI vs. Kubernetes vanilla

Soporte oficial del fabricante

Red Hat OpenShift y OpenShift AI son soluciones de grado empresarial, soportadas y certificadas por el fabricante.

Certificación de la solución y estabilidad

Gracias a la certificación de la plataforma Red Hat OpenShift podemos confiar en la estabilidad a largo plazo de nuestros clusters y de las aplicaciones que en ellos desplegamos, todo ello gracias a un roadmap futuro claro y definido sobre la sólida base de Kubernetes.

Escalabilidad y paralelismo masivo

Con el paralelismo masivo en mente, un diseño escalable a todos los niveles (nodes, pods, etc.) y a una arquitectura con HA out-of-the-box, Red Hat OpenShift nos aporta la escalabilidad y el margen de crecimiento futuro necesario para nuestras cargas.

Instalación simplificada y modelo de operadores

Red Hat simplifica al máximo los despliegues de OpenShift con modos de instalación con integración con las plataformas de líderes de virtualización, así como despliegues bare-metal altamente automatizados.

Todos los despliegues se llevan a cabo con consideraciones de HA, replicación y redundancia.

El modelo de operadores nos proporciona un modo directo para desplegar funcionalidades en nuestros clusters de OpenShift. Podemos encontrar estos operadores en el Operator Hub, con diferentes niveles de madurez y soporte.

vLLM – Optimizando la inferencia

Red Hat AI Inference Server se basa en el proyecto vLLM, líder en la industria, iniciado por la Universidad de California en Berkeley a mediados de 2023.

La amplia compatibilidad de vLLM con modelos disponibles públicamente, junto con su integración desde el primer día con los principales frontier models (DeepSeek, Google Gemma, Llama, Llama Nemotron, Mistral, Phi…), lo posiciona como un estándar de facto para la futura innovación en inferencia de IA. Los principales proveedores de frontier models están adoptando cada vLLM, consolidando su papel crucial en el futuro de la IA generativa.

Red Hat AI Inference Server

Para una inferencia eficiente en toda la nube híbrida el porfolio de Red Hat AI incluye el nuevo Red Hat AI Inference Server, que proporciona una inferencia veloz, uniforme y de bajo costo a gran escala en entornos de nube híbrida.

Esta importante incorporación viene incluida en las últimas versiones de Red Hat OpenShift AI y Red Hat Enterprise Linux AI (RHEL AI) y también está disponible como una solución autónoma, lo que permite a las empresas implementar aplicaciones inteligentes con mayor eficiencia, flexibilidad y rendimiento.

La idea de Red Hat AI Inference Server es satisfacer la demanda de inferencia de alto rendimiento y capacidad de respuesta a escala, manteniendo al mismo tiempo bajas las demandas de recursos y proporcionando una capa de inferencia común que admita cualquier modelo y se ejecute en cualquier acelerador en cualquier entorno.

Red Hat AI Inference Server ofrece a los usuarios una distribución robusta de vLLM con soporte del fabricante.

Consideraciones de seguridad y privacidad de datos sensibles

Como premisa, todo lo que despleguemos en un cluster OpenShift, sean cargas de AI, aplicaciones contenerizadas tradicionales, etc. siempre deben de proceder de orígenes de confianza.

Red Hat cuenta con registries de imágenes propios certificados para un origen seguro para nuestras aplicaciones.

Consideraciones técnicas: Clúster OpenShift AI, consumo de recursos

Un compute node típico destinado al despliegue de cargas de AI es un node bare metal, ya que, si utilizamos aceleradores, OpenShift necesita un acceso directo al HW.

A alto nivel, en este node encontramos el sistema operativo, Red Hat CoreOS, gestionado end-to-end por el cluster sin intervención alguna de los administradores de la plataforma.

La gestión de las cargas y aplicaciones AI contenerizadas que corran sobre dicho node se lleva a cabo vía la web console de OpenShift o desde la OpenShift CLI.

Por otro lado, la gestión a nivel operativo, balanceo de cargas, escalado, replicación, HA, etc. la lleva a cabo de modo automatizado el propio cluster por medio de los operadores.

El futuro de la inteligencia artificial en Red Hat OpenShift AI

OpenShift AI soporta en sus compute AI nodes todos los tipos de aceleradores líderes del mercado.

Dado el compromiso de IBM y Red Hat + Neural Magic con todo el ecosistema AI y su roadmap claro y definido de futuro, podemos asegurar que, en el presente y en los próximos años, gran parte de la explosión de la AI en los ámbitos de predicción, generación y agentes se llevará a cabo sobre clústeres de Red Hat OpenShift.

En la unidad de Consultoría Tecnológica DevOps de Grupo Castilla contamos con un equipo especializado en entornos híbridos y cloud-native, que te acompaña en el diseño, despliegue y operación de soluciones de IA sobre OpenShift. Nuestro enfoque incluye la integración de modelos tanto LLMs como SLMs, garantizando un uso eficiente de los recursos y una alineación con las mejores prácticas del sector. Te ayudamos a acelerar la adopción de estas tecnologías con un acompañamiento integral y transferencia de conocimiento. ¿Hablamos?