Cómo la startup china DeepSeek desarrolló un modelo competitivo de OpenAI

Deepseek

DeepSeek, una start-up emergente de inteligencia artificial basada en China, ha llamado la atención gracias a su enfoque innovador en el desarrollo de modelos de lenguaje de alto rendimiento. Este laboratorio, que no depende de ningún financiamiento de gigantes tecnológicos como Baidu o Alibaba, ha sabido imponerse como uno de los pocos actores importantes de la IA en China.

Al reunir un equipo de jóvenes talentos de las mejores universidades chinas, como la Universidad de Pekín y la Universidad Tsinghua, DeepSeek ha buscado trascender las barreras tradicionales del sector. Este audaz enfoque ha permitido crear una cultura empresarial colaborativa e innovadora, centrada en la investigación no convencional.

Los Orígenes de DeepSeek

Fundada por un grupo de apasionados de la IA, DeepSeek comenzó su trayectoria lanzándose a la investigación fundamental. Liang, el fundador, decidió no reclutar ingenieros experimentados, sino más bien a jóvenes investigadores, a menudo estudiantes recién graduados, movidos por el deseo de demostrar su valor en un campo en plena expansión.

Esta estrategia de reclutamiento ha creado un entorno donde la innovación puede prosperar, permitiendo a los investigadores trabajar libremente en proyectos ambiciosos. Paradójicamente, mientras muchas empresas tradicionales enfrentan una competencia interna por los recursos, DeepSeek ha cultivado una dinámica de apoyo y intercambio de conocimientos.

Una Cultura de Innovación Colaborativa

La cultura única de la empresa, fomentada por la juventud de sus empleados, ha promovido una mentalidad de experimentación. Esto contrasta fuertemente con otras empresas tecnológicas en China, donde la rivalidad por los recursos puede perjudicar la creatividad. Los jóvenes investigadores de DeepSeek, que a menudo han ganado premios y publicado artículos en revistas de primer nivel, aportan una experiencia valiosa al equipo, a pesar de su falta de experiencia en la industria.

Liang sostiene que esta falta de experiencia puede, de hecho, jugar a favor del equipo. Los jóvenes investigadores a menudo están más dispuestos a dedicar su tiempo y energía a proyectos de alto riesgo y bajo retorno, impulsados por un sentido del deber y una pasión por la innovación. Al centrarse en resolver las cuestiones más complejas de la IA, buscan dejar su huella en el sector.

Los Desafíos de la Industria de la IA en China

En octubre de 2022, nuevas regulaciones estadounidenses sobre exportaciones restringieron seriamente el acceso de las empresas chinas a tecnologías avanzadas, en particular a chips de alto rendimiento como los H100 de Nvidia. Así, DeepSeek se enfrentó a un desafío importante mientras perseguía sus ambiciones de competir con gigantes como OpenAI y Meta.

A pesar de haber acumulado inicialmente una importante reserva de estos chips, DeepSeek tuvo que reevaluar sus métodos de entrenamiento para sus modelos. Liang explicó que la verdadera restricción de la empresa no radicaba en la financiación, sino en estos controles de exportación. Esto llevó a la start-up a adoptar métodos y arquitecturas de optimización eficaces.

Innovaciones Técnicas y Optimización

Para superar los obstáculos impuestos por estas restricciones, DeepSeek ha desarrollado varias estrategias técnicas. La empresa ha optimizado su arquitectura de modelo utilizando diversas técnicas de ingeniería, incluidos esquemas de comunicación personalizados entre chips, la reducción del tamaño de los campos para ahorrar memoria y un uso innovador del enfoque mixto de modelos.

La combinación de métodos antiguos, pero efectivos, ha permitido a DeepSeek comercializar un modelo de IA que requiere menos recursos mientras mantiene un alto nivel de rendimiento. De hecho, el modelo DeepSeek ahora es capaz de alcanzar resultados similares, e incluso superiores, a los del modelo o1 de OpenAI, mientras que requiere menos potencia de cálculo. Este cambio en el enfoque podría alterar las dinámicas del mercado actual.

Las Actuaciones de DeepSeek

DeepSeek R1, el último modelo desarrollado por la empresa, ha causado sensación en el campo de la inteligencia artificial. En pocos días, la start-up pasó de ser una empresa poco conocida a un actor imprescindible en la IA, gracias a sus excepcionales rendimiento y un coste de desarrollo imbatible.

Este modelo de código abierto ha sido diseñado para ser accesible a un amplio público, al tiempo que asegura resultados comparables a los de los modelos más avanzados actuales. Las actuaciones de DeepSeek R1 se miden en algunas normas reconocidas de la industria, y parece que este supera incluso al modelo o1 de OpenAI en varios criterios de velocidad, eficiencia y costo.

Una Revolución en el Costo de Desarrollo

Lo que distingue principalmente a DeepSeek de sus competidores como OpenAI es el costo de desarrollo de su modelo. Mientras otros gigantes de la IA invierten miles de millones, DeepSeek ha logrado desarrollar su modelo por solo 5 millones de dólares. Esta diferencia de costo, mientras se mantienen altos niveles de rendimiento, podría cambiar las reglas del juego en un sector donde las inversiones en IA están en constante aumento.

Al ofrecer una solución menos costosa, DeepSeek no solo se posiciona como una alternativa, sino que también crea nuevas oportunidades para la innovación en el sector de la IA. Esto promete una era potencialmente transformadora para la industria, donde la accesibilidad financiera de la IA podría estimular una adopción más amplia y fomentar nuevas startups.

El Enfoque de Código Abierto de DeepSeek

Otro aspecto notable de la estrategia de DeepSeek es su compromiso con el código abierto. En un mundo donde la mayoría de los grandes actores mantienen sus modelos bajo llave, DeepSeek desafía esta norma al hacer su modelo accesible a todos. Esta iniciativa no solo fomenta la innovación, sino que también atrae a una comunidad de colaboradores que pueden mejorar y hacer evolucionar el modelo.

Muchos expertos creen que esta estrategia podría ser la clave para alcanzar a empresas occidentales como OpenAI, Anthropic y Meta, que dominan el mercado gracias a recursos considerables. Al desarrollar modelos de código abierto, DeepSeek podría no solo atraer más usuarios, sino también beneficiarse de las valiosas contribuciones de una comunidad ampliada.

Una Oportunidad para la Colaboración Global

Las empresas basadas en China, como DeepSeek, se encuentran en una encrucijada crítica frente a los desafíos de las exportaciones. Sin embargo, la voluntad de crear un modelo de código abierto resalta una oportunidad potencial de colaboración internacional. Al compartir sus innovaciones a nivel mundial, DeepSeek podría facilitar el surgimiento de un ecosistema de IA colaborativo que favorezca el intercambio de conocimientos.

Esta dinámica también podría verse como una respuesta potencial a las restricciones estadounidenses en tecnologías avanzadas, creando así un círculo virtuoso para la innovación y el desarrollo en inteligencia artificial.

Conclusión: El Futuro de DeepSeek

Con desafíos importantes como los controles de exportación y la competencia feroz en el sector, el futuro de DeepSeek parece estar lleno de promesas. Al apostar por la innovación, la optimización y un enfoque de código abierto, podría no solo redefinir su papel en el mercado de la IA en China, sino también a escala global. A medida que la startup continúa progresando, todas las miradas estarán puestas en su capacidad para transformar sus ambiciones en logros concretos.

Scroll al inicio