La aplicación que permite usar los modelos de DeepSeek escaló hasta los primeros puestos en el ranking del App Store de Apple en Estados Unidos, superando a ChatGPT –de OpenAI– como la aplicación gratuita más descargada. Su eficiencia, produto de una restricción externa para limitar su desarrollo, depertó alertas en sus competidores.
De la redacción de EL NORTE
[email protected]
La industria de la inteligencia artificial (IA) registró un cimbronazo durante los últimos días a raíz del lanzamiento de un nuevo modelo inteligente de la empresa china de investigación DeepSeek, sobresaliente por su eficiencia y por ser un desarrollo de código abierto. Se trata del primer modelo de la firma capaz de competir con OpenAI, Google y Meta, las empresas estadounidenses que lideran el mercado.
La aplicación que permite usar los modelos de DeepSeek escaló hasta los primeros puestos en el ranking del App Store de Apple en Estados Unidos, superando a ChatGPT –de OpenAI– como la aplicación gratuita más descargada. Algo que no solo llamó la atención de otras compañías del sector, sino que además llegó a sacudir sus cotizaciones bursátiles.
La firma DeepSeek fue creada en mayo de 2023 por Liang Wenfeng, reconocido en China por administrar fondos de cobertura cuantitativos como High-Flyer, mediante el cual financió el desarrollo de IA.
El proyecto comenzó bajo la denominación Fire-Flyer, una rama de investigación de aprendizaje profundo del fondo de Wenfeng, que adquirió 10.000 chips del fabricante estadounidense Nvidia y reclutó talentos de universidades de China para el proyecto. Esto llevó a que, a diferencia de otros modelos, los de DeepSeek incorporaran un profundo entendimiento del mandarín y de la cultura china.
El factor del costo no es menor, ya que empujó a otras grandes tecnológicas chinas como ByteDance, Tencent, Baidu y Alibaba a reducir los precios de sus modelos para permanecer competitivos. Además, el enfoque de código abierto de DeepSeek mejora aún más la rentabilidad al eliminar las tarifas de licencia y fomentar el desarrollo impulsado por la comunidad.
El gran hito de DeepSeek llegó con sus más recientes modelos, DeepSeek-V3 (lanzado en diciembre) y DeepSeek-R1 (lanzado el 20 de enero). La compañía afirma que R1 está a la par de GPT-4o y Claude 3.5 Sonnet de Anthropic, aunque su desarrollo costó menos de USD 6 millones. En comparación, el director ejecutivo de OpenAI, Sam Altman, ha dicho que entrenar a GPT-4 costó más de 100 millones de dólares.
Rendimiento
DeepSeek-V3, un modelo entrenado con 671 mil millones de parámetros, ofrece un rendimiento sobresaliente en varios puntos de referencia y requiere muchos menos recursos que sus pares. En tanto, DeepSeek-R1 está basado en la arquitectura de V3 y se centra en tareas de razonamiento, por lo que se posiciona como la alternativa que desafía el modelo o1, el más avanzado de OpenAI. DeepSeek también ofrece una gama de modelos conocidos como R1-Distill, que proporcionan distintos niveles de rendimiento y eficiencia.
La API de DeepSeek-R1 cuesta sólo USD 0,55 por millón de tokens de entrada y USD 2,19 por millón de tokens de salida, en comparación con la API de OpenAI, que cuesta USD 15 y USD 60, respectivamente. Los tokens son las unidades de información que utilizan los modelos para procesar palabras. Algunas estimaciones indican que 1.000 tokens equivalen aproximadamente a 750 palabras en inglés.
Y aunque este modelo tuvo gran repercusión internacional, DeepSeek se centra principalmente en la investigación y no tiene planes detallados para una comercialización generalizada en el corto plazo.
Otro aspecto que le permitió a la firma ahorrar recursos fue la implementación del aprendizaje por refuerzo, un método mediante el que los modelos se entrenan a prueba y error, sin la intervención de moderadores humanos. Los programadores le indican a los modelos qué tareas deben resolver y estos buscan las mejores soluciones automáticamente, siendo esta estrategia más efectiva.
En esencia, los modelos de DeepSeek aprenden interactuando con su entorno y recibiendo retroalimentación sobre sus acciones, de manera similar a como los humanos aprenden a través de la experiencia.
Alerta para la competencia
La popularidad que obtuvo DeepSeek destaca el hecho de que los líderes en el desarrollo de modelos inteligentes de IA requiere, además de potencia y grandes conjuntos de datos, mejorar la eficiencia algorítmica y la optimización de recursos.
“A diferencia de muchas empresas chinas de IA que dependen en gran medida del acceso a hardware avanzado, DeepSeek se ha centrado en maximizar la optimización de recursos basada en software”, explicó Marina Zhang, profesora asociada de la Universidad Tecnológica de Sídney, consultada por Wired.
Además, la académica que estudia las innovaciones chinas destacó: “DeepSeek ha adoptado métodos de código abierto, poniendo en común la experiencia colectiva y fomentando la innovación colaborativa. Este enfoque no solamente mitiga las limitaciones de recursos, sino que también acelera el desarrollo de tecnologías de vanguardia, diferenciando a DeepSeek de competidores más aislados”.
Lo que describe Zhang tuvo un impacto financiero este lunes, cuando se registraron caídas superiores al 3% en el caso del índice Nasdaq –que aglutina los valores de compañías tecnológicas de EE.UU.– y en las acciones de diferentes compañías que cotizan en Wall Street.