DeepSeek enfrenta nuevas acusaciones por entrenar su modelo con datos de Gemini

El medio especializado TechCrunch, citando a Nathan Lambert (@natolambert en X) y a Sam Paech (@sam_paech en X), detalla las sospechas sobre cómo fue entrenado el modelo de razonamiento R1-0528 de DeepSeek.

DeepSeek R1-0528: el nuevo modelo de la IA china que cierra la brecha con o3 de OpenAI y Gemini 2.5 Pro de Google

Lambert y Paech publicaron en X, que observaron coincidencias importantes entre las salidas del modelo chino y las generadas por Gemini 2.5 Pro de Google.

If I was DeepSeek I would definitely create a ton of synthetic data from the best API model out there. Theyre short on GPUs and flush with cash. It’s literally effectively more compute for them. yes on the Gemini distill question.
— Nathan Lambert (@natolambert) June 3, 2025

If you're wondering why new deepseek r1 sounds a bit different, I think they probably switched from training on synthetic openai to synthetic gemini outputs. pic.twitter.com/Oex9roapNv
— Sam Paech (@sam_paech) May 29, 2025

¿Qué similitudes en el modelo de R1-0528 hacen sospechar un entrenamiento con Gemini?

El motivo por el cual se sospecha de un entrenamiento con datos de Gemini se relaciona con el lenguaje y las estructuras usadas por el modelo R1-0528. Sam Paech compartió en X que el modelo utiliza expresiones casi idénticas a las de Gemini, algo poco común en otros sistemas:.

«DeepSeek R1-0528 usa exactamente las mismas frases que Gemini 2.5 Pro. Casi ningún otro modelo hace esto. Implica fuertemente una fuente de entrenamiento compartida».
Sam Paech, desarrollador con sede en Melbourne

Por su parte, Nathan Lambert, investigador del instituto AI2, también comentó sobre la estrategia técnica que podría estar aplicando DeepSeek.

«Si yo fuera DeepSeek, sin duda generaría una gran cantidad de datos sintéticos a partir del mejor modelo disponible por API. Tienen pocas GPU y mucho dinero. En la práctica, eso les da más capacidad de cómputo».
Nathan Lambert, investigador en AI2.

Otro desarrollador, autor de la herramienta SpeechMap, señaló que las trazas generadas por R1-0528 —las secuencias de razonamiento que produce el modelo— “se leen como las de Gemini”. Esta observación ha reforzado las sospechas dentro de la comunidad de desarrolladores.

Por otra parte, hacia fines de 2024, OpenAI acusó a DeepSeek de entrenar su modelo V3 con datos generados por ChatGPT.

¿Qué evidencias vinculan a DeepSeek con el uso de modelos de OpenAI?

En enero de este año, el Financial Times informó que OpenAI había encontrado “algunas evidencias de distillation”, que es un método por el cual se entrenan modelos de lenguaje más pequeños, usando datos data generada por otras más grandes como ChatGPT.

El matutino señala que esta práctica es común en la industria de la IA, sin embargo, se vuelve una infracción si se usa para desarrollar un sistema competidor.

«El problema surge cuando se usa para crear un modelo propio con fines propios».
Persona cercana a OpenAI, citada por el Financial Times.

OpenAI y Microsoft bloquearon las cuentas que utilizaban la API de la plataforma de IA, que se cree estaban vinculadas a DeepSeek.

Según personas con conocimiento directo, la medida respondió a sospechas de un uso que violaba los términos de servicio, los cuales prohíben expresamente usar las salidas del modelo para desarrollar productos que compitan con los de OpenAI.

Apple aún no define especificaciones clave de su iPhone plegable, según Ming-Chi Kuo

Uber lanza en Chile dos nuevas funciones diseñadas para personas mayores: Uber Seniors y Modo Simple

Huawei Mate XT 2 mejorará su durabilidad con cristal UFG

Review Split Fiction (Nintendo Switch 2)

Review Tecno Spark 30 Pro

Review Mario Kart World

Poco F7 protagoniza filtración masiva: renders, especificaciones y posible fecha de presentación

Poco F7 se filtra con su procesador Snapdragon 8s Gen 4

Samsung podría lanzar pronto los Galaxy Buds Core junto con los Galaxy Buds 3 FE

¿Podrá el Proyecto de Ley de Inteligencia Artificial enfrentar el desafío tecnológico en Chile?

Redes sociales: el precio que pagamos por vivir a través de una pantalla

Cargador universal: ¿Solución real o solo otro parche?

[Guía] Como usar la función de GameShare para compartir juegos en la Nintendo Switch 2

¿Actualizaste a One UI 7? Te enseñamos cómo devolver el ajuste de notificaciones para que aparezcan juntas de nuevo

Así puedes configurar los deportes de Google en la Now Bar de Samsung con la actualización a One UI 7 en equipos compatibles

Pauline y Donkey Kong protagonizan un Direct que nos entrega todos los detalles de Donkey Kong: Bananza

Nintendo nos convoca a un Direct especial sobre Donkey Kong: Bananza este miércoles 18 de junio

Splatoon Raiders: Nintendo anuncia el primer spin-off de la serie, que llegará a la Switch 2

DeepSeek enfrenta nuevas acusaciones por entrenar su modelo con datos de Gemini

¿Qué similitudes en el modelo de R1-0528 hacen sospechar un entrenamiento con Gemini?

¿Qué evidencias vinculan a DeepSeek con el uso de modelos de OpenAI?

VTR impulsa su transformación digital con una nueva red IP fotónica que multiplicará por ocho la velocidad de conexión

Aprende cómo solicitar la nueva cédula de identidad y agregarla en tu smartphone

Revisa aquí el listado actualizado de teléfonos compatibles con el Internet satelital de Starlink con Entel Chile

One UI 7 ahora llega a los Galaxy A15 5G, A16 5G, M14, M15 5G, M55s, F55 y Galaxy Tab Active 4 Pro

Amazon Prime Video en Chile ahora ofrece un paquete para contratar 4 señales de DSPORTS por un precio adicional mensual

DeepSeek enfrenta nuevas acusaciones por entrenar su modelo con datos de Gemini

¿Qué similitudes en el modelo de R1-0528 hacen sospechar un entrenamiento con Gemini?

¿Qué evidencias vinculan a DeepSeek con el uso de modelos de OpenAI?

Suscríbete