
¿Por qué son sensibles los dientes? Por que provienen de la coraza de un molusco de hace 500 millones de años, dice estudio
mayo 23, 2025
UOR: todo sobre la gran inauguración de Universal Epic Universe
mayo 23, 2025Durante su primera conferencia de desarrolladores en San Francisco, Anthropic anunció dos nuevos modelos: Claude 4 Opus y Claude Sonnet 4. Claude 4 Opus estará disponible de inmediato para los suscriptores de pago de Claude, mientras que Claude Sonnet 4 lo estará tanto para usuarios gratuitos como abonados.
Los nuevos modelos, que saltan de la convención de nomenclatura 3.7 directamente a 4, presentan una serie de fortalezas, entre ellas su capacidad para razonar, planificar y recordar el contexto de las conversaciones durante largos periodos. Según la empresa, Claude 4 Opus es incluso mejor que su predecesor a la hora de jugar a Pokémon.
«Fue capaz de trabajar agenéticamente con Pokémon durante 24 horas», afirma Mike Krieger, director de producto de Anthropic, en una entrevista con WIRED. Un portavoz de la empresa añade que, anteriormente, lo máximo que podía jugar el modelo eran 45 minutos.
Hace unos meses, Anthropic lanzó un canal en Twitch llamado Claude Plays Pokémon (Claude juega Pokémon), que muestra en directo las habilidades de Claude 3.7 Sonnet en el videojuego. La demo pretende mostrar cómo Claude es capaz de analizar el juego y tomar decisiones paso a paso, con una mínima dirección.
Claude Plays Pokémon (Claude juega Pókemon)
Courtesy of Anthropic
¿Por qué Pókemon?
El responsable de la investigación fue David Hershey, miembro del equipo técnico de Anthropic. En una entrevista con WIRED, Hershey explicó que eligió Pokémon Red porque es «un campo sencillo»: el juego es por turnos y no requiere reacciones en tiempo real, algo con lo que los modelos actuales de Anthropic aún tienen dificultades. También fue el primer videojuego al que jugó, en la Game Boy original, que recibió como regalo de Navidad en 1997. «Ocupa un lugar muy especial en mi corazón».
El objetivo general de Hershey con esta investigación era estudiar cómo Claude podía utilizarse como agente, trabajando de forma independiente para realizar tareas complejas en nombre de un usuario. Aunque no está claro qué conocimientos previos tiene Claude sobre Pokémon a partir de sus datos de entrenamiento, su sistema de instrucciones es mínimo por diseño: «Eres Claude, estás jugando a Pokémon, aquí tienes las herramientas y puedes pulsar los botones de la pantalla».
«Con el tiempo, he ido eliminando tantas cosas específicas de Pokémon como he podido, porque creo que es muy interesante ver cuánto puede averiguar el modelo por sí solo», explica Hershey, y añade que espera crear un juego que Claude nunca haya visto antes para poner a prueba sus límites.
Cuando Claude 3.7 Sonnet probó el juego, se encontró con varios problemas: pasó docenas de horas atascado en una ciudad y tuvo dificultades para identificar a los personajes no jugadores, lo que frenó drásticamente su progreso. Con Claude 4 Opus, Hershey observó una mejora en la memoria a largo plazo y en la capacidad de planificación del modelo al verlo navegar por una búsqueda compleja. Tras darse cuenta de que necesitaba cierto poder para avanzar, la IA dedicó dos días a mejorar sus habilidades antes de continuar. Hershey teoriza que ese tipo de razonamiento en múltiples pasos, sin retroalimentación inmediata, demuestra un nuevo nivel de coherencia, lo que indica que el modelo tiene una mayor capacidad para mantenerse enfocado.
«Es una de mis formas favoritas de conocer un modelo. Así entiendo cuáles son sus fortalezas y debilidades. Es mi manera de familiarizarme con este nuevo modelo que estamos a punto de lanzar y de trabajar con él», describe Hershey.
Google está invirtiendo en el talento mexicano. WIRED conversó con Eduardo Bravo, Director de Ingeniería de Google, quien lidera el nuevo Centro de Excelencia de Ingeniería en la Ciudad de México. Este centro generará 100 empleos para ingenieros de software y será fundamental en el desarrollo de infraestructura para productos esenciales de Google, incluyendo Android, Chrome, Workspace y Google Ads.
Todo el mundo quiere un agente
La investigación de Anthropic sobre Pokémon es un enfoque novedoso para abordar un problema preexistente: ¿cómo entender qué decisiones toma una IA cuando enfrenta tareas complejas y cómo orientarla en la dirección correcta?
La respuesta a esta pregunta es esencial para avanzar en el desarrollo de agentes de inteligencia artificial capaces de ejecutar tareas complejas con relativa autonomía. En Pokémon, es crucial que el modelo no pierda el contexto ni olvide la tarea en curso. Esto también aplica a los agentes de IA encargados de automatizar flujos de trabajo extensos, incluso aquellos que requieren cientos de horas. «A medida que una tarea pasa de cinco a treinta minutos, se observa cómo disminuye la capacidad del modelo para mantener la coherencia y recordar todo lo necesario para completarla con éxito», señala Hershey.
Anthropic, al igual que muchos otros laboratorios de IA, aspira a desarrollar agentes potentes que puedan venderse como productos al consumidor. Krieger afirma que el principal objetivo de Anthropic este año es que Claude «haga horas de trabajo por ti». «Este modelo ya lo está logrando: vimos cómo uno de nuestros clientes de acceso temprano hizo que el modelo se pasara siete horas realizando una gran refactorización», comenta Krieger, refiriéndose al proceso de reestructurar código para hacerlo más eficiente y organizado.
Este es el futuro hacia el que trabajan empresas como Google y OpenAI. A principios de esta semana, Google lanzó Mariner, un agente de IA integrado en Chrome que puede realizar tareas como comprar alimentos, por 249.99 dólares al mes. OpenAI acaba de lanzar Codex, un agente de codificación, y hace unos meses presentó Operator, un agente capaz de navegar por internet en nombre del usuario.
En comparación con sus competidores, Anthropic suele considerarse más prudente, avanzando rápidamente en la investigación pero más lentamente en el despliegue. Y, tratándose de una IA poderosa, eso podría ser algo positivo: un agente con acceso a información confidencial, como la bandeja de entrada de un usuario o sus claves bancarias, puede suponer un riesgo. En una entrada de blog, Anthropic escribió: «Hemos reducido significativamente los comportamientos en los que los modelos utilizan atajos o lagunas para completar las tareas». La empresa también afirma que tanto Claude 4 Opus como Claude Sonnet 4 tienen un 65% menos de probabilidades de incurrir al «hacking de recompensas», que los modelos anteriores, al menos en determinadas tareas de codificación.

A mediados de la semana, Sam Altman compartió la noticia: Io, la empresa fundada por Ive, se fusionará con su empresa OpenAI.
¿Qué tanto se puede confiar en Claude 4 Opus?
El científico jefe de Anthropic, Jared Kaplan, explicó a WIRED que Claude 4 Opus es el primer modelo de la empresa clasificado como ASL-3, un nivel de seguridad que se utiliza para evaluar los riesgos de un modelo. «ASL-3 se refiere a los sistemas que aumentan sustancialmente el riesgo de mal uso catastrófico en comparación con las líneas de base no IA», dice una entrada de blog que describe su política.
Kaplan afirma que el equipo rojo, el grupo de seguridad encargado de someter los modelos de Anthropic a pruebas de estrés para detectar vulnerabilidades, llevó a cabo evaluaciones exhaustivas sobre Claude 4 Opus y desarrolló nuevas medidas para mitigar riesgos catastróficos. En un comunicado, un portavoz indica que Sonnet 4 se lanza bajo la clasificación ASL-2, el nivel de seguridad básico de Anthropic. El modelo más grande, Opus 4, se trata con mayor cautela bajo las normas más estrictas de ASL-3, a menos que futuras pruebas permitan reclasificarlo como ASL-2.
El objetivo es construir una IA capaz de realizar tareas cada vez más complejas y prolongadas de forma segura y confiable, sostiene Kaplan, quien añade que este campo está avanzando rápidamente, más allá de los simples chatbots y hacia una IA que actúe como colaborador virtual. Todavía no se ha llegado a ese punto, y el principal reto para todos los laboratorios de IA sigue siendo mejorar la fiabilidad a largo plazo. «No sirve de nada si a mitad de camino comete un error y se descarrila», concluye Kaplan.
Artículo publicado originalmente en WIRED. Adaptado por Alondra Flores.




