Modelos de IA Archives - TecnoFuturo24

Wikipedia y Kaggle: Alianza Estratégica para Combatir el Scraping de Bots con un Dataset Optimizado para la IA

TecnoFuturo 24 — Thu, 17 Apr 2025 10:39:29 +0000

La Fundación Wikimedia ha anunciado recientemente una nueva iniciativa para frenar el uso no autorizado de su contenido por parte de bots de inteligencia artificial (IA). Esta alianza con Kaggle, una plataforma de ciencia de datos propiedad de Google, se presenta como una respuesta directa a las crecientes preocupaciones sobre el scraping de la plataforma. A través de este acuerdo, se pone a disposición un dataset especialmente diseñado para facilitar la integración y el desarrollo de modelos de aprendizaje automático, a la vez que se garantiza el respeto por las licencias abiertas de los contenidos de Wikipedia.

Wikipedia libera un dataset optimizado para desarrolladores de IA

En un esfuerzo por combatir el scraping masivo de datos, Wikipedia ha lanzado una solución más eficiente y amigable con los desarrolladores de inteligencia artificial. Esta solución se basa en un conjunto de datos estructurados de Wikipedia, disponible en Kaggle, una de las plataformas más utilizadas por científicos de datos y desarrolladores de IA. Desde el 15 de abril de 2025, este dataset está accesible en formato JSON y abarca contenido en inglés y francés.

El objetivo de la Fundación Wikimedia es proporcionar una alternativa a los métodos tradicionales de scraping, que han comenzado a generar una carga considerable sobre los servidores de la plataforma. Los bots de IA que raspan el contenido de Wikipedia han estado afectando la velocidad y la disponibilidad del servicio, lo que ha motivado la creación de este dataset optimizado para facilitar un acceso más limpio y eficiente a los datos.

Un dataset específico para aplicaciones de IA

El dataset liberado en Kaggle ha sido específicamente diseñado con flujos de trabajo de aprendizaje automático en mente. Incluye resúmenes de investigación, descripciones breves, enlaces a imágenes, datos de infoboxes y secciones de artículos, excluyendo elementos como referencias y archivos no textuales, tales como audios. Esta nueva oferta está estructurada de manera que permite a los desarrolladores de IA acceder a los datos más relevantes de Wikipedia sin tener que recurrir al scraping tradicional, que a menudo es más costoso y menos eficiente.

Brenda Flynn, líder de asociaciones de Kaggle, comentó sobre la relevancia de esta alianza: “Como el lugar al que la comunidad de aprendizaje automático acude por herramientas y pruebas, Kaggle está muy emocionada de ser la anfitriona de los datos de la Fundación Wikimedia. Estamos felices de desempeñar un papel en mantener estos datos accesibles, disponibles y útiles.”

La importancia de esta iniciativa es crucial para las empresas más pequeñas y los científicos de datos independientes, quienes ahora pueden acceder a esta valiosa base de datos sin necesidad de recurrir a métodos más complicados o costosos.

¿Qué contiene el nuevo dataset de Wikipedia?

El dataset de Wikipedia que se encuentra disponible en Kaggle es un recurso valioso para los desarrolladores que buscan mejorar sus modelos de IA. Está diseñado con la intención de facilitar la creación de modelos de aprendizaje automático que puedan procesar datos textuales de manera eficiente. Los componentes principales incluyen:

Resúmenes de investigación: Pequeñas cápsulas de información que ofrecen una visión general de los temas cubiertos en los artículos.
Descripciones breves: Frases concisas que resumen de manera clara el contenido de los artículos.
Enlaces a imágenes: Vínculos a imágenes asociadas a los artículos, aunque sin los archivos de imagen en sí.
Datos de infobox: Información estructurada y resumida sobre los temas cubiertos en los artículos.
Secciones de artículos: Fragmentos de los artículos de Wikipedia organizados de forma estructurada.

El dataset ha sido cuidadosamente organizado en representaciones JSON bien estructuradas, lo que facilita su uso en aplicaciones de IA. Al liberar estos datos bajo una licencia abierta, Wikipedia ofrece una alternativa ética y controlada al scraping de contenido, garantizando que los desarrolladores puedan seguir accediendo a la información sin comprometer los términos de uso de la plataforma.

Cómo la alianza con Kaggle mejora el acceso a los datos

La asociación con Kaggle es especialmente importante porque la plataforma está considerada una de las más importantes en la comunidad de ciencia de datos y aprendizaje automático. Con más de 5 millones de usuarios registrados, Kaggle es el lugar donde muchos desarrolladores y científicos de datos compiten en desafíos, colaboran y comparten recursos.

La Fundación Wikimedia ya tiene acuerdos de compartición de contenido con empresas como Google y el Archivo de Internet, pero esta nueva colaboración con Kaggle se orienta a facilitar el acceso de datos a investigadores más pequeños o independientes. Estos desarrolladores, que podrían tener dificultades para acceder a grandes conjuntos de datos, ahora tienen una herramienta poderosa a su disposición.

El impacto en la comunidad de IA

El scraping de contenido de Wikipedia es un problema creciente que ha puesto en riesgo la estabilidad de la plataforma. A medida que los bots de IA se vuelven más sofisticados, la carga sobre los servidores de Wikipedia también aumenta, lo que afecta la velocidad y la fiabilidad de la plataforma. La solución propuesta por Wikimedia y Kaggle no solo proporciona a los desarrolladores una fuente legal y estructurada de datos, sino que también ayuda a mitigar el impacto negativo del scraping en la infraestructura de Wikipedia.

Los desarrolladores de IA ahora tienen una forma más eficiente de entrenar sus modelos sin sobrecargar los servidores de Wikipedia, asegurando que la plataforma siga siendo accesible y útil para todos los usuarios. Este enfoque también abre nuevas oportunidades para que los investigadores utilicen los datos de Wikipedia en sus trabajos, sin violar las normas de uso o hacer un uso indebido del contenido.

Wikipedia y su compromiso con la comunidad de IA

Este esfuerzo forma parte del compromiso continuo de Wikipedia y la Fundación Wikimedia con el acceso abierto y la cooperación con la comunidad de tecnología y datos. Wikipedia ha sido siempre un pilar del conocimiento abierto y gratuito, y esta nueva iniciativa con Kaggle fortalece aún más ese compromiso, asegurando que los datos sean accesibles de manera ética y eficiente para todos los desarrolladores de IA.

Una solución ética y sostenible

El principal atractivo de esta solución es su capacidad para ofrecer una alternativa ética al scraping de datos sin comprometer la calidad del contenido. Al proporcionar un dataset bien estructurado y optimizado para aplicaciones de IA, Wikimedia permite a los desarrolladores aprovechar los datos de Wikipedia de manera controlada y legal.

Con esta alianza, la Fundación Wikimedia reafirma su compromiso de proteger sus contenidos de la explotación no autorizada, al tiempo que apoya el desarrollo de la inteligencia artificial mediante el acceso a recursos de calidad. Al hacer que los datos sean accesibles a través de plataformas como Kaggle, Wikimedia no solo protege su infraestructura, sino que también fomenta una mayor innovación en el campo de la inteligencia artificial.

The post Wikipedia y Kaggle: Alianza Estratégica para Combatir el Scraping de Bots con un Dataset Optimizado para la IA appeared first on TecnoFuturo24.

Meta lanza dos nuevos modelos de inteligencia artificial Llama 4 que superan a OpenAI y Google en diversas métricas

TecnoFuturo 24 — Mon, 07 Apr 2025 06:13:46 +0000

Meta, la gigante tecnológica de Silicon Valley, ha dado un gran paso en el campo de la inteligencia artificial con el lanzamiento de su nueva colección de modelos de IA Llama 4. Esta nueva serie de modelos, que ahora alimentan al asistente de Meta AI en la web, así como en plataformas populares como WhatsApp, Messenger e Instagram, promete revolucionar la forma en que las empresas y los desarrolladores interactúan con la inteligencia artificial. Meta ha lanzado dos modelos iniciales: Llama 4 Scout y Llama 4 Maverick, con una tercera versión aún en desarrollo, llamada Llama 4 Behemoth, que promete ser el modelo más avanzado hasta la fecha.

La compañía ha afirmado que estos nuevos modelos son superiores a los modelos de IA más avanzados de OpenAI y Google en una amplia gama de métricas, lo que marca un hito importante en la competencia en el mundo de la inteligencia artificial generativa. A continuación, analizamos en detalle qué hace a los modelos Llama 4 tan especiales y cómo se comparan con otras tecnologías de vanguardia en la actualidad.

El lanzamiento de Llama 4: la nueva serie de modelos de Meta

Meta ha revelado dos nuevos modelos de inteligencia artificial que han sido diseñados para llevar la IA generativa al siguiente nivel. Los dos modelos iniciales lanzados son Llama 4 Scout y Llama 4 Maverick, y Meta promete que, a pesar de sus diferencias de tamaño y complejidad, ambos superan a los modelos de IA más avanzados de Google y OpenAI en una variedad de pruebas.

Llama 4 Scout: Este modelo es la versión más pequeña y ligera de la nueva serie. Aunque compacto, Llama 4 Scout es capaz de ejecutar tareas complejas de inteligencia artificial gracias a su arquitectura innovadora. Con un contexto de 10 millones de tokens, que es la memoria operativa que utiliza el modelo, Llama 4 Scout se presenta como un modelo extremadamente eficiente que puede ser ejecutado incluso en una sola unidad de procesamiento gráfico Nvidia H100, una de las GPUs más potentes del mercado. Este modelo ha sido capaz de superar a otros modelos populares como Gemma 3 y Gemini 2.0 Flash-Lite de Google, así como al modelo Mistral 3.1 de código abierto, en una amplia gama de benchmarks reportados por la industria. Su capacidad para hacer todo esto en una GPU de una sola unidad es un logro notable, lo que demuestra la eficiencia y versatilidad de este modelo.
Llama 4 Maverick: El segundo modelo lanzado, Llama 4 Maverick, es mucho más grande y potente que Scout, y está diseñado para competir directamente con modelos como GPT-4o de OpenAI y Gemini 2.0 Flash de Google. Llama 4 Maverick ha sido optimizado para tareas de razonamiento y codificación, mostrando un rendimiento comparable con DeepSeek-V3 en estos campos, pero utilizando menos de la mitad de los parámetros activos. Este modelo ha impresionado por su capacidad de manejar tareas complejas, lo que lo coloca como una de las opciones más robustas del mercado.
Llama 4 Behemoth: Aunque aún no ha sido lanzado, Llama 4 Behemoth es la versión más grande y avanzada de la nueva serie. Según Meta, este modelo será el más potente de todos, con 288 mil millones de parámetros activos y un total de 2 billones de parámetros. Aunque todavía está en proceso de entrenamiento, Meta asegura que Llama 4 Behemoth será capaz de superar a sus competidores, como GPT-4.5 y Claude Sonnet 3.7, en varios benchmarks de STEM (ciencia, tecnología, ingeniería y matemáticas). Meta describe a Llama 4 Behemoth como “el modelo base de mayor rendimiento del mundo”, lo que pone de relieve sus aspiraciones de liderar el campo de la inteligencia artificial generativa.

La arquitectura de “mezcla de expertos” en Llama 4

Una de las innovaciones más destacadas en la serie Llama 4 es el uso de la arquitectura de “mezcla de expertos” (MoE, por sus siglas en inglés). Esta arquitectura permite que el modelo utilice solo las partes que son necesarias para realizar una tarea específica, lo que optimiza el uso de recursos y mejora la eficiencia del modelo. En lugar de activar todo el conjunto de parámetros para cada tarea, la arquitectura MoE activa solo un subconjunto de parámetros, lo que reduce la cantidad de recursos necesarios y aumenta la eficiencia. Esta metodología es particularmente útil para tareas de IA generativa, donde los modelos pueden ser extremadamente grandes y costosos en términos de potencia de cálculo.

La adopción de la arquitectura MoE permite a Meta ofrecer modelos que son tanto poderosos como eficientes, lo que es crucial para hacer que la inteligencia artificial generativa sea más accesible y útil para una variedad de aplicaciones, desde la asistencia al cliente hasta el análisis de datos y la creación de contenido.

Comparativa de Llama 4 con OpenAI y Google

Meta ha destacado que sus nuevos modelos Llama 4 son superiores en diversos benchmarks a los modelos más avanzados de OpenAI y Google. En particular, Meta ha afirmado que Llama 4 Scout supera a modelos de Google como Gemini 3 y Gemini 2.0 Flash-Lite en una serie de métricas clave. Además, el modelo Llama 4 Maverick ha demostrado rendir al mismo nivel que el modelo GPT-4o de OpenAI en tareas complejas de razonamiento y codificación, a pesar de utilizar menos parámetros activos.

Uno de los aspectos clave que diferencia a Llama 4 de otros modelos en el mercado es la eficiencia. Meta ha logrado crear modelos que pueden realizar tareas complejas utilizando una cantidad significativamente menor de parámetros activos que sus competidores. Esto significa que los modelos de Meta no solo son potentes, sino también más eficientes en cuanto a recursos, lo que podría llevar a una mayor adopción de estas tecnologías en una variedad de aplicaciones.

Licencia y acceso a Llama 4

A pesar de las mejoras significativas en términos de rendimiento, la serie Llama 4 ha generado algunas críticas debido a las restricciones de licencia que Meta ha implementado. Aunque la compañía describe sus modelos como “de código abierto”, Llama 4 no está completamente libre de restricciones, ya que requiere que las entidades comerciales con más de 700 millones de usuarios activos mensuales soliciten permiso a Meta antes de poder utilizar los modelos. Este tipo de licencias ha sido criticado por algunos defensores del software libre, como la Open Source Initiative, que argumentan que estas restricciones hacen que Llama 4 no se ajuste completamente a la definición de “código abierto”.

Sin embargo, Meta sigue insistiendo en que la apertura de sus modelos sigue siendo un paso importante hacia un ecosistema de IA más accesible y transparente. La compañía también ha señalado que su enfoque en la licencia está destinado a proteger el uso indebido de los modelos y garantizar que las empresas que los utilicen sean responsables de su implementación.

¿Qué sigue para Meta y la inteligencia artificial?

Meta ha anunciado que ofrecerá más detalles sobre sus futuros planes de inteligencia artificial durante su conferencia LlamaCon, que se celebrará el 29 de abril de 2025. Durante este evento, la compañía probablemente compartirá más información sobre cómo planea evolucionar la serie Llama y sus otros productos de IA. Se espera que Meta también revele más detalles sobre las capacidades de Llama 4 Behemoth y sus planes para hacer que la inteligencia artificial sea más accesible y útil para una amplia gama de usuarios.

En resumen, Meta ha dado un gran paso con el lanzamiento de los modelos Llama 4, que no solo compiten con las tecnologías líderes de OpenAI y Google, sino que también ofrecen una nueva perspectiva sobre cómo los modelos de inteligencia artificial pueden ser tanto poderosos como eficientes. A medida que Meta continúa desarrollando y mejorando su tecnología de inteligencia artificial, se espera que sus modelos Llama se conviertan en una opción preferida para desarrolladores y empresas que buscan aprovechar el poder de la inteligencia artificial generativa.

The post Meta lanza dos nuevos modelos de inteligencia artificial Llama 4 que superan a OpenAI y Google en diversas métricas appeared first on TecnoFuturo24.

El Nuevo Líder en IA Abierta – Tulu3-405B Supera a DeepSeek V3 y GPT-4o

TecnoFuturo 24 — Thu, 30 Jan 2025 16:42:22 +0000

– En un avance significativo en el mundo de la inteligencia artificial, Ai2, un instituto sin fines de lucro dedicado a la investigación de IA con sede en Seattle, ha anunciado el lanzamiento de un modelo revolucionario llamado Tulu3-405B. Este modelo, que se presenta como una alternativa a los sistemas de inteligencia artificial más conocidos, no solo supera a DeepSeek V3, uno de los principales sistemas de la empresa china DeepSeek, sino que también ha demostrado una superioridad en ciertas métricas frente a GPT-4o, el modelo desarrollado por OpenAI. Lo más sorprendente es que Tulu3-405B es un modelo de código abierto, lo que significa que sus componentes esenciales están disponibles de forma gratuita para replicarlo, fomentando la transparencia y la colaboración dentro de la comunidad global de IA.

Un Salto Cuantitativo en la IA Abierta

El modelo Tulu3-405B ha sido diseñado y entrenado por el equipo de Ai2 con un enfoque en la competencia global en el desarrollo de modelos generativos de IA. Con 405 mil millones de parámetros, Tulu3-405B es una de las arquitecturas más grandes y complejas jamás creadas por el instituto. Para entrenar este modelo, se necesitaron 256 unidades de procesamiento gráfico (GPUs) operando en paralelo, lo que subraya la magnitud de la inversión tecnológica detrás del proyecto.

Según el portavoz de Ai2, este logro no solo subraya el potencial de Estados Unidos para liderar el desarrollo global de los mejores modelos generativos de IA, sino que también refuerza el papel del país como líder en la creación de modelos de IA de código abierto y competitivos, independientes de las grandes empresas tecnológicas. El portavoz afirmó que con este lanzamiento, Ai2 no solo introduce una alternativa poderosa a los modelos de DeepSeek, sino que también marca un hito importante en el desarrollo de la inteligencia artificial abierta, demostrando que Estados Unidos puede liderar con modelos competitivos y accesibles para toda la comunidad.

El Desafío a DeepSeek y GPT-4o

Uno de los principales objetivos de Ai2 con el lanzamiento de Tulu3-405B es demostrar que es posible crear un modelo de IA competitivo que supere a los sistemas más avanzados del mercado. DeepSeek V3, uno de los modelos más poderosos de la empresa china DeepSeek, ha sido considerado un líder en el campo de la inteligencia artificial generativa. Sin embargo, Tulu3-405B ha logrado superar a DeepSeek V3 en varios puntos clave, según las pruebas internas realizadas por Ai2.

Además de su rendimiento superior en relación con DeepSeek, Tulu3-405B ha demostrado su capacidad para superar también a GPT-4o, el modelo de IA de última generación desarrollado por OpenAI, especialmente en tareas de resolución de problemas complejos y en pruebas de conocimiento especializado. Aunque GPT-4o es reconocido por su impresionante capacidad para generar texto y resolver problemas en una variedad de contextos, el modelo de Ai2 ha demostrado ser más eficiente en ciertas tareas específicas.

Una de las pruebas más destacadas en las que Tulu3-405B superó a sus competidores fue el benchmark PopQA, que evalúa el rendimiento de un modelo en preguntas especializadas de conocimiento provenientes de Wikipedia. Tulu3-405B no solo superó a DeepSeek V3 y GPT-4o, sino que también logró mejores resultados que el modelo Llama 3.1 405B de Meta, otro competidor importante en el campo de la IA generativa.

Técnicas de Aprendizaje y Mejora del Rendimiento

Una de las claves del éxito de Tulu3-405B es la aplicación de una técnica de aprendizaje conocida como refuerzo de aprendizaje con recompensas verificables (RLVR, por sus siglas en inglés). Este enfoque se centra en entrenar el modelo con tareas que tienen resultados verificables, como la resolución de problemas matemáticos y la ejecución de instrucciones específicas. La RLVR permite que el modelo aprenda de manera más eficiente, mejorando su capacidad para realizar tareas complejas y garantizando que las soluciones generadas sean verificables y precisas.

Tulu3-405B ha sido probado exhaustivamente en varios benchmarks de alto nivel, y los resultados hablan por sí mismos. Además de su rendimiento destacado en PopQA, también ha obtenido el mejor puntaje en el test GSM8K, que evalúa la capacidad del modelo para resolver problemas matemáticos de nivel escolar. Estos logros posicionan a Tulu3-405B como una opción viable para una amplia gama de aplicaciones en el campo de la inteligencia artificial, desde la educación hasta la investigación científica y más allá.

Un Futuro Prometedor para la IA Abierta

Lo que hace que Tulu3-405B sea aún más relevante es su disponibilidad como modelo de código abierto. A diferencia de modelos como GPT-4o y DeepSeek V3, que están limitados a un acceso controlado y comercializado, Tulu3-405B está completamente disponible para el público. Los desarrolladores e investigadores pueden acceder al código y al modelo entrenado a través de plataformas como GitHub y Hugging Face, lo que les permite probar, modificar y mejorar el modelo de acuerdo con sus necesidades.

Esta apertura representa un cambio significativo en el campo de la inteligencia artificial, donde los modelos más avanzados tienden a estar bajo el control exclusivo de grandes empresas. Tulu3-405B pone en manos de la comunidad global de desarrolladores y científicos una herramienta poderosa para seguir impulsando la innovación y el avance en IA, independientemente de los intereses comerciales.

El acceso abierto a Tulu3-405B también fomenta la colaboración entre diferentes instituciones y comunidades, lo que puede acelerar el progreso en áreas como la ética de la IA, la equidad en los sistemas de inteligencia artificial y el desarrollo de modelos más transparentes y responsables.

Cómo Probar Tulu3-405B

Ai2 ha hecho que Tulu3-405B esté disponible para su prueba a través de su aplicación web de chatbot. Los usuarios pueden interactuar con el modelo y experimentar con sus capacidades, lo que proporciona una valiosa oportunidad para evaluar su rendimiento en tiempo real. Además, el código necesario para entrenar y replicar Tulu3-405B está disponible en GitHub, lo que permite a los desarrolladores comenzar a trabajar con el modelo de inmediato.

La disponibilidad de Tulu3-405B en plataformas como Hugging Face también abre nuevas puertas para la colaboración en la comunidad de IA. Los investigadores pueden modificar y mejorar el modelo según sus necesidades, lo que contribuye al desarrollo continuo de tecnologías de inteligencia artificial más potentes y accesibles.

Un Paso Más en la Competencia Global por la IA

El lanzamiento de Tulu3-405B marca un hito en la evolución de la inteligencia artificial. Este modelo no solo ha superado a competidores establecidos como DeepSeek y GPT-4o, sino que también demuestra que Estados Unidos sigue siendo un líder clave en el desarrollo de IA de código abierto. Con el avance de Tulu3-405B, Ai2 no solo establece un nuevo estándar de rendimiento, sino que también ofrece una alternativa viable y accesible a los modelos controlados por grandes corporaciones tecnológicas.

A medida que la competencia en el campo de la inteligencia artificial sigue evolucionando, es probable que surjan más innovaciones como Tulu3-405B, que desafíen las normas y abran nuevas posibilidades para el futuro de la IA. Con su enfoque en la transparencia, la colaboración abierta y la excelencia técnica, Tulu3-405B es un modelo que promete cambiar las reglas del juego y acelerar el desarrollo de la inteligencia artificial en los próximos años.

The post El Nuevo Líder en IA Abierta – Tulu3-405B Supera a DeepSeek V3 y GPT-4o appeared first on TecnoFuturo24.

DeepSeek y el Desafío a la Dominancia de Nvidia en el Mercado de Chips para Inteligencia Artificial

TecnoFuturo 24 — Wed, 29 Jan 2025 02:53:57 +0000

Introducción

La irrupción de DeepSeek, una emergente compañía de inteligencia artificial de China, ha generado una ola de preocupación en el mercado tecnológico, particularmente para Nvidia, el gigante mundial de la fabricación de semiconductores que ha liderado el suministro de chips de alto rendimiento utilizados en el entrenamiento de modelos de IA. DeepSeek, que ha logrado entrenar modelos de inteligencia artificial de alto rendimiento de manera económica sin recurrir a los chips más avanzados de Nvidia, está poniendo en evidencia las debilidades del modelo de negocio de la empresa estadounidense. Esta situación no solo amenaza la demanda de los chips más caros de Nvidia, sino que también podría alterar las reglas del juego en el mercado de la inteligencia artificial.

La Amenaza de DeepSeek a Nvidia

Nvidia ha sido la piedra angular de la revolución de la inteligencia artificial, con sus potentes tarjetas gráficas (GPUs) utilizadas ampliamente para el entrenamiento de modelos de machine learning. Sin embargo, DeepSeek ha demostrado que es posible obtener resultados comparables sin la necesidad de recurrir a la tecnología más avanzada y costosa de Nvidia. La compañía china ha creado modelos de IA altamente eficientes a un costo significativamente menor, lo que ha generado un gran revuelo en el mercado de los semiconductores.

El éxito de DeepSeek podría reducir la dependencia de los desarrolladores de IA de los chips caros de Nvidia. Esto es especialmente relevante en un contexto donde las empresas están buscando optimizar sus costos y mejorar la rentabilidad. Aunque DeepSeek aún se encuentra en sus primeras etapas y su enfoque no ha sido probado en una escala más grande, su ascenso meteórico ha llamado la atención de inversores y expertos de la industria, quienes se muestran cautelosamente optimistas ante el impacto que podría tener en la industria.

El Contexto del Mercado de Chips para IA

El mercado de chips para inteligencia artificial ha experimentado un crecimiento explosivo en los últimos años. La demanda de procesamiento de datos masivos y complejos para entrenar modelos de machine learning ha impulsado la necesidad de hardware especializado, como las GPUs de Nvidia, que se han convertido en una parte esencial de la infraestructura de la IA moderna. Nvidia ha logrado consolidarse como el proveedor principal, pero esto ha llevado a la compañía a enfrentar una competencia creciente, tanto de fabricantes de chips tradicionales como de nuevas startups que desarrollan sus propios semiconductores personalizados.

La especialización en la fabricación de chips ha sido una de las principales fortalezas de Nvidia. A medida que el mercado de la inteligencia artificial continúa expandiéndose, la empresa se ha visto beneficiada de la creciente demanda de su hardware. Sin embargo, esta situación ha comenzado a cambiar. Rivales como DeepSeek, que han logrado entrenar modelos de IA con una eficiencia notable sin recurrir a las GPUs más caras, están comenzando a desafiar la hegemonía de Nvidia.

El Modelo de DeepSeek: ¿Una Alternativa Viable?

DeepSeek ha logrado una hazaña notable al entrenar modelos de IA de alta calidad sin necesidad de los chips más avanzados de Nvidia. Esto plantea una pregunta crucial: ¿es posible que otras compañías sigan este ejemplo y logren competir con Nvidia utilizando tecnología más asequible? El modelo de negocio de DeepSeek se basa en la optimización de los recursos de hardware disponibles y la reducción de los costos operativos, lo que le permite crear soluciones de inteligencia artificial de alto rendimiento sin necesidad de invertir en las costosas GPUs de última generación.

Esta estrategia podría ser un factor decisivo para las empresas que buscan reducir costos sin comprometer la calidad de sus modelos de IA. Si DeepSeek logra replicar su éxito en una escala más grande, podría significar una disrupción significativa en el mercado de chips para IA, con un impacto directo en la demanda de las GPUs de Nvidia. Esto también podría incentivar a otros competidores a buscar soluciones más rentables, lo que a su vez podría poner presión sobre Nvidia para diversificar su oferta y adaptarse a las nuevas exigencias del mercado.

La Reacción de Nvidia Ante la Amenaza

A pesar de la amenaza que representa DeepSeek, Nvidia sigue siendo un actor clave en el mercado de la inteligencia artificial. La empresa ha continuado invirtiendo fuertemente en investigación y desarrollo para mantenerse a la vanguardia de la tecnología de semiconductores. Además, Nvidia ha ampliado su portafolio con nuevas soluciones de hardware y software diseñadas específicamente para optimizar el rendimiento de los modelos de IA. Por ejemplo, la introducción de la serie de chips H100 y A100 ha permitido a Nvidia seguir siendo un proveedor dominante en el sector.

La compañía también ha mantenido una sólida relación con empresas de todo el mundo que utilizan sus productos para entrenar modelos de IA. Sin embargo, el surgimiento de competidores como DeepSeek podría forzar a Nvidia a reconsiderar su estrategia de precios y su enfoque hacia la innovación. En lugar de depender únicamente de la venta de chips de alto rendimiento, Nvidia podría verse obligada a explorar nuevas formas de agregar valor a su oferta, como el desarrollo de software especializado y plataformas de IA que complementen su hardware.

El Futuro del Mercado de Chips para IA

La industria de la inteligencia artificial está en constante evolución, y las compañías tecnológicas deben adaptarse rápidamente a los cambios para seguir siendo competitivas. En este contexto, el auge de DeepSeek podría ser solo el comienzo de una tendencia más amplia hacia soluciones de IA más económicas y accesibles. Aunque los chips de Nvidia siguen siendo esenciales para proyectos de gran escala, la capacidad de DeepSeek para ofrecer modelos eficientes sin depender de los chips más avanzados podría inspirar a otras empresas a seguir su ejemplo.

Si esta tendencia se consolida, es posible que veamos una mayor diversificación en el mercado de semiconductores para IA, con nuevos jugadores ofreciendo soluciones más asequibles y especializadas. Nvidia tendrá que competir no solo con otras grandes empresas de tecnología, sino también con startups que puedan ofrecer soluciones personalizadas que se ajusten mejor a las necesidades específicas de las empresas.

Conclusión

El ascenso de DeepSeek pone en evidencia una posible debilidad en el modelo de negocio de Nvidia, ya que plantea una alternativa viable para entrenar modelos de inteligencia artificial de alto rendimiento sin necesidad de recurrir a los chips más caros y avanzados de la compañía. Aunque Nvidia sigue siendo un líder en la industria de la IA, la competencia está en aumento, y la empresa tendrá que adaptarse a los cambios del mercado si quiere mantener su dominio.

El impacto a largo plazo de DeepSeek y otros competidores dependerá de su capacidad para escalar sus soluciones de manera efectiva y ofrecer productos que puedan competir con la calidad y el rendimiento de los chips de Nvidia. En este sentido, el mercado de la inteligencia artificial sigue siendo altamente dinámico, y las empresas que sepan innovar y adaptarse a las nuevas demandas serán las que saldrán ganando.

The post DeepSeek y el Desafío a la Dominancia de Nvidia en el Mercado de Chips para Inteligencia Artificial appeared first on TecnoFuturo24.

¿Estallará la Burbuja de la Inteligencia Artificial en 2025 o Será su Gran Año?

TecnoFuturo 24 — Wed, 20 Nov 2024 22:57:47 +0000

En 2025, la inteligencia artificial (IA) se enfrenta a un punto de inflexión histórico. Tras años de desarrollo y un frenesí de inversiones, el potencial de la IA para transformar industrias está más cerca que nunca de ser probado. Desde el lanzamiento de ChatGPT por OpenAI a finales de 2022, la revolución tecnológica no ha parado de acelerarse, atrayendo a millones de usuarios y billones de dólares en inversiones. Sin embargo, persisten dudas sobre si esta tecnología cumplirá sus promesas o si la burbuja de entusiasmo finalmente estallará.

La revolución de la IA: Un crecimiento sin precedentes

El lanzamiento de ChatGPT marcó el inicio de una nueva era en la IA. Con 100 millones de usuarios registrados en semanas, superó todos los récords de adopción. Empresas como Nvidia, líder en chips de IA, han visto multiplicado su valor de mercado hasta superar los 3 billones de dólares. Entre 2024 y 2027, se espera que las inversiones en centros de datos para IA superen los 1.4 billones de dólares.

A pesar de este crecimiento, solo el 5% de las empresas estadounidenses han incorporado la IA en sus productos y servicios. Las startups del sector luchan por ser rentables, y los recursos necesarios para entrenar modelos avanzados son cada vez más costosos.

Retos tecnológicos y económicos de la IA en 2025

Consumo energético: Modelos como GPT-4 requieren cantidades masivas de energía. Entrenar GPT-4 consumió suficiente electricidad como para abastecer 5,000 hogares estadounidenses durante un año. Con costos de entrenamiento estimados en 1,000 millones de dólares para las próximas generaciones, la sostenibilidad es un desafío crucial.
Datos de entrenamiento: Según estudios, las fuentes de datos textuales de alta calidad en Internet podrían agotarse en 2028. Esto ha impulsado la búsqueda de alternativas como datos sintéticos o nuevas bases de datos específicas.
Limitaciones de hardware: La carrera por desarrollar chips más especializados y eficientes es intensa. Empresas en todo el mundo trabajan para optimizar el uso de recursos y reducir la dependencia de chips costosos.

Innovación frente a limitaciones

A pesar de los retos, la innovación continúa impulsando la industria. Nuevas soluciones incluyen:

Modelos más pequeños y especializados que consumen menos energía.
Fuentes alternativas de datos, como libros de texto y datos generados sintéticamente.
Avances en hardware con chips diseñados específicamente para optimizar la eficiencia de los modelos.

En paralelo, empresas como OpenAI, Anthropic, Google y Meta compiten ferozmente por liderar el mercado, mientras nuevos jugadores como xAI buscan hacerse un hueco en esta industria emergente.

La adopción secreta de la IA en el trabajo

Aunque muchas empresas no informan oficialmente sobre el uso de IA, un tercio de los empleados estadounidenses afirma utilizarla al menos una vez por semana en su trabajo. Profesionales en sectores como el desarrollo de software y recursos humanos ya confían en herramientas de IA para tareas como la generación de informes y la reescritura de textos.

El temor de los empleados a admitir el uso de IA, por miedo a recibir más tareas o ser reemplazados, revela que la adopción de esta tecnología no es solo un desafío técnico, sino también cultural y gerencial.

Áreas clave de innovación para 2025

La IA no solo está revolucionando las oficinas. En 2025, los avances más significativos podrían surgir en sectores como:

Salud: Los primeros medicamentos desarrollados con IA podrían entrar en ensayos clínicos de fase 3, abriendo nuevas posibilidades para el tratamiento de enfermedades.
Defensa: Los drones inteligentes y otros sistemas autónomos están emergiendo como herramientas clave en la seguridad y defensa global.
China y la IA: Las restricciones de exportación de chips de alta gama han impulsado la creatividad de los ingenieros chinos, quienes lideran en innovaciones que optimizan recursos limitados.

¿Qué esperar en 2025?

La carrera por la IA seguirá avanzando, pero el escepticismo entre los inversores podría marcar el ritmo de adopción. A medida que se desarrollen sistemas más eficientes y se encuentren soluciones innovadoras, la tecnología podría finalmente cumplir sus promesas.

The post ¿Estallará la Burbuja de la Inteligencia Artificial en 2025 o Será su Gran Año? appeared first on TecnoFuturo24.

TikTok Gasta Casi $20 Millones al Mes en Modelos de IA de OpenAI a Través de Microsoft

tecnofadmin — Wed, 31 Jul 2024 22:25:15 +0000

TikTok estaba pagando a Microsoft casi $20 millones al mes para acceder a los modelos de inteligencia artificial de OpenAI hasta marzo, según un informe de The Information. Este gasto representa casi una cuarta parte de los ingresos generados por la cada vez más lucrativa división de nube de Microsoft. La inversión de TikTok en tecnología de IA subraya la importancia de la colaboración entre grandes tecnológicas en el sector de la inteligencia artificial.

Microsoft, cuya división de inteligencia artificial en la nube estaba proyectada para alcanzar $1 mil millones en ingresos anuales, podría enfrentar un cambio en la dinámica si TikTok desarrolla su propio modelo de lenguaje grande (LLM). El informe de The Information indica que, aunque Microsoft está bien posicionado en el mercado, el potencial de desarrollo independiente de TikTok podría reducir la dependencia de la empresa en los servicios de Microsoft.

El año pasado, Alex Heath reportó que ByteDance, la empresa matriz de TikTok, estaba “usando secretamente” la tecnología de OpenAI para crear su propio LLM. Esta práctica, considerada inapropiada en el mundo de la IA, viola directamente los términos de servicio de OpenAI, que prohíben el uso de sus modelos para desarrollar productos competidores. Microsoft, a través de la cual ByteDance accede a la tecnología de OpenAI, mantiene una política similar.

Como resultado de estas violaciones, OpenAI suspendió la cuenta de ByteDance para investigar un posible incumplimiento de su licencia de desarrollador. ByteDance, en respuesta, comentó a CNN que estaba utilizando la tecnología de OpenAI “en una medida muy limitada” para asistir en la creación de sus propios modelos.

Además, Microsoft cuenta con un acuerdo de inversión multimillonario que la convierte en el proveedor exclusivo de nube de OpenAI. La empresa ha invertido “varios cientos de millones de dólares” en la construcción de una supercomputadora para potenciar ChatGPT. En su informe de ganancias del cuarto trimestre de 2024, Microsoft reveló un crecimiento del 29% en los ingresos de Azure, justo por debajo de la proyección del 30 a 31%. La CFO, Amy Hood, anticipa un crecimiento de ingresos de Azure de alrededor del 28–29% para el primer trimestre de 2025.

The post TikTok Gasta Casi $20 Millones al Mes en Modelos de IA de OpenAI a Través de Microsoft appeared first on TecnoFuturo24.

Meta lanza el modelo de IA de código abierto más grande y avanzado hasta la fecha

tecnofadmin — Wed, 24 Jul 2024 01:33:14 +0000

Meta ha lanzado Llama 3.1, el modelo de IA de código abierto más grande y avanzado hasta la fecha. Este modelo supera a GPT-4o y a Claude 3.5 Sonnet de Anthropic en varios benchmarks.

Meta está ampliando la disponibilidad de su asistente de IA basado en Llama a más países e idiomas, añadiendo una función que puede generar imágenes basadas en la apariencia específica de una persona. El CEO Mark Zuckerberg predice que Meta AI será el asistente más utilizado para finales de este año, superando a ChatGPT.

Llama 3.1 es significativamente más complejo que los modelos Llama 3 más pequeños lanzados hace unos meses. La versión más grande tiene 405 mil millones de parámetros y se entrenó con más de 16,000 GPU H100 de Nvidia. Meta no ha revelado el costo de desarrollar Llama 3.1, pero se estima en cientos de millones de dólares.

Meta apuesta por el código abierto

Meta sigue regalando Llama con una licencia que solo requiere aprobación de empresas con cientos de millones de usuarios. En una carta publicada en el blog de la compañía, Zuckerberg argumenta que los modelos de IA de código abierto superarán y mejorarán más rápido que los modelos propietarios, similar a cómo Linux se convirtió en el sistema operativo de código abierto dominante.

Comparando esta inversión con su anterior Open Compute Project, que ahorró a la empresa miles de millones de dólares, Zuckerberg espera que la misma dinámica se repita con la IA. “Creo que el lanzamiento de Llama 3.1 será un punto de inflexión en la industria donde la mayoría de los desarrolladores comiencen a utilizar principalmente código abierto”, escribe.

Para ayudar a que Llama 3.1 llegue al mundo, Meta está colaborando con más de dos docenas de empresas, incluidas Microsoft, Amazon, Google, Nvidia y Databricks, para ayudar a los desarrolladores a implementar sus propias versiones. Meta afirma que Llama 3.1 cuesta aproximadamente la mitad que GPT-4o de OpenAI para funcionar en producción.

Datos y entrenamiento del modelo

Meta no ha revelado muchos detalles sobre los datos utilizados para entrenar Llama 3.1. Sin embargo, la compañía ha dicho que utilizó datos sintéticos generados por un modelo en lugar de humanos para mejorar las versiones más pequeñas de 70 mil millones y 8 mil millones de parámetros. Ahmad Al-Dahle, vicepresidente de IA generativa de Meta, predice que Llama 3.1 será popular entre los desarrolladores como “un maestro para modelos más pequeños que luego se implementan de una manera más rentable.”

Implementación y accesibilidad

Meta está trabajando con más de dos docenas de empresas para ayudar a los desarrolladores a implementar sus propias versiones de Llama 3.1. El asistente de IA de Meta se integrará en Instagram, Facebook y WhatsApp en las próximas semanas. También se está actualizando para admitir nuevos idiomas, incluidos francés, alemán, hindi, italiano y español.

El modelo más avanzado de 405 mil millones de parámetros de Llama 3.1 es gratuito para usar en Meta AI. Sin embargo, el asistente cambiará al modelo más reducido de 70 mil millones después de superar un número no especificado de consultas en una semana determinada, lo que sugiere que el modelo de 405 mil millones es demasiado costoso para ejecutarlo a gran escala.

Nuevas funcionalidades

Una nueva función “Imagíname” en Meta AI escanea tu rostro a través de la cámara de tu teléfono para permitirte insertar tu apariencia en las imágenes que genera. Meta espera evitar la creación de deepfakes capturando tu apariencia de esta manera y no a través de las fotos de tu perfil.

Meta AI también llegará al casco de Quest en las próximas semanas, reemplazando su interfaz de comando por voz. Podrás usar Meta AI en Quest para identificar y aprender sobre lo que estás viendo mientras estás en el modo de paso que muestra el mundo real a través de la pantalla.

Mark Zuckerberg predice que Meta AI será el chatbot más utilizado para fines de este año, superando a ChatGPT, que actualmente tiene más de 100 millones de usuarios. Aunque Meta aún no ha compartido cifras de uso para su asistente, está claro que la compañía y otros actores importantes creen que la carrera de la IA apenas comienza.

The post Meta lanza el modelo de IA de código abierto más grande y avanzado hasta la fecha appeared first on TecnoFuturo24.

OpenAI Lanza GPT-4o Mini

tecnofadmin — Fri, 19 Jul 2024 01:56:47 +0000

OpenAI ha anunciado el lanzamiento de un nuevo modelo de inteligencia artificial, el GPT-4o Mini, diseñado para ser más ligero y económico. Este modelo promete ser una opción atractiva para desarrolladores que buscan herramientas avanzadas a un costo menor que los modelos de tamaño completo. GPT-4o Mini está disponible a partir de hoy, ofreciendo una alternativa más accesible que su predecesor, el GPT-3.5.

Desarrollar aplicaciones utilizando los modelos de OpenAI puede resultar en costos elevados, excluyendo a desarrolladores con presupuestos limitados. Con la introducción del GPT-4o Mini, OpenAI busca reducir estas barreras económicas, permitiendo que más desarrolladores experimenten y construyan aplicaciones innovadoras sin enfrentar gastos prohibitivos. Este nuevo modelo cuesta significativamente menos que los modelos de tamaño completo y se dice que supera al GPT-3.5 en términos de capacidad.

GPT-4o Mini ofrece soporte para texto y visión en la API, y se espera que pronto maneje entradas y salidas multimodales como video y audio. Aunque el modelo está orientado a tareas más simples y no está diseñado para reemplazar asistentes virtuales avanzados como Siri, su capacidad de procesamiento mejorada y su costo reducido lo convierten en una opción valiosa para desarrolladores y startups.

El GPT-4o Mini ha logrado una puntuación del 82% en el examen Measuring Massive Multitask Language Understanding (MMLU), que evalúa el rendimiento en una variedad de tareas académicas. Comparado con el GPT-3.5, que obtuvo una puntuación del 70%, y con modelos competidores como el Gemini Ultra de Google, que tiene la puntuación más alta de 90%, el GPT-4o Mini muestra una mejora significativa en rendimiento. Otros modelos competidores, como el Claude 3 Haiku y el Gemini 1.5 Flash, obtuvieron puntuaciones de 75.2% y 78.9%, respectivamente.

Es importante señalar que la comparación de puntuaciones entre diferentes modelos puede ser compleja debido a las variaciones en cómo se administran las pruebas y la posibilidad de que los modelos hayan visto las respuestas en sus conjuntos de datos. Esto puede influir en los resultados y hacer que la comparación directa entre modelos sea difícil.

Para los desarrolladores que buscan construir aplicaciones de IA de manera económica, el lanzamiento del GPT-4o Mini representa una oportunidad significativa. OpenAI ha permitido a startups como Ramp probar el modelo, utilizando GPT-4o Mini para crear herramientas útiles, como una que extrae datos de recibos a partir de imágenes. Superhuman, una aplicación de correo electrónico, también ha utilizado el modelo para implementar una función de auto-sugerencia para respuestas por correo electrónico.

El objetivo de OpenAI con el GPT-4o Mini es ofrecer una solución ligera y económica para el desarrollo de aplicaciones, permitiendo a los desarrolladores construir herramientas que antes no podían permitirse debido al alto costo de modelos más grandes como el GPT-4. Godement de OpenAI ha señalado que la demanda de modelos más pequeños y asequibles ha impulsado el desarrollo del GPT-4o Mini, y espera que este modelo sea muy popular entre las aplicaciones existentes y nuevas.

The post OpenAI Lanza GPT-4o Mini appeared first on TecnoFuturo24.

Anthropic presenta Claude 3.5 Sonnet: Un nuevo modelo de IA rápido y revolucionario

tecnofadmin — Thu, 20 Jun 2024 19:07:39 +0000

La carrera armamentista de la IA continúa a buen ritmo: Anthropic está lanzando su modelo más nuevo, llamado Claude 3.5 Sonnet, que según dice puede igualar o superar al GPT-4o de OpenAI o al Gemini de Google en una amplia variedad de tareas. El nuevo modelo ya está disponible para los usuarios de Claude en la web y en iOS, y Anthropic también lo está poniendo a disposición de los desarrolladores.

Claude 3.5 Sonnet será finalmente el modelo intermedio en la línea de Anthropic: Haiku para su modelo más pequeño, Sonnet para la opción intermedia y Opus para su modelo de gama más alta. La compañía afirma que 3.5 Sonnet supera a 3 Opus, y sus puntos de referencia muestran que lo hace por un margen bastante amplio. El nuevo modelo también es aparentemente el doble de rápido que el anterior, lo que podría ser aún más relevante.

Los puntos de referencia de los modelos de IA siempre deben tomarse con cautela; hay muchos, es fácil elegir los que te hacen lucir bien, y los modelos y productos están cambiando tan rápido que nadie parece tener una ventaja por mucho tiempo. Dicho esto, Claude 3.5 Sonnet parece impresionante: superó a GPT-4o, Gemini 1.5 Pro y Llama 3 400B de Meta en siete de nueve puntos de referencia generales y cuatro de cinco puntos de referencia de visión. Nuevamente, no leas demasiado en eso, pero parece que Anthropic ha construido un competidor legítimo en este espacio.

¿Qué significa todo esto?

Anthropic dice que Claude 3.5 Sonnet será mucho mejor escribiendo y traduciendo código, manejando flujos de trabajo de varios pasos, interpretando gráficos y tablas, y transcribiendo texto de imágenes. Este nuevo y mejorado Claude también es aparentemente mejor para entender el humor y puede escribir de una manera mucho más humana.

Nueva función: Artifacts

Junto con el nuevo modelo, Anthropic también está introduciendo una nueva función llamada Artifacts. Con Artifacts, podrás ver e interactuar con los resultados de tus solicitudes a Claude: si le pides al modelo que diseñe algo para ti, ahora puede mostrarte cómo se ve y dejarte editarlo directamente en la aplicación. Si Claude te escribe un correo electrónico, puedes editar el correo electrónico en la aplicación de Claude en lugar de tener que copiarlo a un editor de texto. Es una pequeña característica, pero ingeniosa: estas herramientas de IA necesitan convertirse en algo más que simples chatbots, y características como Artifacts simplemente le dan a la aplicación más cosas por hacer.

Artifacts en realidad parece ser una señal de la visión a largo plazo para Claude. Anthropic ha dicho durante mucho tiempo que se enfoca principalmente en negocios (incluso mientras contrata a personas de tecnología de consumo como el cofundador de Instagram, Mike Krieger) y dijo en su comunicado de prensa anunciando Claude 3.5 Sonnet que planea convertir a Claude en una herramienta para que las empresas “centralicen de manera segura su conocimiento, documentos y trabajo en curso en un espacio compartido”. Eso suena más a Notion o Slack que a ChatGPT, con los modelos de Anthropic en el centro de todo el sistema.

Por ahora, sin embargo, el modelo es la gran noticia. Y el ritmo de mejora aquí es increíble de observar: Anthropic lanzó Claude 3 Opus en marzo, diciendo con orgullo que era tan bueno como GPT-4 y Gemini 1.0, antes de que OpenAI y Google lanzaran mejores versiones de sus modelos. Ahora, Anthropic ha hecho su próximo movimiento, y seguramente no pasará mucho tiempo antes de que su competencia también lo haga. Claude no se menciona tanto como Gemini o ChatGPT, pero está muy metido en la carrera.

The post Anthropic presenta Claude 3.5 Sonnet: Un nuevo modelo de IA rápido y revolucionario appeared first on TecnoFuturo24.

Así es como el modelo de IA de Apple intenta mantener privada tu información

tecnofadmin — Thu, 13 Jun 2024 19:47:07 +0000

En la WWDC del lunes, Apple reveló Apple Intelligence, una suite de características que trae herramientas de IA generativa como reescribir borradores de correos electrónicos, resumir notificaciones y crear emojis personalizados a los iPhone, iPad y Mac. Apple dedicó una parte significativa de su presentación a explicar cuán útiles serán estas herramientas y una porción casi igual de tiempo a asegurar a los clientes cuán privada mantendrá su información el nuevo sistema de IA.

Privacidad en el enfoque dual de la IA generativa

La privacidad es posible gracias a un enfoque dual en la IA generativa que Apple comenzó a explicar en su keynote y ofreció más detalles en documentos y presentaciones posteriores. Apple Intelligence se construye con una filosofía en el dispositivo que puede realizar las tareas comunes de IA que los usuarios desean rápidamente, como transcribir llamadas y organizar sus horarios. Sin embargo, Apple Intelligence también puede conectarse a servidores en la nube para solicitudes de IA más complejas que incluyen el envío de datos de contexto personal, y asegurar que ambos tipos de procesos entreguen buenos resultados mientras mantienen la privacidad de tus datos es donde Apple enfocó sus esfuerzos.

Modelos de IA caseros para mayor seguridad

La gran noticia es que Apple está utilizando sus propios modelos de IA caseros para Apple Intelligence. Apple señala que no entrena sus modelos con datos privados o interacciones de usuarios, lo cual es único en comparación con otras compañías. En su lugar, Apple usa materiales licenciados y datos disponibles públicamente en línea que son recopilados por el rastreador web Applebot de la compañía. Los editores deben optar por no participar si no desean que sus datos sean recopilados por Apple, lo cual suena similar a las políticas de Google y OpenAI. Apple también dice que omite la alimentación de números de seguro social y tarjetas de crédito que flotan en línea, e ignora “profanidades y otros contenidos de baja calidad”.

Integración y optimización de modelos

Un gran punto de venta para Apple Intelligence es su profunda integración en los sistemas operativos y aplicaciones de Apple, así como cómo la compañía optimiza sus modelos para eficiencia energética y tamaño para encajar en los iPhones. Mantener las solicitudes de IA locales es clave para calmar muchas preocupaciones sobre privacidad, pero la compensación es usar modelos más pequeños y menos capaces en el dispositivo.

Para hacer útiles esos modelos locales, Apple emplea ajustes finos, que entrenan a los modelos para mejorar en tareas específicas como corregir pruebas o resumir textos. Las habilidades se colocan en forma de “adaptadores”, que pueden superponerse al modelo base y cambiarse según la tarea en cuestión, similar a aplicar atributos de mejora para tu personaje en un juego de rol. De manera similar, el modelo de difusión de Apple para Image Playground y Genmoji también usa adaptadores para obtener diferentes estilos de arte, como ilustración o animación (lo que hace que personas y mascotas se vean como personajes de Pixar de bajo presupuesto).

Apple dice que ha optimizado sus modelos para acelerar el tiempo entre el envío de una solicitud y la entrega de una respuesta, y utiliza técnicas como “decodificación especulativa”, “poda de contexto” y “atención de consulta grupal” para aprovechar el motor neuronal de Apple Silicon. Los fabricantes de chips solo recientemente han comenzado a agregar núcleos neuronales (NPU) a los circuitos, lo que ayuda a aliviar el ancho de banda de la CPU y la GPU al procesar algoritmos de aprendizaje automático y IA. Es parte de la razón por la cual solo los Mac y iPad con chips de la serie M y solo el iPhone 15 Pro y Pro Max admiten Apple Intelligence.

Comparación con la competencia

El enfoque es similar a lo que estamos viendo en el mundo de Windows: Intel lanzó su arquitectura Meteor Lake de 14ª generación con un chip con NPU, y los nuevos chips Snapdragon X de Qualcomm, construidos para los PCs Copilot Plus de Microsoft, también los tienen. Como resultado, muchas características de IA en Windows están limitadas a nuevos dispositivos que pueden realizar trabajos localmente en estos chips.

Resultados de Apple Intelligence

Según la investigación de Apple, de 750 respuestas probadas para resumen de texto, la IA en el dispositivo de Apple (con el adaptador adecuado) tuvo resultados más atractivos para los humanos que el modelo Phi-3-mini de Microsoft. Parece un gran logro, pero la mayoría de los servicios de chatbots de hoy en día usan modelos mucho más grandes en la nube para lograr mejores resultados, y ahí es donde Apple está tratando de caminar una línea cuidadosa sobre la privacidad. Para que Apple pueda competir con modelos más grandes, está elaborando un proceso fluido que envía solicitudes complejas a servidores en la nube mientras intenta demostrar a los usuarios que sus datos siguen siendo privados.

Computación en la Nube Privada (PCC)

Si una solicitud de usuario necesita un modelo de IA más capaz, Apple envía la solicitud a sus servidores de Computación en la Nube Privada (PCC). PCC funciona en su propio sistema operativo basado en “fundamentos de iOS”, y tiene su propio stack de aprendizaje automático que impulsa Apple Intelligence. Según Apple, PCC tiene su propio arranque seguro y Enclave Seguro para mantener claves de cifrado que solo funcionan con el dispositivo solicitante, y el Monitor de Ejecución Confiable asegura que solo el código firmado y verificado se ejecute.

Apple dice que el dispositivo del usuario crea una conexión cifrada de extremo a extremo con un clúster de PCC antes de enviar la solicitud. Apple dice que no puede acceder a los datos en el PCC ya que está despojado de herramientas de gestión de servidores, por lo que no hay acceso remoto. Apple tampoco da al PCC ningún almacenamiento persistente, por lo que las solicitudes y posibles datos de contexto personal extraídos del Índice Semántico de Apple Intelligence aparentemente se eliminan en la nube posteriormente.

Preguntas abiertas sobre la privacidad

Una de las grandes preguntas abiertas es exactamente qué tipos de solicitudes irán a la nube. Al procesar una solicitud, Apple Intelligence tiene un paso llamado Orquestación, donde decide si proceder en el dispositivo o usar PCC. Aún no sabemos qué constituye exactamente una solicitud lo suficientemente compleja como para desencadenar un proceso en la nube, y probablemente no lo sabremos hasta que Apple Intelligence esté disponible en otoño.

Hay otra forma en la que Apple está lidiando con las preocupaciones de privacidad: haciendo que sea problema de alguien más. El renovado Siri de Apple puede enviar algunas consultas a ChatGPT en la nube, pero solo con permiso después de que hagas algunas preguntas realmente difíciles. Ese proceso transfiere la cuestión de la privacidad a las manos de OpenAI, que tiene sus propias políticas, y al usuario, que debe aceptar externalizar su consulta. En una entrevista con Marques Brownlee, el CEO de Apple, Tim Cook, dijo que ChatGPT sería llamado para solicitudes que involucren “conocimiento del mundo” que están “fuera del dominio del contexto personal”.

Compromiso con la privacidad

El enfoque dividido de Apple entre lo local y la nube para Apple Intelligence no es totalmente novedoso. Google tiene un modelo Gemini Nano que puede trabajar localmente en dispositivos Android junto con sus modelos Pro y Flash que procesan en la nube. Mientras tanto, los PCs Microsoft Copilot Plus pueden procesar solicitudes de IA localmente mientras la compañía sigue apoyándose en su acuerdo con OpenAI y también construye su propio modelo interno MAI-1. Sin embargo, ninguno de los rivales de Apple ha enfatizado tanto sus compromisos de privacidad en comparación.

Por supuesto, todo esto se ve genial en demostraciones escenificadas y documentos editados. Sin embargo, la prueba real será a finales de este año cuando veamos Apple Intelligence en acción. Tendremos que ver si Apple puede lograr ese equilibrio de experiencias de IA de calidad y privacidad, y continuar desarrollándolo en los próximos años.

The post Así es como el modelo de IA de Apple intenta mantener privada tu información appeared first on TecnoFuturo24.