Google lanza Gemini, su propia IA capaz de leer imágenes

Redacción

Google ha anunciado el lanzamiento de la primera versión (1.0) de Gemini, una Inteligencia Artificial (IA) multimodal y flexible que se presenta en tres niveles de uso -Gemini Ultra, Gemini Pro y Gemini Nano- para diferentes aplicaciones, como pueden ser dispositivos o centros de datos.

A finales del pasado mes de marzo, The Information adelantó que el equipo de inteligencia artificial (IA) de Google y DeepMind estaban trabajando en una nueva iniciativa con la que buscaban competir y superar el dominio de la desarrolladora de ChatGPT.

Esta iniciativa, que internamente se conocía como Gemini (Geminis) aunaba ambos equipos dedicados a la IA de Alphabet, matriz de Google para crear un nuevo modelo de IA, de la que no trascendieron datos.

Google ha presentado ahora la primera versión de Gemini (1.0), un modelo de IA que inicia una «nueva era de modelos» y que «representa uno de los mayores esfuerzos de ciencia e ingeniería» de Google, según ha comentado el CEO de la firma, Sundar Pichai, en un comunicado.

El director ejecutivo y cofundador de Google DeepMind, Demis Hassabis, ha comentado por su parte que Gemini se ha construido desde cero para ser multimodal de forma nativa, lo que quiere decir que puede comprender, operar y combinar sin problemas distintos tipos de información, «incluidos texto, código, audio, imagen y vídeo».

Esta IA también se caracteriza por ser flexible, de modo que se puede ejecutar de manera eficiente tanto en centros de datos como en dispositivos móviles, motivo por el que se ha optimizado en tres tamaños diferentes.

Gemini Ultra, por su parte, es el modelo más grande y capaz para dedicarse a tareas altamente complejas. Google ha señalado, por otra parte, que Gemini Pro es idóneo para escalar en una amplia gama de tareas y que Gemini Nano es el más eficiente para tareas en el dispositivo.

CÓMO ES GEMINI

Google ha explicado que el desempeño de Gemini Ultra supera los resultados actualdes de última generación en 30 de los 32 puntos de referencia académicos utilizados en la investigación y el desarrollo de modelos de lenguaje grande (LLM, por sus siglas en inglés).

Esta versión de la nueva IA de Google también supera a los expertos humanos en comprensión masiva de lenguajes multitarea (MMLU) con un 90 por ciento, al utilizar una combinación de 57 materias, como matemáticas, física, historia, derecho o medicina.

Por otra parte, ha indicado que con los puntos de referencia de imágenes que ha probado para su desarrollo, Gemini Ultra «Superó a los modelos de última generación anteriores» sin la ayuda de sistema de reconocimiento óptico de caracteres (OCR), que extraen texto para su posterior procesamiento.

Esta IA también puede extraer información «de cientos de miles de documentos» mediante la lectura, el filtrado y la comprensión de la información, lo que según la compañía ayudará a lograr nuevos avances a velocidades digitales en muchos campos, desde la ciencia hasta las finanzas».

Por el momento, esta primera versión de Gemini puede comprender, explicar y generar código de alta calidad en los lenguajes de programación más populares, como Python, Java C++ y Go. Asimimo, se puede utilizar como motor para sistemas de codificación como AlphaCode 2, que destaca en la resolución de problemas de programación que van más allá de la codificación e incolucran matemáticas complejas e informática teórica.

LLEGARÁ A PIXEL 8

Gemini 1.0 se está implementando en diferentes productos y plataformas de Google, entre las que se encuentra Bard, que utilizará a partir de ahora una versión mejorada de Gemini pro para un razonamiento, planificación y comprensión más avanzados.

Asimismo, esta tecnología llegará a Pixel -más concretamente, a Pixel 8 Pro, con la versión Gemini Nano- para impulsar funcionces como la de ‘Resumir’ en la aplicación Grabadora y la implementación e ‘Respuesta inteligente’ en Gboard.

En los próximos meses, Gemini estará disponible en servicios de Google como Búsqueda, Anuncios, Chrome y Duet AI y también se está probamdo para que la Experiencia Generativa de Búsqueda (SGE) sea más rápida para los usuarios.

A partir del 13 de diciembre los desarrolladores también podrán acceder a Gemini Pro a través de la API de Gemini en Goole AI Studio o Google Cloud Vertex AI.

En cuanto a Gemini Ultra, la firma estadounidense ha explicado que actualmente está completando «exhaustivas comprobaciones de onfianza y seguridad», entre las que se incluye la formación de equipos externos, así como refinando el modelo a partir del denoinado Reinforcement Learning from Human Feedback (RLHF).

Las + leídas