Gemini是Google DeepMind于2023年12月发布的多模态AI大语言模型，是Google对标GPT-4的旗舰产品。Gemini原生支持文字、图片、视频、音频等多种输入，整合了Google的搜索能力，能够提供实时信息。2024年，Google将Bard更名为Gemini，统一其AI产品线。

核心功能：

多模态理解：原生支持文字、图片、视频、音频等多种输入
实时信息：整合Google搜索，提供最新信息和数据
长上下文：Ultra版本支持100万token上下文窗口
代码生成：编程能力强，支持多种编程语言
Google集成：深度集成Gmail、Drive、Docs等Google服务
图像生成：集成Imagen 3图像生成功能

模型版本：

Gemini Ultra：最强大版本，性能超越GPT-4，支持超长上下文
Gemini Pro：平衡版本，适合大多数应用场景
Gemini Flash：快速版本，响应速度更快
Gemini Nano：轻量版本，可在手机等设备上本地运行

性能特点：Gemini的最大优势是其原生多模态能力和Google生态整合。相比GPT-4需要调用不同模型处理图像和文字，Gemini从架构层面就支持多模态输入。实时信息获取是另一个优势，Gemini可以访问Google搜索，提供最新的信息和数据。Ultra版本的100万token上下文窗口是目前最长的，可以处理整本书的内容。在编程、数学推理等任务上，Gemini Ultra的性能与GPT-4相当或更优。深度集成Google Workspace，可以自动分析Gmail邮件、总结Drive文档等。

价格体系：