AI
免费厂商限额
- GitHub models
- 是分了 low、high、embedding 几个不同的级别,每个级别的限额不同,具体可以参考官方文档。
- Cloudflare Workers AI
按照任务类型区分,其中最常用的 Text Generation 是 300 rpm
- LLM model pricing 按照 Neurons 计费的方式
- Gemini
- 是分了不同的 Tier,可在 Google AI Studio 后台查看。下面是 Tier 1 的限制:
| 模型名称 (Model) | 类别 (Category) | 每分钟请求数 (RPM) | 每分钟 Token 数 (TPM) | 每日请求数 (RPD) |
| Gemini 3.1 Pro | Text-out models | 25 | 1M (1,000,000) | 250 |
| Gemini 3 Pro | Text-out models | 25 | 1M (1,000,000) | 250 |
| Gemma 3 27B | Other models | 30 | 15K (15,000) | 14.4K (14,400) |
| Gemini-2.5 Flash | Text-out models | 1K (1,000) | 1M (1,000,000) | 10K (10,000) |
| Gemini 3 Flash | Text-out models | 1K (1,000) | 1M (1,000,000) | 10K (10,000) |
| Gemini 2 Flash | Text-out models | 2K (2,000) | 4M (4,000,000) | 无限制 (Unlimited) |
| Gemini 2.5 pro | Text-out models | 150 | 2M (2,000,000) | 1K (1,000) |
模型介绍
Google Gemini
| 模型系列 | 模型名称 | Model ID (用于 API 调用) | 状态 | 核心定位与场景 |
| Gemini 3 | Gemini 3.1 Pro | gemini-3.1-pro-preview | 预览版 | 最强智能,擅长复杂推理、长文本总结和 Agent 代理。 |
| Gemini 3 Flash | gemini-3.1-flash-preview | 预览版 | 极速响应,适合高频交互、简单多模态识别。 | |
| Gemini 3 Pro | gemini-3-pro-preview | 预览版 | 深度多模态理解,处理复杂视觉/音频任务。 | |
| Gemini 2.5 | Gemini 2.5 Pro | gemini-2.5-pro | 稳定版 | 生产环境首选,支持 1M+ 上下文,推理稳健。 |
| Gemini 2.5 Flash | gemini-2.5-flash | 稳定版 | 综合性价比最高,支持输出“思考过程”。 | |
| Gemini 2.5 Flash-Lite | gemini-2.5-flash-lite | 稳定版 | 极致低成本,适合极简任务和海量吞吐。 |
模型版本命名规则说明:
- 稳定版 (Stable):如
gemini-2.5-flash,指向特定版本,不会随更新而改变,适合生产环境。 - 最新版 (Latest):如
gemini-flash-latest,始终指向该系列下最新的稳定或预览版本。 - 预览版 (Preview):如
gemini-2.5-flash-preview-09-2025,提供最新功能用于开发测试,可能存在速率限制。 - 实验版 (Experimental):不稳定,仅供开发者快速体验新特性,不建议用于生产。
语言模型
要为 Gemini TTS API 选择最佳语音来朗读文章总结,可以考虑以下几点:
选择适合“长文本/播客”的模型
对于文章总结这类篇幅较长、信息量大的内容,建议使用 Gemini 2.5 Pro TTS。
- Gemini 2.5 Pro TTS: 专为播客、有声书和长篇叙述优化,语调起伏更自然,清晰度更高。
- Gemini 2.5 Flash TTS: 速度更快,适合实时对话或简短指令,但在阅读长文章时可能不如 Pro 版本细腻。
针对“文章朗读”的音色推荐
以下音色在处理正式、具有信息量的内容时表现较好:
- Charon (沉稳博学型): 声音风格为 "Informative"(信息丰富型),非常适合读新闻摘要、科技文章或深度总结。
- Aoede (清新自然型): 风格为 "Breezy"(轻松型),如果您的总结是生活化或轻快的博文,这个音色听起来更亲切。
- Zubenelgenubi (深沉权威型): 声音更厚重,适合严肃的行业报告或学术总结。
- Puck (活力乐观型): 如果文章是激励性的或面向年轻人的,这个音色更具感染力。
如何获得最佳朗读效果(进阶技巧)
Gemini API 的 TTS 具有可控性,不仅可以选择音色,还可以通过 Prompt(提示词)来引导如何阅读:
设定语调指令:在发送给 API 的文本前加上语境。
- 示例:“用专业且从容的语气朗读这段摘要:[文章内容]”。
- 示例:“用讲故事的节奏,在重要观点处稍微停顿:[文章内容]”。
- 多角色朗读:如果总结中有对话或不同观点,可以指定多个音色(如 Speaker1 用 Charon,Speaker2 用 Zephyr)来增加层次感。
音色测试
可以在 Voice Library 进行音色测试,我在 Playground 中使用了下面的文字对主要音色进行了测试,供大家参考:
这期 Lex Fridman 对话 Donald Trump 的播客,远不止是一次常规的政治人物访谈。它是一个剖析当代政治传播演变的绝佳样本,揭示了在后真相时代,一个顶级的政治操盘手如何利用新兴的长篇、看似无过滤的媒体形式,来构建并强化其核心叙事。嘉宾的特殊身份——前总统、现任候选人、以及一位彻底颠覆了传统政治沟通范式的人物——使其言论本身就具备极高的分析价值。对话发生在 2024 年大选的关键节点,听众得以一窥其为重返权力中心而精心打磨的最新版世界观和战术 playbook。这不仅仅关乎美国政治,其结论将深刻影响科技平台如何应对政治内容、投资者如何评估地缘政治风险,以及所有内容创作者和消费者如何辨别信息背后的战略意图。