AI

免费厂商限额

是分了 low、high、embedding 几个不同的级别，每个级别的限额不同，具体可以参考官方文档。

按照任务类型区分，其中最常用的 Text Generation 是 300 rpm

LLM model pricing 按照 Neurons 计费的方式

Gemini

是分了不同的 Tier，可在 Google AI Studio 后台查看。下面是 Tier 1 的限制：

模型名称 (Model)	类别 (Category)	每分钟请求数 (RPM)	每分钟 Token 数 (TPM)	每日请求数 (RPD)
Gemini 3.1 Pro	Text-out models	25	1M (1,000,000)	250
Gemini 3 Pro	Text-out models	25	1M (1,000,000)	250
Gemma 3 27B	Other models	30	15K (15,000)	14.4K (14,400)
Gemini-2.5 Flash	Text-out models	1K (1,000)	1M (1,000,000)	10K (10,000)
Gemini 3 Flash	Text-out models	1K (1,000)	1M (1,000,000)	10K (10,000)
Gemini 2 Flash	Text-out models	2K (2,000)	4M (4,000,000)	无限制 (Unlimited)
Gemini 2.5 pro	Text-out models	150	2M (2,000,000)	1K (1,000)

模型介绍

Google Gemini

https://ai.google.dev/gemini-api/docs/models?hl=zh-cn
如果订阅 Google AI Pro，那么每月有 10$ 的免费额度（见 My Benefits）可以用来调用 Gemini 模型，超出后按照实际使用量计费，价格可以在官方定价页面查看。

模型系列	模型名称	Model ID (用于 API 调用)	状态	核心定位与场景
Gemini 3	Gemini 3.1 Pro	gemini-3.1-pro-preview	预览版	最强智能，擅长复杂推理、长文本总结和 Agent 代理。
	Gemini 3 Flash	gemini-3.1-flash-preview	预览版	极速响应，适合高频交互、简单多模态识别。
	Gemini 3 Pro	gemini-3-pro-preview	预览版	深度多模态理解，处理复杂视觉/音频任务。
Gemini 2.5	Gemini 2.5 Pro	gemini-2.5-pro	稳定版	生产环境首选，支持 1M+ 上下文，推理稳健。
	Gemini 2.5 Flash	gemini-2.5-flash	稳定版	综合性价比最高，支持输出“思考过程”。
	Gemini 2.5 Flash-Lite	gemini-2.5-flash-lite	稳定版	极致低成本，适合极简任务和海量吞吐。

模型版本命名规则说明：

稳定版 (Stable)：如 gemini-2.5-flash ，指向特定版本，不会随更新而改变，适合生产环境。
最新版 (Latest)：如 gemini-flash-latest ，始终指向该系列下最新的稳定或预览版本。
预览版 (Preview)：如 gemini-2.5-flash-preview-09-2025 ，提供最新功能用于开发测试，可能存在速率限制。
实验版 (Experimental)：不稳定，仅供开发者快速体验新特性，不建议用于生产。

语言模型

要为 Gemini TTS API 选择最佳语音来朗读文章总结，可以考虑以下几点：

选择适合“长文本/播客”的模型

对于文章总结这类篇幅较长、信息量大的内容，建议使用 Gemini 2.5 Pro TTS。

Gemini 2.5 Pro TTS: 专为播客、有声书和长篇叙述优化，语调起伏更自然，清晰度更高。
Gemini 2.5 Flash TTS: 速度更快，适合实时对话或简短指令，但在阅读长文章时可能不如 Pro 版本细腻。

针对“文章朗读”的音色推荐

以下音色在处理正式、具有信息量的内容时表现较好：

Charon (沉稳博学型): 声音风格为 "Informative"（信息丰富型），非常适合读新闻摘要、科技文章或深度总结。
Aoede (清新自然型): 风格为 "Breezy"（轻松型），如果您的总结是生活化或轻快的博文，这个音色听起来更亲切。
Zubenelgenubi (深沉权威型): 声音更厚重，适合严肃的行业报告或学术总结。
Puck (活力乐观型): 如果文章是激励性的或面向年轻人的，这个音色更具感染力。

如何获得最佳朗读效果（进阶技巧）

Gemini API 的 TTS 具有可控性，不仅可以选择音色，还可以通过 Prompt（提示词）来引导如何阅读：

设定语调指令：在发送给 API 的文本前加上语境。
- 示例：“用专业且从容的语气朗读这段摘要：[文章内容]”。
- 示例：“用讲故事的节奏，在重要观点处稍微停顿：[文章内容]”。
多角色朗读：如果总结中有对话或不同观点，可以指定多个音色（如 Speaker1 用 Charon，Speaker2 用 Zephyr）来增加层次感。

音色测试

可以在 Voice Library 进行音色测试，我在 Playground 中使用了下面的文字对主要音色进行了测试，供大家参考：

这期 Lex Fridman 对话 Donald Trump 的播客，远不止是一次常规的政治人物访谈。它是一个剖析当代政治传播演变的绝佳样本，揭示了在后真相时代，一个顶级的政治操盘手如何利用新兴的长篇、看似无过滤的媒体形式，来构建并强化其核心叙事。嘉宾的特殊身份——前总统、现任候选人、以及一位彻底颠覆了传统政治沟通范式的人物——使其言论本身就具备极高的分析价值。对话发生在 2024 年大选的关键节点，听众得以一窥其为重返权力中心而精心打磨的最新版世界观和战术 playbook。这不仅仅关乎美国政治，其结论将深刻影响科技平台如何应对政治内容、投资者如何评估地缘政治风险，以及所有内容创作者和消费者如何辨别信息背后的战略意图。

Agent YOLO

Claude Code 的 YOLO 模式（正式名称为 Safe YOLO Mode，即“安全无限制模式”或“疯狂模式”）允许 Claude 在代码编辑、文件操作和运行终端命令时，自动跳过所有权限确认步骤，实现全自动化作业。

claude --allow-dangerously-skip-permissions