Azure OpenAI 服务的配额与限制

2025年5月11日下午7:39 • 文章

你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 Azure 中国技术文档。

文章概述

本文将提供 Azure AI 服务中 Azure OpenAI 的配额和限制的快速参考与详细说明。

Azure OpenAI 配额与限制快速指南

以下是 Azure OpenAI 默认配额和限制的概览：

¹ 当前 API 最多允许 10 个自定义标头（通过管道传递并返回）。一些客户现在超过了此标头计数，从而导致 HTTP 431 错误。除了减少标头量之外，此错误没有其他解决方案。在未来的 API 版本中，我们将不再传递自定义标头。我们不建议客户在未来的系统体系结构中依赖自定义标头。

批处理限制

| 限制名称 | 限制值 |
| ——– | —— |
| 每个资源的最大文件数 | 500 |
| 最大输入文件大小 | 200 MB |
| 每个文件的最大请求数 | 100,000 |

批处理配额

该表展示了批处理配额限制。全局批处理的配额值以入队令牌表示。提交用于批处理的文件时，会计算文件中存在的令牌数。在批处理作业达到终端状态之前，这些令牌将计入总入队令牌限制。

全局批处理

| 型号 | 企业协议 | 默认 | 基于信用卡的每月订阅 | MSDN 订阅 | 面向学生的 Azure 免费试用版 |
| —- | ——– | —- | ——————— | ——— | ————————– |
| gpt-4o | 5 B | 200 M | 50 M | 90 K | 空值 |
| gpt-4o-mini | 15 B | 1 B | 50 M | 90 K | 空值 |
| gpt-4-turbo | 300 M | 80 M | 40 M | 90 K | 空值 |
| gpt-4 | 150 M | 30 M | 5 M | 10 万 | 空值 |
| gpt-35-turbo | 10 B | 1 B | 100 M | 2 M | 50 万 |

B = 十亿 | M = 百万 | K = 千

数据区域批处理

| 型号 | 企业协议 | 默认 | 基于信用卡的每月订阅 | MSDN 订阅 | 面向学生的 Azure 免费试用版 |
| —- | ——– | —- | ——————— | ——— | ————————– |
| gpt-4o | 500 M | 30 M | 30 M | 90 K | 空值 |
| gpt-4o-mini | 1.5 B | 100 M | 50 M | 90 K | 空值 |

o1 和 o1-mini 速率限制

重要提示：与较旧的聊天完成模型相比，o1 系列模型的配额的 RPM/TPM 比率的工作原理不同：

较旧的聊天模型：1 个容量单位 = 6 RPM 和 1000 TPM。
o1 和 o1-preview：1 个容量单位 = 1 RPM 和 6,000 TPM。
o1-mini：1 单位容量 = 每 10000 TPM 1 RPM。

对于编程模型部署来说，这一点尤其重要，因为 RPM/TPM 比率的这种更改可能会导致在分配配额时发生意外（如果仍假设 1：1000 比率后跟较旧的聊天完成模型）。

o1 和 o1-mini 全局标准

| 型号 | 层 | 每分钟令牌的配额限制 (TPM) | 每分钟请求数 |
| —- | — | ————————– | ———— |
| o1 & o1-preview | 企业协议 | 30 M | 5 K |
| o1-mini | 企业协议 | 50 M | 5 K |
| o1 & o1-preview | 默认 | 3 M | 500 |
| o1-mini | 默认 | 5 M | 500 |

o1-preview 和 o1-mini 标准

| 型号 | 层 | 每分钟令牌的配额限制 (TPM) | 每分钟请求数 |
| —- | — | ————————– | ———— |
| o1-preview | 企业协议 | 600 K | 100 |
| o1-mini | 企业协议 | 1 M | 100 |
| o1-preview | 默认 | 300,000 | 50 |
| o1-mini | 默认 | 500 K | 50 |

gpt-4o 与 GPT-4 Turbo 的速率限制

gpt-4o 和 gpt-4o-mini，以及 gpt-4 (turbo-2024-04-09) 提供对某些客户类型限制更高的速率限制层。

gpt-4o 与 GPT-4 Turbo 的全球标准

| 模型 | 层 | 每分钟令牌的配额限制 (TPM) | 每分钟请求数 |
| —- | — | ————————– | ———— |
| gpt-4o | 企业协议 | 30 M | 180 K |
| gpt-4o-mini | 企业协议 | 50 M | 300,000 |
| gpt-4 (turbo-2024-04-09) | 企业协议 | 2 M | 12,000 |
| gpt-4o | 默认 | 450 K | 2.7 K |
| gpt-4o-mini | 默认 | 2 M | 12,000 |
| gpt-4 (turbo-2024-04-09) | 默认 | 450 K | 2.7 K |

M = 百万 | K = 千

gpt-4o 数据区域标准

| 型号 | 层 | 每分钟令牌的配额限制 (TPM) | 每分钟请求数 |
| —- | — | ————————– | ———— |
| gpt-4o | 企业协议 | 10 M | 60 K |
| gpt-4o-mini | 企业协议 | 2 千万 | 120,000 |
| gpt-4o | 默认 | 300,000 | 1.8 K |
| gpt-4o-mini | 默认 | 1 M | 6K |

M = 百万 | K = 千

gpt-4o 标准

| 模型 | 层 | 每分钟令牌的配额限制 (TPM) | 每分钟请求数 |
| —- | — | ————————– | ———— |
| gpt-4o | 企业协议 | 1 M | 6K |
| gpt-4o-mini | 企业协议 | 2 M | 12,000 |
| gpt-4o | 默认 | 150 K | 900 |
| gpt-4o-mini | 默认 | 450 K | 2.7 K |

M = 百万 | K = 千

gpt-4o 音频

每个 gpt-4o-realtime-preview 模型部署的速率限制为 100K TPM 和 1K RPM。在预览期间，Azure AI Foundry 门户和 API 可能会不准确地显示不同的速率限制。即使你尝试设置其他速率限制，实际速率限制也将是 100K TPM 和 1K RPM。

| 型号 | 层 | 每分钟令牌的配额限制 (TPM) | 每分钟请求数 |
| —- | — | ————————– | ———— |
| gpt-4o-realtime-preview | 默认 | 10 万 | 1 K |

M = 百万 | K = 千

使用层

全球标准部署使用 Azure 的全球基础结构，将客户流量动态路由到可用性最好的数据中心，以满足客户的推理请求。同样，数据区域标准部署允许利用 Azure 全球基础结构将流量动态路由到 Microsoft 定义的数据区域中的数据中心，并为每个请求提供最佳可用性。这样，对于流量低到中等级别的客户，这可实现更一致的延迟。持续高使用量级别的客户可能会发现响应延迟的可变性更大。

使用限制决定了使用水平，超过该水平客户可能会看到响应延迟的可变性更高。客户使用情况按模型定义，是给定租户在所有区域的所有订阅中的所有部署中消耗的总令牌。

注意：使用层仅适用于标准、数据区域标准和全球标准部署类型。使用层不适用于全局批处理和预配的吞吐量部署。

GPT-4o 全球标准、数据区域标准和标准

GPT-4 标准

| 模型 | 每月使用情况层级 |
| —- | —————- |
| gpt-4 + gpt-4-32k（所有版本） | 60 亿 |

其他套餐类型

如果 Azure 订阅链接到某些套餐类型，则最大配额值低于上述表中指示的值。

¹ 这目前适用于套餐类型 0003P。

在 Azure 门户中，可以通过导航到订阅并查看订阅概述窗格来查看与订阅关联的套餐类型。套餐类型对应于订阅概述中的计划字段。

保持在速率限制范围内的一般最佳做法

若要最大程度地减少与速率上限相关的问题，可以遵循以下方法：

在应用程序中实现重试逻辑
避免工作负载的急剧变化。逐步增大工作负载。
测试不同负载增加模式。
增加分配给部署的配额。如有必要，从另一个部署中移动配额。

如何请求增加配额

可以通过配额增加请求表单提交配额增加请求。由于需求较高，配额提高请求正在接受中，将按接收顺序处理。将优先考虑生成消耗现有配额分配的流量的客户。如果不满足此条件，你的请求可能会被拒绝。

对于其他速率限制，请提交服务请求。

后续步骤

探索如何管理 Azure OpenAI 部署的配额。详细了解为 Azure OpenAI 提供支持的基础模型。

👉 野卡 | 一分钟注册，轻松订阅海外线上服务

Claude API 新手入门指南：从零开始掌握 Claude API 的开发

上一篇 2025年5月11日

如何使用 Apple Music？国内如何订阅国外地区（美区、台区等）的 Apple Music 会员？

下一篇 2025年5月11日

文章

如何申请 Claude 的 API

首先，您需要了解 Claude 并非在所有地区都可访问。因此，请确保您打开 Claude 官方网站和 Anthropic 官方网站，并看到相应的界面，而不是服务不可用的提示。前者…

2025年8月29日
文章

Wise虚拟卡注册与OCBC激活指南

Wise简介 Wise（前身为TransferWise）是一家成立于2011年的英国金融科技公司。它并非银行，而是一家提供国际转账和汇款的金融服务公司，支持40多种货币的交易。Wi…

2025年8月23日
文章

ChatGPT iOS应用：注册美区Apple ID与购买Plus会员的详细指南

上周，OpenAI正式推出了 ChatGPT 的iOS应用，首发于美国，随后将扩展至其他国家。Android版本也将在不久后上线。以下是关于ChatGPT iOS应用的一些重要信息…

2025年2月1日
申请虚拟VISA信用卡指南

建设银行VISA全球支付卡数字版是否可以申请实体卡？不能。建设银行全球支付信用卡数字版为虚拟信用卡，无法申请实体卡。该卡片可快速申领并自动激活，申请时勾选自动绑卡服务，审核通过…

文章 2025年6月13日
文章

Fomepay 跑路事件及 ChatGPT 虚拟卡订阅替代方案指南

一、Fomepay 跑路的现状最近，Fomepay（包括 Fomecard）这家公司已经跑路了！请大家务必不要再向 Fomepay 充值！我之前一直使用 Fomepay 的虚拟卡…

2025年5月29日
Poe平台充值指南：轻松获取Poe积分

Poe AI作为一款领先的人工智能平台，吸引了众多开发者、创作者和技术爱好者的关注。如果你正在使用Poe平台，可能已经体验到了其强大的AI产品。然而，许多用户在享受Poe AI带来…

文章 2025年4月15日
如何将 Wise 实体和虚拟卡绑定 Apple Pay 进行消费

在现代支付方式中，Apple Pay 已成为一种便捷的选择。本文将为您详细介绍如何将 Wise 的实体卡和虚拟卡绑定到 Apple Pay，以便轻松进行消费。绑定步骤下载并安装…

文章 2025年6月14日
Twitter 如何盈利？深入商业模式解析

内容目录介绍想象一下，每一秒钟都有数千人通过点击一个按钮分享他们的思想、观点和最新消息，全部在同一个平台上。欢迎来到 Twitter，这个在我们在线交流方式上引领革命的社交媒体…

文章 2025年6月2日
美国虚拟信用卡平台：EasyPay易购卡（522490，428813）

更新信息 2022年5月13日更新：因易购卡公司业务升级，自2022年4月1日起，EasyPay易购卡停止接受新用户注册，并关闭已注册用户的充值功能。您所持的EasyPay易购卡仍…

文章 2025年6月26日
使用 ChatGPT 写作和润色学术论文的指南（包括最新的 ChatGPT4 升级）

一、引言在学术研究中，撰写高质量的论文是一项重要技能。本教程将介绍如何使用 ChatGPT 来支持从论文构思到润色的整个过程。二、使用 ChatGPT 撰写论文 1. 生成标题…

文章 2025年2月21日
手把手教你开通 ChatGPT Plus 使用 GPT-4

ChatGPT Plus 订阅服务的优势 ChatGPT Plus 是 OpenAI 推出的订阅服务，具有以下几个显著优势：优先使用权：在高峰期，用户可以优先获得 ChatGPT…

文章 2025年9月5日
深入了解：Claude、Notion、MJ、SD、Suno、Sora、Cursor、Agent、Coze、RPA、AI、SEO

不论你从事何种工作，上述这些英文单词中，至少有一些你是熟悉的。你可能会问：这些词汇与SEO和流量有什么关系呢？如果我告诉你，这些词中只有一个是源自中国的，你能猜到是哪一个吗？答案…

文章 2025年8月29日
文章

ChatGPT-4全方位指南：轻松开通账号的步骤

什么是野卡虚拟卡？(常见问题解答) 野卡虚拟信用卡平台为用户提供了便捷的在线支付解决方案，尤其适合订阅ChatGPT等国外软件。本文将详细介绍如何使用该平台进行注册和购买。野卡虚…

2025年4月14日
哪些 Apple 设备可以申请和使用 Apple Pay？

您可以使用以下设备申请和使用 Apple Pay： iPhone: iPhone 6s、iPhone 6s Plus、iPhone 6、iPhone 6 Plus Apple Wa…

文章 2025年2月22日
野卡虚拟信用卡的可靠性分析：充值方式与手续费详解

一、虚拟信用卡简介虚拟信用卡是一种通过网络生成的信用卡，它并不是真实的实体卡片，主要用于测试、学习、研究和开发等场景。二、虚拟信用卡的特点虚拟信用卡在网络交易中提供与实体信用…

文章 2025年2月17日
文章

亲测OneKey虚拟VISA卡注册与消费指南

引言最近，我发现了一种新的安全出金通道，并亲自进行了测试，结果非常成功！许多圈内人士一直希望能够将交易所账户中的USDT绑定到支付宝或微信支付上，以便进行线上和线下消费。如今，这…

2025年5月9日
低成本获取 YouTube Premium 会员的实用指南

本文创建于 2023-04-24，旨在详细介绍如何以低成本订阅 YouTube Premium 会员，为有需要的用户提供参考。前言在闲暇时，我常常会在 YouTube 上观看一…

文章 2025年2月5日
UI-UX设计师的ChatGPT使用指南

作为设计师使用 ChatGPT 作为设计师，我们可以通过多种方式使用 ChatGPT，几乎有无穷无尽的应用场景。在定期使用它两个月后，我们总结了一些最有用和高效的任务。我们发现 …

文章 2025年3月3日
文章

GPT-4o API 使用指南：快速调用的实现

5 月 13 日，OpenAI 发布了最新的 ChatGPT 模型——GPT-4o。与之前的版本相比，GPT-4o 的响应时间提高了一倍，能够理解文本、图像、音频和视频。本文将全面…

2025年4月27日
（已解决）ChatGPT 订阅支付信用卡被拒问题的解决方案（2025年更新）

在使用 ChatGPT Plus 或 OpenAI API 时，许多用户可能会遇到 “您的银行卡被拒绝（Your card has been declined）” 的问题。本文将从…

文章 2025年6月16日