Azure OpenAI 服务的配额与限制

你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 Azure 中国技术文档。

文章概述

本文将提供 Azure AI 服务中 Azure OpenAI 的配额和限制的快速参考与详细说明。

Azure OpenAI 配额与限制快速指南

以下是 Azure OpenAI 默认配额和限制的概览:

| 限制名称 | 限制值 |
| ——– | —— |
| 每个 Azure 订阅每个区域的 Azure OpenAI 资源 | 30 |
| 默认 DALL-E 2 配额限制 | 2 个并发请求 |
| 默认 DALL-E 3 配额限制 | 2 个容量单位(每分钟 6 个请求) |
| 默认 Whisper 配额限制 | 每分钟 3 个请求 |
| 每个请求的最大提示令牌数 | 每个模型不同。有关更多信息,请参阅 Azure OpenAI 服务模型。 |
| 每个资源的最大标准部署数 | 32 |
| 最大微调模型部署 | 5 |
| 每个资源的训练作业总数 | 100 |
| 每个资源同时运行的最大训练作业数 | 1 |
| 排队的最大训练作业数 | 20 |
| 每个资源的最大文件数(优调) | 50 |
| 每个资源的所有文件的总大小(优调) | 1 GB |
| 最大训练作业时间(如果超过,作业将失败) | 720 小时 |
| 最大训练作业大小(训练文件中的标记数)×(时期数) | 20 亿 |
| 每次上传的所有文件的最大大小(数据上的 Azure OpenAI) | 16 MB |
| 数组中具有 /embeddings 的最大输入数 | 2048 |
| 最大 /chat/completions 消息数 | 2048 |
| 最大 /chat/completions 函数数 | 128 |
| 最大 /chat completions 工具数 | 128 |
| 每个部署预配的吞吐量单位数上限 | 100,000 |
| 每个助手/线程的最大文件数 | 使用 API 或 Azure AI Foundry 门户时为 10,000。在 Azure OpenAI Studio 中,限制为 20。 |
| 助手和微调的最大文件大小 | 512 MB(通过 Azure AI Foundry 门户 200 MB) |
| 助手的所有上传文件的最大大小 | 100 GB |
| 助手令牌限制 | 令牌限制 2,000,000 |
| GPT-4o 每个请求的最大图像数(消息数组/对话历史记录中的图像数) | 50 |
| GPT-4 vision-preview 和 GPT-4 turbo-2024-04-09 默认最大令牌数 | 16(增加 max_tokens 参数值以避免响应被截断。GPT-4o 最大令牌数默认为 4096。) |
| API 请求中的最大自定义标头数1 | 10 |

1 当前 API 最多允许 10 个自定义标头(通过管道传递并返回)。一些客户现在超过了此标头计数,从而导致 HTTP 431 错误。除了减少标头量之外,此错误没有其他解决方案。在未来的 API 版本中,我们将不再传递自定义标头。我们不建议客户在未来的系统体系结构中依赖自定义标头。

批处理限制

| 限制名称 | 限制值 |
| ——– | —— |
| 每个资源的最大文件数 | 500 |
| 最大输入文件大小 | 200 MB |
| 每个文件的最大请求数 | 100,000 |

批处理配额

该表展示了批处理配额限制。全局批处理的配额值以入队令牌表示。提交用于批处理的文件时,会计算文件中存在的令牌数。在批处理作业达到终端状态之前,这些令牌将计入总入队令牌限制。

全局批处理

| 型号 | 企业协议 | 默认 | 基于信用卡的每月订阅 | MSDN 订阅 | 面向学生的 Azure 免费试用版 |
| —- | ——– | —- | ——————— | ——— | ————————– |
| gpt-4o | 5 B | 200 M | 50 M | 90 K | 空值 |
| gpt-4o-mini | 15 B | 1 B | 50 M | 90 K | 空值 |
| gpt-4-turbo | 300 M | 80 M | 40 M | 90 K | 空值 |
| gpt-4 | 150 M | 30 M | 5 M | 10 万 | 空值 |
| gpt-35-turbo | 10 B | 1 B | 100 M | 2 M | 50 万 |

B = 十亿 | M = 百万 | K = 千

数据区域批处理

| 型号 | 企业协议 | 默认 | 基于信用卡的每月订阅 | MSDN 订阅 | 面向学生的 Azure 免费试用版 |
| —- | ——– | —- | ——————— | ——— | ————————– |
| gpt-4o | 500 M | 30 M | 30 M | 90 K | 空值 |
| gpt-4o-mini | 1.5 B | 100 M | 50 M | 90 K | 空值 |

o1 和 o1-mini 速率限制

重要提示:与较旧的聊天完成模型相比,o1 系列模型的配额的 RPM/TPM 比率的工作原理不同:

  • 较旧的聊天模型:1 个容量单位 = 6 RPM 和 1000 TPM。
  • o1 和 o1-preview:1 个容量单位 = 1 RPM 和 6,000 TPM。
  • o1-mini:1 单位容量 = 每 10000 TPM 1 RPM。

对于编程模型部署来说,这一点尤其重要,因为 RPM/TPM 比率的这种更改可能会导致在分配配额时发生意外(如果仍假设 1:1000 比率后跟较旧的聊天完成模型)。

o1 和 o1-mini 全局标准

| 型号 | 层 | 每分钟令牌的配额限制 (TPM) | 每分钟请求数 |
| —- | — | ————————– | ———— |
| o1 & o1-preview | 企业协议 | 30 M | 5 K |
| o1-mini | 企业协议 | 50 M | 5 K |
| o1 & o1-preview | 默认 | 3 M | 500 |
| o1-mini | 默认 | 5 M | 500 |

o1-preview 和 o1-mini 标准

| 型号 | 层 | 每分钟令牌的配额限制 (TPM) | 每分钟请求数 |
| —- | — | ————————– | ———— |
| o1-preview | 企业协议 | 600 K | 100 |
| o1-mini | 企业协议 | 1 M | 100 |
| o1-preview | 默认 | 300,000 | 50 |
| o1-mini | 默认 | 500 K | 50 |

gpt-4o 与 GPT-4 Turbo 的速率限制

gpt-4ogpt-4o-mini,以及 gpt-4 (turbo-2024-04-09) 提供对某些客户类型限制更高的速率限制层。

gpt-4o 与 GPT-4 Turbo 的全球标准

| 模型 | 层 | 每分钟令牌的配额限制 (TPM) | 每分钟请求数 |
| —- | — | ————————– | ———— |
| gpt-4o | 企业协议 | 30 M | 180 K |
| gpt-4o-mini | 企业协议 | 50 M | 300,000 |
| gpt-4 (turbo-2024-04-09) | 企业协议 | 2 M | 12,000 |
| gpt-4o | 默认 | 450 K | 2.7 K |
| gpt-4o-mini | 默认 | 2 M | 12,000 |
| gpt-4 (turbo-2024-04-09) | 默认 | 450 K | 2.7 K |

M = 百万 | K = 千

gpt-4o 数据区域标准

| 型号 | 层 | 每分钟令牌的配额限制 (TPM) | 每分钟请求数 |
| —- | — | ————————– | ———— |
| gpt-4o | 企业协议 | 10 M | 60 K |
| gpt-4o-mini | 企业协议 | 2 千万 | 120,000 |
| gpt-4o | 默认 | 300,000 | 1.8 K |
| gpt-4o-mini | 默认 | 1 M | 6K |

M = 百万 | K = 千

gpt-4o 标准

| 模型 | 层 | 每分钟令牌的配额限制 (TPM) | 每分钟请求数 |
| —- | — | ————————– | ———— |
| gpt-4o | 企业协议 | 1 M | 6K |
| gpt-4o-mini | 企业协议 | 2 M | 12,000 |
| gpt-4o | 默认 | 150 K | 900 |
| gpt-4o-mini | 默认 | 450 K | 2.7 K |

M = 百万 | K = 千

gpt-4o 音频

每个 gpt-4o-realtime-preview 模型部署的速率限制为 100K TPM 和 1K RPM。在预览期间,Azure AI Foundry 门户和 API 可能会不准确地显示不同的速率限制。即使你尝试设置其他速率限制,实际速率限制也将是 100K TPM 和 1K RPM。

| 型号 | 层 | 每分钟令牌的配额限制 (TPM) | 每分钟请求数 |
| —- | — | ————————– | ———— |
| gpt-4o-realtime-preview | 默认 | 10 万 | 1 K |

M = 百万 | K = 千

使用层

全球标准部署使用 Azure 的全球基础结构,将客户流量动态路由到可用性最好的数据中心,以满足客户的推理请求。同样,数据区域标准部署允许利用 Azure 全球基础结构将流量动态路由到 Microsoft 定义的数据区域中的数据中心,并为每个请求提供最佳可用性。这样,对于流量低到中等级别的客户,这可实现更一致的延迟。持续高使用量级别的客户可能会发现响应延迟的可变性更大。

使用限制决定了使用水平,超过该水平客户可能会看到响应延迟的可变性更高。客户使用情况按模型定义,是给定租户在所有区域的所有订阅中的所有部署中消耗的总令牌。

注意:使用层仅适用于标准、数据区域标准和全球标准部署类型。使用层不适用于全局批处理和预配的吞吐量部署。

GPT-4o 全球标准、数据区域标准和标准

| 型号 | 每月使用情况层级 |
| —- | —————- |
| gpt-4o | 120 亿个令牌 |
| gpt-4o-mini | 850 亿个令牌 |

GPT-4 标准

| 模型 | 每月使用情况层级 |
| —- | —————- |
| gpt-4 + gpt-4-32k(所有版本) | 60 亿 |

其他套餐类型

如果 Azure 订阅链接到某些套餐类型,则最大配额值低于上述表中指示的值。

| 层 | 每分钟令牌的配额限制 (TPM) |
| — | ————————– |
| 面向学生的 Azure 免费试用版 | 1 K(所有模型) |
| MSDN 订阅 | GPT 3.5 Turbo Series:30 K
GPT-4 系列:8 K |
| 基于信用卡的每月订阅1 | GPT 3.5 Turbo Series:30 K
GPT-4 系列:8 K |

1 这目前适用于套餐类型 0003P。

在 Azure 门户中,可以通过导航到订阅并查看订阅概述窗格来查看与订阅关联的套餐类型。套餐类型对应于订阅概述中的计划字段。

保持在速率限制范围内的一般最佳做法

若要最大程度地减少与速率上限相关的问题,可以遵循以下方法:

  • 在应用程序中实现重试逻辑
  • 避免工作负载的急剧变化。逐步增大工作负载。
  • 测试不同负载增加模式。
  • 增加分配给部署的配额。如有必要,从另一个部署中移动配额。

如何请求增加配额

可以通过 配额增加请求表单 提交配额增加请求。由于需求较高,配额提高请求正在接受中,将按接收顺序处理。将优先考虑生成消耗现有配额分配的流量的客户。如果不满足此条件,你的请求可能会被拒绝。

对于其他速率限制,请 提交服务请求。

后续步骤

探索如何管理 Azure OpenAI 部署的 配额。详细了解 为 Azure OpenAI 提供支持的基础模型。

👉 野卡 | 一分钟注册,轻松订阅海外线上服务

(0)
上一篇 2025年5月11日
下一篇 2025年5月11日

相关推荐

  • PingPong虚拟卡申请指南

    文章概述 本文将详细介绍如何申请PingPong虚拟卡的流程,帮助跨境电商卖家顺利完成注册和收款设置。 申请流程 第一步:创建PingPong账号 访问PingPong官网,点击注…

    文章 2025年2月14日
  • 虚拟信用卡是否收取年费?

    招商银行信用卡虚拟卡的年费情况 招商银行的虚拟信用卡是一种便捷的在线支付工具。与实体信用卡不同,虚拟卡仅存在于用户的手机或电脑中,主要用于在线购物等支付场景。由于没有实体卡片,消费…

    2025年7月11日
  • Perplexity – 一款基于聊天的AI搜索引擎

    Perplexity AI是一款创新的聊天机器人式搜索引擎,用户可以通过自然语言提出问题,利用生成式AI技术从多种来源获取信息并提供答案。这款AI搜索引擎将人工智能与网络搜索相结合…

    2025年3月17日
  • 最新Claude Pro订阅指南:如何在国内充值购买Claude Pro会员?

    Claude是一款功能强大的AI对话模型,其最新版本Claude Sonnet 3.5在处理复杂指令、理解上下文以及生成自然文本方面表现尤为出色。许多人认为Claude Pro是C…

    文章 2025年5月14日
  • 野卡虚拟信用卡平台使用指南:常见问题解答及ChatGPT等国外软件订阅步骤

    一、虚拟信用卡简介 虚拟信用卡是您在网上使用的一种数字信用卡。它可以是一次性使用的,也可以是循环使用的(经过特别设置)。这种卡片主要用于网购时提供更高的安全性,用户可以设置使用次数…

    2025年8月17日
  • 强大的开源编程助手Cursor推荐

    Cursor 是一款功能强大的开源编程助手,利用大型语言模型(LLM)的能力,通过交互式方式实现代码补全、函数级代码生成等功能。 Cursor的核心功能 代码库理解:Cursor …

    文章 2025年2月17日
  • 【保真】揭秘唯一能使用Sora的官方渠道 —— OpenAI Red Teaming Network

    引言 前几天,OpenAI推出的Sora模型引起了广泛关注,不仅让圈内人热血沸腾,也点燃了圈外人对AGI的热情。许多人开始询问:我们到底什么时候能使用Sora? 在OpenAI的官…

    2025年3月24日
  • 如何取消 ChatGPT 续费

    在使用 ChatGPT 或其他 AI 软件时,很多用户可能会面临自动续费的问题。为了避免不必要的费用,以下是一些实用的步骤和建议,帮助您轻松取消续费。 取消自动续费的步骤 登录官网…

    文章 2025年8月26日
  • 设置 Shopify 订阅服务

    安装 Shopify 订阅应用并设置订阅套餐后,您的客户可以定期进行计划购买。您可以在 Shopify 订阅应用中管理所有订阅套餐和合同,并在您的在线商店中展示这些套餐。该应用还会…

    文章 2025年2月16日
  • 【MJ应用系列课程 前言】全球热潮中的 Midjourney 解析

    由 2022 年 3 月,美国一家工作室首次推出的 AI 制图工具——Midjourney,迅速引起了广泛关注。Midjourney 采用了与 GPT-4 类似的深度学习技术,即“…

    文章 2025年8月11日
  • 五分钟开通 ChatGPT Team

    前言 ChatGPT Team 是 OpenAI 在 2023 年下半年推出的一种 会员计划,旨在为企业和团队用户提供更加专业和高级的服务。 与 ChatGPT Plus 版本相比…

    2025年4月15日
  • 2025 年免费无限美国虚拟信用卡指南 _ 轻松获取虚拟卡方案

    虚拟信用卡在跨境支付、网购安全以及多账户管理中发挥着重要作用。通过合理使用虚拟信用卡,不仅可以有效规避盗刷风险,还能高效管理支付账号。本文将详细介绍如何通过 Capital One…

    文章 2025年5月30日
  • 推荐支持 USDT 的虚拟信用卡与实体卡平台

    前言 如果你对虚拟货币有一定了解,那么 USDT(泰达币)一定不会陌生。作为一种与美元1:1挂钩的稳定币,USDT 已成为市场上最主流的稳定币之一。随着 Web 3.0 的发展,支…

    2025年3月9日
  • 【重要】如何使用 野卡 订阅国外服务?

    引言 野卡 虚拟信用卡是一个便捷的在线支付工具,适合需要订阅国外服务的用户。本文将为您详细介绍如何使用 野卡 进行订阅。 1. 什么是虚拟信用卡? 野卡 虚拟信用卡提供快速、安全的…

    文章 2025年4月10日
  • 如何解决推特内容不可用的问题?

    在使用推特时,用户可能会遇到“内容不可用”的提示。本文将详细介绍推特内容不可用的原因及其解决方法,帮助你更好地理解和处理这一问题。 一、推特内容不可用的常见原因 内容被删除 推文可…

    2025年4月22日
  • 不要低估ChatGPT!它的能力超乎你的想象!

    娱乐媒体内容制作 当前阶段,生成式AI最常见的应用场景是娱乐媒体内容的辅助生产。通过文字续写、纠错、文字转语音、图像智能编辑、视频智能剪辑等方式,生成式AI能够替代传统的专业性机械…

    文章 2025年5月10日
  • Claude 注册指南:轻松上手的步骤

    随着人工智能技术的不断进步,越来越多的智能助手进入我们的生活。其中,Claude 作为一款强大的人工智能助手,受到了广泛的欢迎。然而,对于新手用户来说,Claude 的注册流程可能…

    文章 2025年5月10日
  • 亚马逊自养号测评系统的潜在风险分析

    操作自养号需注意的事项 1. 账号资源的重复利用 重复使用相同的资源(如同一IP、支付卡、地址等)可能导致账号之间的关联,从而引发砍单和封号的风险。 2. 下单细节的重要性 自养号…

    文章 2025年7月25日
  • 美国 Visa 虚拟信用卡申请指南

    本文最早创建于 2020-10-14,最后更新时间 2024-04-16,为有需要的小伙伴推荐几家可以申请美国 Visa 虚拟信用卡的平台,供参考。 虚拟信用卡,也称为可重复性预付…

    文章 2025年9月5日
  • 中国地区 Claude 账号注册与订阅指南

    Claude 是由 Anthropic 开发的先进 AI 对话模型,提供免费和付费功能(Claude Pro)。由于中国大陆地区的访问限制,注册 Claude 账号需要 VPN 和…

    文章 2025年7月24日