[Q]
Azure OpenAI サービス (ChatGPT-4o) を利用中にエラーが発生しました。
どのような原因が考えられますか?
トークンの利用量や API のリクエスト数に関連しますか?
[A]
エラーの発生状況は大きく分けて、429 エラーの場合 と 一過性の場合 の2つが考えられます。
トークンの利用量や API のリクエスト数の影響で 429 エラーが発生することが想定されます。
一過性のエラーは頻発するということは通常は想定されません。頻発するような場合は、Azure OpenAI の応答ステータスの他に、ネットワークの状況、アプリケーションをご利用の場合はそのログなど、Azure OpenAI 以外の側面からもご確認をお願いいたします。
429 エラーの場合
API の呼び出し回数やトークン数がクォータ割り当てに基づく上限を超過する場合は、HTTP 429 のエラーが応答されます。
Azure OpenAI Service のクォータを管理するについては、下記参考情報をご参照ください。
一過性の場合
エラーの発生が継続していない場合、様々な要因で発生する可能性がありますが、不具合ではなく想定される動作 (設計上の制限事項) であることが考えられます。
一時的な障害の処理については、下記参考情報をご参照ください。
[参考情報]
Azure OpenAI Service のクォータを管理する
https://learn.microsoft.com/ja-jp/azure/ai-services/openai/how-to/quota?tabs=rest
<抜粋>
レート制限について理解する
デプロイに TPM を割り当てると、前述のように、デプロイの TPM (Tokens-per-Minute) と RPM (Requests-Per-Minute) レート制限が設定されます。
(*中略*)
要求がデプロイ エンドポイントに入ると、推定最大処理トークン数は、1 分ごとにリセットされるすべての要求の実行中のトークン数に追加されます。
この 1 分間のいずれかの時点で TPM レート制限値に達すると、カウンターがリセットされるまで、それ以降の要求は 429 応答コードを受け取ります。
(*中略*)
RPM レート制限は、時間の経過と同時に受信した要求の数に基づいています。 レート制限では、1 分間に要求が均等に分散されることを想定しています。
この平均フローが維持されない場合、1 分間測定しても制限が満たされない場合でも、要求は 429 応答を受け取る可能性があります。
一時的な障害の処理
https://learn.microsoft.com/ja-jp/azure/architecture/best-practices/transient-faults
<抜粋>
リモートのサービスやリモートのリソースとやり取りするすべてのアプリケーションは、一過性の障害に特別な注意を払う必要があります。
これは、クラウドで実行されるアプリケーションに特に当てはまります。
クラウドでは、環境の特性とインターネット経由の接続により、この種の障害がより頻繁に発生する可能性があるからです。
一時的な障害には、コンポーネントやサービスとのネットワーク接続が一瞬失われる、サービスを一時的に利用できなくなる、サービスがビジー状態となってタイムアウトするなどがあります。
多くの場合、これらの障害は自己修正されるため、しばらくしてから操作を繰り返せば、成功する可能性があります。
[更新日]
Update:202410