OpenAI の Text-to-Speech (TTS) API を活用して、テキストを自然な音声に変換する方法を紹介します。
OpenAI の Text-to-Speech (TTS) API は、テキストをリアルな音声に変換できる機能です。
この API を使うことで、以下のような用途に活用できます。
TTS API では 6 種類の音声(Alloy、Ash、Coral、Echo、Fable、Onyx) が利用可能です。
PYTHONfrom openai import OpenAI import os from pathlib import Path # 環境変数から API キーを取得 OPENAI_API_KEY = os.environ.get("OPENAI_API_KEY") if not OPENAI_API_KEY: raise ValueError("OpenAI APIキーが設定されていません。環境変数 'OPENAI_API_KEY' を設定してください。") # OpenAI クライアントの初期化 client = OpenAI(api_key=OPENAI_API_KEY) # 音声ファイルの保存パス speech_file_path = Path("speech.mp3") try: response = client.audio.speech.create( model="tts-1", voice="alloy", input="今日は天気が良くて素晴らしい一日でした。また明日も同じように晴れますように。", ) # 音声データをバイナリで保存 with open(speech_file_path, "wb") as audio_file: audio_file.write(response.content) print(f"音声ファイルを作成しました: {speech_file_path.resolve()}") except Exception as e: print(f"エラーが発生しました: {e}")
実際に上記コードを実行した結果、以下の音声ファイルが生成されました。
▶️ 生成音声を再生する
TTS API では、以下の音声フォーマットをサポートしています。
フォーマット | 説明 |
---|---|
MP3 | デフォルトのフォーマット、一般用途向け |
Opus | 低遅延のストリーミング用途向け |
AAC | 圧縮効率の高い形式、YouTube・Android 向け |
FLAC | 可逆圧縮フォーマット、高音質保存用 |
WAV | 非圧縮フォーマット、低遅延用途向け |
PCM | 24kHz, 16-bit raw オーディオデータ |
tts-1
は標準品質で、tts-1-hd
を使うとより高音質の音声を生成可能。回 | タイトル | リンク |
---|---|---|
第 1 回 | ChatGPT × DALL·E 3 で画像生成 | 詳 細 |
第 2 回 | Images API (DALL·E 3) で画像生成 | 詳 細 |
第 3 回 | Vision API を活用した画像認識 | 詳 細 |
第 4 回 | Text-to-Speech API の使い方 | この記事 |
第 5 回 | Speech-to-Text API の使い方 | 詳 細 |
第 6 回 | Sora で映像生成を試してみた | 詳 細 |
当サイトの情報は、一般的な参考情報として提供しております。
正確な情報の掲載に努めておりますが、その内容の正確性・完全性・最新性を保証するものではありません。
記事の内容をご利用の際は、ご自身の責任において判断し、必要に応じて専門家にご相談ください。
当サイトの情報の利用により生じたいかなる損害についても、一切の責任を負いかねますのでご了承ください。
※ 本ページでは、著作権法に基づき、適正な引用の範囲内でコンテンツを紹介しています。
オリジナルの情報は発信元をご確認ください。
もし問題がありましたら、こちら からお問い合わせください。