curl --request POST \
--url https://api.dedaluslabs.ai/v1/audio/transcriptions \
--header 'Authorization: Bearer <token>' \
--header 'Content-Type: multipart/form-data' \
--form file='@example-file' \
--form 'model=<string>' \
--form 'language=<string>' \
--form 'prompt=<string>' \
--form 'response_format=<string>' \
--form temperature=123{
"language": "<string>",
"duration": 123,
"text": "<string>",
"words": [
{
"word": "<string>",
"start": 123,
"end": 123
}
],
"segments": [
{
"id": 123,
"seek": 123,
"start": 123,
"end": 123,
"text": "<string>",
"tokens": [
123
],
"temperature": 123,
"avg_logprob": 123,
"compression_ratio": 123,
"no_speech_prob": 123
}
],
"usage": {
"type": "<string>",
"seconds": 123
}
}ऑडियो को टेक्स्ट में ट्रांसक्राइब करें।
OpenAI के Whisper model का उपयोग करके ऑडियो फ़ाइलों को टेक्स्ट में ट्रांसक्राइब करता है। कई ऑडियो फ़ॉर्मैट्स का समर्थन करता है, जिनमें mp3, mp4, mpeg, mpga, m4a, wav और webm शामिल हैं। अधिकतम फ़ाइल आकार 25 MB है।
Args: file: ट्रांसक्राइब की जाने वाली ऑडियो फ़ाइल (अनिवार्य) model: उपयोग करने के लिए model id (उदा., “openai/whisper-1”) language: ISO-639-1 भाषा कोड (उदा., “en”, “es”) — सटीकता में सुधार करता है prompt: model की शैली को निर्देशित करने के लिए वैकल्पिक टेक्स्ट response_format: आउटपुट का फ़ॉर्मैट (json, text, srt, verbose_json, vtt) temperature: 0 से 1 के बीच सैंपलिंग temperature
Returns: ट्रांसक्राइब किए गए टेक्स्ट वाला Transcription ऑब्जेक्ट
curl --request POST \
--url https://api.dedaluslabs.ai/v1/audio/transcriptions \
--header 'Authorization: Bearer <token>' \
--header 'Content-Type: multipart/form-data' \
--form file='@example-file' \
--form 'model=<string>' \
--form 'language=<string>' \
--form 'prompt=<string>' \
--form 'response_format=<string>' \
--form temperature=123{
"language": "<string>",
"duration": 123,
"text": "<string>",
"words": [
{
"word": "<string>",
"start": 123,
"end": 123
}
],
"segments": [
{
"id": 123,
"seek": 123,
"start": 123,
"end": 123,
"text": "<string>",
"tokens": [
123
],
"temperature": 123,
"avg_logprob": 123,
"compression_ratio": 123,
"no_speech_prob": 123
}
],
"usage": {
"type": "<string>",
"seconds": 123
}
}Bearer टोकन के माध्यम से API कुंजी का प्रमाणीकरण
सफल प्रतिक्रिया
दिए गए इनपुट के लिए model द्वारा लौटाए गए विस्तृत JSON transcription response का प्रतिनिधित्व करता है।
फ़ील्ड्स:
इनपुट ऑडियो की भाषा।
इनपुट ऑडियो की कुल अवधि।
लिखित रूप में बदला (ट्रांसक्राइब किया गया) टेक्स्ट।
निकाले गए शब्द और उनके संबंधित टाइमस्टैम्प।
दिखाएं चाइल्ड एट्रिब्यूट्स
ट्रांसक्राइब किए गए पाठ के खंड और उनके संबंधित विवरण।
दिखाएं चाइल्ड एट्रिब्यूट्स
ऑडियो इनपुट की अवधि के आधार पर बिल होने वाले models के लिए उपयोग आँकड़े।
दिखाएं चाइल्ड एट्रिब्यूट्स
वाज़ दिस पेज हेल्पफुल