OpenAI вкатил GPT-5 в голос — три Realtime-модели одним релизом, и Translate за 3 цента в минуту
OpenAI вкатил GPT-5 в голос — три Realtime-модели одним релизом, и Translate за 3 цента в минуту
7 мая OpenAI тихо выкатил в API сразу три новых аудио-модели. Без пресс-конференции, без отдельной презентации, обычным постом в блоге. Anthropic в это время разгребал пиар после Code with Claude без обещанного Sonnet 4.8, xAI хвастался свежим Grok 4.3. На фоне такой повестки тройной voice-релиз почти потерялся. Зря.
TL;DR: GPT-Realtime-2 это первая голосовая модель с GPT-5-уровнем reasoning. GPT-Realtime-Translate переводит речь с 70+ языков на 13 за $0.034/мин, без пауз и без "досказывания фразы". GPT-Realtime-Whisper стримит STT за $0.017/мин. Цены на основную модель ($32/$64 за 1M аудио-токенов) кусаются, но кэш ввода стоит $0.40, ровно на два порядка дешевле, и на длинных сессиях это меняет экономику.
Что приехало в один день
Три модели, все доступны в Realtime API прямо сейчас:
- GPT-Realtime-2, флагман с reasoning уровня GPT-5. Speech-to-speech end-to-end, без промежуточного перегона через STT и TTS. Это значит, что модель слышит интонацию и паузы, и сама генерирует ответ голосом, а не сначала транскрибирует, потом думает текстом, потом озвучивает. Контекст 128K, поддерживает tool calling. Может в момент разговора лезть в календарь или внешний API.
- GPT-Realtime-Translate, синхронный перевод. 70+ языков на вход, 13 на выход. Ключевой момент: переводит на лету, не дожидаясь конца фразы. Bolna AI в Индии прогнал на хинди, тамильском и телугу, получил Word Error Rate на 12.5% ниже, чем у любой другой модели, которую они тестировали.
- GPT-Realtime-Whisper, стриминговая транскрипция. Это не старый Whisper. Старый был батчевой моделью, которая работает с записью целиком и оптимизирована под точность. Новый стримит текст пока ты говоришь, оптимизирован под латентность.
Цены и что они означают
- GPT-Realtime-2: $32 за 1M аудио-входа, $0.40 за кэшированный, $64 за 1M аудио-выхода
- GPT-Realtime-Translate: $0.034 за минуту аудио
- GPT-Realtime-Whisper: $0.017 за минуту аудио
Главная цифра здесь, $0.40 за 1M кэшированных токенов на входе. Это в 80 раз дешевле некэшированного $32. Для агента, который на длинной сессии переслушивает один и тот же контекст инструкций десятки раз, разница превращается из "дорого" в "приемлемо".
Translate за $0.034/мин это около $2 в час. Живой синхронный переводчик в Москве или Лондоне стоит от $50/час. Качество не сравнимо в обе стороны, машинный перевод стабильнее, но менее нюансированный, а для tier-1 поддержки или приёма заказов через колл-центр граница окупаемости пробита.
Что разработчик может построить сегодня
Минимальный пример вызова GPT-Realtime-2 через WebSocket. То же API, что было у gpt-realtime, просто с новым model id:
const ws = new WebSocket('wss://api.openai.com/v1/realtime?model=gpt-realtime-2', { headers: { 'Authorization': `Bearer ${process.env.OPENAI_API_KEY}`, 'OpenAI-Beta': 'realtime=v1' } }); ws.on('open', () => { ws.send(JSON.stringify({ type: 'session.update', session: { modalities: ['audio', 'text'], instructions: 'You are a customer support agent. Use tools when needed.', voice: 'alloy', tools: [/* your function definitions */] } })); }); ws.on('message', (data) => { const event = JSON.parse(data); if (event.type === 'response.audio.delta') { // play PCM16 chunk } });
Что именно изменилось по сравнению с gpt-realtime 1.5: instruction-following стал заметно крепче на ветвящейся логике, контекст с 32K вырос до 128K, появился собственно reasoning. Модель думает над ответом и при этом удерживает темп разговора. Японский интегратор Oflight, сравнивая 1.5 и 2.0 на сложных кейсах саппорта, репортит +26 пунктов на "трудных" сценариях.
Для перевода код ещё короче. Translate берётся через тот же Realtime API, но с другим model id и упрощённой сессией: на входе аудио, на выходе аудио другого языка плюс текстовая транскрипция.
Кто уже строит
- Deutsche Telekom пилотит multilingual voice для саппорта, чтобы немец и турецкий говорящий звонили в один контактный центр и говорили каждый на своём языке.
- Vimeo делает переведённое воспроизведение медиа на лету. То есть видео на английском, а зритель в Бразилии слушает синхронный португальский.
- BolnaAI строит voice agents для Индии. Их CTO Pratik Sachan прямо сказал: "12.5% меньше WER на хинди/тамильском/телугу, чем у любой другой модели". Это claim от пользователя API, а не маркетинговая цифра OpenAI.
Подводные камни
Контекст путается с акцентами. Ещё в gpt-realtime 1.5 жители Hacker News и Reddit жаловались, что модель путает язык, если у тебя сильный акцент. Английский с индийским говором она может принять за хинди и переключиться на хинди-режим. OpenAI заявляет улучшения в 2.0, но проблема архитектурная. В нативном speech-to-speech модель сама принимает решение о языке без отдельного language detection с порогом уверенности. Если строишь voice-агента для глобальной аудитории, закладывай fallback и явное указание языка в session.update.
13 выходных языков на Translate это мало. На вход 70+, на выход 13. То есть итальянец сможет послушать перевод с японского, но если итальянцу нужно ответить, и японец слушает по-итальянски, ты в нужной паре. А если у тебя пара "тайский ↔ финский", то один из концов не покрыт. Полный список 13 в официальном анонсе не раскрыт прямо в основном посте, приходится копать в playground или в документации API.
Цена на некэшированный аудио-ввод реально кусается. $32 за 1M аудио-токенов на входе это примерно $0.20 за минуту голоса, плюс выход. Час разговора без кэша легко уносит $30-50. Все рекламные расчёты идут от $0.40 за кэшированный токен, но кэш работает только если ты переиспользуешь префикс контекста. Если у тебя каждый разговор это новый клиент с новой историей, кэш не спасёт. Сравните с Gemini 3.1 Flash Live, где end-to-end speech-to-speech идёт за $0.00165/мин, и поймёте, что premium-tier Realtime-2 это для тех, кому нужен именно reasoning, а не просто разговор.
Streaming Whisper это не точный Whisper. В документации чёрным по белому: stream-версия оптимизирована под latency, а не под fidelity. Для официальных протоколов, юридических расшифровок, медицинских записей нужен второй проход через батчевый Whisper после звонка. Один поток не закрывает оба сценария, и об этом не пишут крупными буквами в маркетинге.
WebRTC + Realtime API исторически были глючные. На статусе OpenAI 5 марта 2026 был High Error Rate в EU-регионе на Realtime API. Это не первый и не последний инцидент. Если строишь production voice-сервис, закладывай retry-логику и fallback на Gemini Live или Cartesia. Не подписывай SLA на основе одного только вендорского.
Альтернативы
- Google Gemini 3.1 Flash Live: native multimodal speech-to-speech по $0.00165/мин, в 200 раз дешевле Realtime-2 за аудио. 90+ языков на конверсацию, 90.8% на ComplexFuncBench Audio. Минус: собственный WebSocket-протокол, не event schema OpenAI, переезд означает переписку клиентского кода. Лучше для тех, кто уже на Google Cloud.
- Cartesia Sonic 2 / Sonic Turbo: 40-90ms first audio, лучшая в индустрии естественность голоса в blinded human evaluations, on-prem и on-device deployments. Но 15 языков, и это TTS+STT отдельными модулями, не end-to-end speech-to-speech reasoning.
- ElevenLabs Conversational AI: 75-150ms first audio, voice cloning из 3 секунд сэмпла. Дороже OpenAI ($165-330+ за 1M chars против $15), но ощущается человечнее на дикторских задачах. Не reasoning-модель, берёт LLM-провайдера снаружи.
- Deepgram Nova-3: STT-фокус, самая быстрая транскрипция в индустрии, ниже WER чем у gpt-4o-transcribe в Reddit-замерах. Если нужна только транскрипция без reasoning, это профессиональный инструмент.
Вердикт
Если строишь voice-агента, где важна способность модели рассуждать и звать tools посреди разговора, переходи на GPT-Realtime-2. Конкуренции реально нет: Gemini Live дешевле, но reasoning у него не GPT-5-уровня; Cartesia не делает reasoning вообще. Для саппорта с эскалацией это новый дефолт.
Если строишь синхронный переводчик или multilingual интерфейс, Translate за $0.034/мин экономически перебивает живых переводчиков в любой стандартной задаче. Проверь только что твоя пара языков попадает в 13 выходных. Не подписывай контракты на юридический и медицинский синхрон, там нужны люди.
Если просто нужна дешёвая стриминговая транскрипция, посмотри сначала на Deepgram, потом на Realtime-Whisper. Цена $0.017/мин у OpenAI ниже не самая на рынке, но если ты уже в OpenAI-стеке, переход внутри одного API меньше боли, чем интеграция нового вендора.
А если у тебя простой FAQ-бот без reasoning, оставайся на gpt-realtime 1.5 или, если экономика жмёт, переезжай на Gemini Live. Платить $30/час за разговор без кэша, чтобы проиграть голосование "перевести на оператора", это нерациональный спенд.
Как попробовать
- Открой Playground для Realtime, там можно потыкать GPT-Realtime-2 в браузере без кода.
- Если у тебя Codex, открой этот промпт в Codex и попроси добавить voice agent в существующее приложение.
- Возьми OpenAI cookbook со структурой Realtime API клиента (WebSocket + PCM16 + session.update) и подмени
modelнаgpt-realtime-2. - Для Translate просто отправляй аудио в свежую сессию с указанием target language через session config. Текст транскрипции и аудио перевода прилетят в response.audio.delta и response.audio_transcript.delta.
- Прежде чем разворачивать в продакшен, прогоняй A/B на своём top-10 интент-сценариев. Ставка на reasoning-модель имеет смысл, если хотя бы половина диалогов реально требует ветвящейся логики.
Полная страница релиза с деталями на openai.com.