실시간 AI 음성 통역, 무료로 써보는 5가지 방법

회사에서 영어 회의 참석하면 솔직히 절반도 못 알아듣는다. 그래서 회의록 기다렸다가 나중에 다시 확인하곤 했는데, 이게 생각보다 비효율적이더라. 요즘 나온 AI 음성 통역 기술 써보니까 이제는 회의 중에 실시간으로 한국어 번역이 뜬다. 마치 자막처럼.
2025년 실시간 통역 기술, 어디까지 왔나
요즘 음성 번역 기술은 단순히 단어만 옮기는 게 아니다. 화자의 말투, 감정, 리듬까지 포착해서 번역된 음성에 그대로 담아낸다.
구글은 자사 생성형 AI ‘제미나이’를 구글 번역에 통합하면서 이어폰만 착용하면 실시간 통역을 들을 수 있는 기능을 내놨다. 안드로이드용 구글 번역 앱에 ‘실시간 번역’ 베타 기능을 도입했고, 70개 이상의 언어를 지원한다. (출처: ZDNet korea, 2025)
주요 실시간 통역 서비스 비교
| 서비스 | 지원 언어 | 특징 | 지연시간 |
|---|---|---|---|
| 티로(Tiro) | 12개 언어 | 초고속 음성 인식 | 0.5초 이내 |
| VoicePing | 43개 언어 | 회의록 요약 지원 | 1초 이내 |
| 구글 번역 | 70개 이상 | 말투·감정 보존 | 실시간 |
| 삼성 갤럭시 AI | 13개 언어 | 화면 표시 지원 | 실시간 |

세븐핑거스(Seven Fingers Studio) Live Translator 써본 후기
세븐핑거스에서 만든 Live Translator는 웹 브라우저에서 바로 쓸 수 있는 실시간 영한 통역 도구다. OpenAI의 Whisper AI로 음성을 텍스트로 변환하고, GPT-4o-mini로 한국어 번역을 스트리밍 방식으로 보여준다.
실제 사용 시나리오
1. 영어 강연·컨퍼런스 참석
마이크 권한만 허용하면 10초마다 자동으로 음성을 캡처해서 영어 텍스트와 한국어 번역을 동시에 표시한다. 실제 유튜브 영어 강연 틀어놓고 테스트했는데, 화자가 바뀌면 3초 침묵 후 자동으로 Speaker 2로 전환되더라.
2. 회의 중 실시간 메모
번역된 내용을 txt 파일로 내보낼 수 있어서 회의 후 검토용으로 쓰기 좋다. 영어 원문과 한국어 번역이 쌍으로 저장되니까 나중에 다시 확인할 때 편하다.
3. 언어 학습
영어 원문과 번역을 동시에 보면서 표현을 익힐 수 있다. “아, 이 표현이 이렇게 번역되는구나” 하는 걸 실시간으로 확인 가능하다.
기술적으로 어떻게 작동하나
마이크 입력 → 10초 청크 분할 → WAV 16kHz 변환
→ Whisper API 전사 (영어)
→ GPT-4o-mini 스트리밍 번역 (한국어)
→ 실시간 화면 표시
핵심 기술 스택
- Whisper API: OpenAI의 음성 인식 모델 (영어 전사)
- GPT-4o-mini: 번역 엔진 (영어 → 한국어)
- MediaRecorder API: 브라우저 마이크 녹음
- AudioContext API: 오디오 샘플레이트 변환 (16kHz 모노)
- Server-Sent Events: 실시간 스트리밍 번역
다른 서비스와의 차이점
- ✅ 웹 브라우저만 있으면 됨 - 앱 설치 불필요
- ✅ 화자 자동 구분 - Speaker 1, Speaker 2로 색상 표시
- ✅ 스트리밍 번역 - 배치 처리 아닌 실시간 표시
- ✅ 내보내기 기능 - txt 파일로 저장 가능
- ❌ 영어 → 한국어만 지원 - 다국어 미지원
실전에서 부딪힌 문제들
문제 1: 배경 소음이 많으면 인식률 떨어짐
처음에 카페에서 테스트했다가 주변 대화 소리까지 다 잡히더라. 브라우저 설정에서 noiseSuppression: true, echoCancellation: true 옵션을 켰지만 한계가 있다. 조용한 환경에서 써야 정확도가 높다.
문제 2: API 호출 비용 문제
OpenAI API를 쓰기 때문에 사용량에 따라 비용이 발생한다. 10초마다 Whisper API 호출하고, 번역 때마다 GPT-4o-mini 호출하니까 1시간 회의면 약 360회 API 호출이 일어난다. 무료 크레딧 소진 주의.
문제 3: 중복 감지 로직 필요
같은 오디오가 두 번 전송되면 똑같은 번역이 두 번 뜨는 경우가 있었다. 코드에 lastTranscriptRef로 중복 체크를 넣어서 해결했다.
if (englishText === lastTranscriptRef.current) {
console.log('Duplicate detected, skipping');
return;
}
lastTranscriptRef.current = englishText;
문제 4: 5KB 미만 오디오는 필터링
침묵이나 노이즈만 있는 짧은 오디오가 API로 전송되면 비용만 낭비된다. 5KB 미만 오디오는 자동으로 스킵하도록 처리했다.
2025년 실시간 통역 트렌드
최근 실시간 번역 이어버드 시장도 급성장 중이다. 이어버드만 착용하면 상대방 말을 실시간으로 번역해서 들려주는 제품들이 나오고 있다.
주요 제품
- 구글 Pixel Buds: 구글 번역 연동, 70개 언어 지원
- WT2 Edge: 양방향 실시간 번역, 40개 언어
- Timekettle M3: 오프라인 번역 지원
(출처: AI Phone, 2025)
배경 소음을 줄이는 기술도 적용돼서 시끄러운 환경에서도 비교적 안정적인 번역 품질을 유지한다는 게 특징이다.
운영자 실전 노트
세븐핑거스가 Live Translator 개발하며 겪은 이슈들이다.
커스텀 WAV 인코더 구현
외부 라이브러리 없이 순수 JavaScript로 WAV 인코더를 직접 구현했다. RIFF/WAVE 헤더를 수동 생성하고 PCM 포맷(16-bit signed integer)으로 인코딩. Whisper API 최적화를 위해 16kHz 모노 설정이 필수였다.
SSE 스트리밍 버퍼 관리
GPT-4o-mini의 스트리밍 응답을 받을 때 불완전한 JSON 라인 때문에 파싱 에러가 발생했다. 버퍼에 불완전한 라인을 보관했다가 완전한 라인만 처리하는 로직으로 해결.
let buffer = '';
while (true) {
buffer += decoder.decode(value, { stream: true });
const lines = buffer.split('\n');
buffer = lines.pop() || ''; // 불완전한 라인 보관
for (const line of lines) {
// 완전한 라인만 처리
}
}
순차 처리 큐 필수
병렬 처리 시 경쟁 조건 발생 → 순서가 뒤바뀌는 문제. processingQueueRef로 순차 처리 큐 구현해서 순서 보장.
비밀번호 인증 추가 이유
초기 버전에는 인증이 없었는데, API 크레딧이 하루 만에 다 소진되더라. 누군가 봇으로 무한 호출한 듯. 비밀번호 인증 추가하니 문제 해결.
FAQ
Q. Live Translator 무료로 쓸 수 있나요?
현재는 비밀번호 인증 후 사용 가능합니다. OpenAI API 비용 문제로 무제한 공개는 어렵고, 테스트 목적으로만 제한적으로 제공 중입니다. 본인의 OpenAI API 키로 직접 설정하면 무제한 사용 가능합니다.
Q. 영어 외 다른 언어도 지원하나요?
현재는 영어 → 한국어만 지원합니다. Whisper AI 자체는 다국어를 지원하지만, 번역 프롬프트가 영한 번역에 최적화되어 있습니다. 향후 다국어 지원 추가 예정입니다.
Q. 모바일에서도 작동하나요?
네, 모바일 브라우저에서도 작동합니다. 다만 iOS Safari는 MediaRecorder API 지원이 제한적이라 크롬 브라우저 사용을 권장합니다. 안드로이드 크롬에서는 정상 작동합니다.
Q. 오프라인에서도 쓸 수 있나요?
아니요, API 기반 서비스라서 인터넷 연결이 필수입니다. 오프라인 통역이 필요하면 Timekettle M3 같은 오프라인 번역 지원 이어버드를 추천합니다.
Sources
- 구글 번역, 말투까지 옮긴다…’제미나이’로 실시간 통역 진화 - ZDNet korea
- 구글 번역 대신 쓸 수 있는 실시간 음성번역 AI 5선 - 티로 블로그
- 실시간 AI 음성 번역 - VoicePing 2.0
- 2025년 실시간 AI 번역 이어버드 TOP 7
- 삼성 스마트폰 갤럭시 AI, 통역 앱을 설정하고 사용하는 방법