실시간 WebGPU 타겟 화자 분리 (TSE) PoC

📁 파일 모드로 전환

1. 타겟 화자 등록

파일 업로드 또는 마이크 녹음을 통해 타겟 화자의 목소리를 등록합니다.

레퍼런스 오디오 파일 선택

선택된 파일 없음

타겟 화자 등록 상태:

미등록

2. 실시간 프로세스 제어

마이크를 켜서 타겟 화자의 소리를 실시간으로 분리합니다. 오디오 피드백 루프(하울링)를 방지하기 위해 반드시 헤드폰을 착용해 주세요.

환경 모드:

Clean Mode Noisy Mode

스피커 모니터:

스피커 출력 음소거 (에코 방지)

시스템 초기화 준비 완료.

Real-time Factor (RTF)

0.00

목표 < 1.0 (낮을수록 빠름)

Mixing Ratio (α)

0.50

추정된 화자/노이즈 비율

🎤 입력 (마이크)

🔊 출력 (TSE 결과)

3. 실시간 타겟 화자 자막 리스트

STT 엔진 로드 중...

VAD 대기 중

타겟 화자가 말하는 오디오를 Silero VAD로 실시간 감지하여 크롬 내장 STT를 통해 변환한 타임라인입니다.

마이크를 시작하고 타겟 화자의 목소리가 인식되면 여기에 실시간으로 텍스트가 표시됩니다.