Kodowanie mowy

Kodowanie mowy – polega na konwersji sygnału fonicznego mowy z postaci analogowej do postaci cyfrowej, tak aby możliwe było jego przesyłanie przez łącze telekomunikacyjne lub sieć komputerową.

Proces zmiany sygnału analogowego na strumień zakodowanych danych składa się z trzech etapów:

  • próbkowania – polega na pobieraniu chwilowych wartości sygnału z określoną częstotliwością – w telefonii wystarczy, że wynosi ona 8 kHz,
  • kwantyzacji – proces zmiany wartości pobranych próbek na skończoną liczbę nieciągłych wartości,
  • kompresji stratnej

Metody kompresji

Najpopularniejszymi metodami kodowania mowy są:

  • PCM
  • DPCM
  • ADPCM
  • LPC
  • CELP
  • ACELP
  • RPE

Metody modulacji

Najpopularniejsze kodeki wykorzystywane do kodowania mowy:

  • G.711 – najpopularniejszy kodek VoIP, stosowany tradycyjnie w cyfrowej telefonii (np. w ISDN). Częstotliwość próbkowania wynosi 8 kHz, a rozdzielczość 8 bitów na próbkę. Ze względu na brak kompresji kodek zapewnia najwyższą jakość połączeń i niskie obciążenie procesora, ale wymaga przepustowości łącza co najmniej 128 kb/s w obie strony.
  • G.723.1
  • G.729
  • iLBC
  • iSAC
  • GSM

Przy nawiązywaniu połączenia oba urządzenia telekomunikacyjne, które z kodeków mogą wykorzystać i dobierają ten optymalny. Kluczowe dla zapewnienia przepustowości jest to, aby kodek, szczególnie taki, który wykorzystuje silną kompresję, zapewniał dobrą jakość, a jednocześnie nie wprowadzał zbyt dużych opóźnień mających wpływ na przeprowadzana rozmowę.

Zobacz też

Bibliografia

  • B Ziółko, M. Ziółko Przetwarzanie mowy, Wydawnictwa AGH, 2011.

Linki zewnętrzne

  • Materiały dydaktyczne DSP AGH. dsp.agh.edu.pl. [zarchiwizowane z tego adresu (2014-02-02)].