Speech Codec info

Yasser A. Nour · May 2, 2000

hey guyz
ako gusto papeles para sa ETSI GSM pagsasalita codec

thanx

mindrover · May 2, 2000

Yasser A. Nour,

Hope na ito ay nakakatulong,

mindrover************************************************** ************************************************** ************************************************** ****
Pag-aayos sa pamamagitan ng GSM codec: Isang Tutorial

Good codec disenyo ay isang mahalagang sangkap sa pagbibigay ng toll-kalidad na tinig transmissions sa paglipas ng GSM na links.Narito ang isang tumingin sa kasalukuyang codec kailangan upang gumawa ng mga panahon na pati na rin sa hinaharap codec teknolohiya sa abot-tanaw.

Sa pamamagitan ng Richard Meston, Racal Instrumentong
CommsDesign
Hulyo 11, 2003Ang paghahatid ng pananalita mula sa isang punto sa isa pang higit sa GSM mobile phone network ay isang bagay na ang karamihan sa atin ang mang-ahas.Kumplikado ay kadalasang perceived na kaugnay sa network ng imprastraktura at pamamahala kinakailangan para lumikha ng end-to-end na koneksyon, at hindi sa paghahatid ng mga kargamento mismo.Ang tunay na kumplikado, gayunpaman, ang mga kasinungalingan sa codec pamamaraan na ginagamit upang gawing kowd tinig ng trapiko para sa paghahatid.

Ang GSM standard na sumusuporta sa apat na iba't ibang ngunit katulad ng mga teknolohiya ng compression sa analyse siksikin at pagsasalita.Kabilang dito ang mga full-rate, pinahusay na full-rate (EFR), nakakapag-agpang multi-rate (amr), at ang kalahati-rate.Sa kabila ng lahat ng pagiging lossy (ibig sabihin ang ilang mga data ay mawawala sa panahon ng compression), ang mga codec ay optimized sa tumpak na bigyan ng bagong buhay pagsasalita sa output ng isang wireless link.

Upang magbigay ng toll-kalidad na tinig sa loob ng isang network na GSM, designer dapat maintindihan kung paano at kung kailan na ipatupad ang mga codec.Upang matulungan out, article na ito ay nagbibigay ng isang tumingin sa loob kung paano ang bawat isa sa mga codec gumagana.Na rin namin na suriin kung paano ang codec kailangan sa evolve upang matugunan ang mga pangangailangan ng 2.5 at 3G wireless network.

Pagsasalita Pagkakahawa Pangkalahatang-ideya ng
Kapag nag-usap ka sa mga mikropono sa isang telepono na GSM, speech ay iko-convert sa isang digital signal sa isang resolution ng 13 piraso, na-sample na sa isang rate ng 8 KHz ito 104.000 b / s porma ang input signal sa lahat ng pagsasalita GSM codec.Ang codec analyses ng boses, at gagawa ng kaunti-stream na binubuo ng isang numero ng mga parameter na naglalarawan sa mga aspeto ng boses.Ang output rate ng codec ay nakasalalay sa kanyang uri ng (tingnan ang Talaan 1), na may isang hanay ng mga pagitan ng 4.75 kbit / s at 13 kbit / s.

Table 1: Iba't ibang Coding Mga Presyo

Pagkatapos ng coding, ang mga bits ay muling isinaayos, convoluted, interleaved, at nakapaloob sa bursts para sa paghahatid sa interface ng hangin.Sa ilalim ng matinding kondisyon error isang frame bora nangyayari at ang data ay nawala, kung ang orihinal na data ay muling binuo, na maaaring may ilang mga error sa mas makabuluhang bits.Ang mga bits ay inayos bumalik sa kanilang parametric representasyon, at sawang sa decoder, na kung saan ay gumagamit ng mga data sa synthesise ang orihinal na impormasyon sa pagsasalita.

Ang Full-Rate Codec
Ang full-rate codec ay isang regular na paggulo pulso, pang-matagalang hula (RPE-LTP) sa guhit mahuhulain tagapagkodigo na nagpapatakbo sa isang 20-ms-frame ang binubuo ng isang hundred sixty 13-bit mga halimbawa.

Ang vocoder modelo ay binubuo ng isang generator tone (na kung saan ang modelo ng pagsasalita Chords), at ng isang filter na modifies ang tone (na kung saan modelo ang bibig at ilong lukab hugis) [Figure 1].Ang panandaliang pagtatasa at pagsasala ay nagpasiya na ang coefficients filter at isang error sa pagsukat, ang pang-matagalang analysis quantifies ang harmonika ng pagsasalita.Larawan 1: Diagram ng isang full-modelo rate vocoder.

Samantalang ang matematikal na modelo para sa pagbuo ng pagsasalita sa isang full-rate codec nagpapakita ng unti-unting pagkabulok sa kapangyarihan para sa isang pagtaas sa kadalasan, ang mga halimbawa ay sawang sa pamamagitan ng isang pre-diin filter na enhances ang mas mataas na frequency, na nagreresulta sa mas mahusay na paghahatid na kahusayan.Ang katumbas na de-diin ng filter sa remote restores tapusin ang tunog.

Ang panandaliang pagtatasa (sa haba hula) ang pagganap ng autocorrelation at Schur recursion sa signal input upang matukoy kung ang filter ( "pagmuni-muni") coefficients.Ang coefficients pagmuni-muni, na nakukuha sa hangin tulad ng mga parameter ng walong totalling 36 piraso ng impormasyon, ay iko-convert sa ratios log lugar (LARs) bilang sila ay nag-aalok ng mas companding kanais-nais na katangian.Ang pagmuni-muni coefficients gayon ay ginagamit upang mag-aplay maikling kataga ng pagsasala sa signal input, na nagreresulta sa 160 mga halimbawa ng mga tira-tirang signal.

Ang mga tira-tirang signal mula sa panandaliang pag-filter ay segmented sa apat na sub-frame ng 40 halimbawa sa bawat isa.Ang pang-hula kataga (LTP) ang filter na modelo ng pinong harmonika ng pagsasalita gamit ang isang kumbinasyon ng mga kasalukuyan at nakaraang mga sub-frame.Ang makakuha ng at mahuli (delay) ng mga parameter para sa filter na LTP ay tinutukoy sa pamamagitan ng cross-correlating ang kasalukuyang sub-frame na may tira-tirang nakaraang sub-frame.

Ang tuktok ng cross-ugnayan ay nagpasiya na ang hudyat ng pagkakahuli, at makakuha ay kinakalkula sa pamamagitan ng normalising ang cross-ugnayan coefficients.Ang mga parameter ay inilapat sa pang-matagalang filter, at ang isang hula ng kasalukuyang panandaliang tira ay ginawa.Ang error sa pagitan ng mga pagtatantya at ang tunay na panandaliang tira signal ang pang-matagalang tira signal ay inilapat sa RPE pagtatasa, kung saan gumaganap ang data compression.

Ang Regular na tibok paggulo (RPE) stage ay nagsasangkot sa pagbabawas ng 40 pang-matagalang tira mga halimbawa pababa sa apat na hanay ng 13-bit sub-sequences sa pamamagitan ng isang kumbinasyon ng mga interleaving at sub-sampling.Ang pinakamabuting kalagayan sub-sunod ay tinutukoy bilang pagkakaroon ng hindi bababa sa error, at ito ay naka-code gamit APCM (nakakapag-agpang PCM) sa 45 bits.

Ang resultang signal ay sawang likod sa pamamagitan ng isang decoder RPE at sama-sama sa maikling-estima kataga ng tira-tirang upang source ang pang-matagalang pagtatasa ng filter para sa susunod na frame, sa ganyang paraan ng pagkumpleto ng feedback loop (Table 2).

Table 2 - Output Parameter mula sa Full Rate Codec

Ang Pinaghusay Full-Rate Codec
Dahil sa pagpoproseso ng kapangyarihan pinabuting at kapangyarihan consumption nabawasan sa digital signal processors (DSPs), mas kumplikadong mga codec ay maaaring gamitin upang magbigay ng isang mas mahusay na kalidad ng pagsasalita.Ang EFR codec ay kaya ng conveying mas pino ang detalye sa pagsasalita, kahit na ang output bit rate ay mas mababa kaysa sa buong rate.

Ang EFR codec ay isang algebraic paggulo code sa guhit hula (ACELP) codec, na kung saan ay gumagamit ng isang hanay ng mga katulad na prinsipyo sa RPE-LTP codec, ngunit mayroon ding ilang mga makabuluhang pagkakaiba.Ang EFR codec ay gumagamit ng isang 10th-order sa guhit-mahuhulain (short-term) filter at isang pang-filter na kataga ng ipinatupad ang paggamit ng isang kumbinasyon ng mga nakakapag-agpang at fixed codebooks (pulutong ng mga vectors paggulo).Figure 2: Diagram ng modelo ng EFM vocoder

Ang pre-processing stage para sa EFR ay binubuo ng 80 Hz high-pass filter, at ilang downscaling upang mabawasan ang pagpapatupad ng pagiging kumplikado.Short-term pagtatasa, sa iba pang mga kamay, nangyayari sa dalawang beses sa bawat frame at binubuo ng autocorrelation na may dalawang magkaibang walang simetrya bintana ng 30mS sa haba puro sa paligid ng iba't-ibang mga sub-frame.Ang mga resulta ay iko-convert sa mga short-term coefficients ng filter, pagkatapos sa linya na parang multo pares (para sa mas mahusay na paghahatid sa labanan) at quantized sa 38 bits.

Sa EFR codec, ang nakakapag-agpang codebook ay naglalaman ng vectors paggulo na modelo ang pang-matagalang pagsasalita istraktura.Buksan-loop na itim na pagtatasa ay ginanap sa kalahati ng isang frame, at ito ay nagbibigay ng dalawang estima ng itim na mahuli (delay) para sa bawat frame.

Ang bukas-loop na resulta ay ginagamit upang magbigay ng binhi ng isang closed-loop na paghahanap para sa bilis at nabawasan ang pagtutuos requirements.Ang itim na mahuli ay inilalapat sa isang synthesiser, at ang mga resulta kumpara laban sa di-synthesised input (pagtatasa-by-pagbubuo), at ang pinakamaliit na perceptually timbang error ay natagpuan.Ang mga resulta ay naka-code sa 34 bits.

Ang mga tira-tirang naiiwan na signal pagkatapos ng quantization ng nakakapag-agpang ng paghahanap codebook ay modelled ng algebraic (fixed) codebook, muli gamit ang isang pagtatasa-by-paraan ng pagbubuo.Ang resultang mahuli ay naka-code ng 35 bits per sub-frame, at ang makakuha ng hanggang sa 5 bits per sub-frame.

Ang huling yugto para sa encoder ay upang i-update ang nararapat na memorya handa na para sa susunod na frame.

Going nakakapag-agpang
Ang prinsipyo ng amr codec ay ang paggamit ng halos katulad na computations para sa isang set ng mga codec, na lumikha ng outputs ng iba't-ibang mga rates.Sa GSM, ang kalidad ng mga natanggap na air-interface ng signal ay na subaybayan at ang coding rate ng pagsasalita ay maaaring mabago.Sa ganitong paraan, higit na proteksyon ay inilalapat sa mga lugar na poorer signal sa pamamagitan ng pagbabawas ng coding rate at pagtaas ng kalabisan, at sa mga lugar ng magandang signal na kalidad, ang kalidad ng pagsasalita ay pinabuting.

Sa mga tuntunin ng pagpapatupad, isang ACELP tagapagkodigo ay ginagamit.Sa katunayan, ang 12.2 kbit / s amr codec ay computationally na katulad ng EFR codec.Para sa mga rate ng mas mababa kaysa sa 12.2 kbit / s, ang panandaliang pag-aaral ay ginanap sa isang beses lamang sa bawat frame.Para sa 5.15 kbit / s at mas mababa, ang mga bukas-loop na itim na mahuli ay tinatayang isang beses lamang sa bawat frame.Ang resulta ay na sa mas mababang output bit rate, mayroong isang mas maliit na bilang ng mga parameter upang ihatid, at mas kaunting mga bits ay ginagamit upang kumatawan sa kanila.

Ang Half-Rate Codec
Ang hangin na detalye para sa pagpapadala GSM nagbibigay-daan sa ang malakas ng isang channel ng boses sa dalawang sub-channel na maaaring panatilihin ng hiwalay na mga tawag.Isang tinig tagapagkodigo na gumagamit ng kalahati ng channel na kapasidad ay magpapahintulot sa mga operator ng network sa double ang kapasidad sa isang cell para sa napakakaunting investment.

Ang kalahating-rate codec ay isang vector paggulo sum sa guhit hula (VSELP) codec na nagpapatakbo sa isang pagtatasa ng-by-pagbubuo paraan na katulad ng EFR at amr codec.Ang resultang output ay 5.7 KB / s, na kinabibilangan ng 100 b / s ng bits mode tagapagpahiwatig na tumutukoy kung ang mga frame ay naisip na naglalaman ng boses o walang boses.Ang mode indicator ay nagbibigay-daan ang codec na pinamamahalaan bahagyang naiiba upang makuha ang pinakamahusay na kalidad.

Half-rate ng pagsasalita coding ay unang ipinakilala sa kalagitnaan ng 1,990, ngunit ang pampublikong pang-unawa ng pagsasalita ng kalidad ay kaya mahirap na ito ay hindi karaniwang ginagamit ngayon.Gayunman, dahil sa ang mga variable na bit-rate ng output, amr lends mismo ng mabuti sa paghahatid sa loob ng isang kalahating-rate ng channel.Sa pamamagitan ng takda ang output para sa pinakamababang 6 coding rates (4.75 - 7.95kbps), ang user ay maaari pa ring karanasan ang mga benepisyo na kalidad ng mga nakakapag-agpang pagsasalita coding, at ang mga network ng mga benepisyo mula sa mga operator ng mas mataas na kapasidad.Ito ay naisip na sa pagpapakilala ng amr, ang paggamit ng kalahating-rate ng air-channel ay magsisimula na maging mas laganap.

Computational kumplikado
Table 3 ay nagpapakita ng mga oras na dadalhin sa gawing kowd at mabasa ng isang random na stream ng pagsasalita-tulad ng data, at ang bilis ng mga operasyon ng kamag-anak sa GSM full-rate ng codec.

Table 3: General encode at decoding kumplikado

Ang full-rate ng encoder nagpapatakbo sa isang hindi-umuulit na pagtatasa at pag-filter, na kung saan ang mga resulta sa mabilis na encoding at decoding.Sa pamamagitan ng paghahambing, ang mga pagtatasa-by-paraan ng pagbubuo nagtatrabaho sa mga codec CELP nagsasangkot ng paulit-ulit pagtutuos ng synthesised mga parameter ng pagsasalita.Ang computational kumplikado ng EFR / amr / kalahati-rate ng codec sa gayon ay mas malayo kaysa sa full-rate codec, at ito ay makikita sa mga oras na dadalhin sa siksikin at magbawas ng bigat ng isang frame.

Ang output ng mga codec pagsasalita ay nakapangkat sa parameters (eg LARs) bilang sila ay nakabuo ng (Larawan 3).Para sa paghahatid sa interface ng hangin, ang mga bits ay rearranged kaya ang mas importante bits ay pinagsama-sama.Extra proteksyon maaari pagkatapos ay inilapat sa pinaka malaking piraso ng mga parameter na may pinakamalaking epekto sa kalidad ng pagsasalita kung sila ay maliFigure 3: Diagram ng vocoder grupong parameter.

Ang proseso ng gusali ng hangin bursts paghahatid ay nagsasangkot sa pagdaragdag ng kalabisan sa data sa pamamagitan ng kahukutan.Habang ang prosesong ito, ang pinaka-mahalaga bits (Class 1a) ay protektado ng karamihan habang ang hindi bababa sa mga mahahalagang bits (Class 2) walang protection na ginagamit.

Ito frame proseso ng gusali ay nagsisigurado na ang maraming mga error na nagaganap sa interface ng hangin ay alinman sa correctable (gamit ang kalabisan), o ay magkakaroon lamang ng isang maliit na epekto sa kalidad ng pagsasalita.

Kinabukasan Outlook
Ang kasalukuyang pokus para sa mga codec pagsasalita ay upang makabuo ng isang resulta na may perceptually mataas na kalidad at mababang rated data sa pamamagitan ng tangkaing mathematically gayahin ang mechanics ng mga tao na tinig henerasyon.Sa pagpapakilala ng 2.5G at 3G system, ito ay malamang na ang dalawang magkaibang mga aplikasyon ng pagsasalita coding ay binuo.

Ang una ay medyo mababa ang bandwidth pagsasalita coding, malamang batay sa kasalukuyang henerasyon ng CELP codec.Wideband amr codec may nai-standardised para magamit sa 2G at 2.5G teknolohiya at ang mga ito ay utilise ang nadagdag kapasidad na mula sa gilid paglawak.

Pangalawa ay gumawa ng higit pa sa paggamit ng malawak na bandwidth employing ng isang hanay ng iba't-ibang mga pamamaraan na kung saan ay marahil ay base sa kasalukuyang psychoacoustic coding, isang pamamaraan na kung saan ay sa laganap gamitin ngayon para sa MP3 audio compression.

Walang duda na ang pagsasalita sa kalidad sa mga mobile na network ay pagbutihin, ngunit ito ay maaring maging ng ilang oras bago wideband codec ay standardised at naisama sa taning na kawad-network ng linya, na humahantong sa potensyal na CD-kalidad na pagsasalita ng komunikasyon sa buong mundo.

Yasser A. Nour · May 2, 2000

mahal na mindrover
thanks sa pagtulong sa akin

maaari u magpadala ng papel na ito sa akin o i-upload ito sa site?

ako mas intersting sa RPE-LTP codec gawin u may karagdagang impormasyon tungkol sa mga ito?

maraming salamat

alzomor · May 2, 2000

Hi

Bakit hindi i-tsek mo ang mga pamantayan ng

http://pda.etsi.org/pda/queryform.asp

Salam
Hossam Alzomor

Yasser A. Nour · May 2, 2000

Hindi ko mahanap ito

Speech Codec info

Yasser A. Nour

Guest

mindrover

Guest

Yasser A. Nour

Guest

alzomor

Guest

Yasser A. Nour

Guest

Welcome to EDABoard.com

Sponsor

Online statistics

Forum statistics

Speech Codec info

Yasser A. Nour

Guest

mindrover

Guest

Yasser A. Nour

Guest

alzomor

Guest

Yasser A. Nour

Guest

Log in

Welcome to EDABoard.com

Sponsor