DEUX APPROCHES DE NORMALISATION DES ENTREES POUR LA RECONNAISSANCE DE MOTS ISOLES
Résumé
Dans cet article, nous allons présenter deux systèmes de reconnaissance de chiffres parlés anglais, en mode indépendant du
locuteur, basé sur les deux stratégies principales de la classifi- cation binaire SVM multi-classes. Cependant, les techniques
SVM exigent des vecteurs d'entrée de taille fixe. Pour lever cette difficulté, nous avons utilisé deux approches différentes
norma- lisation des entées basées sur le fenêtrage fixe et variable des vecteurs acoustiques des énoncés d’entrées. Le but est de
réduire le temps de calcul pendant la phase d’apprentissage et de test des deux stratégies et déterminer ainsi celle qui donne le
meilleur taux de reconnaissance. Les résultats trouvées montrent que la chaîne de reconnaissance utilisant la stratégie un contre
un comme moteur de reconnaissance et l’approche fenêtre de taille fixe pour normaliser les entrées est beaucoup plus
satisfaisante par rapport aux autres chaînes présentées dans notre article. Ce système de reconnaissance atteint un taux de
98,95%, tout en utilisant seulement 13 vecteurs caractéristiques par énoncé en entrées du classifieur, ce qui réduit
considérablement le temps d’apprentissage et de test
Références
Melgani,
L.
Bruzzone,.“Classification
of
hyperspectral
remote
sensing
images with support
vector machines”. In IEEE Transactions on Geoscience
and Remote Sensing, vol. 42, nº 8, pp. 1778-1790
,2004.
[2] H. Sakoe, R. Isotani, K. Yoshida, K. Iso, T. Watanabe,
,
“Speaker-Independent
Word
Recognition
using
Dynamic
Programming
Neural
Networks”;
Proc.
ICASSP-89, pp. 29-32; Glasgow, Scotland; 1989.
[3] K. Iso, T. Watanabe, , “Speaker-Independent Word
Recognition using a Neural Prediction Model”, Proc.
ICASSP-90, pp. 441-444; Alburquerque, New México,
USA, 1990.
Deux approches de normalisation des entrées pour la reconnaissance de mots isolés
143
[4] J. Tebelskis, A. Waibel, B. Petek, O. Schmidbauer,
“Continuous
Speech
Recognition
using
Predictive
Neural
Networks”,
Proc.
ICASSP-91,
pp.
61-64;
Toronto, Canada; 1991.
[5] Y. Bengio, “Neural networks for speech and sequence
recognition”, London International Thomson Computer
Press, 1995.
[6] P. Clarkson, P..J. Moreno, “On the use of support
vector
machines for phonetic classification”, Proc.
ICASSP, Vol. 2 , pp.585 –588, 1999.
[7] A. Ganapathiraju, “Support vector machines for speech
recognition” PhD Thesis, Mississipi State University,
2002.
[8] N. D. Smith, M.J.F. Gales, “Using SVMs and
discriminative models for speech recognition”, IEEE
International Conference on Acoustics, Speech, and
Signal Processing, 2002.
[9] Y. Bazi, F. Melgani, “Toward an optimal svm
classification system for hyperspectral remote sensing
images”. IEEE Transactions on geoscience and remote
sensing, 44:3374-3385 , 2006.
[10] I. Bazzi, D. Katabi, “Using support vector machines for
spoken digit recognition,”, In /ICSLP-2000, vol.1, 433-
436.
[11] W. Xuechuan, K, P. Kuldip, “Feature extraction and
dimensionality
reduction
algorithms
and
their
applications in vowel recognition”. Pattern Recognition
(PR) 36(10):2429-2439, 2003.
[12] V. Vapnik, “ Statistical Learning Theory , “, Book,
Wiley, New York ,1998.
[13] L. Mercier, ‘’Les machines à vecteurs support pour la
classification
en
imagerie
hyperspectrale'
:
implémentation et mise en œuvre‘’, UE ENG111 -
Epreuve TEST.
[14] O.
Bousquet,
“Introduction
aux
Support
Vector
machine“. (SVM), Orsay , 2001.
[15] C.-W. Hsu, C.-J. Lin, “A Comparison of Methods for
Multi-class
Support
Vector,”,
Article
In:
IEEE
Transactions on Neural Networks, Vol. 13, Nr. 2
(2002) , p. 415--425.
[16] P. Clarkson, J. P. Moreno, “On the use of support
vector machines for phonetic classification,”. Article.
In:
Proceedings
of
International
Conference
on
Acoustics, Speech, Signal Processing, pp. 585–588,
1999.
[17] B.
Scholkopf,
C. Gurges, V. Vapnik, Extracting
support data for a given task, Proceedings of First
International Conference on Knowledge Discovery and
Data Mining, Menlo Park, 1995, pp. 252–257
[18] F.
Melgani,
L.
Bruzzone,.“Classification
of
hyperspectral
remote
sensing
images with support
vector machines”. In IEEE Transactions on Geoscience
and Remote Sensing, vol. 42, nº 8, pp. 1778-1790
,2004.
[19] B. A. Mellor, A. P. Varga.”Noise masking in a
transform
domain”.
Proceedings
of
the
IEEE
International Conference on Acoustics, Speech and
Signal Proces -sing, vol. 2, pp 87–90, 1993.
[20] R.G. Leonard, ‘’A database for speaker-independent
digit recognition’’, In proceedings of ICASSP, volume
3, San Diego, 1984.
[21] B.
D.
Steven,
P.
Mermelstein,”Comparison
of
parametric
representtations
for
monosyllabic
word
recognition
in
continuously
spoken
sentences,”.
Journal. IEEE Transactions on Acoustics, Speech and
Signal Processing, vol. 28, no 4, pp 357-366, 1980.
[22] C. Burges ,’’A tutorial on support vector machines for
pattern recognition’’, Data Mining and Knowledge
Discovery, 2-2, 1998.
[23] O. Chapelle, V. N. Vapnik, O. Bousquet, and S.
Mukherjee Choosing ,’’multiple parameters for support
vectors machines’'. Machine Learning, vol. 46, nº1,
2002.