Главная страница

общение

Перейти на форум

события

Расписание

Приветствия

Пленарные заседания

"Круглые столы"

Мастерские

Участники конференции

Экспоненты выставки

Фотогалерея

секции

Оглавление

I.1, I.2, I.3

II.1, II.2, II.3, II.4

III.1, III.2

- IV -

- V -

- VI -

Непрошедшие экспертизу

Алфавитный список авторов

статистика
Рейтинг@Mail.ru Rambler's Top100 AllBest.Ru Яндекс цитирования

Вид доклада: [устное выступление и публикация]

ИТО-2001/Секция V

КОНТРОЛЬ ПРОИЗНОШЕНИЯ ГЛУХИХ И СЛАБОСЛЫШАЩИХ ДЕТЕЙ

Аграновский Александр Владимирович, Леднов Дмитрий Анатольевич, Карпов Игорь Александрович

Государственное предприятие конструкторское бюро «Спецвузавтоматика» (ГП КБ «Спецвузавтоматика»), г.Ростов-на-Дону

В настоящем докладе представлено описание программного комплекса, направленного на самостоятельное обучение произношению фонем в слогах глухих и слабослышащих детей.

Проблема создания эффективных методов обучения речи инвалидов по слуху весьма актуальна. Известно, что страдающие серьезными нарушениями слуха не могут четко и правильно произносить слова или даже отдельные звуки из-за отсутствия у них обратной связи, т.е. они не слышат того что говорят, и потому не могут контролировать свое произношение. Дефектология имеет значительный арсенал методов для обучения произношению звуков глухих и слабослышащих детей, однако, эти методы требуют постоянного вмешательства преподавателя в процесс обучения и практически не предполагают индивидуальной работы ребенка над собой, так как контролером правильности произносимых звуков является преподаватель. Для предоставления самостоятельности обучаемому, специалистами КБ «Спецвузавтоматика» была создана программа «Контроль произношения».

В комплексе предусмотрены две операции: обучение и распознавание. В режиме обучения несколько преподавателей или опытных дикторов многократно произносят слог, содержащий фонему, которую требуется изучить, сохраняя полученные данные на диск. Затем производится обработка набранных звуковых образов, в результате чего формируется база данных фонем по каждому слогу. В режиме распознавания визуализируется акустический образ звуков, произнесенных учеником, который сравнивается с созданной базой и автоматически определяется качество произнесенной фонемы. Таким образом, программа реализует алгоритм распознавания, но под распознаванием здесь понимается не формирование ответа на вопрос «какая фонема была произнесена?», а лишь «как фонема была произнесена», т.к. заранее известна фонема, содержащаяся в слоге, которую нужно опознать. По сравнению с первой проблемой, вторая решается значительно проще и, соответственно, требует меньших временных затрат.

Сигнал оцифровывается с частотой 10КГц. Для его представления используется дискретное преобразование Фурье с шириной спектрального окна 0.05 с. и смещением 0.025 с. Для выделения полезного сигнала, поступающего с микрофона, из многообразия алгоритмов была выбрана модель детектора на основе изменения спектральных характеристик по причине его простоты, надежности и достаточно высокой скорости. Полученный речевой интервал сегментировался для выделения фонем в произнесенном слоге. Сегментация сама по себе является некоторой задачей распознавания. Ее особенность состоит в том, что она может решаться для каждого речевого сигнала отдельно. Это значит, что нужно распознавать границы конкретных объектов — аллофонов данного речевого сигнала. При этом не нужно распознавать сами аллофоны, не нужно заботиться о том, чтобы одинаковые аллофоны одинаково идентифицировались в различных словах, при произнесении различными дикторами и т.д. Для сегментации может использоваться только информация, содержащаяся в данном сигнале. Это при удачном выборе алгоритмов позволяет сделать их не зависящими от каких-либо заранее задаваемых пороговых величин. Такие величины должны формироваться непосредственно в процессе сегментации. Для процедуры разбиения на фонемные составляющие в данной программе использовалась комбинация из двух алгоритмов: метод амплитудной обработки [4], разбивающий сигнал на низкоамплитудные и высокоамплитудные участки, и метод выделения участков, содержащих основной тон. Окончательные решения о выделении стационарных участков речи принимается алгоритмом проверки синхронности работы всех включенных в схему алгоритмов (в описываемом случае их два).

Таким образом, после проведенной предварительной обработки сигнала интервал, соответствующий первой выделенной фонеме в слоге, характеризовался набором спектров Фурье. Эти данные и использовались для процедуры распознавания, основанной на методе максимального правдоподобия.

Программа написана в среде Delphi 5 и тестировалась в операционных системах Windows 95, 98, 2000. Она позволяет производить запись на диск детектированных фрагментов речи или чтение ранее записанных. Главное окно содержит два «экрана», один из которых («Вывод речи») предназначается для отображения сигнала, поступающего с микрофона, а другой («Спектр») предоставляет возможность при помощи соответствующих кнопок с шагом спектрального окна 0.025 с. производить последовательный вывод спектра участка детектированного сигнала длительностью 0.05 с. Также есть два выпадающих списка. В первом из них («Ученик») можно выбрать или удалить фамилию обучаемого из уже ранее созданных, либо ввести новую, если ее нет в списке. При сохранении результатов будет создан каталог с соответствующим именем. Второй список («Слог с фонемой») служит для выбора слога, содержащего нужную фонему, используемого как для сохранения акустических образов, так и для их распознавания. Восемь функциональных кнопок необходимых для работы, каждой из которых поставлена в соответствие «горячая клавиша» и две дополнительные («Просмотр спектров»), служащие для последовательного просмотра спектров детектированного сигнала. Ориентироваться в работе программы позволяет строка состояния, расположенная в самом низу окна приложения, которая выдает необходимые сообщения.

Стоит отметить, что пользователь должен иметь минимальные навыки в произношении, поскольку динамику артикуляционных органов на начальных этапах обучения ставит специалист дефектолог. Программа не призвана полностью обучать речи, а предназначена лишь контролировать ее, помогает приобрести опыт в произношении фонем входящих в состав слога, что, несомненно, в значительной степени способствует обучению слитной речи.

Таким образом, основная цель данного программного продукта заключается в том, чтобы, во-первых, ребенок мог самостоятельно корректировать свое произношение, а во-вторых, экономить время, затрачиваемое преподавателем на каждого ученика в отдельности.

Литература

  1. Аграновский А.В., Леднов Д.А., Карпов И.А., Маетная Р.И., Черкашина Е.Ю. Контроль произношения глухих и слабослышащих детей // Учебно-методическая конференция «Современные информационные технологии в учебном процессе» ч.2, тезисы докладов 26-27 апреля 2001г., РГУ, Ростов-на-Дону, стр.3-4.
  2. Гольденберг Л.М., Матюшкин Б.Д., Поляк М.Н. Цифровая обработка сигналов, Москва «Радио и связь» 1990.
  3. Павловский З. Введение в математическую статистику, Москва «Статистика» 1967.
  4. Дорохин О.А., Старушко Д.Г., Федоров Е.Е., Шелепов В.Ю. Сегментация речевого сигнала. Искусственный интеллект, №3, 2000г., стр. 450-458.
Сервер поддерживается фирмой НПП "БИТ про"
Лучшие программы для образовательного процесса