Методы обработки звука

Монтаж

Состоит в вырезании из записи одних участков, вставке других, их замене, размножении. Называется также редактированием. Все современные звуко- и видеозаписи в той или иной мере подвергаются монтажу.

Time Stretch и Pitch Shift

Посмотрите на рисунок внизу. Это фрагмент женского вокала, записанный в редакторе Pro Tools и сильно увеличенный в масштабе, звук «у» в окончании слова «you» («ты»).

На верхнем рисунке это фрагмент обычного слова. Можно заметить, что звук состоит из нескольких (на рисунке – из двух) повторяющихся отрезков.

На среднем рисунке этот же фрагмент растянут в длину эффектом Time Stretch без изменения высоты тона. Алгоритм пересчитал повторяющиеся фазы волны (фрагменты) и вставил их в нужном месте.

В третьем рисунке показан изначальный звук, сдвинутый эффектом Pitch Shift на семь полутонов вверх. Рисунок фрагментов-фаз при этом почти не изменился. Первоначальная волна расширена в горизонтальном масштабе, чтобы можно было видеть изменение тона, но алгоритм работы тот же самый – пересчёт волны и вставка повторяющихся отрезков в нужных частях.

Амплитудные преобразования

Выполняются при помощи различных действий над амплитудой сигнала, которые в конечном счете сводятся к умножению значений сэмплов на постоянный коэффициент (усиление/ослабление) или изменяющуюся во времени функцию-модулятор (амплитудная модуляция). Частным случаем амплитудной модуляции является формирование огибающей для придания стационарному звучанию развития во времени.
Амплитудные преобразования выполняются последовательно с отдельными сэмплами, поэтому они просты в реализации и не требуют большого объема вычислений.

Частотные (спектральные) преобразования

Выполняются над частотными составляющими звука. В случае, если использовать спектральное разложение — форму представления звука, в которой по горизонтали отсчитываются частоты, а по вертикали — интенсивности составляющих этих частот, то многие частотные преобразования становятся похожими на амплитудные преобразованиям над спектром. К примеру, фильтрация — усиление или ослабление определенных полос частот — сводится к наложению на спектр соответствующей амплитудной огибающей. Однако частотную модуляцию таким образом представить нельзя — она выглядит, как смещение всего спектра или его отдельных участков во времени по определенному закону.

Для реализации частотных преобразований обычно применяется спектральное разложение по способу Фурье, которое требует значительных ресурсов. Однако имеется алгоритм быстрого преобразования Фурье (БПФ, FFT), который делается в целочисленной арифметике и позволяет даже на слабых компьютерах разворачивать в реальном времени спектр сигнала среднего качества. При частотных преобразованиях, кроме этого, требуется обработка и последующая свертка, поэтому фильтрация в реальном времени реализуется не на процессорах общего назначения, а на т.н. цифровых сигнальных процессорах (Digital Signal Processor — DSP), которые выполняют эти операции в реальном времени и по нескольким каналам.

Фазовые преобразования

Сводятся в основном к постоянному сдвигу фазы сигнала или ее модуляции некоторой функцией или другим сигналом. Благодаря тому, что слуховой аппарат человека использует фазу для определения направления на источник звука, фазовые преобразования стереозвука позволяют получить эффект вращающегося звука, хора и ему подобные. При помощи сдвига фазы на 90-180 градусов (последнее получается простым инвертированием отсчетов) реализуется эффект «псевдообъемности» звука (Surround).

Временные преобразования

Заключаются в добавлении к основному сигналу его копий, сдвинутых во времени на различные величины. При сдвигах на величины, сравнимые с периодом сигнала, эти преобразования превращаются в фазовые; при небольших сдвигах за пределами перида (примерно менее 20 мс) это дает эффект, близкий к хоровому (размножение источника звука), при бОльших — эффекты многократного отражения: реверберации (20-50 мс) и эха (более 50 мс).

Формантные преобразования

Являются частным случаем частотных и оперируют с формантами — характерными полосами частот, встречающимися в звуках, произносимых человеком. Каждому звуку соответствует свое соотношение амплитуд и частот нескольких формант, которое определяет тембр и разборчивость голоса. Изменяя параметры формант, можно подчеркивать или затушевывать отдельные звуки, менять одну гласную на другую, сдвигать регистр голоса и т.п.