И птичку, и хрипы. Алтайские программисты выиграли миллион на создание новейшей программы по обработке аудио

Валентин Карев. Победитель конкурса «Студенческих стартапы» 2024
Валентин Карев. Победитель конкурса «Студенческих стартапы» 2024 / Источник: vk.com/ictef74
Студент АлтГУ Валентин Карев со своей командой выиграл миллион рублей от конкурса студенческих стартапов. Его проект направлен на создание онлайн-сервиса для нейросетевой обработки аудиозаписей, с помощью которого, например, можно будет убрать лишнее шипение на записи голоса.

Как это работает

Пользователи будущего сайта смогут использовать различные варианты рабочих моделей, которые позволяют работать с речью, вокалом и музыкой, такие как шумоочисткаи разделение аудио на несколько дорожек.

Функция шумоочистки, например, позволит обработать аудиозапись так, чтобы удалить лишние шумы — шум ветра, ненужные шорохи и др. — и тем самым улучшить ее качество.

Эта программа облегчит жизнь звукорежиссерам, монтажерам и другим техническим специалистам, занимающимся видеопроизводством.

«Говоря о функции шумоочистки, она может быть реализована по-разному. Наш принцип работы такой: человек загружает звукозапись на сайт, затем программа с этой записи читает спектрограмму и подает ее на нейросеть, которая определяет места, где, скорее всего, находятся шумы, и выдает очищенный звук», — рассказал Валентин Карев.

На данный момент в команде проекта четыре человека. Есть те, кто занимается непосредственно программированием, есть отдельный человек для продвижения, а также свой дизайнер сайта.

«Чем нейросетевая обработка лучше классических методов, которыми пользуются многие в качестве плагина? Тем, что классические методы основываются на статистических данных, — объясняет собеседник. — И, например, с пением птички, которое отличается резким и быстрым всплеском в высокочастотной области, такие алгоритмы не смогут справится, а нейросетевые модели — могут».

Что не так с тем, что есть

Данным вопросом команда занимается уже довольно давно. За все то время, что молодые профессионалы находятся в сфере, они успели выявить несколько недостатков существующих подобных сервисов.

«Основной проблемой тех сервисов, которые есть сейчас, является скорость работы, — отметил собеседник. — Мы хотим сделать так, чтобы наш функционировал в режиме реального времени. И, возможно, даже выпустить его как плагин. Так программу можно будет встраивать в прямые трансляции».

Еще одна проблема существующих программ — не хватает русской локализации. Так, собеседник приводит в пример известный сервис AdobePodcast — если русскоязычная речь будет тихой или трудноразличимой, он может на выходе заменить некоторые слова или звуки на похожие по звучанию английские. Цель проекта алтайской команды — углубить знания программы для русскоязычной аудитории.

Проект создавался не с нуля. На данный момент уже готовы модели нейросети для программы очистки от шумов. Конечно, специалисты постоянно следят за мировыми трендами и улучшают свои разработки.

Начался этот проект еще в то время, когда Валентин Карев, сейчас магистрант, учился на бакалавриате. Темой исследования в одной из его курсовых работ была верификация дикторов по тембру — то есть определение того, кто говорит. Это похоже на определение по лицу, только анализирует программа речь.

«В отличие от лица, речь довольно легко подделать, — рассказывает руководитель проекта. — К тому же, влияют на качество верификации как раз-таки внешние шумы. Поэтому, когда человек хочет войти в телефон или приложение с помощью этого метода, могут возникнуть трудности, если при этом он находится в шумном месте. Так что мы решили выбрать первым основным направлением именно шумоочистку».

Есть куда развиваться

Проблема качества шумоочистки зависит, объясняет Валентин Карев, еще и от того, как это качество вообще оценивать. Например, в той же верификации говорящего оценка очевидна — правильно определила программа человека или нет. Шумоочистка же и качество речи на выходе — вещи субъективные, зависят от слушающего, и при очистке от шумов используют разные методики.

Например, рассказывает собеседник, существуют международные исследования подобных программ, в которых люди оценивали полученную аудиозапись по трем критериям: насколько разборчива речь, насколько мало в ней лишних призвуков и общее качество. Такой аналитикой занимаются большие компании, такие как Amazon,Microsoft, или Сбербанк.

«На основе такого же сбора данных мы можем попробовать научить алгоритм предсказывать, что скажет человек, и уже на этой основе учить нашу нейросеть, — поделился Валентин Карев. — Может быть, шумов и не будет, но это не гарантирует качество самой речи. Как я уже упоминал, могут появиться английские призвуки в словах. Поэтому направлению еще есть куда развиваться».

Записи голоса для обучения нейросети будут использовать как открытые, так и собственные — будучи режиссером звукозаписи в АлтГУ, Валентин Карев уже собрал некоторую базу голосов студентов и коллег. В перспективе команда планирует нанимать профессиональных дикторов.

Чтобы диапазон работы программы был шире, нужно собирать не только обычную речь, но и вокал — для компьютерного алгоритма это разные вещи. На первом этапе проекта разработчики сконцентрировались на обработке речевых записей. Но впоследствии будут расширяться на вокал и музыку.

Сколько

Некоторые сервисы обработки аудио имеют ограничения по объему. Валентин Карев говорит, что пока точно неизвестно, придется ли вводить их на будущем сайте, — это будет зависеть от загруженности сервера.

Тут для разработчиков два выхода: вкладываться в оборудование или уменьшать объем принимаемых файлов. В основном все ищут золотую середину, чтобы и снизить затраты (оборудование может стоит как сотни тысяч, так и сотни миллионов), и не заставлять пользователей долго ждать в очереди.

Вопрос о цене для пользователей разработчики решили демократично:

«По условиям гранта ресурс должен быть платным. Однако мы сделаем так, чтобы было некоторое число бесплатных обработок в сутки. Если пользователь захочет отредактировать больше записей, нужно будет приобрести подписку», — рассказал Валентин Карев.

Куда пойдет миллион

Первым делом команде выдали только часть средств. Когда победители зарегистрируют юридическое лицо, они получат полную сумму на реализацию оставшейся части проекта. До этого момента ведут запись голосов для обучения нейросети и готовят дизайн сайта.

Следующим шагом станет закупка оборудования — в первую очередь, производительного компьютера. На это пойдет основная часть средств. Оставшиеся деньги направят на подготовку технической части — написание кода.

СПРАВКА

Федеральный проект «Платформа университетского технологического предпринимательства» (ПУТП) направлен на массовое вовлечение обучающихся в технологическое предпринимательство и серийное создание технологических компаний в стенах университетов. Федеральный проект реализуется Минобрнауки России при участии ведущих институтов развития страны.

За 2022–2024 годы федеральный проект охватил 78 российских регионов, к нему подключились 427 вуза по всей стране, а его участниками стали свыше 600 тыс. человек. Общий объем привлеченных частных инвестиций составил более 1,3 млрд рублей. 85 тыс. студентов прошли тренинги предпринимательских компетенций, 280 тыс. — прокачали свои проекты и бизнес-идеи в рамках акселераторов и «Предпринимательских Точек кипения». Открыты 22 университетские стартап-студии. По грантовой программе «Студенческий стартап» 2500 проектов получили по 1 млн рублей. Для частных инвесторов действует программа возмещения части инвестиций, по ней государство возвращает до 50% средств, вложенных в университетский стартап.

По грантовой программе «Студенческий стартап» в 2022 году отобрана 1000 проектов, которые получат по 1 млн рублей. В 2023 году планируется поддержать уже 1500 стартапов. Оператором конкурса «Студенческий стартап» является Фонд содействия инновациям. Конкурс запущен для развития предпринимательских компетенций среди студентов.

Контакты пресс-службы