Skip to content

This repository contains a structured implementation of a FASTAPI application for speech recognition and audio analysis, using Whisper and LLM Vikrh-12B-Nemo

Notifications You must be signed in to change notification settings

DanilaAniva/DiabertASRBackend

Repository files navigation

DiaBERT

DiaBERT

Инструмент для распознавания временных меток в голосовых данных. На аудио ставится Whisper-large-v3-turbo, текст обрабатывается LLM Vikhr-Nemo-12B, результат выдаётся структурированным JSON; есть сохранение в DOCX.


🔥 Новости

  • [2024/12/13] 🚀🚀 Решение опубликовано.
  • [2024/12/NN] 🏆 Решение заняло 1-ое место в хакатоне от компании "Транснефть" в треке ASR.

✨ Особенности:

  • Распознавание речи (ASR):

    • Используется модель Whisper-large-v3-turbo, которая обеспечивает высокую точность распознавания речи на основе голосового ввода.
    • Поддержка различных языков и устойчивость к шумам.
  • Выделение временных меток:

    • Сервис с помощью LLM автоматически определяет начало и конец каждой фразы или действия говорящего.
    • Выдает точные временные метки (начало и конец) для каждой записи.
  • Анализ содержания разговора:

    • Используется модель Vikhr-Nemo-12B, которая анализирует распознанный текст и выделяет ключевые действия или темы, обсуждаемые говорящим в определенные временные промежутки.
    • Результаты предоставляются в формате JSON, что упрощает дальнейшую обработку и интеграцию с другими системами.

💡 Обзор возможностей

Пример запроса к API

На изображении ниже показано, как отправить запрос к API и получить структурированный ответ с временными метками и действиями:

Запрос к API: отправка текста и получение структурированных событий (время начала/конца, действие)

🔊 Ввод (Аудиозапись, распознается с помощью Whisper):

text = "С 10:00 до 11:00 я работал над проектом. С 11:00 до 12:00 у меня было совещание с командой."

💭 После обработки LLM:

{
    "С 10:00 до 11:00 я работал над проектом. С 11:00 до 12:00 у меня было совещание с командой.": [
        {
            "start": "10:00",
            "end": "11:00",
            "action": "работал над проектом"
        },
        {
            "start": "11:00",
            "end": "12:00",
            "action": "совещание с командой"
        }]
}

Доступен удобный веб-интерфейс

alt text

⚡️ Способы применения

  • Голосовые команды для учета времени: Теперь отчеты во временных табелях можно создавать с помощью голосовых команд, что делает процесс максимально удобным и быстрым.
  • Сохранение в DOCX одним кликом: Отчеты легко сохраняются в формате DOCX всего одной кнопкой, обеспечивая самый удобный и эффективный учет времени.

🛠️ Установка:

  1. Клонировать репозиторий
git clone https://github.com/VadimKirillov/ASR_DiaBERT
  1. Установить зависимости в виртуальное окружение
pip3 install virtualenv
virtualenv myenv
. myenv/bin/activate
pip install -r requirements.txt
  1. Для запуска приложения необходимо ввести в консоль
python main_api.py

About

This repository contains a structured implementation of a FASTAPI application for speech recognition and audio analysis, using Whisper and LLM Vikrh-12B-Nemo

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published