Как Alphazed создает 10 000+ учебных материалов с помощью ИИ
4 мин. чтенияMohammad Shaker

Как Alphazed создает 10 000+ учебных материалов с помощью ИИ

Alphazed использует ИИ-пайплайны для создания и проверки 10 000+ обучающих материалов по арабскому языку и исламу.

Engineering

Короткий ответ

Alphazed использует ИИ-пайплайны для создания и проверки 10 000+ обучающих материалов по арабскому языку и исламу.

Alphazed применяет автоматизированные ИИ-пайплайны для генерации и курирования свыше 10 000 образовательных материалов — включая упражнения по арабскому словарному запасу, тренировку произношения, последовательности для запоминания Корана и интерактивные истории. Пайплайн объединяет OpenAI для генерации текста, Google Cloud TTS для аудио, специальные генераторы изображений и человеческий контроль качества для масштабного производства контента, соответствующего учебной программе.

Стек генерации контента

Генерация текста

  • OpenAI GPT-4o-mini: создает задания, ложные варианты ответа, сценарии историй, толкования Корана
  • Настройка запросов: используют точные подсказки, чтобы результат соответствовал уровням таксономии Блума
  • Пример запроса: «Сгенерируй 5 правдоподобных ложных вариантов для арабского слова «كتاب» (книга). Варианты должны быть семантически связаны, но явно отличаться. Уровень: средний, дети 6–8 лет.»

Генерация аудио

  • Google Cloud TTS (голоса WaveNet): создает аудио высокого качества на арабском языке
  • Разнообразие голосов: мужские и женские, разная скорость речи и эмоциональные оттенки
  • Специальное произношение: диакритические знаки влияют на выбор фонем для аутентичного чтения Корана
  • Извлечение меток речи: таймкоды фонем для синхронизации губ (см. блог #3)

Продвинутое аудио

  • ElevenLabs для многоязычных озвучек: маркетинговые видео, вводные ролики приложений
  • Музыка: безлицензионные фоновые треки с Epidemic Sound

Генерация изображений

  • Пользовательские изображения-отвлекающие via DALL-E или Midjourney
  • Векторная графика для элементов интерфейса
  • Иллюстрации персонажей для сюжетных материалов

Архитектура пайплайна

Репозиторий: alphazed-content-utils (Python, 20+ модулей генераторов)

Генераторы (независимые, компонуемые):
  ├── amal_level_generator.py
  │   └── Создаёт полные уровни обучения арабскому
  │       (переход от букв к словам и предложениям)
  │
  ├── prophet_story_generator.py
  │   └── Мультимодальные истории для Thurayya
  │       (текст + иллюстрации + аудиорассказ)
  │
  ├── quran_tafseer_generator.py
  │   └── Контент с толкованиями Корана
  │       (объяснения по сурам и аятам)
  │
  ├── distractor_generator.py
  │   └── Умные ложные ответы для тестов
  │       (по семантическому сходству)
  │
  ├── exercise_generator.py
  │   └── Интерактивные упражнения (45+ типов)
  │       (выбор типа из каталога)
  │
  └── image_generator.py
      └── Визуальный контент (через DALL-E или Midjourney API)

Каждый генератор работает по стандартному циклу:

[Загрузка конфигурации] → [Генерация] → [Валидация] → [Вставка в БД]

Подробности генератора: создание отвлекающих вариантов

Проблема
Для тестов с несколькими вариантами ответов ложные варианты должны быть:

  • правдоподобными (чтобы ребенок сразу не отверг их как неправильные)
  • связанными (семантически или фонетически похожими)
  • ясно отличаемыми (чтобы ребенок мог их различить при размышлении)

Плохие отвлекающие:

  • Вопрос: «Какое слово означает «книга»?»
  • Неправильные: «слон», «синий», «счастливый» — слишком очевидно

Хорошие отвлекающие:

  • Вопрос: «Какое слово означает «книга»?»
  • Варианты: «كتاب» (книга), «كاتب» (писатель), «مكتب» (офис), «كتب» (множественное книжки) — семантически связаны, требуют размышления

Реализация distractor_generator.py:

  1. Поиск по семантической близости:
    • Вычисление эмбеддингов правильного слова
    • Поиск слов с похожим значением (косинусное сходство 0.7-0.85)
    • Исключение слишком близких (синонимов)
  2. Фонетическое сходство:
    • Подбор по звуковым характеристикам для букв или звуков
    • Например, для буквы «ب» (Ба) отвлекающие: «ت» (Та), «ث» (Са) — звуковые семейства
  3. Взвешенный подбор в зависимости от сложности:
    • Для новичков — очень отличающиеся слова
    • Для продвинутых — тонкие отличия

Контроль качества: Человек + ИИ

Автоматическая проверка

  • Грамматика: морфологический анализ арабского
  • Диакритика: проверка точности ташкила
  • Набор символов: контроль отсутствия ошибок кодировки
  • Дубликаты: обнаружение идентичных материалов

Обязательная проверка человеком

  • Содержание Корана и таджвида: проверка исламским ученым (волонтёром)
  • Безопасность для детей: проверка ИИ на неподходящий язык
  • Культурная чувствительность: оценка на возможные нарушения
  • Точность: случайная выборка (10% контента)

Политика без отступлений
Если проверка не проходит, пайплайн останавливается и отправляет оповещение в Slack. Ошибки не попадают в продукцию без исправления.

Категории создаваемого контента

КатегорияОбъемГенераторКонтроль качестваЗапуск
Арабский словарный запас5,000+ элементовexercise_genАвтоматический1-я неделя
Суры Корана200+ (37 × 5-7 этапов)tafseer_genПроверка ученого2-я неделя
Истории о пророках50+prophet_story_genКультурная и безопасность3-я неделя
Произношение фонем100+ (28 букв × 3-4 варианта)audio_genАудиоинженер1-я неделя
Интерактивные игры45+ типов × 1000+ экземпляровgame_content_genИгровое тестированиеПостоянно
Итого10,000+НесколькоМногоуровневыйЭтапный

Стоимость и эффективность

Стоимость за единицу контента (с учетом ИИ и проверки людьми):

  • Простое упражнение на словарный запас: $0.05–0.10
  • Сура Корана (все 4 этапа): $5–10 (из-за проверки ученым)
  • История: $1–2

Средняя стоимость за 1000 элементов: $300–500

Ручное создание такого объема стоило бы $5,000–10,000 за 1000 элементов. Пайплайны с ИИ сокращают расходы в 10 раз, повышая объем и качество.

Почему это важно

Конкуренты не могут повторить, потому что:

  1. Масштаб: 10 000 материалов требует инфраструктуры
  2. Экспертиза в арабском: генерация отвлекающих вариантов сложна
  3. Чувствительность Корана: тесты у ученых требуют времени и доверия
  4. Постоянное обновление: новый контент генерируется еженедельно

Часто задаваемые вопросы

Вопрос: Насколько ИИ-контент качественен по сравнению с ручным?
Ответ: Для упражнений — чаще даже лучше, ИИ не устает и постоянен. Толкования Корана обязательно проверяют ученые. Для историй — сочетание ИИ и человеческой доработки. Идеальный баланс зависит от типа контента.

Вопрос: Замечают ли дети, что используют ИИ-генерированный материал?
Ответ: Нет, контент неотличим. Главное — точность проверена и содержание соответствует учебной программе, а не авторство.

Вопрос: Как избежать ошибок при генерации?
Ответ: Политика без отступлений: если проверка не прошла, весь пакет останавливается и отправляет сигнал. Предпочитаем 99% качественного контента, а не 100% с ошибками. Особое внимание уделяется всем Коран-контентам с проверкой людьми.

ПоделитьсяTwitterLinkedInWhatsApp

Похожие статьи