Alphazed применяет автоматизированные ИИ-пайплайны для генерации и курирования свыше 10 000 образовательных материалов — включая упражнения по арабскому словарному запасу, тренировку произношения, последовательности для запоминания Корана и интерактивные истории. Пайплайн объединяет OpenAI для генерации текста, Google Cloud TTS для аудио, специальные генераторы изображений и человеческий контроль качества для масштабного производства контента, соответствующего учебной программе.
Стек генерации контента
Генерация текста
- OpenAI GPT-4o-mini: создает задания, ложные варианты ответа, сценарии историй, толкования Корана
- Настройка запросов: используют точные подсказки, чтобы результат соответствовал уровням таксономии Блума
- Пример запроса: «Сгенерируй 5 правдоподобных ложных вариантов для арабского слова «كتاب» (книга). Варианты должны быть семантически связаны, но явно отличаться. Уровень: средний, дети 6–8 лет.»
Генерация аудио
- Google Cloud TTS (голоса WaveNet): создает аудио высокого качества на арабском языке
- Разнообразие голосов: мужские и женские, разная скорость речи и эмоциональные оттенки
- Специальное произношение: диакритические знаки влияют на выбор фонем для аутентичного чтения Корана
- Извлечение меток речи: таймкоды фонем для синхронизации губ (см. блог #3)
Продвинутое аудио
- ElevenLabs для многоязычных озвучек: маркетинговые видео, вводные ролики приложений
- Музыка: безлицензионные фоновые треки с Epidemic Sound
Генерация изображений
- Пользовательские изображения-отвлекающие via DALL-E или Midjourney
- Векторная графика для элементов интерфейса
- Иллюстрации персонажей для сюжетных материалов
Архитектура пайплайна
Репозиторий: alphazed-content-utils (Python, 20+ модулей генераторов)
Генераторы (независимые, компонуемые):
├── amal_level_generator.py
│ └── Создаёт полные уровни обучения арабскому
│ (переход от букв к словам и предложениям)
│
├── prophet_story_generator.py
│ └── Мультимодальные истории для Thurayya
│ (текст + иллюстрации + аудиорассказ)
│
├── quran_tafseer_generator.py
│ └── Контент с толкованиями Корана
│ (объяснения по сурам и аятам)
│
├── distractor_generator.py
│ └── Умные ложные ответы для тестов
│ (по семантическому сходству)
│
├── exercise_generator.py
│ └── Интерактивные упражнения (45+ типов)
│ (выбор типа из каталога)
│
└── image_generator.py
└── Визуальный контент (через DALL-E или Midjourney API)
Каждый генератор работает по стандартному циклу:
[Загрузка конфигурации] → [Генерация] → [Валидация] → [Вставка в БД]
Подробности генератора: создание отвлекающих вариантов
Проблема
Для тестов с несколькими вариантами ответов ложные варианты должны быть:
- правдоподобными (чтобы ребенок сразу не отверг их как неправильные)
- связанными (семантически или фонетически похожими)
- ясно отличаемыми (чтобы ребенок мог их различить при размышлении)
Плохие отвлекающие:
- Вопрос: «Какое слово означает «книга»?»
- Неправильные: «слон», «синий», «счастливый» — слишком очевидно
Хорошие отвлекающие:
- Вопрос: «Какое слово означает «книга»?»
- Варианты: «كتاب» (книга), «كاتب» (писатель), «مكتب» (офис), «كتب» (множественное книжки) — семантически связаны, требуют размышления
Реализация distractor_generator.py:
- Поиск по семантической близости:
- Вычисление эмбеддингов правильного слова
- Поиск слов с похожим значением (косинусное сходство 0.7-0.85)
- Исключение слишком близких (синонимов)
- Фонетическое сходство:
- Подбор по звуковым характеристикам для букв или звуков
- Например, для буквы «ب» (Ба) отвлекающие: «ت» (Та), «ث» (Са) — звуковые семейства
- Взвешенный подбор в зависимости от сложности:
- Для новичков — очень отличающиеся слова
- Для продвинутых — тонкие отличия
Контроль качества: Человек + ИИ
Автоматическая проверка
- Грамматика: морфологический анализ арабского
- Диакритика: проверка точности ташкила
- Набор символов: контроль отсутствия ошибок кодировки
- Дубликаты: обнаружение идентичных материалов
Обязательная проверка человеком
- Содержание Корана и таджвида: проверка исламским ученым (волонтёром)
- Безопасность для детей: проверка ИИ на неподходящий язык
- Культурная чувствительность: оценка на возможные нарушения
- Точность: случайная выборка (10% контента)
Политика без отступлений
Если проверка не проходит, пайплайн останавливается и отправляет оповещение в Slack. Ошибки не попадают в продукцию без исправления.
Категории создаваемого контента
| Категория | Объем | Генератор | Контроль качества | Запуск |
|---|---|---|---|---|
| Арабский словарный запас | 5,000+ элементов | exercise_gen | Автоматический | 1-я неделя |
| Суры Корана | 200+ (37 × 5-7 этапов) | tafseer_gen | Проверка ученого | 2-я неделя |
| Истории о пророках | 50+ | prophet_story_gen | Культурная и безопасность | 3-я неделя |
| Произношение фонем | 100+ (28 букв × 3-4 варианта) | audio_gen | Аудиоинженер | 1-я неделя |
| Интерактивные игры | 45+ типов × 1000+ экземпляров | game_content_gen | Игровое тестирование | Постоянно |
| Итого | 10,000+ | Несколько | Многоуровневый | Этапный |
Стоимость и эффективность
Стоимость за единицу контента (с учетом ИИ и проверки людьми):
- Простое упражнение на словарный запас: $0.05–0.10
- Сура Корана (все 4 этапа): $5–10 (из-за проверки ученым)
- История: $1–2
Средняя стоимость за 1000 элементов: $300–500
Ручное создание такого объема стоило бы $5,000–10,000 за 1000 элементов. Пайплайны с ИИ сокращают расходы в 10 раз, повышая объем и качество.
Почему это важно
Конкуренты не могут повторить, потому что:
- Масштаб: 10 000 материалов требует инфраструктуры
- Экспертиза в арабском: генерация отвлекающих вариантов сложна
- Чувствительность Корана: тесты у ученых требуют времени и доверия
- Постоянное обновление: новый контент генерируется еженедельно
Часто задаваемые вопросы
Вопрос: Насколько ИИ-контент качественен по сравнению с ручным?
Ответ: Для упражнений — чаще даже лучше, ИИ не устает и постоянен. Толкования Корана обязательно проверяют ученые. Для историй — сочетание ИИ и человеческой доработки. Идеальный баланс зависит от типа контента.
Вопрос: Замечают ли дети, что используют ИИ-генерированный материал?
Ответ: Нет, контент неотличим. Главное — точность проверена и содержание соответствует учебной программе, а не авторство.
Вопрос: Как избежать ошибок при генерации?
Ответ: Политика без отступлений: если проверка не прошла, весь пакет останавливается и отправляет сигнал. Предпочитаем 99% качественного контента, а не 100% с ошибками. Особое внимание уделяется всем Коран-контентам с проверкой людьми.


