Моя Джой тоже не дома крутится, но я изучил вопрос, ведь завтра разбогатею GPU можно брать и в аренду
У нас, напомню, задействовано минимум 3 модели:
Speech-to-Text (чтобы превратить голос в текст), LLM (языковая модель, генерирует текст) и Text-to-Speech (озвучивает заданным голосом результат генерации LLM)
Выбираем только то, что можно запускать локально или на арендованном сервере. Очень кстати, что две из трёх позиций пригождаются для других задач, например получить расшифровку лекции и дальше что-то сделать с этим текстом.
1. Speech-to-Text
Есть лучшее — Whisper от OpenAI. Для коротких фраз сойдёт и Vosk, он легче. Смотреть в моменте туда, где русский лучше работает за меньше ресурсов.
2. LLM
Эта часть больше других упирается в железо и память, а разные модели лучше справляются с разными задачами. Использование открытых моделек — это про просторы файнтюнинга и отсутствие лишней цензуры проприетарных решений. Хотя тот же ChatGPT или Claude по API не такие обрезанный на выражения, как в официальных сервисах по подписке.
Здесь я бы смотрел бенчмарк ролплея на русском, сейчас для меня кажется оптимальным использовать какой-то из abliterated файнтюнов Mistral NeMo 12B. Для посмотреть как работает и без ожиданий отличного языка и ума есть модельки размером 2B, такое и на простом ПК/смартфоне должно пойти.
Чтобы русский был ещё более разговорным и нужным вам, подумайте о том, чтобы зафайнтюнить на имеющихся данных. Для этого используется Unsloth и арендованный на несколько часов GPU (не так дорого, как звучит). Если очень захотеть можно использовать и англоязычные модели на родном их языке обучения, например, чтоб на первом шаге переводилось туда, а перед третьим отдельным переводилось обратно на наш. Но стоит ли шкурка выделки?
3. Text-to-Speech
Здесь, по состоянию на январь, я бы выбирал между Silero TTS и XTTS-v2. Энтузиасты сделали их не такими плохими в русском языке, как было. И да, можно чтоб говорило любым нужным вам голосом. Настолько любым, что напоминаю о существовании грани между «весёлый эксперимент» и «Black Mirror`ная крипота».
Дальше подключаем всё в Voxta или SillyTavern и без 3D уже всё работает. Карточки персонажей для вдохновения берём тут.

t.me/staniverse/388* · 14 янв 2025*