Стало мне интересно как устроить что-то из «Чёрного зеркала» своими руками
Идея простая — создание цифрового двойника с моим стилем общения и прочим. То, что так можно я знал, но конкретные инструменты не трогал и списочком не сохранял в заметки. Просто дать инструкцию ChatGPT «Ты — такой-то. Тебя интересуют такие-то темы, ты имеешь больше экспертизы в том-то и меньше в женщинах. Твоя задача, примеры ответы и так далее» — недостаточно. Даже если отдельно прописать «у тебя странная способность постоянно насыпать неологизмов», оно будет не так на меня похоже.
Следовательно, чтобы ответы были больше похожи на меня — нужно закидать многотомником примеров именно моего общения в разных ситуациях с разными людьми (в диалоге по работе с меньшей вероятностью обсужу где в Кирове лучше всего делают мой любимый Флэт на миндальном).
Я могу выкачать свои переписки из VK и TG и привести их к нужному стандарту для обучения. Даже сделать срез по периодам времени (пусть Стас-школьник рассказывает Стасу-27-летнему бюджетнику о своих планах туристических поездок по миру. На потеху 30-летнему). Если мне не лень запариваться и хочется сделать виртуального себя публичным — отдельно проверяю не упоминал ли случайно в диалогах пароли, номера банковских карт и прочее, что не должно попасть в бота. Ну и там стоило бы подубрать обсуждения тем, разрешённых по Конституции, но запрещённых другими Книгами.
Вопрос: как и где дообучать? Есть развилка: идём в OpenAI/ChatGPT и приносим на блюдечке Сэму Альтману такой щедрый подарок набора своих реальных данных или используем свободные модели и дообучаем их. Если брать модели небольшого размера (например, 8В) — достаточно какой-нибудь RTX 3090 на 24ГБ. Или арендовать такую на несколько часов дообучения, выйдет рублей на 400. Дальше находим конкретные рабочие инструменты для файнтюнинга (см: unsloth), выбираем instruct модель мистраля/лламы и поехали.
Можно ли так делать копии бывших, ушедших или селебрити по интервью? Вот тут начинается территория крипоты и «Чёрного зеркала». Можно, но кроме этических моментов стоит учитывать, что как и в случае с влюблённостями или встречей с разбивкой на конкретные роли — вы видели и взаимодействовали только с той стороной, которую дали увидеть и которую дорисовали себе сами. Следовательно копия будет ограниченной и однобокой. В случае с селебами и публичными личностями — дистиллированную большими командами специалистов по имиджу и бренду. Ещё раз вспомните какой вы с лучшими друзьями и какой бы были оказавшись перед Пу…гачёвой с желанием построить музыкальную карьеру во времена до Интернета.
Так, кстати, крупные банки делают со своими службами поддержки — дообучают языковые модели на куче почищенных переписок органических операторов. Но мы же про леденящее, теми же инструментами! Детям можно оставить в наследство свою модельку без цензуры. Или разрешение на забрать аккаунты мессенджеров и выкачать все данные для обучения. На кладбищах правда скоро возможны голограммы с внешним видом/голосом/стилем речи усопших. Причём последнее без учёта коммуникаций в локальном формате стоит даже сейчас не дороже хорошего благоустройства участка 2х2.
Стоит с такими темами на быстрые свидания залетать?
Изображение к посту сгенерировано в локальном Flux`е.

t.me/staniverse/248* · 21 окт 2024*