Цыплят по зиме считают
Весной мне было грустно за Google, как они пытались во время анонсов OpenAI вкидывать свои и это не впечатляло никак. Ту презентацию GPT-4o я назову одним из самых ярких моментов года и поставлю на полочку «Best of». Прошло полгода, контора во главе с Сэмом Альтманом продолжила обрастать странностями вокруг себя (военные зашли в управление, узнаваемые топы ушли, кто-то с попыткой переворота, бывшего разработчика, обвинявшего кампанию в чём-то, нашли мёртвым), а некогда «корпорация добра» с кладбищем закрытых проектов копила силы.
Декабрь, 2024. OpenAI, кажется, придумали классную маркетинговую штуку — 12 дней подряд стримить новинки. Чтоб шуметь и быть на слуху почти 2 недели. Удачный весенний момент в противопоставлении атмосферы тёплого домашнего официальности теплоте возвели в «вайб чего-то на коленке», но подготовили ли достаточного шума?
Что показали за 12 дней?
Наконец после долгого ожидания запустили в паблик модель генерации видео Sora, которая не выглядит чем-то сильно лучшим Minimax`а, а ещё зацензурена как не знаю что. Их взгляд на Интернет-поиск SearchGPT стал доступен на бесплатных аккаунтах, но не стал менее косячным. «Загуглить» всё ещё в безопасности. Рассказали про интеграцию в экосистему Apple (ничего нового), в WhatsApp (где водятся ЛЛамы), чуть прокачали голосовой режим, добавили что-то новое в API (любим его, пользуемся), шеринг камеры или рабочего стола в реальном времени (в этом не первые).
Для дорогих клиентов есть размышляющие модели o1 Pro с доступом по подписке за 200 долларов/месяц, уже на подходе дорогущая SOTA линейка о3 (двойку пропустили по причине кислорода занятости бренда) с впечатляющими небольшую часть пользователей возможностями. Настоящим программистам станет ещё проще работать. Кстати о них. В GitHub добавили бесплатный тариф Copilot, ассистента в написании кода. Он в т.ч. на GPT-4о работает.
**
Тем временем Google в этом же декабре:**
— Семейство Gemini 2.0 и скоростная Flash, пробуйте бесплатно. Кстати, вы помните, что у нас всё ещё бешенный контекст? Да, можно подключить к своему любимому решению ассистирования в написании кода. Но сначала гляньте это видео;
— Ещё моделька Gemini 2.0 Flash Thinking Experimental, но уже с рассуждением (принцип похож на о1, над скорейшим повторением этого сейчас работают лабы). Да, на основе лёгкой Flash. Да, контекстное окно всего в 32к токенов, но вы там бесплатно попробуйте 1500 запросов в день;
— Очень классный, жарчайщий Multimodal Live API with Gemini 2.0. Здесь можно взять и бесплатно тестить прям сейчас. В общем,** можно общаться с нейросетью голосом, показывать ей видео реального мира с вебки, расшаривать экран рабочего стола, исполнять код и искать что-то в Интернете. В телефонах это зовётся Project Astra и выглядит так. OpenAI ответили на это уже после**. У Anthropic есть кое что подобное, но не совсем это;
— Вот конкурент Sora — Veo 2. Демки выглядят лучшими на рынке, даже физика появляется. Ещё обновили генератор картинок, а то расслабился там Flux. В Gemini теперь можно просить вещи в духе «Нарисуй сову. А теперь нарисуй предыдущие этапы создания этого рисунка, чтоб я мог повторить»;
— Выпустили** самый мощный квантовый чип Willow**, чем напугали общественность. Кто-то подумал что теперь всё наше крипто- (не только валюты, ещё -графия) под угрозой быстрого взлома, но пока терпим. Задачи квантовых вычислений = задачи квантовых вычислений;
— Показали гарнитуру смешанной реальности от Samsung на новой операционная системе Android XR. Там классно интегрируются возможности Gemini, а AR показан на примерах простых приложений. Кажется, в 2025-м движуха в XR станет более осязаемой, ура;
— Запустили в медиа слух, что скоро появится «AI Mode» в поиске;
— Сервис NotebookLM (общение и генерация подкастов на основе документов. Хоть академических, хоть чеков из Бристоля. Нравится мне!) прокачали.
Такие вот гонки. В следующем году ждём развития ИИ-агентов и интеграции всего во вся. Напомню, что в экосистему Apple залетает OpenAI, а у Google всё своё и оно становится лучше.
t.me/staniverse/356* · 21 дек 2024*