ИИ за вас ещё и в браузере сидеть будет
Теперь и OpenAI умеет смотреть на экран вашего монитора. Представили долгожданный Operator — автономного ИИ-агента, который будет брать на себя рутину. Бронировать отели, заказывать еду, искать билеты и даже код писать. Просто говоришь задачу — он её делает где-то в своём облаке, изредка прося ввести CVV карты и пройти капчу. Выглядит удобным, как это и бывает у Альтмана и сo. Доступ пока только для платных подписчиков из США.
И да, вы уже такое видели! У Anthropic с их Claude есть функция Computer Use аж с октября 2024. А Google малого того, что вкладывает в Anthropic денежку (на днях ещё $1 млрд подкинут), так и свою мультимодальную Gemini c расшариванием экрана имеет. Справедливости ради, они хоть и представлены раньше, но чем-то доступным и лёгким для массового пользователя кажется именно Operator. По бенчмаркам он тоже лучше.
Но что если вам хочется чего-то локального? Такое есть на примете, мои дорогие любители Python и LangChain. Open-source библиотека browser-use для интеграции ИИ-агентов с браузером. За очень короткое время проект набрал почти 16К звёзд на GitHub и поддержку Y Combinator. В качестве модели подключайте хоть GPT-4o по API, хоть локальный Qwen, хоть DeepSeek. Для знакомства полистайте эту забавную статью с Хабра. На видео ниже потестировал это всё дело с Gemini 2.0 Flash.
t.me/staniverse/401* · 23 янв 2025*