эйай ньюз
Ir al canal en Telegram
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением. Ex-Staff Research Scientist в Meta Generative AI. Сейчас CEO&Founder AI стартапа в Швейцарии. Aвтор: @asanakoy PR: @ssnowysnow
Mostrar más84 337
Suscriptores
+4324 horas
+1317 días
+92930 días
Archivo de publicaciones
Photo unavailableShow in Telegram
Gemini 3 Pro доступна в AI Studio
SOTA по всем бенчам кроме SWE-Bench, где отстаёт от Sonnet 4.5 на 1 процентный пункт. Модель дороже на 20% чем 2.5 Pro, как она использует токены пока непонятно. Официального блогпоста пока что нет, но пару часов назад нашли model card, оттуда и скрин с бенчами.
https://aistudio.google.com/app/prompts/new_chat?model=gemini-3-pro-preview
@ai_newz
Вышел Grok 4.1
Это апдейт посттрейна поверх той же базовой модели Grok 3 на три триллиона параметров. Модель идёт как в ризонинг, так и в инстракт варианте. При этом нельзя просто так вызвать ризонера — запрос сначала в любом случае идёт в инстракт модель, после чего появляется кнопочка "think harder", которая уже перенаправляет запрос ризонеру.
В анонсе концентрируются на лучшем эмоциональном интеллекте и creative writing, с чем у оригинального Grok 4 были проблемы. Кроме этого команде удалось заметно уменшить количество галлюцинаций. Ну и на арене новый Grok занял первое место, но это мало что значит — вырвал первое место он у Gemini 2.5 Pro. Других бенчей xAI не опубликовали, так что вряд-ли там что-то заметно улучшилось.
Блогпост
@ai_newz
❤ 53👍 39🔥 13🫡 6
Heretic — автоматическое снятие цензуры с LLM
В прошлом году несколько исследователей решило разобраться как именно работает механизм отказов в языковых моделях, когда они блокируют "вредные" запросы. Оказалось что за отказ LLM выполнять запрос отвечает одно единственное направление в пространстве активаций. А вот сейчас на основе этого ресёрча сделали софт для автоматического снятия цензуры.
Heretic вычисляет "направления отказа" как разницу средних активаций между вредными и безвредными промптами, затем ортогонализирует веса аттеншна и MLP проекций для удаления этого направления. Оптимизатор автоматически подбирает параметры подавления, включая форму весового ядра и дробный индекс направления с интерполяцией между слоями, минимизируя одновременно количество отказов и KL-divergence от оригинальной модели.
Работает полностью автоматически — просто запускаешь на любой поддерживаемой модели и через 45 минут получаешь версию без цензуры. Поддерживает большинство популярных архитектур включая Llama, Qwen, Gemma и даже некоторые мультимодальные модели. Той же gpt-oss снятие цензуры точно не помешает.
https://github.com/p-e-w/heretic
@ai_newz
«Сначала запусти, а потом улучшай» — эту мантру знает каждый фаундер. Чтобы проверить её на практике, в комьюнити «Короче, Капитан» запустили челлендж «12 запусков за 12 месяцев».
Вот как это работает:
- Фокус: Берут одну задачу с уже проверенным спросом.
- Скорость и бюджет: Ровно месяц на разработку и запуск в США/ЕС. Средний бюджет на продвижение — всего $150.
- Анализ: В конце месяца — честный разбор полётов: что сработало, а что нет.
В реальном времени можно следить за запуском, продвижением и доходом по каждому проекту. Хороший способ прокачать насмотренность и перенять работающие подходы, даже если вы инженер, а не фаундер.
Подписаться: @its_capitan
#промо
😁 63👍 22❤ 10🤯 10💔 9🙏 1🫡 1🦄 1
Нейродайджест за неделю (#94)
LLM
- GPT 5.1 — Большой упор на пользователей, которым не понравилась личность GPT-5. Модель стала дружелюбнее, лучше следует инструкциям, а Thinking-версия теперь эффективнее распределяет ресурсы.
Генеративные модели
- Обновление Flow — Google продолжает прокачивать Veo. Появился контроль над камерой и видео-инпейнт (Insert) в уже готовых генерациях.
- Тизер nano-banana2 — В X тизерят новую версию. По слухам, будет генерить в 4к и использовать Gemini 3.0 как текстовый энкодер.
Прочее
- SIMA 2 — Апгрейд AI-агента для игр от Google DeepMind. Может рассуждать о целях, играть в незнакомые игры и самообучаться. Серьёзный шаг к универсальным ИИ-агентам.
> Читать дайджест #93
#дайджест
@ai_newz
👍 34❤ 18⚡ 7🔥 3💔 2🫡 1
01:38
Video unavailableShow in Telegram
Google DeepMind выкатили SIMA 2 — апгрейднутую версию AI агента для игр. В отличие от первой версии, которая могла выполнять лишь базовые действия, SIMA 2 может рассуждать о высокоуровневых целях и достигать их, болтать с игроком и даже играть в игры, которые никогда не видел — типа ASKA или MineDojo. Ну и конечно может ориентироваться в энвайроментах которые создаёт Genie 3. Это стало возможно во многом из-за интеграции Gemini с более лайтовой агентной моделью, которая и занимается непосредственным управлением (Система 1 и Система 2 в действии).
Главная новая возможность — самообучение: SIMA 2 сама набивает опыт, оценивает его через Gemini и улучшается без помощи человека. По бенчмаркам уже довольно близко подобралась к человеческой производительности. Конечно, есть косяки — с длинными многоходовками пока туго, длины контекста не хватает, да и с точным управлением мышкой проблемы. В любом случае это серьезный шаг к универсальным ИИ-агентам, которых можно будет засунуть куда угодно. Техрепорта пока нет, но обещают
@ai_newz
sima2.mp426.48 MB
🔥 122👍 28❤🔥 16❤ 15🤯 4🦄 2
Photo unavailableShow in Telegram
GPT 5.1 — вайбы получше 🎧
С этим апдейтом видно большой упор на пользователей, которые остались на 4o из-за того что им не понравилась личность GPT-5 (их, внезапно, довольно много). Первым пунктом в блогпосте идёт то что модель более дружелюбная и что с ней приятнее общаться, при этом бенчмарков там нет совсем.
Кроме этого улучшили следование инструкциям (без цифр), а Instant модель теперь в любом случае будет думать над сложными вопросами. Thinking версию тоже причесали — теперь она тратит меньше компьюта на простые вопросы, а над сложными думает дольше.
Доступ уже раскатывают, начинают с платных пользователей. В API модель должна появится на неделе.
@ai_newz
❤ 113👍 49😁 25🔥 15🦄 5
Обновление Flow
Пока все следят за хайпом вокруг Sora, Google продолжает тихо, но методично прокачивать Veo. В Flow появился полноценный контроль над камерой, причём уже в готовых генерациях.
Другие модели тоже воспринимают инструкции по движению камеры, но обычно это делается до генерации. Google же добавили возможность делать это после: сначала генерируешь ролик, а потом можешь изменить положение камеры, траекторию её движения или добавить детали через Insert (первые два работают лучше на кадрах со статичной камерой, что логично). Insert, кстати, это буквально видео-инпейнт — выделяешь зону и пишешь, что изменить. И это ещё один камень в огород Runway Aleph, который теперь выигрывает только тем, что в него можно загружать реальное видео.
Insert — очевидно, золотой инструмент для доработки шотов и чистки артефактов. А вот зачем нужны остальные две функции, пока не очень понятно, ведь у Veo с контролем камеры и так всё хорошо, ему не нужен этот костыль, как у старых версий Kling. Пайплайн "генерация статики → добавление движения" звучит странно, разве что для мультикамерного монтажа. Возможно, дельцы в комментариях подскажут зачем это в нейропродакшене. А вот как способ получать дополнительные ракурсы на уже "отснятом" материале — это звучит очень интересно. Про бесплатный VFX с Insert, я вообще молчу.
Sora, конечно, подкупает своими мультишот-видео по 25 секунд, но Veo делает ставку на контроль и предсказуемость, а для этого мультишот не нужен.
К слову, Krea и Runway недавно запустили свои ноды, но ведь, по сути, Opal уже имеет такой же функционал. Да, скриптов не хватает, но какие-то простейшие автоматизации по работе с Nano Banana × Veo уже можно строить. Это к слову про курс на профессионалов.
Пока доступно только подписчикам Ultra, но зато безлимитно.
Flow
@ai_newz
-oBn0EUuuM8eC59A.mp48.39 MB
G9xoSUeWcEmxxddW.mp44.54 MB
pQ1iLWTSH3Md2JKm.mp44.17 MB
❤ 95🔥 49👍 17❤🔥 10⚡ 3🦄 2🫡 1
Photo unavailableShow in Telegram
Менеджер и директор — это разные роли, которые требуют своего майндсета и навыков. Стратоплан запускает два бесплатных проекта, чтобы помочь сделать этот переход.
Ключевой вызов для менеджера — переключиться из майндсета исполнителя в майндсет руководителя. Если вы становитесь директором, перед вами новая реальность: решения принимаете вы, и нужно не просто реагировать на проблемы, а стратегически смотреть в будущее.
Разобраться в этих ролях помогут на бесплатных интенсивах:
- Менеджер:101 — здесь разберут, из чего на самом деле состоит роль управленца и как действовать в непростых ситуациях. (17-18 ноября).
- Директор:101 — на этом интенсиве научат стратегическому мышлению и принятию решений. (19-20 ноября).
Оба интенсива пройдут с 16:00 до 19:00 (GMT+3). Общая Q&A сессия — 21 ноября.
На выходе участники получат инструменты для работы, сертификат для LinkedIn и материалы от школы, признанной лучшей для руководителей в 2024 году по результатам исследования Devcrowd.
Участие в обоих проектах бесплатное.
Пройти регистрацию на Менеджер:101
Пройти регистрацию на Директор:101
#промо
👍 25❤ 13🤯 13😁 9🔥 5😱 2💔 2🫡 1
Нейродайджест за неделю (#93)
LLM
- Kimi K2 Thinking — Новая модель от Moonshot, крайне сильные бенчи, может выполнять сотни последовательных тул-колов.
Генеративные модели
- Нодовые редакторы — Krea и Runway с разницей в пару недель запустили нодовые интерфейсы, по сути клоны ComfyUI, для большего контроля над генерацией. Закос на про-тулы.
Прочее
- Google Opal — Google раскатали клон n8n с визуальным редактором на кучу стран. Пока сырой и ограничен экосистемой, но хороший способ вкатиться в "нодовую культуру" или сплести бесконечную паутину из нод gemini.
- Embodied Avatar — Unitree показали систему телеуправления роботами. Позволяет управлять всем телом робота через лёгкий экзоскелет или даже повторять движения с видео в реальном времени.
Личное
- Прямое включение из Сан-Франциско — AI-тусовка очень плотная, каждому фаундеру стоит проводить здесь минимум 2-3 недели каждый квартал.
> Читать дайджест #92
#дайджест
@ai_newz
Генеративные инструменты всё больше ориентируются на профессионалов.
Krea и Runway с разницей в пару недель запустили нодовые интерфейсы, по сути клоны ComfyUI. Они позволяют комбинировать несколько моделей в кастомный пайплайн и делать куда более сложные генерации. По фичам это конечно же отстаёт от Comfy, но сильно лучше по юзабельности — не нужно качать веса, играться с API ключами и т.д.
Больше всего появление таких тулов показывает наличие спроса — студии и фрилансеры готовы платить за дополнительный контроль, который даёт возможность создавать более предсказуемые и качественные результаты для коммерческих проектов, экономя время на итерациях и правках. Если хотите попробовать новые инструменты, то Runway Workflows уже доступен всем подписчикам, а вот Krea Nodes пока ещё в раннем доступе.
@ai_newz
kreanodes.mp43.89 MB
runwayworkflows.mp46.68 MB
Разработчики все чаще используют ИИ-агентов — SourceCraft от Yandex B2B Tech за квартал вырос по активности на 50%. Почему это важно? Агенты могут сами собирать проект: от создания репозитория, до написания кода, тестов и деплоя. 60% используют их для рутины и рефакторинга, а 15% для проектирования архитектуры. По этому поводу SourceCraft увеличил лимиты в 2.5 раза — теперь можно делать до 1000 операций с агентом в неделю. И использовать его в вебе или как плагин.
По данным Google Cloud/DORA — 80% отмечают рост продуктивности, 59% видят плюс в качестве кода.
От себя могу добавить, что на деле до замены агентами джунов еще далековато, и все еще стоит очень внимательно проверять ai-generated код, и стараться не писать вермешели на тысячи строк. Лично я использую ИИ как умный автокомплит для небольших блоков кода или тестов, ну либо для одноразового boilerplate код, который не планирую поддерживать. А вы как используете ИИ в разработке? Доверяете агентам писать продакшен-код?
@ai_newz
😁 110👍 45🫡 14🦄 11❤ 10🔥 5💯 5💔 3
02:05
Video unavailableShow in Telegram
Google Opal — убийца n8n? (еще нет)
Google тихо выкатил Opal — свой клон n8n с визуальным редактором и нодами для автоматизации. Многие уже успели заклеймить его убийцей n8n и AgentKit, но пока это скорее очередной эксперимент. Често говоря, я значально думал что n8n придется несладко, т.к. очевидно было, что все LLM лабы в какой-то момент сделают свою обвязку для пайаплайна агентов, это было делом времени.
UI в Opal приятный, можно изменять воркфлоу промптом (даже голосом), и всё это бесплатно. Правда, там только сервисы Google: Gemini, Imagen 4, Veo (бесплатно!), Lyria 2 и т.д. Подключить что-то стороннее нельзя.
Но на практике всё сыро. Я попробовал собрать на нём контент-завод для "рекламы", но Opal забыл объединить сгенерированные видео. Попытка решить проблему через Python-скрипт провалилась — ffmpeg туда не завезли, хотя функция
execute code предусмотрена.
Самый полезный юзкейс сейчас — собирать сложные цепочки из нескольких LLM. Например, одна модель пишет план отчёта, три другие параллельно генерируют части, а в конце всё собирается вместе (если вам не хватает длины ответа обычной Gemini). Или можно выстроить пайплайн: сценарий → раскадровка → картинки → видео, правда, помним про лимиты.
Итог: Opal пока может делать не больше, чем Canvas в Gemini App. Это не убийца n8n, а скорее эксперимент (так он и называется) и хороший способ вкатиться в "нодовую культуру" благодаря простому интерфейсу и ограниченному функционалу — n8n поначалу может пугать. Побаловаться вечерок можно, но для серьёзных задач инструмент пока не готов.
Кстати, Google завезли ещё кучу подобных мини-аппов, которым не суждено стать полноценными продуктами. Pomelli, кстати, как раз один из них. Ставьте единорога 🦄, если интересен обзор и на другие.
@ai_newz4.25 MB
🦄 371👍 36❤ 28🔥 6⚡ 1🙏 1
Ogon.AI запускают Early-Stage Product Hackathon
Это конкурс для команд, у которых уже есть готовый продукт или MVP, и они хотят получить экспертную оценку и помощь в масштабировании.
Участников ждёт экспертная оценка продукта, UX и технической реализации, обратная связь от опытных основателей и помощь в выходе на глобальный рынок.
Призовой фонд:
1 место — $1,500
2 место — $1,000
3 место — $500
Победители также получат индивидуальные консультации с экспертами Ogon.AI.
Таймлайн (Dubai time):
- До 5 декабря (23:59): дедлайн подачи заявок.
- 6–16 декабря: тестирование и оценка жюри.
- 17 декабря: объявление победителей.
Формат: Онлайн.
Участвовать можно командой (до 10 человек) или индивидуально.
Регистрация
Чат участников
#промо
😁 91❤ 11🔥 7👍 4🫡 2😱 1🦄 1
01:00
Video unavailableShow in Telegram
Прямое включение из Сан Франциско.
Погода солнечная, AI тусовка очень плотная. Ещё раз убеждаюсь (теперь уже точно), что каждому фаундеру стоит проводить здесь минимум 2-3 недели каждый квартал, иначе вы много чего упускаете!
#личное @ai_newz
6.04 MB
Kimi K2 Thinking
Больше всего впечатляет возможность выполнять сотни тулколов последовательно преследуя одну задачу. Моделька крайне эффективна в этом — 44,9% на текстовой части HLE с тулюзом это очень хорошие результаты. Без тулов она выдаёт 23.9%, а с параллельным скейлингом вроде GPT-5 Pro/Gemini Deep Think вообще 51%.
Распространяется модель исключительно в int4, все результаты бенчмарков от квантизированной версии модели. Moonshot говорят что потерь качества от квантизации нет, но проверить это не выйдет.
Моделька уже доступна на kimi.com (с ограниченным набором тулов, полноценный агентный режим обещают скоро), на 🤗 и в API (пока только официальном). Окно контекста остаётся прежним — 256к, цена тоже остаётся как и у оригинальной K2.
Блогпост
Веса
@ai_newz
❤ 98👍 40🔥 23❤🔥 1
01:49
Video unavailableShow in Telegram
Embodied Avatar — пора вспомнить Живую Сталь
Unitree показали собственную систему телеуправления роботами. В отличие от большинства подобных систем она позволяет управлять всем телом, а не только верхней частью робота. Выглядит она как довольно лёгкий экзоскелет, который цепляется поверх одежды.
Кроме аппаратного захвата движений, компания экспериментируют с повторением движений прямо с видео, причём в реальном времени с очень небольшой задержкой. При обучении моделей из видео можно получать огромное количество данных для обучения базовой модели, которую потом будут тюнить на данных с полноценных систем телеуправления.
@ai_newz
fullbody.mp434.99 MB
Нейродайджест за неделю (#92)
LLM
- Релизнули веса Minimax M2 — Китайский SOTA-ризонер среди открытых моделей. На удивление компактный (230B/10B), но обходит более крупных конкурентов. API временно бесплатно.
- OpenAI теперь for-profit — Компания провела реструктуризацию, теперь коммерческая часть управляется некоммерческим фондом. Фонд получил долю в ~$130 миллиардов, которые пойдут на исследования в области медицины и AI-безопасности.
- Cursor 2.0 — Новая версия с интерфейсом для управления несколькими агентами, голосовым режимом и, главное, собственной быстрой и сильной моделью Composer.
Генеративные модели
- Pomelli — "Убийца" Canva от гугл: кидаешь ссылку на сайт, а тулза генерирует готовые рекламные креативы с текстом и дизайном, которые можно докрутить вручную.
Прочее
- NEO — робот-домработник от 1X — Может выполнять всю рутину по дому, от поливки цветов до уборки. Доступен по предзаказу за $20к или по подписке за $500/мес.
- Первая H100 вышла в космос — Starcloud запустили спутник с H100 на борту. Это тест для будущих гигаваттных дата-центров на орбите, которые будут питаться от постоянного солнечного света.
> Читать дайджест #91
#дайджест
@ai_newz
00:05
Video unavailableShow in Telegram
Первая H100 вышла в космос
В небольшом спутнике размером с мини-холодильник влезли солнечные панели, радиаторы и собственно компьютер с одной видеокартой. В перспективе компания Starcloud собирается строить в космосе гигантские датацентры гигаваттного класса с миллионами видеокарт.
Ключевое преимущество— на гелиосинхронной орбите всегда светит солнце, что позволяет использовать в разы меньше солнечных панелей и не требует батарей или дополнительных электростанций для работы датацентра ночью. Это позволяет заметно снизить цены на электричество и убирает зависимость от целых классов дефицитных компонентов с гигантскими сроками поставки.
Датацентр на пять гигаватт вместе с солнечными панелями будет весить примерно 20 тысяч тонн и занимать примерно 16 километров по площади. Для контекста: за всю историю космических полётов на орбиту суммарно было выведено около 40 тысяч тонн, так что цель вывода такой махины на орбиту амбициозная, но не невозможная.
Главный вопрос в цене — в их вайтпейпере они рассчитывают на стоимость вывода килограмма на орбиту в $30, но экономика сходится и при цене в пару раз больше. На текущих ракетах такой низкой цены не добиться, нужно ждать ввода в эксплуатацию Starship. А пока они тестят системы питания и охлаждения, да и в целом как видеокарта ведёт себя в космосе.
@ai_newz
starcloud.mp42.48 KB
🔥 172😁 72🤯 52🦄 17❤ 16👍 16💔 2😱 1💯 1
