эйай ньюз
Ir al canal en Telegram
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением. Ex-Staff Research Scientist в Meta Generative AI. Сейчас CEO&Founder AI стартапа в Швейцарии. Aвтор: @asanakoy PR: @ssnowysnow
Mostrar más84 337
Suscriptores
+4324 horas
+1317 días
+92930 días
Archivo de publicaciones
Photo unavailableShow in Telegram
Большинство окончательно зациклилось на промтах
В то же время сильные личности совершают эволюционный скачок в жизни и бизнесе, используя более системный подход
Подробно об этом сквозь призму реальной практики и личных инсайтов:
🧬🔑 Тревога как Трамплин в ИИ
P.S. Доступ к статье бесплатный, но открыт до 10 декабря - успейте зафиксировать ключевые тезисы ✍️
#промо
😁 118🦄 27🤯 16❤ 11👍 6😱 6💔 5🫡 4🔥 3🙏 1
Photo unavailableShow in Telegram
DeepSeek V3.2 и V3.2 Speciale
На бенчах показывает крайне сильный перформанс, сравнимый с GPT-5 High. Модель использует DeepSeek Sparse Attention, заметно более эффективно работающий с длинным контекстом.
V3.2 Speciale, версия с повышенным использованием компьюта, местами обходит Gemini 3 Pro Preview, но использует при этом заметно больше токенов (но учитывая разницу в цене, Speciale всё равно в разы дешевле). К тому же Speciale достигает той же золотой медали на IMO что и DeepSeek Math V2, но не останавливается на этом и выдаёт перформанс на уровне золотой медали ещё и на международной олимпиаде по информатике (IOI).
В API DeepSeek теперь доступен тулюз для ризонера. Цена на модели не изменилась и остаётся $0.28/$0.42 за миллион токенов. DeepSeek V3.2 Speciale будет временно доступна в API без тулюза до 15 декабря.
Веса V3.2
Веса V3.2 Speciale
Техрепорт
@ai_newz
Нейродайджест за неделю (#96)
LLM
- Claude Opus 4.5 — Anthropic выпустили новую SOTA-модель для кодинга, которая обходит всех конкурентов. При этом цена за токен упала в 3 раза, что для Anthropic нехарактерно.
- DeepResearch для шоппинга — OpenAI сделали тюн GPT-5 mini, который интерактивно ищет товары, а пользователь направляет поиск в реальном времени.
Генеративные модели
- FLUX.2 — Black Forest Labs выпустили прямого конкурента Nano Banana Pro для консистентного редактирования изображений. Веса Dev-версии уже на 🤗.
- Загадочный Whisper Thunder — На Artificial Analysis Leaderboard появился новый SOTA-видеогенератор.
Прочее
- Как генерить презентации? — Большой гайд по AI-инструментам. Топ-3: Gamma, Manus и Genspark. Бонусом — пара креативных идей.
- Интервью с Ильёй Суцкевером — Эпоха "масштабируем всё предобучением" заканчивается, а будущее — за AI-учениками, которые дообучаются в реальном мире.
- Техрепорт FLUX.1 Kontext — Разбор того, как модель работает с референсами.
- TPU v7 дешевле GB300 — Диаграмма от SemiAnalysis показывает, что для Google тренировка на новых TPU в два раза дешевле, чем на чипах Nvidia.
> Читать дайджест #95
#дайджест
@ai_newz
👍 44❤ 32🔥 14⚡ 4😁 1
Photo unavailableShow in Telegram
Интересная диаграмма из свежего репорта SemiAnalysis
Показывает насколько дешевле свежие TPU v7 Ironwood для Google по сравнению с GB300. При сопоставимых MFU использование TPU для тренировки стоит в два раза меньше. Даже с неплохой наценкой от гугла, использование TPU для тренировки всё равно может оказаться заметно дешевле для сторонних компаний вроде Anthropic.
@ai_newz
Photo unavailableShow in Telegram
D2C: альтернатива эпп сторам или как сохранить на комиссиях и стать ближе с пользователем на примере геймдева
Стоимость привлечения пользователей растёт на 20–40% каждый год, и достичь точки прибыльности становится всё сложнее. Сегодня даже отличные игры часто не могут выйти в плюс: платформы забирают до 30% в виде комиссий.
Решение, которое всё активнее использует индустрия, — D2C (Direct-to-Consumer). Компании создают собственные веб-магазины, чтобы напрямую работать с игроками. Это даёт больше контроля над доходом, прямые данные об игроках и, как следствие, более высокую маржу.
Разобраться в этом тренде, который рано или поздно затронет и другие цифровые рынки, поможет канал D2C Game Changers. Ребята собирают лучшие практики, кейсы и проверенные решения по построению прямого канала с пользователями.
Подписаться: @d2cgamechangers
#промо
😁 35❤ 10👍 6🔥 3💔 3🦄 1
Repost from TgId: 1134760744
Новый видеогенератор (или новая версия старого)
На Artificial Analysis Leaderboard в разделе Text-to-Video появился новый загадочный генератор
Whisper Thunder и сейчас он занимает первое место.
Кто бы это мог быть? 7 сек, 720р.
У него немного китайский look, но поэтому я ставлю на к китайцев.
Через пару дней узнаем, кто это..
@cgevent
New Secret AI Video ModelCodename_ Whisper Thunder.mp41.58 MB
_Whisper Thunder_ New AI modelsPROMPT_A panoramic.mp41.35 MB
Didn't save the prompt on this one, David_Whisper .mp42.00 MB
THE WORD IS OUT!Whisper Thunder (aka David) is now.mp41.72 MB
One of my favorite Whisper Thunder samplesPrompt_ .mp41.33 MB
@ArtificialAnlys Prompt_ From a São Paulo rooftop,.mp41.12 MB
A new video model has hit the arena 👀Whisper Thun.mp49.21 KB
🤯 39🔥 25❤ 22👍 8🫡 4
Photo unavailableShow in Telegram
Техрепорт FLUX.1 Kontext — как FLUX работает с референсами
За основу взяли привычную архитектуру FLUX.1, которую со второй версией практически не изменили. Модель дообучают с той же rectified-flow loss на парах результат | референс+текст. Каждый референсный кадр превращают в визуальные токены, ставят их перед целевыми, а 3D RoPE эмбеддинги (привет видео моделям) сдвигают на фиксированный шаг, который отделяет контекст от результата. Попытка сшивать каналы вместо токенов работала хуже, поэтому от неё отказались.
Плюс такого механизма — референсов может быть несколько и они неплохо скейлятся. FLUX.1 Kontext поддерживал лишь один референс, а FLUX.2 поддерживает уже до 10. Но умельцы и во времена Kontext находили способ засовывать несколько референсов — просто склеивали несколько картинок в одну.
Что победит — такой механизм перекликающийся с видеомоделями или просто засовывание изображений в контекст как у Nano Banana/GPT-Image, ещё не очевидно. Nano Banana Pro хоть и лучше по качеству, но вопрос сколько из этой разницы идёт от архитектуры, а сколько просто из громадного скейла Gemini 3 Pro. Ну и ведь всегда могут появится ещё и новые варианты работы с референсами.
Техрепорт
@ai_newz
Пока Google всё ещё раскатывает свои AI-фишки для шоппинга вроде Virtual Try-On, Яндекс выкатил свой ответ — агента в приложении Маркета (работает только в мобилке). Простой, но, кажется, даже более практичный и, главное, доступный уже сейчас.
Агент в чате подбирает товары, всё до боли банально. Но фишка в том, как он использует картинки. Да, можно залить фото продукта и получить похожие — это база. Но главная возможность — прислать своё фото и получить подборку под свой стиль или интерьер. Правда, насколько хорошо это работает в действительности, пока не совсем понятно. Ещё он может находить товары в единой палитре и пр. Похоже на RAG или неплохой тюн на поиск по товарам.
В теории, всё это может и любой другой чат. Но здесь решает глубокая интеграция с базой данных Маркета, что в теории должно давать лучшие результаты.
В целом, это интересный продуктовый ход. Если Google фокусируется на отдельных технологических фичах вроде виртуальной примерки, то Яндекс встроил именно разговорного ассистента, который решает разные задачи в одном чате.
@ai_newz
😁 136👍 34❤ 14🫡 13🦄 10🤯 6🔥 4💔 2
Repost from Denis Sexy IT 🤖
Илья дал большое интервью:
https://www.youtube.com/watch?v=aR20FWCCjAs
Вот главное:
– Сейчас модели выглядят намного умнее на тестах, чем в реальных задачах: они переобучены на эвалы и плохо обобщают, особенно в сложных многошаговых сценариях
– Главный технический барьер к AGI - ненадёжное обобщение и низкая «человеческая» обучаемость; простое масштабирование предобучения и RL это не решит
– Эпоха «масштабируем всё предобучением» заканчивается: данные конечны, RL жрёт много вычислений; начинается новая «эпоха исследований» с поиском новых рецептов обучения (в т.ч. ценностные функции, архитектур моделей, другие виды RL и т.п.).
– Будущее AGI видится как система, которая учится как человек: один и тот же базовый разум может быстро осваивать разные профессии, постоянно дообучаясь в реальном мире, а не «готовый мозг, который знает всё из коробки»
– Массовое распространение таких АИ-учеников по экономике почти неизбежно приведёт к очень быстрому росту производительности и ВВП; скорость будет сильно зависеть от регулирования в разных странах
– Скорее всего появится много сверхсильных АИ от разных компаний, специализирующихся по нишам (право, медицина, R&D и т.д.), а не один «богоподобный» монополист-суперинтеллект (аниме Пантеон смотрели? Пора если нет)
– Основной риск - огромная мощь: если сделать чрезвычайно сильного целеустремлённого агента, даже с «хорошей» целью, результат может сильно не понравиться людям; желательно ограничивать максимальную мощность единичных систем
– В качестве цели для первых суперинтеллектов он рассматривает «заботу о чувствующих существах» (в т.ч. о самом АИ) как более реалистичную и устойчивую, чем «забота только о людях», но признаёт, что это не идеальное решение
– Он ожидает постепенный, но всё более заметный показ мощных АИ обществу: по мере роста реальной силы моделей компании и государства станут намного более параноидальны и начнут активно координироваться по безопасности и регулированию
– Краткосрочный «хороший» сценарий - универсальный высокий доход и то, что АИ делает почти всю работу; долгосрочно это нестабильно, потому что люди выпадают из активного участия в принятии решений
– Один из возможных (ему самому не очень нравящийся) способов долгосрочной стабилизации - частичное слияние людей с АИ через продвинутые нейроинтерфейсы, чтобы люди разделяли понимание с системами и оставались в контуре управления
– Оценка горизонта: до АИ, который учится как человек и может стать базой для суперинтеллекта, примерно 5-20 лет; текущий «чистый масштабинг» в какой-то момент упрётся в потолок
– SSI (его АИ лаба) он описывает как «чисто исследовательскую» компанию с другим техническим подходом к обобщению и безопасности, которая не ставит ставку на простое наращивание масштаба текущих архитектур, и ожидает, что в итоге крупные игроки всё равно сойдутся в общих стратегиях по безопасному выводу суперинтеллекта в мир
❤ 123👍 62🔥 27😁 10🦄 5❤🔥 2
00:54
Video unavailableShow in Telegram
😮 Black Forest Labs выпустили FLUX.2
Судить о качестве картинок уже почти нет смысла — с фотореализмом всё было хорошо и у первого Flux. Теперь решает возможность быстро, без заморочек, а главное, консистентно редактировать изображения. И тут уже начинается прямая конкуренция с Nano Banana Pro, которая очень высоко задрала планку.
Черипики, конечно, хорошие, но то, насколько Flux.2 послушно редактирует картинки, можно будет проверить только на практике. Настораживает, что нигде не показали, как модель генерит новые ракурсы, а это чуть ли не главная фишка моделей нового поколения с LLM под капотом.
Ещё очень интересно, как обстоят дела с разными стилями рисовки. Первая версия их очень не любила и целиком опиралась на LoRA, что отчасти исправили с Kontext. В новой версии работу с референсами ещё сильнее прокачали, но опять же, нужно тестить.
У модели 32 миллиарда параметров, в качестве энкодера используется Mistral 3 24B. Идёт в трёх версиях: pro, flex и dev. Веса dev-версии уже опубликованы на 🤗 с некоммерческой лицензией. Скоро обещают выпустить ещё и дистиллированную
klein с Apache 2.0.
Потестировать можно здесь.
Веса[dev]
Блогпост
@ai_newzflux2.mp46.67 MB
❤ 69🔥 39👍 21😁 7
Photo unavailableShow in Telegram
Claude Opus 4.5
Anthropic выпустили Claude Opus 4.5. Я ей уже успел попользоваться, мне понравилось. Модель SOTA на всех бенчах связанных с кодом — обходит и Sonnet 4.5 и Gemini 3 Pro и GPT 5.1 Codex Max (OpenAI продержались всего пару месяцев, после чего опять начали портить нейминг).
Самое интересное —цена, токены Opus 4.5 стоят в 3 раза дешевле чем у прошлых моделей — $5 за миллион токенов на вход и $25 на выход. Это первый раз когда Anthropic напрямую снижает цену на свои модели, при том что другие провайдеры делают это регулярно. Видимо Opus, при цене $15/$75, всё таки использовали меньше чем хотелось и пришлось поумерить аппетиты.
Компания заявляет что Opus 4.5 использует на 76% SWE-bench Verified и на 48% меньше чтобы полностью его побить. Но тесты Artificial Analysis показывают иную ситуацию — судя по ним Opus 4.5 использует больше токенов на ризонинг по сравнению и с Opus 4.1 и с Sonnet 4.5. Но повышенного использования токенов не хватает чтобы перебить снижение цены, Opus 4.5 в два раза дешевле в использовании чем 4.1.
В API добавлен параметр effort для управления сложностью рассуждений. Кроме этого улучшили тулколинг — добавили инструмент для поиска инструментов и нативный способ показывать примеры использования тулов. А Programmatic Tool Calling даёт возможность вызывать инструменты через код в песочнице, обрабатывая промежуточные результаты без их попадания в контекстное окно модели.
Фронтирные лабы запустили апдейты своих основных моделей, теперь месяц-другой должно быть потише. Ну это, конечно, если Google не решит выпустить Gemini Ultra.
@ai_newz
Новое поколение синтеза речи в ГигаЧате
Разрабочики команды синтеза речи в Сбере запустили новое поколение голосового режима Гигачата. Голоса теперь собираются не из «универсального диктора», а из специализированных моделей: Freespeech для живого общения, голоса операторов колл-центров, подкастная и классическая дикторская подача. В результате ассистент говорит ближе к человеку, а не к автоответчику — со вздохами и с более естественной интонацией.
Технически это полностью свой стек: GigaChat 3b в роли языковой модели, кастомный токенизатор звука и авторегрессионный синтез вместо диффузий. Команда отдельно поработала над токенизацией речи, системными промптами для стиля голоса, учетом длинного контекста и клонированием — за счёт этого новый синтез сильно обгоняет прошлое поколение по внутренним метрикам качества и естественности. На фоне конкурентов типа Алисы упор идёт не на «дикторский» голос, а на живость и выразительность речи.
Статья на хабре
@ai_newz
❤ 121😁 90🔥 26🫡 17👍 10🤯 8🦄 7🙏 4😱 1
00:53
Video unavailableShow in Telegram
OpenAI сделали DeepResearch для шоппинга
С высоты птичьего полёта shopping research это тот же Deep Research — система задает уточняющие вопросы, после чего прочёсывает интернет и выдаёт результаты. Главное отличие — во время поиска shopping research работает интерактивно: показывает найденные товары в реальном времени, а пользователь отмечает что ему нравится, а что нет, таким образом направляя поиск.
Внутри — тюн GPT-5 mini, который научили шоппингу. Говорят что она в подборе товаров лучше чем GPT-5 Thinking, но я всё равно надеюсь что версия с большой моделью не заставит себя долго ждать.
Функцию уже раскатывают на телефонах и в вебе на всех зарегистрированных пользователей ChatGPT. Причём перед праздниками лимитов практически нет, даже для бесплатных пользователей.
@ai_newz
shopgpt.mp46.31 MB
Как генерить презентации?
Продолжение рубрики с обзором AI продуктов. Я рассматривал инструменты с точки зрения человека, которому нужно время от времени сделать презу на скорую руку. Он не разбирается в дизайне, но хочет, чтобы было красиво и бесплатно. Думаю, для профи топ будет примерно таким же, особенно учитывая возможность экспорта в PPTX.
Сначала про пайплайн. Во всех этих инструментах есть функция "превратить документ в презентацию", но работает она непредсказуемо и часто плохо.
Лучше так: сначала готовим текст для слайдов в Gemini (или в локальной LLM, если боитесь, что Google украдёт ваши гениальные идеи), получаем чёткие bullet-points, и уже с этим текстом идём в генераторы.
Gamma
Самый надёжный и удобный. Есть разные режимы обработки текста, в том числе "оставить как есть" и "сократить" (при этом он не переписывает, а именно вырезает ненужное, сохраняя авторский стиль). Шаблоны красивые, палитр много, а главное — удобный интерфейс для ручной доработки. За раз делает до 10 слайдов, но остальные можно легко догенерить при редактировании. Есть даже агент для массовой обработки презентации по промпту. Лимиты щедрые.
Manus
Интересен тем, что бэкэнд у него на HTML, что даёт больше возможностей для инфографики. Хорошо работает с таблицами и визуализацией данных. Он всё же напортачил местами с вёрсткой, но это исправляется одной кнопкой
regenerate (там это называется smart optimize). Genspark в этом плане постабильнее. Минусы: мало своих шаблонов (хотя Neon Cyberpunk симпатичный), но можно загрузить свой. Есть экспорт в Google Slides c некоторыми ограничениями, лимиты очень щедрые.
Genspark
В целом, всё то же, что и у Manus, но с более гибким редактором. Тоже отлично работает с визуализацией данных, но шаблонов совсем мало. Третье место только потому, что у него нет неонового 😂. К тому же, без подписки нет нормального экспорта (а делать скриншоты — это не наш метод).
Chronicle
Очень красивые и стильные шаблоны, хоть их и мало. Картинки сам не расставит и даже в инфографику не умеет. Но шаблоны настолько стильные, что его нельзя пропускать. Идеально для минималистичных, чисто текстовых презентаций.
Остальные (пока сыроваты, но следить стоит):
- Snapdeck: Делает очень прикольные схемы, диаграммы и таблицы. Хорош в визуальном повествовании, но сыроват — нужно руками фиксить отступы. Кстати, бесплатных токенов хватило только на 12 слайдов.
- Figma: Редактирует только промптом, при этом токенов хватает лишь на пару запросов. Пока неюзабельна из-за багов в коде презентации и невозможности экспорта в PDF/PPTX.
Бонус!
Napkin: Это не генератор презентаций, но он интересно визуализирует данные. Это именно то, чего не хватает Chronicle, но по стилю они несовместимы, а жаль — была бы идеальная синергия.
PS: NotebookLM
Чуть не забыл! Весь тот же текст презы можно залить в NotebookLM и попросить его сделать видео с вашей презентацией. Получаются сходу хорошие слайды. Работает на русском, есть разные стили. Важно добавить правильный промпт, например, present this pitch deck like a founder, чтобы он именно *презентовал*, а не объяснял содержимое. Плюс сразу готовый текст, а то и сам питч. Подойдёт для вдохновения.
PPS: Для креативных маньяков
Все слайды потом можно прогнать через Nano Banana Pro и дико стилизовать. После того как я увидел презу от NotebookLM в стиле аниме (там есть такой шаблон), захотелось по приколу весь свой питч-дек перегенирить в стиле Attack on Titans.
Итог: Gamma — лучший универсальный инструмент. Manus и Genspark — для тех, кому важна визуализация данных. Остальные пока сыроваты, но следить за ними точно стоит.
@ai_newzMeet the New Gamma Agent.mp48.36 MB
Introducing Manus Slides.mp47.27 MB
Create Slide Decks in Seconds—Meet Genspark AI Slides.mp414.65 MB
Meet Chronicle_ Create stunning presentations.mp47.42 MB
Napkin_AI_Introducing_Elastic_Designs_–_Get_Right_Visuals,_Faster.mp41.26 MB
👍 119🔥 51❤ 48⚡ 2🤯 2😁 1
Сбер выкатил сразу четыре ключевые линейки в полный MIT-опенсорс.
Флагман — GigaChat Ultra-Preview, новая MoE-модель, собранная под русский язык и натренированная полностью с нуля. Ultra Preview уже обходит DeepSeek V3.1 на русском бенчмарке MERA, поддерживает длинный контекст до 128к токенов — и она все еще не закончила свое обучение.
GitHub | HuggingFace | GitVerse
Читайте подробную статью на Хабре от команды
Рядом выходит Lightning — более лёгкая MoE модель, компактная и быстрая. Конкурирует с Qwen3-4B, по скорости сравнима с Qwen3-1.7B, но намного умнее и больше по параметрам.
Она не уступает лучшим опенсорс-моделям своего класса, держит планку на русском выше аналогов и выдаёт сверхбыстрый инференс, благодаря чему модель можно использовать там, где Ultra избыточна, а скорость критична. Плюс стабильная маршрутизация экспертов, а еще приятный бонус в виде поддержки 256к контекста.
GitHub | Hugging Face | GitVerse
Новая линейка моделей генерации картинок и видео Kandinsky 5.0 Video Pro, и версия Lite (Video Lite и Image Lite), выпущенная в октябре — нативно понимают русские промпты, культурный код и нормально пишут кириллицу. Флагманская Video Pro сравнялась с Veo 3 по качеству и обогнала Wan 2.2-A14B. А ещё подъехал K-VAE 1.0, сейчас это один из лучших опенсорсных энкодеров для сжатия визуального контента и база для обучения генеративных моделей.
GitHub | GitVerse | Hugging Face | Технический репорт
В аудионаправлении выходит GigaAM-v3 — новое поколение распознавания речи, показывающее −50% WER к Whisper-large-v3 и закрывающее все открытые решения на русском языке.
GitHub | HuggingFace | GitVerse
Все модели от текста до видео можно ставить в свой контур, доучивать под задачи и использовать коммерчески. По сути, это первый полностью открытый «большой набор» под русский язык, который позволяет строить полноценные ИИ-системы без зависимости от зарубежных моделей и ограничений.
@ai_newz
Нейродайджест за неделю (#95)
LLM
- Heretic — Автоматическое снятие цензуры с LLM. Софт находит и подавляет направления отказа в пространстве активаций модели. Работает с Llama, Qwen, Gemma и др.
- Grok 4.1 — Апдейт посттрейна с упором на эмоциональный интеллект и creative writing. Идёт в instruct- и reasoning-вариантах, но бенчмарки, видимо, не сильно изменились.
- Gemini 3 Pro — SOTA по всем бенчам, на 20% дороже 2.5 Pro, но на голову превосходит предыдущий фронтир.
Генеративные модели
- Gemini 3 Pro Image — Новая версия Nano Banana с приставкой Pro на базе Gemini 3 Pro. Умеет размышлять при генерации, искать в интернете, генерировать серии кадров и поддерживает 4К.
Прочее
- Зарплаты L5 в биг-техе — Ищем лучший офер. График распределения TC для Senior-ролей в США. Meta лидирует по медиане, Amazon — по апсайду.
- Про положение OpenAI — Ждём ответ от Сэма Альтмана на последние мощные релизы от Google.
> Читать дайджест #94
#дайджест
@ai_newz
👍 33❤ 21❤🔥 2😁 2🔥 1
Photo unavailableShow in Telegram
Че, ждем ответ от сэмы. Недавними релизами гугл раз****л сэму жестоко.
Видел, где-то проводили опрос о том, какую непубличную фирму люди больше всего хотят зашортить - так вот OpenAI был в топе.
@ai_newz
Photo unavailableShow in Telegram
Cloud.ru запустил в общий доступ свою платформу Evolution AI Factory для работы с генеративными моделями. Это набор из шести сервисов, которые покрывают весь пайплайн работы с LLM: есть каталог с 20+ готовыми моделями (Qwen, MiniMax M2, GLM 4.6, gpt-oss), Jupyter-ноутбуки для экспериментов, файнтюнинг для дообучения под свои задачи, инференс моделей через OpenAI API, RAG для работы с корпоративными данными и запуск AI-агентов.
Платформа позволяет пройти путь от прототипа до продакшена: начинаешь с экспериментов в Jupyter, дообучаешь модель под свои задачи, подключаешь через RAG внутренние базы знаний и деплоишь либо как API-сервис, либо как автономного агента, который умеет работать с внешними API и выполнять многошаговые сценарии. Есть SLA и круглосуточная поддержка, так что для production-нагрузок подходит.
@ai_newz
😁 89❤ 26🦄 26👍 20🤯 5💔 5
Gemini 3 Pro Image (она же Nano Banana Pro)🔥🔥🔥
Предыдущая модель была основана на Gemini 2.5 Flash, а эта — на свежей Gemini 3 Pro. Архитектурно это все также диффузионная голова поверх токенов из текстового энкодера Gemini. Кажется, теперь понятно, почему они не выпускали версию на 2.5 Pro — Gemini 3 была уже на подходе, и не было смысла делать генератор под в скором времени устаревшую модель.
Теперь модель размышляет в ходе генерации и может сгенерить до 3 картинок под капотом, проверяя их на совпадение с промптом и качеством композиции, проверяя, чтобы всё было сделано как надо (test time scaling для визуальных моделей). Юзеру показывается только финальная картинка. Ещё она может искать в интернете, если для генерации нужна актуальная информация.
Проблема прошлой модели была в том, что она слишком фокусировалась на том, чтобы отредактировать картинку, ничего не изменяя. Из-за этого могли появляться странные баги: когда ты просто пытаешься поменять угол обзора, а получаешь на выходе какой-то сумасшедший коллаж. Теперь моделька поохотнее вращает объекты и нативнее вставляет их в сцену. Картинку теперь реально можно использовать как стиль. С этим тоже была беда: старый банан всё норовил, скажем так, натянуть сову на глобус — то есть картинку-референс на твой промпт, который с объектами референса мог быть вовсе и не связан. И да, он отлично шарит за постсоветскую эстетику — таким не все модельки могут похвастаться.
Клёвая тема с готовой серийной генерацией: может генерить сразу несколько кадров по очереди, что дико упрощает воркфлоу. Модель сама пишет историю и раскадровку по ходу генерации. Можно сделать запрос из 10 картинок, и они будут как-то сами собой развиваться. Удобно для быстрого продакшена и теста идей.
Добавили и невидимую вотермарку SynthID, которая чётко показывает, где и что было отредактировано (а может, это и минус). Хотя, надоедливый ромбик в правом нижнем углу все ещё на месте.
Ну и наконец подняли разрешение до 4К — а то банан 1 работал на одном мегапикселе. Правда, из Gemini App картинки скачиваются лишь в 1408x768. Видимо, 4К будет позже или только в API. Но даже при малом размере картинки выглядят очень качественно. Детали в них почти не плывут, а натурально сжимаются.
Тем временем серверам Google, кажется, стало тяжко. Deep Research в Gemini повис в бесконечной очереди, а в AI Studio отключили бесплатный тест. Попробовать можно только в Gemini App, но с лимитами.
Странно, что Google выкладывают модели сейчас. Старая Nano Banana и так была лучшей, а тут они сами себя перебивают. Если бы за релиз отвечал Сэм Альтман, он бы выждал, пока конкурент что-нибудь покажет, чтобы только потом его унизить.
На лидерборде модели пока нет.
Цена генерации в 4к может доходить до 18 центов за картинку. А внутри Gemini одна картинка в 1К генерит по 25 сек, это если не активизировался test time scaling.
Блогпост
Страница API
Cookbook
@ai_newz
❤ 211🔥 98😍 20👍 13🙏 2😁 1
Photo unavailableShow in Telegram
Ну, что, трудяги, посмотрим на график размера офферов на L5 в биг-техе?
График показывает распределение размера Total Comp для new hires на Senior (L5) роли в биг-техе. Данные тут только по гороам Сан-Франциско, Сиэтл и Нью-Йорк за последние два года.
Что мы видим?
🔹 Meta — абсолютный лидер: медиана ~$446K, и даже «пол» (25-й перцентиль) держится на уровне ~$402K. Зарплаты "cто-миллионников", которых недавно захайрили в SuperIntelligence Lab, видать вообще не попали на шкалу, иначе ось X графика улетела бы в космос.
🔹 Amazon дышит в спину по медиане (~$425K), но забирает первенство по 75-му перцентилю (~$491K). Такой мощный апсайд в топе показывает, что они готовы давать хороший оверпей за приоритетных кандидатов. Это классический Amazon: нанимают кучу инженеров на грейд L5 с очень широкой вилкой. Такая "резиновая" вилка позволяет перекупать крутых спецов, не повышая им грейд. Но я, честно сказать, удивлен щедростью Амазона.
Кстати, в Европе обычно все гораздо плачевнее. Поэтому за большими офферами нужно ехать в CФ.
---
Еще можно отметить, что человек, который рос внутри любой из этих компаний до L5, зачастую будет получать меньше, чем «варяг» с улицы, которого наняли сразу на L5. Все потом что внешнему кандидату приходится давать market rate, а тем кто уже внутри можно и недоплачивать, если они не дергаются.
#карьера #bigtechlevels
@ai_newz
👍 134🔥 42❤ 28😱 8😁 3🤩 2😍 1
