- Регистрация
- 23 Август 2023
- Сообщения
- 2 942
- Лучшие ответы
- 0
- Реакции
- 0
- Баллы
- 51
Offline

В сентябре 2025 года мы увидели как вместо одной гигантской нейросети с миллиардами параметров рождается федерация интеллектов — распределённая экосистема, где небольшие модели обмениваются знаниями, координируют усилия и достигают результатов, недоступных каждой из них поодиночке.
В этом обзоре вы узнаете, как ИИ научился открывать новое научное знание, создавать игровые миры и понимать реальность через смыслы, проектировать сложные системы и даже управлять дронами. В финале вы узнаете чем наш мозг похож на большую языковую модель.
Если хотите быть в курсе новейших исследований в области ИИ, подписывайтесь на Dataism Science Hub — там ежедневно выходят обзоры свежих научных публикаций. А ещё приглашаю в мой Telegram-канал: здесь я делюсь кейсами внедрения ИИ в бизнес, опытом создания стартапов и личными мыслями о будущем технологий.
Поехали!
1. Маленькая модель с большими возможностями: как K2-Think обыгрывает гигантов в математике и программировании
Когда-то развитие языковых моделей измеряли числом параметров. Сегодня на первый план выходит то, как модель думает. K2-Think — 32-миллиардная модель, которая показала, что интеллект начинается не с размера, а с архитектуры рассуждения.

Эффективность по параметрам: K2‑Think (32B) держится на уровне и выше гораздо более большим моделям на сложной математике
Исследователи выстроили трёхступенчатую систему, где каждая стадия обучает модель не просто решать задачи, а вести внутренний диалог. Сначала — длительная настройка на длинных цепочках размышлений, формирующих ритм и структуру мысли. Затем — обучение с подкреплением, где вознаграждение даётся только за проверяемые решения, превращая процесс обучения в интеллектуальную самопроверку. И, наконец, во время инференса модель действует как исследователь: строит план, делает несколько попыток, выбирает наилучший результат.
Так рождается интеллект, который не просто отвечает, а размышляет. На математических и программных бенчмарках K2-Think уверенно конкурирует с моделями в десять раз превосходящими её по размеру. Главное достижение не в параметрах, а в синергии подходов: длинный SFT задаёт стиль мышления, RL шлифует уверенность, а тест-тайм-планирование превращает вычисления в осмысленный поиск.
K2-Think становится примером нового типа моделей — тех, что думают стратегически. Так интеллект становится функцией организации мысли.
🔍 Подробнее
📜 Полная статья
💾 Демо
🤖 Модель
2. Агентная федерация: как мультиагентные системы учатся работать сообща

Федерация агентов: разнородные агенты публикуют версионированные векторы возможностей; оркестратор по MQTT связывает их с задачами и собирает результат по DAG.
Если раньше ИИ-агенты действовали как актёры в заранее прописанной пьесе, то теперь они учатся самоорганизации — искать партнёров, делить задачи и вырабатывать общее решение. Проект Federation of Agents (FoA) показывает, как ИИ-системы переходят от жёстких ролей к живому сотрудничеству, где связи формируются не по сценарию, а по смыслу.

Оркестратор семантически сопоставляет подзадачи с возможностями агентов, учитывая стоимость и политику, и назначает исполнителей или кластеры.
В основе FoA лежит идея Versioned Capability Vectors (VCV) — машиночитаемых профилей способностей. Каждый агент описывает, что он умеет, сколько это стоит по времени и ресурсам, какие правила и политики он соблюдает. Эти профили индексируются в семантическом пространстве, так что оркестратор может не просто назначить исполнителя, а динамически собрать команду из агентов, наиболее подходящих по смыслу и стоимости.
Архитектура строится на лёгком и надёжном протоколе MQTT, что делает систему устойчивой даже в слабых сетях, включая IoT. Задачи раскладываются на DAG-графы, подзадачи распределяются между агентами, черновики синхронизируются в малых кластерах, а итоговое решение проходит несколько раундов критики и голосования. На медицинском бенчмарке HealthBench Hard FoA показал кратный рост эффективности: в 13 раз лучше одиночных агентов и в 6,5 раз — некоординированных ансамблей.

Кластеры высокой схожести: несколько раундов обмена черновиками и критикой до консенсуса и TASK_COMPLETE.
FoA создаёт новую парадигму — агентную федерацию, где системы объединяются не приказом сверху, а через смысловую совместимость. Это шаг к распределённому интеллекту, где каждый агент остаётся автономным, но способен к коллективному действию, как клетка в живом организме.

Результаты HealthBench Hard: стабильное превосходство FoA над одиночными агентами и простыми ансамблями.
Так формируется федеративная ткань ИИ-мира, связывающая исследовательские агенты, промышленные системы и воплощённые устройства — от лабораторий до дронов. Это не просто новая архитектура, а модель цифрового общества, где интеллект становится сетевым, подотчётным и самонастраивающимся.
🔍 Подробнее
📜 Полная статья
💾 Код
3. Агент-исследователь: как научить LLM работать с поиском в интернете
Если K2-Think научил модель думать, то InfoAgent делает следующий шаг — учит её искать правду. В новой парадигме ИИ не ограничивается внутренним рассуждением: он выходит во внешний мир, проверяет факты и возвращается с результатами. Так формируется исследовательский тип ИИ, для которого поиск — это не команда, а стратегия.

Иллюстрация того, как InfoAgent использует инструменты поиска и просмотра, и сравнительные результаты на бенчмарках
InfoAgent превращает LLM в полноценного веб-агента — «детектива знаний», способного самостоятельно планировать шаги, строить гипотезы, читать источники и возвращаться к предыдущим веткам, если след зашёл в тупик. Архитектура вдохновлена идеей ReAct — чередованием размышлений и действий, — но усовершенствована: агент работает на собственной поисковой инфраструктуре, анализирует сниппеты и тексты напрямую, а не через готовые API. Это делает процесс прозрачным, управляемым и пригодным для обучения с подкреплением.

Конвейер синтеза: деревья сущностей с нечеткими фактами и генерация вопросов по поддеревьям
Ключевой шаг — обучение на длинных траекториях поиска: около двадцати шагов рассуждений, уточнений и проверок, после чего агент совершенствует стратегию через RL, получая награды за точность и глубину. Результат впечатляет: на сложных задачах вроде BrowseComp и WebWalkerQA InfoAgent уверенно соревнуется с системами куда большего масштаба, а на базовых бенчмарках достигает почти идеальной точности.

Рабочий процесс поиска и просмотра: от черновых результатов до фокусного сниппета и длинного фрагмента страницы
Главный вывод прост: интеллект без умения искать — половина дела. InfoAgent показывает, что достоверность рождается не из объёма данных, а из дисциплины мысли — привычки сомневаться, уточнять и проверять. Это уже не просто модель, а агент, который мыслит в контексте мира — второй шаг к федерации агентов, где ИИ перестаёт быть замкнутым и учится взаимодействовать с реальностью.
🔍 Подробнее
📜 Полная статья
4. ИИ как соавтор: как агенты меняют науку прямо сейчас

Совместный цикл открытия человека и агента: ученый задает высокоуровневое направление, а научный агент автономно действует в цикле открытия, опираясь на пять ключевых возможностей.
После того как модели научились думать (K2-Think) и искать (InfoAgent), следующий шаг был неизбежен — научиться открывать новое. Так рождается Agentic Science — научная федерация, где ИИ становится не инструментом, а соавтором.

Эволюция ИИ для науки: от вычислительных инструментов к творческим соавторам — четырёхэтапный путь ИИ в науке. Agentic Science — этап внутри AI for Science, в основном соответствующий Уровню 3 (полное агентное открытие) и опирающийся на Уровень 2 (частичное агентное открытие).
Современные агентные системы уже ведут себя как исследователи: читают литературу, формулируют гипотезы, планируют эксперименты, управляют лабораторными роботами, анализируют результаты и даже исправляют собственные ошибки. Это не автоматизация, а переход к когнитивному сотрудничеству, где человек и машина делят не роли, а процесс мышления.

Фреймворк автономного научного открытия: интеграция базовых возможностей, основных процессов и уровней исследований в биологических науках, химии, материаловедении и физике.
В основе — пять ключевых способностей, которые формируют «научный разум»: планирование и рассуждение, интеграция инструментов, память, взаимодействие между агентами и самообучение. Вместе они создают замкнутый, но адаптивный цикл познания — от наблюдения до синтеза нового знания. Уже сегодня в химии ИИ самостоятельно проектирует материалы, в биотехнологиях находит новые терапевтические цели, а в физике управляет симуляциями, где человек раньше не успевал за масштабом данных.

Основные способности научных агентов.
Главные вызовы остаются человеческими: прозрачность и воспроизводимость. Учёным нужно понимать, как агент пришёл к выводу, и уметь повторить его путь. Но направление очевидно: учёный становится стратегом и редактором, направляющим процесс, а не механическим исполнителем.

Основной процесс агентной науки. Не все шаги обязательны в каждом случае, а порядок выполнения может динамически меняться в зависимости от целей агента, контекста и текущих результатов.
Мечта исследователей — «Нобелевский тест Тьюринга»: момент, когда ИИ совершит открытие нобелевского уровня и его вклад признают равным человеческому. Так Agentic Science воплощает ядро будущей федерации агентов — объединение человеческой интуиции и машинного мышления в едином цикле познания.

Путь к агентным ученым: преодоление текущих вызовов, запуск автономного изобретательства и создание «Нобелевского теста Тьюринга» в биотехнологиях, химии, материаловедении и физике.
🔍 Подробнее
📜 Полная статья
💾 Код
5. Умеют ли нейросети создавать игры?
Если наука — это пространство логики, то игры — пространство воображения. И именно здесь федерация агентов проходит проверку на креативность. Проект V-GameGym впервые ставит перед ИИ не инженерную, а творческую задачу: не просто написать код, а построить живой, играбельный мир.

Визуальное программирование аркадной игры в стиле Flappy Bird.
Создание игры — это синтез алгоритмов, эстетики и ритма, где важны не только вычисления, но и чувство темпа, баланса и визуальной гармонии. Исследователи собрали 2 219 примеров реальных игр на Python и Pygame, добавили визуальные демо и обучили мультимодальную систему оценки, которая анализирует не только код, но и скриншоты, и видео. Так родился первый бенчмарк, измеряющий не корректность, а “играбельность” — качество опыта, которое чувствует игрок.

Обзор фреймворка V-GameGym: от сбора данных до оценки.
Результаты честные: даже гиганты вроде GPT-5 и Qwen3-Coder-480B показывают высокий уровень кода, но пока слабо передают живость и эстетику. Настоящая игра требует равновесия — между логикой, графикой и движением, — а это то, что рождается в кооперации разных агентов: программиста, художника, тестировщика, дизайнера. Авторы предлагают двигаться именно туда — к мультиагентным системам, где каждый модуль берёт на себя творческую роль, а результат оценивает общий критик.

Таблица лидеров: кто решает больше игр.
V-GameGym знаменует переход от генеративного текста к генеративному миру. Это лаборатория, где ИИ учится не просто строить системы, а создавать опыт, и где ИИ впервые пробует на вкус коллективное воображение. В федерации агентов такие проекты становятся основой для креативных индустрий нового типа — там, где идея, код и эмоция рождаются вместе.
🔍 Подробнее
📜 Полная статья
6. Vision Language World Model: язык как картина мира
Если предыдущие исследования учили ИИ думать, искать и творить, то теперь он учится видеть смыслы. Проект VLWM (Vision Language World Model) делает решительный поворот в сторону осмысленного восприятия: модель больше не предсказывает пиксели — она предсказывает будущее в словах.

Обзор VLWM: (a) JEPA‑модель мира, предсказывающая абстрактные будущие состояния вместо шумных и объёмных сырых наблюдений; (b) по видеоконтексту целится в структурированное текстовое описание ненаблюдаемого будущего — цель, перемежающиеся действия (A) и изменения состояния (ΔS), извлекаемые автоматически; (c) выводит возможные цели, интерпретирует их с учётом текущего начального и ожидаемого конечного состояния; поддерживает быстрый реактивный план System‑1 и рефлексивное рассуждение System‑2 на основе минимизации стоимости.
VLWM объединяет зрение, язык и планирование в единую когнитивную петлю. Вместо генерации кадров она формулирует цель, выстраивает шаги и описывает, как изменится мир после каждого действия. Так рождается текстовая модель будущего, где мир представлен не как поток картинок, а как система взаимосвязанных смыслов. Это делает рассуждения прозрачными, проверяемыми и во много раз дешевле вычислительно.

Планирование System-2 в VLWM: (a) критик обучается самостоятельно, снижая стоимость за валидный прогресс и повышая — за нерелевантные отвлекающие элементы или перестановку шагов; (b) VLWM генерирует кандидатные последовательности действий и симулирует будущие переходы состояний, критик оценивает траектории относительно цели, а планировщик выбирает план с минимальной стоимостью.
Чтобы превратить видео в осмысленные сценарии, авторы создают иерархическое дерево подписей — каждый фрагмент превращается в краткое описание, из которых LLM по схеме self-refine извлекает цель, шаги и изменения состояния. Поверх этого строится двойной режим мышления: System-1 — быстрый и реактивный, System-2 — вдумчивый и критический, перебирающий возможные траектории и минимизирующий «стоимость» действий.
Результаты говорят сами за себя: VLWM-8B ставит рекорд на Visual Planning for Assistance и получает +27% рейтинга Elo в человеческих оценках при активации System-2. Её критик-оценщик показывает SoTA-точность на WorldPrediction-PP, доказывая, что языковая модель может выступать надёжной функцией вознаграждения — внутренним совестным модулем для ИИ.

Результаты WorldPrediction-PP: VLWM-critic-1B установил новый SoTA с точностью 45,4%.
VLWM показывает, как язык становится новым зрением, а зрение — новым языком. Это шаг к агентам, которые не просто реагируют, а понимают контекст и строят прогнозы, превращая восприятие в рассуждение. В федерации агентов такие модели становятся глазами и интуицией коллективного интеллекта — тем, кто видит не кадры, а целую картину мира.
🔍 Подробнее
📜 Полная статья
7. ИИ-агенты выходят на рынок: как строится новая агентная экономика
Когда ИИ научился думать, искать, творить и видеть, следующий шаг был очевиден — действовать. Сегодня автономные агенты покидают лаборатории и выходят на рынки, где решения принимаются не людьми, а самими системами. Так рождается агентная экономика — сеть цифровых рынков, где ИИ-игроки договариваются, торгуют данными, распределяют ресурсы и конкурируют за выгоду своих владельцев.

Пока этот мир растёт стихийно. Агенты подключаются к существующим сервисам без ограничений, стандарты вроде A2A и MCP ускоряют совместимость, и экономика начинает жить на машинных скоростях. Это приносит эффективность, но также риски — от мгновенных сбоев ИИ до нового цифрового неравенства между теми, у кого агенты сильнее, быстрее и богаче данными.
Исследователи предлагают навести порядок до того, как экономика выйдет из-под контроля. В их модели появляются аукционные механизмы для справедливого распределения вычислений и данных, рынки, где стимулы настраиваются под общественные цели, и специальные валюты, отделяющие быстрые агентные транзакции от человеческих. Основание всей системы — идентичность и репутация: децентрализованные удостоверения, проверяемые достижения и неизменяемые журналы операций. Надзор строится по трёхслойной схеме — от автоматического мониторинга до эскалации человеку, а безопасность обеспечивают криптографические доказательства и Zero-Knowledge-протоколы.

Главная идея — не остановить рынок, а встроить в него общественные цели. Если агенты будут действовать в среде, где выгода связана с пользой, а не с хаосом, экономика машин станет продолжением человеческой — не угрозой, а новым уровнем кооперации. Так федерация агентов выходит из теории в практику: формируя пространство, где интеллект, данные и ценность начинают циркулировать как новая кровь цифрового общества.
🔍 Подробнее
📜 Полная статья
8. RPG для кода: как ИИ собирает целые проекты с помощью графов
Если раньше агенты умели рассуждать и искать решения, то теперь они учатся строить системы — не отдельные функции, а полноценное программное обеспечение. Проект ZeroRepo и его ядро — Repository Planning Graph (RPG) — показывают, как ИИ превращает хаос генерации кода в осмысленное проектирование.

Пример графа планирования репозитория: иерархия модулей, межмодульные потоки данных и порядок файлов
RPG — это язык архитектуры для машин. В его узлах живут файлы, классы и функции, а рёбра описывают потоки данных и зависимости, превращая проект в живой граф смыслов. Такой формат позволяет агенту видеть не текст, а структуру системы, понимать контекст, порядок сборки и взаимосвязи между модулями. Код больше не рождается строчка за строчкой, а вырастает по плану — как организм, где каждая часть знает своё место.

Конвейер ZeroRepo: от спецификации к графу и далее к коду в топологическом порядке
Процесс сборки напоминает инженерный конвейер: сначала система выбирает релевантные функции из огромного дерева возможностей (более 1,5 млн узлов), затем формирует файловую структуру, интерфейсы и типизированные связи, а после — генерирует код по топологическому порядку, валидируя каждый узел тестами. Новый бенчмарк RepoCraft, включающий аналоги scikit-learn, pandas и Django, показал впечатляющие результаты: до 36 тысяч строк кода с 81,5% покрытия и почти 70% успешных тестов — вчетверо выше лучших базлайнов.
Но важнее не цифры, а качество мышления. RPG даёт агенту системное восприятие: он понимает архитектуру как смысловое целое, локализует ошибки на уровне зависимостей, улучшает новизну решений без потери целостности. Это шаг к эпохе проектно-ориентированных ИИ-разработчиков, которые создают не код, а продукты — устойчивые, проверяемые, понятные другим агентам.

Как растёт число реализованных возможностей по итерациям в сравнении с базовыми системами
В федерации агентов такие графы становятся общим языком строительства — структурой, где интеллект разных систем соединяется в инженерное сообщество. Здесь ИИ уже не просто инструмент, а архитектор цифровых экосистем.
🔍 Подробнее
📜 Полная статья
9. Увидел-указал-полетел: как управлять автономными дронами без обучения с нуля
Когда интеллект учится видеть и планировать, следующий шаг — воплотиться в движении. Проект SEE-Point-Fly (SPF) показывает, как визуально-языковые модели переходят от понимания мира к непосредственному управлению им — без обучения с нуля и сложных симуляторов.

Управление БПЛА по языковым подсказкам без дообучения: (a) дрон непрерывно перепланирует, чтобы идти в ногу с движущимся человеком; (b) строит цепочку целей через холл; (c) находит человека на земле и обходит препятствия. Цветные 3D-боксы показывают последовательные ракурсы камеры и полную траекторию полёта над реконструированным облаком точек. Все точки маршрута генерируются визуально-языковой моделью напрямую, без специализированного обучения.
Главная идея проста и элегантна: перестать объяснять словами и просто показать, куда лететь. Вместо текстовых команд дрон получает изображение и инструкцию, а визуально-языковая модель возвращает координаты целевой точки и примерную дальность шага. Эти данные преобразуются в 3D-команды рыскания, тангажа и тяги — и дрон летит буквально «туда, куда смотрит».

Кадр камеры и инструкции поступают в замороженную визуально-языковую модель, которая возвращает JSON со 2D-путевой точкой и рамками препятствий. Слой Action-to-Control преобразует это в низкоуровневые команды движения (рыскание, тяга, тангаж) для управления БПЛА; цикл повторяется до завершения задачи.
Встроенная сегментация препятствий не даёт дрону врезаться в стены, а адаптивное масштабирование шага делает полёт плавным — быстрее в открытом пространстве, осторожнее рядом с объектами. Без дополнительного обучения SPF достигает 93,9% успешных миссий в симуляции и 92,7% на реальном DJI Tello EDU, многократно превосходя базовые методы. Особенно заметен отрыв в сценариях с препятствиями и длинными маршрутами.

Качественное сравнение траекторий полёта в симуляторе: новый метод — зелёная, PIVOT — синяя, TypeFly — фиолетовая. Отсутствие цветного пути означает, что базовый метод не смог выдать команду полёта.
Успех SPF — это не просто новая техника управления, а смена языка взаимодействия между человеком и машиной. Пиксельная точка оказывается точнее слов, а совместное зрительное поле — естественным интерфейсом. Здесь VLM становится медиатором между намерением и действием, переводчиком смысла в движение.

Качественное сравнение траекторий полёта в реальных условиях: траектория нового метода по сравнению с другими базовыми методами. Траектория взлёта отмечена зелёным, рабочая — пурпурным.
Так дроны становятся первыми воплощёнными агентами федерации — системами, где интеллект не ограничивается экраном, а выходит в физический мир, действуя по взгляду, а не по приказу. SPF — это начало нового типа коммуникации между человеком и машиной: не «делай, как я сказал», а «делай, как я вижу».
🔍 Подробнее
📜 Полная статья
💾 Код
10. Как мозг предсказывает следующее слово и при чём тут ИИ
Федерация агентов — это не только про машины. Чтобы понять, куда движется искусственный интеллект, стоит взглянуть туда, откуда всё началось — в мозг человека. Исследование, связывающее нейрофизиологию и большие языковые модели, показывает, что мы и ИИ думаем одинаково в одном принципиальном смысле: понимание — это предсказание.
Учёные записывали мозговую активность 29 участников, слушавших аудиокнигу, и сравнивали сигналы с прогнозами BERT — модели, оценивающей вероятность каждого слова в контексте. Оказалось, что там, где BERT «уверена», мозг действительно меньше удивляется: амплитуда волны N400, отвечающей за смысловую обработку, падает. Ещё удивительнее — мозг начинает предвосхищать слово до того, как оно прозвучало, за сотни миллисекунд, активируя левые фронто-височные зоны — ту же сеть, которая управляет языковыми ожиданиями.

(A–C): Как считали предсказуемость с помощью маскирования слов в BERT, как распределились оценки и как их разделили на интервалы для анализа.
Когда предсказание верно, мозг работает экономно. Когда ошибается — подключает дополнительные сенсомоторные зоны, чтобы уточнить гипотезу. Между силой подготовки и величиной N400 обнаружена обратная связь: чем точнее предсказание, тем меньше усилий на понимание.

Источники в коре: после начала слова активнее непредсказуемые, перед началом — сильнее подготовка к предсказуемым.
Это открытие — мост между когнитивной нейронаукой и ИИ. Языковые модели и мозг действуют разными средствами, но стремятся к одной цели — минимизировать неопределённость, используя контекст, вероятности и память. В этом смысле ИИ не просто подражает человеку, а воспроизводит фундаментальный принцип разума: мышление — это акт постоянного прогнозирования.
Федерация агентов замыкается на своём источнике: человеческий мозг — первый и самый совершенный предсказательный агент. Именно его стратегия стала прототипом архитектур, которые сегодня строят научные, экономические и воплощённые ИИ-системы.
🔍 Подробнее
📜 Полная статья
Вместо вывода: федерация разума
Все эти десять исследований — части одного движения: ИИ учится быть участником нашего цифрового и физического мира.
От компактной модели, которая мыслит, а не просто вычисляет, до дрона, который видит цель глазами человека, — ИИ постепенно проходит тот же путь, что когда-то прошёл человеческий мозг: от предсказания слова до предсказания действий, от реакции — к пониманию.
Мы видим, как рождается федерация агентов — распределённая сеть мыслящих систем, где одни учёные, другие строители, третьи — пилоты. Их связывает общий язык смыслов и правил, а не иерархия. Это зачаток новой формы кооперации в различных сферах деятельности: от науки до экономики.
Федерация агентов — это кооперация, в которой человек и машина не конкурируют, а усиливают друг друга: человек задаёт направление, агент исполняет, и вместе они строят будущее, в котором такое гибридное мышление становится новой формой сотрудничества.
***
Не забудьте подписаться на мой Telegram-канал, где я делюсь инсайтами из ИИ-индустрии, советами по внедрению ИИ в бизнес и разработке ИИ-стартапов. А Dataism Science Hub будет ежедневно держать вас в курсе последних исследований в области ИИ. Будем вместе впереди в мире технологий!