Каждые несколько месяцев ИИ может выполнять задачи, которые в два раза сложнее предыдущих

Каждые несколько месяцев ИИ может выполнять задачи, которые в два раза сложнее предыдущих

0 0

ИИ может легко превзойти человека в выполнении коротких задач, но более сложные задачи — это настоящее препятствие, которое нужно преодолеть, прежде чем мы сможем считать их по-настоящему интеллектуальными системами.

Ученые разработали новый способ измерения способностей систем искусственного интеллекта (ИИ) — насколько быстро они могут превзойти людей или конкурировать с ними в решении сложных задач. Хотя ИИ в целом могут превосходить людей в прогнозировании текста и решении задач, требующих знаний, при выполнении более сложных проектов, таких как удалённая помощь руководителям, они менее эффективны. Чтобы количественно оценить повышение производительности моделей ИИ, в новом исследовании предлагается измерять ИИ по времени, за которое он может выполнить задачу, по сравнению со временем, которое требуется человеку. Исследователи опубликовали свои выводы 30 марта в базе препринтов arXiv, поэтому они ещё не прошли экспертную оценку.

Мы обнаружили, что измерение продолжительности задач, которые могут выполнять модели, помогает понять текущие возможности ИИ. Это имеет смысл: ИИ-агенты часто испытывают трудности с выполнением более длинных последовательностей действий, а не с нехваткой навыков или знаний, необходимых для выполнения отдельных шагов

представители организации Model Evaluation & Threat Research (METR) в блоге

Исследователи обнаружили, что модели ИИ выполняли задачи, на которые у людей ушло бы менее четырёх минут, почти со 100-процентной точностью. Однако для задач, на выполнение которых ушло более четырёх часов, этот показатель снизился до 10%. Более старые модели ИИ хуже справлялись с более сложными задачами, чем новейшие системы. В исследовании подчёркивается, что за последние шесть лет объём задач, которые ИИ-универсалы могут выполнять с 50-процентной надёжностью, удваивался примерно каждые семь месяцев.

Для проведения своего исследования исследователи взяли различные модели искусственного интеллекта — от Sonnet 3.7 и GPT-4 до Claude 3 Opus и более старых моделей GPT - и сопоставили их с набором задач. Они варьировались от простых заданий, которые обычно занимают у людей пару минут (например, поиск базового фактического вопроса в Википедии), до тех, которые отнимают у экспертов—людей несколько часов - например, сложные задачи программирования, такие как написание ядер CUDA или исправление незначительной ошибки в PyTorch.

Были использованы инструменты тестирования, в том числе HCAST и RE-Bench. Первый из них содержит 189 автономных программных задач, предназначенных для оценки возможностей ИИ-агентов в решении задач, связанных с машинным обучением, кибербезопасностью и разработкой программного обеспечения, а второй использует семь сложных исследовательских задач по машинному обучению, таких как оптимизация ядра графического процессора, в сравнении с результатами экспертов-людей.

Затем исследователи оценили эти задачи с точки зрения "сложности", чтобы понять и оценить, насколько некоторые задачи требуют координации между несколькими потоками работы в режиме реального времени, что усложняет их выполнение и делает более похожими на реальные задачи. Ученые также разработали программное обеспечение для атомарных действий (SWAA), чтобы определить, насколько быстро реальные люди могут выполнять задачи. Это одноэтапные задачи продолжительностью от одной до 30 секунд, которые выполняли сотрудники METR. По сути, научная работа показала, что "продолжительность концентрации внимания" ИИ стремительно растёт. Экстраполируя эту тенденцию, исследователи спрогнозировали (если их результаты действительно можно применить к реальным задачам), что к 2032 году ИИ сможет автоматизировать разработку программного обеспечения на месяц работы человека.

Чтобы лучше понять расширяющиеся возможности ИИ и его потенциальное влияние и риски для общества, это исследование может стать новым ориентиром, связанным с реальными результатами, и позволить "осмысленно интерпретировать абсолютную, а не только относительную эффективность", — заявили учёные.

Новый рубеж в оценке искусственного интеллекта?

Потенциальный новый эталонный тест может помочь нам лучше понять реальный интеллект и возможности систем искусственного интеллекта.

Сама по себе метрика вряд ли изменит ход развития ИИ, но она будет отслеживать, насколько быстро достигается прогресс в определённых типах задач, в которых в идеале будут использоваться системы ИИ.

Сохроб Казерунян, выдающийся исследователь ИИ в Vectra AI в комментарии для издания Live Science

Эксперт добавил, что сравнение искусственного интеллекта с продолжительностью времени, которое требуется человеку для выполнения данной задачи, является интересным косвенным показателем интеллекта и общих возможностей. Во-первых, потому что не существует единого показателя, который отражал бы то, что мы имеем в виду, когда говорим "интеллект". Во-вторых, потому что вероятность выполнения длительной задачи без отклонений или ошибок становится исчезающе малой. В-третьих, потому что это прямая мера против тех типов задач, для которых мы надеемся использовать искусственный интеллект, а именно для решения сложных человеческих проблем. Хотя это, возможно, не отражает все важные факторы или нюансы, связанные с возможностями ИИ, это, безусловно, полезная информация.

Элеонора Уотсон, член IEEE и инженер по этике ИИ в Университете Сингулярности, согласна с тем, что исследование полезно. По её словам, измерение ИИ по продолжительности выполнения задач "ценно и интуитивно понятно" и "прямо отражает сложность реального мира, демонстрируя способность ИИ поддерживать последовательное целенаправленное поведение в течение длительного времени" по сравнению с традиционными тестами, которые оценивают эффективность ИИ при решении коротких изолированных задач.

Приближается универсальный искусственный интеллект

Пожалуй, помимо новой эталонной метрики, самое большое влияние, которое оказала эта статья, заключается в том, что она показала, насколько быстро развиваются системы ИИ, а также в том, что их способность выполнять длительные задачи растёт. Учитывая это, Уотсон прогнозирует, что появление универсальных ИИ-агентов, способных выполнять различные задачи, не за горами.

К 2026 году мы увидим, что ИИ становится всё более универсальным, выполняя различные задачи в течение всего дня или недели, а не короткие, узкоспециализированные задания.

Элеонора Уотсон, член IEEE и инженер по этике ИИ в Университете Сингулярности

Уотсон отметила, что для бизнеса это может привести к созданию ИИ, которые смогут выполнять значительную часть профессиональных задач. Это не только сократит расходы и повысит эффективность, но и позволит людям сосредоточиться на более творческих, стратегических и межличностных задачах. По сути, способность ИИ выполнять широкий спектр длительных задач может оказать значительное влияние на то, как общество взаимодействует с ИИ и использует его в ближайшие несколько лет. Уотсон добавил, что в то время как специализированные инструменты ИИ будут использоваться в нишевых приложениях из соображений эффективности, на первый план выйдут мощные универсальные ИИ-агенты, способные гибко переключаться между различными задачами. Эти системы будут интегрировать специализированные навыки в более широкие, целенаправленные рабочие процессы, коренным образом меняя повседневную жизнь и профессиональную деятельность.

Суперземли распространены за пределами Солнечной системы.

Фото: pxhere.com / kuka7466 / 5 Изображений; Model Evaluation & Threat Research (METR)

Теги:
Категории: , , ,

Обсуждение ( 0 ) Посмотреть все

Новые комментарии