Как понять, на каком уровне развития находится искусственный интеллект?

ТехИнсайдерHi-Tech

Как проверить, что ИИ достиг уровня интеллекта человека

Владимир Губайловский

099d94a6d03044b229b96c91cba95857_ce_767x512x0x51.jpg
Некоторые исследователи считают, что системы искусственного интеллекта скоро достигнут уровня человеческого интеллекта; другие полагают, что до этого еще далеко. Getty

Чатбот компании OpenAI o3 получил высокий балл в тесте, отмечающем прогресс на пути к общему искусственному интеллекту (AGI). Модель o3 от OpenAI набрала 87,5%, превзойдя предыдущий лучший результат для системы искусственного интеллекта — 55,5%. Это важный шаг по направлению к созданию «общего искусственного интеллекта». Но понять, что ИИ достиг этого уровня очень трудно.

По мнению ученых, ответ на поставленный вопрос можно сформулировать так: если мы больше не сможем создавать задачи, которые обычный человек решает легко, а ИИ с ними не справляется, можно будет сказать, что ИИ практически достиг уровня «общего искусственного интеллекта».

Чатбот компании OpenAI o3 получил высокий балл в тесте, отмечающем прогресс на пути к общему искусственному интеллекту (AGI). Модель o3 от OpenAI набрала 87,5%, превзойдя предыдущий лучший результат для системы искусственного интеллекта — 55,5%.Это важный шаг по направлению к созданию «общего искусственного интеллекта». Но понять, что ИИ достиг этого уровня очень трудно.

Это «настоящий прорыв», говорит исследователь ИИ Франсуа Шолле, который создал тест под названием Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI) в 2019 году. По словам Шолле, высокий балл в тесте не означает, что AGI — в широком смысле компьютерная система, которая может рассуждать, планировать и обучаться навыкам так же хорошо, как человек, — уже достигнут, но o3 «абсолютно» способен рассуждать и «обладает довольно значительной способностью к обобщению».

Исследователи высоко оценили работу o3 в различных тестах (бенчмарках), включая чрезвычайно сложный тест FrontierMath, о котором в ноябре объявил виртуальный исследовательский институт Epoch AI. «Это чрезвычайно впечатляет», — говорит Дэвид Рейн, исследователь бенчмарков для ИИ.

Но многие, включая Рейна, предупреждают, что трудно сказать, действительно ли тест ARC-AGI измеряет способность ИИ к рассуждению и обобщению. «Было много эталонов, которые якобы измеряли что-то фундаментальное для интеллекта, но оказалось, что это не так», — говорит Рейн. По его словам, охота за все более совершенными тестами продолжается.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

HDD и SSD накопители — в чем разница и стоит ли переплачивать? HDD и SSD накопители — в чем разница и стоит ли переплачивать?

HDD и SSD: надежный винтаж против скорости света и цены космоса

ТехИнсайдер
Воротнички по моде Воротнички по моде

Минтруд представил детальный прогноз потребностей экономики в кадрах

Ведомости
LoveGPT: как искусственный интеллект меняет приложения для знакомств и сферу отношений LoveGPT: как искусственный интеллект меняет приложения для знакомств и сферу отношений

AI уже добрался до человеческих отношений, но пока не установил власть над ними

СНОБ
Секрет паштета Секрет паштета

Паштет: критерии свежести и качества популярной закуски

Лиза
«Болезни Империи. Как пытки рабов и зверства во время войн изменили медицину» «Болезни Империи. Как пытки рабов и зверства во время войн изменили медицину»

Почему во время Крымской войны большинство солдат погибало в госпиталях

N+1
Татьяна Буланова: «Что касается любви — бросаюсь в омут с головой, и будь что будет!» Татьяна Буланова: «Что касается любви — бросаюсь в омут с головой, и будь что будет!»

Я привыкла рассчитывать на себя, мне так проще

Коллекция. Караван историй
Китайские кинематографисты: Российский кинорынок для нас очень важен Китайские кинематографисты: Российский кинорынок для нас очень важен

Джинг Ху и Диан Сонг — о том, почему Голливуд теряет свои позиции в Поднебесной?

Ведомости
Игорь Кузьмичев Игорь Кузьмичев

Экскурсия по локациям андеграундного Ленинграда от историка Игоря Кузьмичева

Собака.ru
Как взлетает мирный атом Как взлетает мирный атом

О новых возможностях мирного атома и критических технологиях безопасности

Монокль
Онлайн – место рыбное Онлайн – место рыбное

Почему кибермошенники чаще взламывают системы Android, чем iOS?

Ведомости
Как стирать флисовые вещи, чтобы сохранить их мягкость и тепло: полезные советы Как стирать флисовые вещи, чтобы сохранить их мягкость и тепло: полезные советы

Как правильно стирать флисовые вещи, чтобы сохранить их первоначальные качества

ТехИнсайдер
Как снег на голову Как снег на голову

Правила зимнего ухода за волосами

Лиза
Психоскопия ближнего поля Психоскопия ближнего поля

Даже за совсем умозрительной фантастикой может скрываться серьезная научная база

N+1
Необычный психологический тест: выберите один из квадратов и узнайте, что беспокоит вас в данный период жизни Необычный психологический тест: выберите один из квадратов и узнайте, что беспокоит вас в данный период жизни

Что же волнует именно вас в данный момент? Простой психологический тест

ТехИнсайдер
Princess S80. Чæстное мнение Princess S80. Чæстное мнение

Экстерьер, компоновка, отделка интерьера и ходовые качества Princess S80

Y Magazine
«Осторожно, в небе металлолом» — Что делают со старыми авиалайнерами «Осторожно, в небе металлолом» — Что делают со старыми авиалайнерами

Почему пассажирские авиалайнеры так рано списывают?

ТехИнсайдер
Нина Чусова. Секундная сцена в спектакле может сделать из него хит Нина Чусова. Секундная сцена в спектакле может сделать из него хит

Нина Чусова о своем уникальном пути и работе с самыми лучшими артистами страны

Караван историй
Маркетплейс на диване: какие тренды будут двигать вперед российский e-commerce Маркетплейс на диване: какие тренды будут двигать вперед российский e-commerce

Тренды интернет-торговли: регионализация и маркетплейсизация

Forbes
Плохая идея: куда точно не нужно идти на первое свидание Плохая идея: куда точно не нужно идти на первое свидание

Разбираемся, куда и почему лучше не идти с незнакомцем/незнакомкой в первый раз

Maxim
В России могут ввести 4-дневную рабочую неделю. Как это отразится на людях? В России могут ввести 4-дневную рабочую неделю. Как это отразится на людях?

О возможности введения четырехдневной рабочей недели и ее последствиях

Psychologies
Евгений Цыганов: «В конечном счете сериал не про глянец, а про выбор» Евгений Цыганов: «В конечном счете сериал не про глянец, а про выбор»

Евгений Цыганов — о Мастере и своей роли рефлексирующего сноба

Ведомости
Земную жизнь пройдя до половины, я очутился в сумрачном лесу Земную жизнь пройдя до половины, я очутился в сумрачном лесу

Жизнеутверждающий текст о торжественном вступлении во вторую половину жизни

Afternoon Seasons of life
Вундеркинд, советский Гамлет, вестник апокалипсиса: каким был поэт Денис Новиков Вундеркинд, советский Гамлет, вестник апокалипсиса: каким был поэт Денис Новиков

Беседа с Борисом Кутенковым о судьбе поэта Дениса Новикова

СНОБ
От «Кода да Винчи» до «Гарри Поттера»: самые громкие скандалы о плагиате в истории От «Кода да Винчи» до «Гарри Поттера»: самые громкие скандалы о плагиате в истории

Громкие книжные скандалы, связанные с обвинениями в плагиате

Forbes
Двухминутная процедура по уходу за ногтями, которую надо делать каждый день: советы дерматолога Двухминутная процедура по уходу за ногтями, которую надо делать каждый день: советы дерматолога

Регулярный уход за ногтями — ключ к их быстрому росту и красоте. Как это делать?

VOICE
6 способов понять, что у вас высокий уровень кортизола 6 способов понять, что у вас высокий уровень кортизола

Неужели высокий уровень гормона стресса — распространенная проблема?

ТехИнсайдер
Генеральный директор АНО «Цифровая экономика» Сергей Плуготаренко: Россия входит в топ-10 по индексу цифровой зрелости госуправления Генеральный директор АНО «Цифровая экономика» Сергей Плуготаренко: Россия входит в топ-10 по индексу цифровой зрелости госуправления

О том, чего уже удалось достичь в развитии цифровых технологий в России

Ведомости
Студенты перестали мечтать о быстрых головокружительных карьерах Студенты перестали мечтать о быстрых головокружительных карьерах

У российских студентов скорректировались приоритеты при выборе места работы

Ведомости
Как ускорить копушу Как ускорить копушу

Как ускорить вашего копушу, не доводя до нервоза?

Лиза
Аналоги YouTube в России в 2025 году: 5 альтернативных сервисов Аналоги YouTube в России в 2025 году: 5 альтернативных сервисов

Какие аналоги видеохостинга могут стать конкурентами YouTube

Inc.
Открыть в приложении