AI

Пионеры обучения с подкреплением получили премию Тьюринга

В 1980-х годах Эндрю Барто и Рич Саттон считались эксцентричными приверженцами элегантной, но обреченной на провал идеи: заставить машины учиться, подобно людям и животным, на опыте.

Спустя десятилетия, когда разработанная ими техника стала играть все большую роль в современном искусственном интеллекте и таких программах, как ChatGPT, Барто и Саттон были удостоены премии Тьюринга — высшей награды в области компьютерных наук.

Барто, заслуженный профессор Массачусетского университета в Амхерсте, и Саттон, профессор Университета Альберты, стали первооткрывателями методики, известной как обучение с подкреплением, которая предполагает побуждение компьютера к выполнению задач путем экспериментов в сочетании с положительной или отрицательной обратной связью.

«Когда я начал работать над этим, это было не модно», — с улыбкой вспоминает Барто, выступая по каналу Zoom из своего дома в Массачусетсе. «Замечательно, что это (достигло) некоторого влияния и внимания», — добавляет он.

Возможно, наиболее известное применение обучение с подкреплением получило в 2016 году в компании Google DeepMind для создания AlphaGo, программы, которая сама научила себя играть в невероятно сложную и тонкую настольную игру Го на уровне эксперта. Эта демонстрация вызвала новый интерес к методу, который в дальнейшем стал использоваться в рекламе, оптимизации энергопотребления центров обработки данных, финансах и разработке микросхем. Метод также давно используется в робототехнике, где он помогает машинам научиться выполнять физические задачи методом проб и ошибок.

Совсем недавно обучение с подкреплением сыграло решающую роль в управлении выводом больших лингвистических моделей (LLM) и создании удивительно способных программ для чатботов. Этот же метод используется для обучения моделей ИИ, имитирующих человеческие рассуждения, и для создания более способных агентов ИИ.

Саттон, однако, отмечает, что методы, используемые для управления LLM, предполагают постановку человеком целей, а не обучение алгоритма исключительно за счет собственного исследования. По его мнению, самостоятельное обучение машин в конечном итоге может оказаться более плодотворным. «Большой разрыв в том, учится ли (ИИ) у людей или учится на собственном опыте», — говорит он.

Работа Барто и Саттона «была одним из столпов прогресса ИИ за последние несколько десятилетий», — говорит Джефф Дин, старший вице-президент Google, в заявлении Ассоциации вычислительной техники (ACM), которая присуждает ежегодную премию Тьюринга. Разработанные ими инструменты остаются центральным элементом развития ИИ и стали серьезным прорывом».

Подкрепление имеет долгую и неоднозначную историю в рамках ИИ. Оно присутствовало на заре развития этой области, когда Алан Тьюринг предположил, что машины могут учиться благодаря опыту и обратной связи в своей знаменитой работе 1950 года «Вычислительная техника и интеллект», в которой рассматривалась идея о том, что машина однажды сможет мыслить как человек. Пионер ИИ Артур Сэмюэл использовал обучение с подкреплением для создания одной из первых программ машинного обучения — системы, способной играть в шашки, в 1955 году.

Related posts

Новый ИИ-агент Honor может читать и понимать ваш экран

admin

Главные новинки MWC 2025

admin

Американские военные используют «CamoGPT» для удаления самодельных взрывных устройств из учебных материалов

admin

Leave a Comment

Этот сайт использует файлы cookie для улучшения вашего опыта. Мы будем считать, что вы согласны с этим, но вы можете отказаться, если хотите. Принять Подробнее