Красивые ходы AlphaGo

В процессе игры против Ли Седоля, одного из лучших в мире мастеров го, система искусственного интеллекта Google AlphaGo озадачила комментаторов ходами, которые те называли «красивыми», но отмечали, что они не свойственны стилю игры человека.

Эксперты в области искусственного интеллекта считают, что такие ходы стали проявлением главного преимущества AlphaGo — способности учиться на собственном опыте. Подобные ходы нельзя было сгенерировать лишь исходя из накопленных знаний о том, как играют люди, отмечает Доина Прекап, доцент Университета Макгилла.

«AlphaGo не просто мыслит, но и имеет способности к обучению и стратегическому планированию», — соглашается Говард Ю, профессор стратегического управления и инновации бизнес-школы Международного института управленческого развития.

AlphaGo выиграла у Ли Седоля подряд три первых игры, чем заработала себе победу в турнире и призовые миллион долларов, которые в Google собираются пожертвовать на благотворительность. Но четвертую партию система проиграла, допустив ошибку, после чего Ли Седоль отметил, что у AlphaGo есть определенные слабые места.

Работа над программой началась около двух лет тому назад в рамках исследовательского проекта, целью которого было проверить, сможет ли нейронная сеть, работающая по принципу глубинного обучения, освоить игру го, сообщил Дэвид Сильвер, один из ведущих научных сотрудников проекта AlphaGo. Google в 2014 году приобрела DeepMind, британскую компанию, занимающуюся системами искусственного интеллекта.

Четвертую партию система проиграла, допустив ошибку, позволившую Ли Седолю утверждать, что у AlphaGo есть слабые места

Во время игры система руководствуется вероятными ходами людей, генерируемыми «сетью правил» — моделью действий реальных мастеров го в различных ситуациях. Но когда включается «оценочная» нейронная сеть системы, используемая для более глубокого анализа ситуаций, программа может сделать оригинальный ход.

По правилам го, игроки ходят по очереди белыми и черными фишками, которые называются «камнями», ставя их на пересечения линий на доске 19х19 и стараясь захватить как можно большую территорию путем окружения камней противника.

В отличие от людей, AlphaGo старается максимизировать вероятность общей победы, а не захватить наибольшую территорию, чем и объясняются некоторые из ходов системы, сообщил генеральный директор DeepMind Демис Хассабис.

По словам Прекап, специалисты ожидали, что пройдет еще много лет, прежде чем системы искусственного интеллекта смогут победить человека в го, игре, которая считается более сложной, чем другие стратегические игры наподобие шахмат, из-за гораздо большего количества вариантов ветвления и среднего числа возможных действий в расчете на ход.

«Уровень развития систем искусственного интеллекта принято оценивать с помощью сложных игр и задач. В данном случае такой задачей стало освоение го, — рассказал Бабак Ходжат, сооснователь, главный научный сотрудник компании Sentient Technologies. — AlphaGo удалось значительно поднять планку уровня сложности задач, которые теперь подвластны системам машинного обучения».

Го требует принятия высокоуровневых стратегических решений, отметила Прекап. На доске несколько боев за разные участки могут вестись параллельно, и нужно выбирать, какой из боев продолжить при очередном ходе, и какую область защищать. «Считалось, что на планирование такого рода способен лишь ум человека», — добавила она. Программы для игры в го раньше уже разрабатывались, но их возможности были очень слабыми по сравнению с людьми .

AlphaGo идет по стопам шахматного компьютера Deep Blue, одержавшего победу над Гарри Каспаровым в 1997 году. Еще один компьютер IBM, Watson, в 2011-м выиграл у людей в телевикторине Jeopardy.

Программа DeepMind сильно отличается от Deep Blue, которая полагалась прежде всего на поиск среди огромного количества позиций, но при этом имела и эвристические механизмы, имитировавшие мышление гроссмейстеров. AlphaGo тоже оснащена мощным поисковым компонентом, но обучается игре самостоятельно, а не просто копирует действия людей.

Весь объем инженерной мысли, вложенный в разработку Deep Blue, служил единственной цели — победить в шахматы, отметил Ю.

В Google собираются попробовать силы своего искусственного интеллекта и в других областях помимо игр, в том числе в здравоохранении и в научных исследованиях. «Глубинное обучение хорошо подходит для любой задачи, связанной с классификацией временных рядов», — говорит Ходжат. В его компании сходную технологию используют в системе Sentient Aware для сайтов электронной коммерции, которая помогает покупателям находить новые товары, отображая те, что внешне похожи на уже просмотренные.

AlphaGo основана на алгоритмах общего назначения, применяемых во многих ситуациях, подчеркивает Прекап. Программа полагается на две методики обучения — обучение с подкреплением и глубокие сети. Обе используются во многих системах, от роботизированных протезов до средств распознавания речи. «Возможно, такие алгоритмы и оптимизируются для конкретных применений, но они рассчитаны не на какую-то одну область задач», — добавила она.

Алгоритм общего назначения, способный к самообучению и имитации обучения с подкреплением, как у людей, открывает «новые возможности, на которые человеческий ум не способен», полагает Ю.

AlphaGo, однако, не способна понимать естественный язык людей, в отличие от системы IBM, которая с этим справляется блистательно, продолжил он. «Обрабатывая миллионы страниц медицинских журналов и информации о пациентах, Watson выдает врачам рекомендации по диагностике и лечению; например, он может посоветовать сделать дополнительный анализ крови или напомнить самые свежие данные по клиническим испытаниям, — говорит Ю. — Если когда-нибудь механизмы самообучения AlphaGo объединят с системой понимания человеческого языка Watson, создав алгоритм общего назначения, превосходству человека над машиной, скорее всего, придет конец».

Беспокойство по поводу утраты преимущества человека перед машиной было фоном состязания между Ли Седолем и AlphaGo. Многие в онлайн-комментариях к игре писали, что южнокорейскому профессионалу выпало «вести грандиозный бой с компьютером от имени всего человечества».

Но эксперты считают, что победа в го — игре на двоих с четко заданными правилами — не означает, что пришло время, когда машины возобладают над людьми. «Сегодня искусственный интеллект неплохо справляется со многими когнитивными задачами, которые раньше были под силу только людям, — указал Ходжат. — Но прежде чем он достигнет человеческой мощи абстрактного мышления, пройдут еще годы».

«У нас еще нет машин с искусственным интеллектом общего назначения, который был бы способен решать многие разные задачи, скажем, играть в го, понимать текст, музицировать на скрипке и т. д., — добавила Прекап. — Это следующий рубеж, но мы еще очень далеко от него».

В Microsoft Research недавно сообщили о работе над проектами в области общего интеллекта. Как отметили в корпорации, исследователи, занимающиеся искусственным интеллектом, создали, к примеру, средства распознавания слов, но пока не научились комбинировать навыки с такой же легкостью, как это удается людям.

Красивые ходы AlphaGo

Как быстро и без лишних затрат внедрить MDM-систему: кейс Фонда Сколково