Головоломка, кофе и охапка книг, или как я искал истоки Deep Learning

Ефим Головин

Ефим Головин MLOps-инженер

23 октября 2024

В этом материале выясняем, откуда взялся термин «deep learning».

Изображение записи

Привет! Некоторое время назад я взялся написать обзорную статью о том, что такое Deep Learning. Задача не казалась сложной до тех пор, пока… я не добрался до определения. Вот вы можете в двух словах объяснить этот термин, ничего не упустив? Вот то-то и оно. Пока копался в референсах, читал статьи, монографии и книги, я понял, что этот вопрос слишком интересный для простого обзора и быстрого ответа. Здесь мне хотелось бы поделиться тем, что удалось найти по поводу истории развития глубокого обучения и того, что с ним связано.

Осторожно! В статье много ссылок на англоязычные источники и скриншотов книг / статей на английском. Я предполагаю, что для вас это не станет препятствием. Если хотите пройти со мной этот удивительный путь страданий и поиска истины, welcome. Если же предпочитаете получить быстрый и простой ответ, переходите по оглавлению к разделу «Итого».

Поиск истоков термина

Берем ~~лопату~~ поисковик и начинаем раскопки. Поисковый запрос типа «Deep learning первое упоминание» выдает внушительный список статей.

Некоторые из текстов называют даты появления глубокого обучения как концепции. Так, например, в статье «Deep Learning: a review» автор говорит о появлении глубокого обучения как концепции в 2006 году.

Ну что же, откуда же это могло взяться?
Догадка: я нашел страницу в веб-архиве, которая, вероятно, объясняет частые упоминания 2006 года:

Становление глубокого обучения как новой области исследований

Думаю, уместно будет проговорить, что глубокое обучение, как и любая другая дисциплина, не могла возникнуть сама по себе. На протяжении десятилетий в разных странах и на разных континентах формировалось то, что нынче пугает нас потерей рабочих мест, радикальным изменением структуры общества и прочими страшными историями. Хотя, справедливости ради, стоит сказать, что «пугает» не само глубокое обучение и даже не его разработчики, а скорее те, кто использует его для повышения цен на рекламу благодаря вирусящимся постам (что-нибудь в стиле «ИИ заменит нас в 20NM-ном году»).

Конечно, хочется сказать что-то в стиле «… а началось все с… », однако это было бы опрометчиво без тщательного анализа англоязычных (в основном) источников. Важно понять, какие идеи, кем, у кого и когда были заимствованы, как они трансформировались и к чему привели. Задачка это, мягко говоря, непростая.

Мы ограничимся поиском интересных статей, монографий и книг на тему становления и развития DL, повытаскиваем интересные цитаты и хотя бы примерно прикинем, как развивались события.

Интересные источники по теме в сети

Итак, снова обратимся к ~~лопате~~ поисковику ~~и начнем раскопки~~. По запросу «history of deep learning» можно найти очень много всего интересного. Например, цикл статей от NVIDIA. В числе прочего есть и статьи, ссылающиеся на довольно массивную работу «On the Origin of Deep Learning».

Некоторые авторы ведут отсчет от Алана Тьюринга, другие и вовсе ссылаются на Аристотеля (см. «On the Origin of Deep Learning»). Часто отправной точкой считают работу Уоррена Мак-Каллока и Уолтера Питтса «A Logical Calculus of the Ideas Immanent in Nervous Activity». Пример — статья «A Brief History of Deep Learning».
Юрген Шмидхубер в «Annotated History of Modern AI and Deep Learning» тоже, например, не мелочится и начинает отсчет от работ Готфрида Вильгельма Лейбница (хотя после Аристотеля это уже не так сильно впечатляет). Есть и публикация «A Brief History of Neural Nets and Deep Learning», которая сама по себе содержит тонны разнообразных ссылок на работы. Некоторые из них мы еще рассмотрим ниже.

Что из найденного зацепило

Из того, что мне больше всего понравилось, я бы выделил «краткую» историю глубокого обучения с 1943 года — «Brief History of Deep Learning from 1943-2019». В ней хронологически описаны работы, которые проложили путь искусственным нейронным сетям. Впрочем, поискав еще какое-то время, я наткнулся на монографию Юргена Шмидхубера, в которой из 88 страниц — а это около ⅔ от всего объема — занимают ссылки на источники. Есть что почитать.

Отцы и дети

Еще любопытнее с «отцовством». Одни утверждают, что «отец Deep Learning» — это Фрэнк Розенблатт, другие называют «крестным отцом» Джеффри Хинтона. Согласно статье Forbes, отец современного ИИ — Юрген Шмидхубер! В том же контексте говорят и о советских ученых. Например, в упомянутой хронологии «отцом DL» авторы зовут Алексея Григорьевича Ивахненко.

Перевод: «Иваненко часто упоминается как отец глубокого обучения». — Перевод: «Иваненко часто упоминается как отец глубокого обучения».

С последней версией, правда, есть небольшая проблема (спойлер: уже нет, но об этом будет ниже). Сложно найти авторитетные источники, которые бы аргументировали эту теорию, а ключевая работа Ивахненко написана в соавторстве с Валентином Григорьевичем Лапой, о котором в сети информации еще меньше. Таким образом, вопрос об «отцовстве» глубокого обучения остается, мягко говоря, непростым.

Разумеется, если немного покопаться в сети, то найдутся статьи, в которых «отцом искусственного интеллекта» называют Джона Маккарти. Причем говорится, что его часто называют так, но при этом опять же не очень ясно, кто и где его так называет. Вероятно, потому что на Дартмутской конференции именно Джон предложил термин «искусственный интеллект» и т. д., но все же далеко не только он интересовался данной темой.

Это я все к тому, что по данным громким слоганам довольно сложно понять, кто какую роль на самом деле сыграл в становлении искусственного интеллекта и глубокого обучения как области исследований. Но чисто интереса ради поисследовать данные хитросплетения «отцовства» может быть занимательно.

Вот еще вопрос на засыпку: если на роль отца кандидатов хоть отбавляй, то кого по-вашему можно было бы предложить на роль матери? У меня есть кандидатура, но предлагаю об этом подискутировать.

Зарубежные авторы

Блуждая по просторам интернета и различным статьям, я пришел к выводу, что «отцы» и «крестные отцы» — просто наиболее популярны с точки зрения упоминаний, слишком «SEO-шные». Нужно что-то другое.

Ну и что же, если не книги, может дать более серьезный материал! К ним, собственно, я и решил обратиться. Зарубежных авторов в данной тематике попросту больше, поэтому начал с них.

Christopher M. Bishop

По воле случая в первую очередь попалась книга «Neural Networks for Pattern Recognition» от Кристофера М. Бишопа:

Источник.

Вот что интересно: автор применяет термин «deep learning» целых… ноль раз. Отличное начало, не так ли?

Кстати, мистер «H» из небезызвестного LBH! Если вкратце, то это аббревиатура, составленная из первых букв фамилий тройки широко известных в уже не очень-то и узких кругах исследователей: Яна Лекуна, Джошуа Бенджио и Джеффри Хинтона.

LBH

Вот уж кто-кто, а «крестный отец ИИ» точно объяснил, что такое DL. Обратимся к небольшому тексту «Deep Learning for AI»:

Здесь авторы говорят, что «кратко объяснят происхождение глубокого обучения». — Здесь авторы говорят, что «кратко объяснят происхождение глубокого обучения».

Кажется, что «briefly describe the origins of deep learning» — это то, что нужно. Но на самом деле статья не отвечает на вопрос о происхождении термина, потому что авторы рассматривают его как уже устоявшееся понятие.

Тем не менее, первая работа содержит полезные идеи и отсылается к интересным статьям. Например, есть ссылка на «Many-Layered Learning». Авторы публикации описывают концепцию декомпозиции сложных задач на более простые, с распределением знаний по «уровням абстракции».
Продолжим поиск. Может, стоит заглянуть в работу, где они, что называется, «reviewed the basic concepts and some of the breakthrough achievements of deep learning several years ago»?

Опять же, термин используется уже как что-то определенное. Понять его происхождение снова не получится. Но, кстати говоря, есть и тут некоторые интересные моменты. Например, о том, кто распространяет 2006 как год формирования глубокого обучения как области исследований:

«…Interest in deep feedforward networks was revived around 2006 (refs 31–34) by a group of researchers brought together by the Canadian Institute for Advanced Research (CIFAR)».

Вот так вот. «Interest in deep feedforward networks was revived around 2006». Ну и если господа LBH говорят, что интерес к глубоким сетям был возрожден примерно к 2006 году группой канадских исследователей, то разве можно в этом сомневаться? Ни в коем случае!

Ian Goodfellow, Yoshua Bengio, Aaron Courville

Конечно же, никак нельзя обойтись и без книги «Deep Learning»:

Книга «Deep Learning». Ian Goodfellow, Yoshua Bengio, Aaron Courville. — Книга «Deep Learning». Ian Goodfellow, Yoshua Bengio, Aaron Courville. Источник.

Посмотрим, что нам по поводу истории возникновения расскажет мистер «B» с товарищами.

Многообещающе, «deep learning» встречается аж 448 раз. Посмотрим, что тут есть об истории возникновения термина.

«…The hierarchy of concepts allows the computer to learn complicated concepts by building them out of simpler ones. If we draw a graph showing how these concepts are built on top of each other, the graph is deep, with many layers. For this reason, we call this approach to AI deep learning».

Начало хорошее, ведь авторы, прежде чем использовать термин, поделились своим пониманием оного. За это уже большое спасибо!

«Of course, it can be very difficult to extract such high-level, abstract features from raw data. Many of these factors of variation, such as a speaker’s accent, can be identified only using sophisticated, nearly human-level understanding of the data. When it is nearly as difficult to obtain a representation as to solve the original problem, representation learning does not, at first glance, seem to help us.

Deep learning solves this central problem in representation learning by introducing representations that are expressed in terms of other, simpler representations. Deep learning allows the computer to build complex concepts out of simpler concepts».

Снова натыкаемся на идею, что большую проблему можно разрезать на более мелкие, которые, в свою очередь, тоже делятся на подзадачи и т. д. Догадываюсь, что вокруг этой концепции все и будет крутиться. Идем дальше:

«We expect that many readers of this book have heard of deep learning as an exciting new technology, and are surprised to see a mention of “history” in a book about an emerging field. In fact, deep learning dates back to the 1940s. Deep learning only appears to be new, because it was relatively unpopular for several years preceding its current popularity, and because it has gone through many different names, and has only recently become called «deep learning». The field has been rebranded many times, reflecting the influence of different researchers and different perspectives».

«…dates back to the 1940s». Хм, о чем же пойдет речь?

«… A comprehensive history of deep learning is beyond the scope of this textbook. However, some basic context is useful for understanding deep learning. Broadly speaking, there have been three waves of development of deep learning: deep learning known as cybernetics in the 1940s–1960s, deep learning known as connectionism in the 1980s–1990s, and the current resurgence under the name deep learning beginning in 2006. This is quantitatively illustrated in figure 1.7».

Думал, что сразу будет отсылка к работе Мак-Каллока и Питтса (ее мельком упомянем ниже). Впрочем, авторы все же ссылаются на эту работу:

И да, «current resurgence under the name deep learning beginning in 2006». Позже еще к этому вернемся… Далее термин уже используется опять же как нечто определенное и устоявшееся, поэтому в ответе на изначальный вопрос данная книга больше не поможет. Жаль…

Yann LeCun

Раз мы рассмотрели труды двух участников LBH, будет несправедливо не изучить книгу Яна Лекуна:

Книга «Как учится машина». Ян Лекун. — Книга «Как учится машина». Ян Лекун. Источник.

Итак, мистер «L», найдем ли мы здесь что-нибудь интересное о том, когда появился термин «deep learning»? Посмотрим:

«… Вместе с Джеффри Хинтоном и Йошуа Бенжио, моими коллегами и друзьями, мы решили возродить интерес научного сообщества к нейронным сетям… К счастью, на нашем пути появилась благотворительная организация CIFAR (Canadian Institute for Advanced Research, Канадский институт перспективных исследований… В 2004 г. она запустила пятилетнюю программу «Нейронные вычисления и адаптивное восприятие», или NCAP (Neural Computation & Adaptive Perception), директором которой тогда стал Джеффри Хинтон, а я — научным консультантом. Программа NCAP позволила нам собираться вместе, организовывать семинары, приглашать наших студентов и даже создавать небольшое научное сообщество.

Остальные исследователи считали исследования нейронных сетей глупостью, а мы, между тем, придумали новое название: глубокое обучение. Я назвал наше трио «заговором глубокого обучения». Шутка, но не совсем».

Данный фрагмент был взят из главы под названием «Заговор глубокого обучения».
Говорите, мистер «L», вы придумали новое название? Хорошо, верим. Проверить эти слова, к сожалению, особо не получится, т. к. в самой книге на эту тему никакие источники не указаны. Да и как подобное заявление в принципе можно проверить?

Wei Di, Jianing Wei, Anurag Bhardwaj

Честно говоря, уже не помню, какими дебрями вышел на эту книжку. Подозреваю, что при очередном поиске полезной литературы в сети я наткнулся на «Deep Learning Essentials»:

Снова рыскаем в поисках исторических справок и находим:

О, новый источник — Pamela McCorduck, «Machines Who Think». Чудненько! Но к нему мы обратимся позже, а пока вернемся к текущему источнику:

Само собой, Мак-Каллок и Питтс. Гении-одиночки, супергерои, заложившие основы глубокого обучения. Или нет? Идем дальше и находим раздел «Brief history»:

Ай, как прекрасно! Brief history… Честно говоря, я все чаще и чаще задумываюсь над смыслом фразы «историю пишут победители» (ниже еще вернемся к этому). Интересная фраза, много чего можно на эту тему покопать. Предлагаю порассуждать над смыслом этой фразы и тем, какое это имеет отношение к глубокому обучению в частности и к искусственному интеллекту в целом.

Pamela McCorduck

Взглянем же, что есть в этой замечательной книге:

Я совру, если скажу, что прочитал всю эту книгу. Тем не менее, есть тут парочка моментов, которые меня заинтересовали. Вот один из них:

«… there’s a distinct American bias in my history, which may have been appropriate in earlier days, but is no longer. Vigorous research groups now exist in Europe, the Soviet Union, and Japan, and the British effort echoes throughout the history of artificial intelligence, sometimes merrily, sometimes sadly, but always a presence».

К слову о том, кто пишет историю. Сам факт признания автором того, что не только в США занимаются исследованиями в области ИИ и что есть «Vigorous research groups» и за пределами ее страны, конечно, заслуживает… Уважения? Восхищения? Равнодушия? Не знаю я, какого отношения заслуживает этот факт, но к человеку не прикопаешься. Имеет она право рассказывать америкоцентричную историю ИИ? Разумеется! Имеет ли она право рассказывать про одних исследователей и не рассказывать про других? Безусловно!

Другой интересный момент — хронология, которая приведена в книге:

Что же, глубоко копает автор. Есть только одна небольшая проблема: это снова опора исключительно на западноевропейские источники. Правильно ли я понимаю, что ни в Азии (пример статьи о китайских автоматах или о механических садах Индии), ни в Южной Америке, ни в Африке, ни в каких других частях света подобные идеи не возникали? А, ну погодите, тут же пояснение есть:

«… This time line lays out the sequence of efforts throughout Western history to mechanize thinking, beginning with the earliest mythological and literary examples, followed by philosophical tracts, mathematical formulations, automata and other kinds of devices, most importantly the digital computer, that have been proposed as ways to automate thought».

Честно? Честно. Имеет ли право автор ограничиваться, так сказать, «западной историей механизации мышления»? Естественно!

Далее хронология не отступает от курса и упоминает о событиях, имеющих отношение исключительно к Западной Европе и Северной Америке. Словно в остальном мире ничего на темы искусственного интеллекта, вычислительной техники, автоматизации и механизации мышления не происходило.

Утверждает ли автор, что нигде подобные идеи не возникали? Нет. Претендует ли на объективность? Отнюдь. Но пойдем дальше и проверим, пишет ли Памела о глубоком обучении.

Увы и ах. Но в конце концов, «deep learning» — не единственное, что любопытно было бы найти в книге. Почитаем еще:

«… Traces the growing conviction that brains are a species of machine, the failed attempts to equate the on-off logic of the computer with the on-off logic of brain neurons. Reviews the early work of McCulloch and Pitts, as well as self-organizing systems, the Perceptron, and other attempts in the United States and Great Britain to link brains and machines».

Об этом нас уже предупредили.
В «Machines Who Think» есть и подробнейшее описание того, как появилась работа Норберта Винера по кибернетике. Помимо прочего, в ней описывается, как Винер, Розенблют и Бигелоу работали над улучшением противовоздушной артиллерии и постепенно приходили к идеям, изложенным в их общем эссе «Behavior, Purpose and Teleology» от 1943 года. Наиболее примечательна в нем предложенная классификация поведения:

Эссе, опубликованное в 1943 году, само по себе заслуживает прочтения, однако мы немного отклонились. Упомянув его, Памела далее пишет следующее:

«At this time, when such a systems approach to biology, and in particular, mental function, is common in biology textbooks, it’s difficult for us to imagine the surprise of any biologist who happened to pick up that issue of Philosophy of Science. It certainly astounded the regular readers».

Хм, автор пишет, что нам трудно представить удивление любого биолога, которому доведется взять в руки этот выпуск «Философии науки». Да неужели? А как же Николай Рашевский?

Он тоже был бы «astounded»? Николай Рашевский, судя по официальному сайту библиотеки Чикагского Университета, — основатель математической биологии. А в статье «(физио)логические цепи: происхождение идеи Мак-Каллока и Питтса о нейронных сетях» так и вовсе сказано:

«… Питтс познакомился с Н. Рашевским, который включил его в свою группу по математической биологии в Чикагском университете».

И в этой же статье:

«Математическое описание поведения нейронов и нейронных сетей стало популярным в 1930-е и в начале 40-х годов, в первую очередь, благодаря работам Н. Рашевского и его группы… В начале 1930-х годов Рашевский опубликовал несколько статей по математической теории нервной проводимости».

Ну и как вы думаете, сколько раз Памела МакКордак упомянет в своем труде Н. Рашевского? Верно, нисколько.
Но, повторюсь, все честно. Нас еще в названии предупредили, что это «A Personal Inquiry into the History and Prospects of Artificial Intelligence». Предупрежден, как говорится, значит вооружен.

Daniel Crevier

Как и с «Deep Learning Essentials», не помню, какими дебрями вышел на эту книжку. Но на первый взгляд кажется, что книга отвечает нашему запросу. Значит, имеет смысл ее изучить:

Думаю, что никого уже особо не удивишь тем, что поиск упоминаний Deep Learning прошел тщетно:

Так что сразу попробуем поискать что-нибудь ближе к кибернетике и нейронным сетям. Довольно быстро находим интересный пассаж:

«… The answer was not long in coming. While these AI experiments of the 1960s and early 1970s were fun to watch and probably even enjoyable to create, it soon became clear that the techniques they employed would not be useful apart from dealing with carefully simplified problems in restricted areas. Not surprisingly, the U.S. military, one of the main sponsors of early AI research, was also one of the first to have second thoughts».

Миленько, миленько… Впрочем, иного, пожалуй, не следовало ожидать, не только от U.S. military, но и от <любая другая страна> military.

«… Most of the events I will relate happened in the United States. This emphasis stems only in part from my own bias toward the country where I studied and keep so many friends: it is a fact that most pioneering AI research occurred in America, probably because of the overbearing interest of the U.S. military. My apologies to Japan and Europe, who are now catching up: future accounts of AI will say more about them!».

Most pioneering AI research? Apologies to Japan and Europe? Ладно, допустим. Идем дальше:

«… An early “man in the machine” was the statue of the god Amon in the royal city of Napata in ancient Egypt around 800 b.c. Upon the demise of a pharaoh, eligible heirs were marched past the statue of Amon until the god made known his choice by extending his arm to grab the successor. Amon then “delivered” a consecrating speech».

К чести автора следует заметить, что он, говоря о том, насколько древней на самом деле является идея воссоздания интеллектуального поведения, не ограничился одной только Европой, а шагнул за пределы. За это ему спасибо! Но идем дальше:

«… One of the first Americans to observe common points between the mind and engineered devices was the MIT professor of engineering and mathematics Norbert Wiener».

Вполне логично, что с Винера начинается рассказ о том, как:

«… Seeing himself as too broad an intellect, however, to confine himselfto a single field of study, Wiener wandered in what he called the “frontier areas” between disciplines. While roaming along the borders of engineering and biology, Wiener created the science of cybernetics».

Ну и как вы думаете, кого же мы тут встречаем? Правильно, МакКаллока и Питтса (и внезапно Хебба):

«… Contrary to later researchers, who concentrated on experimental simulations, early neural net workers attempted mathematical analyses of how networks of such neurons would behave. Warren McCulloch and Walter Pitts were two of the most truly colorful figures to work in this field. Another influential figure was Donald Hebb, who later provided more theoretical insight by considering biological neurons».

Работе МакКаллока и Питтса посвящено несколько страниц, рассказывается о том, что в их работе делается упор на понятие «цикла обратной связи», рассказывается про общество Телеологов, про состав этого общества, про разногласия МакКаллока и Питтса с Аланом Тьюрингом, мельком задевается работа Дональда Хебба… и ни словечка о группе Рашевского.
К слову о работе МакКаллока и Питтса: есть такая вот статья (русский перевод этой статьи уже приводился выше), где в частности говорится следующее:

«… By examining the intellectual backgrounds of McCulloch and Pitts as individuals, it will be shown that besides being an important event in the history of cybernetics proper, the McCulloch–Pitts collaboration was an important result of early twentieth-century efforts to apply mathematics to neurological phenomena».

О чем же речь? Может об этом:

«… Providing an intellectual space for this collaboration was a group devoted to mathematical biology at the University of Chicago, pioneered by the mathematical biologist Nicolas Rashevsky (1899 – 1972), who saw mathematics as a powerful tool for the study of complex biological phenomena».

Или об этом:

«… This led to Carnap hiring Pitts for “some menial job.” It was through Carnap that Pitts met Nicolas Rashevsky, who took Pitts in as part of his group on mathematical biology, and who held weekly seminars on the subject at the University of Chicago (Cowan, 1998, pp. 104 – 105). This, according to Lettvin, was the only department Pitts ever called home».

«ever called home»… Ну и далее статья довольно подробно описывает то, как зарождалась исследовательская группа Рашевского, кто были первыми учениками, какие статьи публиковал Рашевский и т. д. Рассказывается также и о том, как появился журнал, в котором, в конечном итоге и будет опубликована работа МакКаллока и Питтса. Есть в числе прочего и вот такой отрывок:

«… Joining Rashevsky’s group as early as 1940, Walter Pitts took up some of the problems tackled by Rashevsky and Householder (Pitts, 1942a, 1942b, 1943) … Adopting Householder’s model of neural excitation, Pitts developed a simpler procedure for the mathematical analysis of excitatory and inhibitory activity in a simple neuron circuit, and aimed to develop a model applicable to the most general neural network possible.

Clearly, Rashevsky’s early monographs and papers would not have been published without the help of his students and colleagues in Chicago, who were largely members of his Committee on Mathematical Biology … By the publication of the second edition of Mathematical Biophysics, in 1948, he mentioned several colleagues who had produced papers “which were published too late to be included in the book” (Rashevsky, 1948, p. xix). Included in this list were Warren McCulloch and Walter Pitts».

Ну и далее автор плавненько подводит к следующему:

«… Rashevsky’s project in mathematical biology had provided an important intellectual space for McCulloch and Pitts. “Mathematical biology,” as conceived by Rashevsky, with its emphasis on the formalization of complex phenomena, fit in with McCulloch’s quest for a “psychon,” a “least psychic event,” and Pitts’s fascination with mathematical logic. With their pursuit of questions that were at once philosophical and physiological, McCulloch and Pitts were able to collaborate within a community of theoretically-oriented mathematical biologists».

А вывод так и просто с ног валит:

«… Thus, through his creation of the Bulletin for Mathematical Biophysics, Rashevsky created a venue for the McCulloch – Pitts collaboration. Indeed, McCulloch later recalled that they were able to publish their paper “thanks to Rashevsky’s defense of logical and mathematical ideas in biology” (McCulloch, 1965a, p. 9). Besides being a formative event in the history of cybernetics and 26 cognitive science, the McCulloch – Pitts collaboration had a history of its own, and was an important result of early-twentieth-century efforts to apply mathematics to neurological phenomena».

Должен ли был об этом хоть что-то упомянуть автор, пишущий книгу про «The tumultuous history of the search for artificial intelligence»? Оставлю этот вопрос открытым.

Simon Haykin

Сидел в «Доме книги» на Невском, взгляд случайно упал на книгу Саймона Хайкина. Вспомнил, что и у него есть книга о нейронных сетях.

Источник.

Как и в случае с Кристофером Бишопом и Дэниелом Кревьером, точное попадание… В книгу, где нет ни одного упоминания искомого термина. Забавно.

Тем не менее, есть тут все же кое-что интересное, а именно «HISTORICAL NOTES»:

«… We conclude this introductory chapter on neural networks with some historical notes. The modern era of neural networks began with the pioneering work of McCulloch and Pitts (1943) … According to Rail (1990), the 1943 paper by McCulloch and Pitts arose within a neural modeling community that had been active at the University of Chicago for at least five years prior to 1943, under the leadership of Rashevsky».

Ну понятно… Мак-Каллок и Питтс, куда же без этих ребят… Интересно тут немного другое: автор все-таки упоминает Рашевского Николая Петровича, который был лидером сообщества, в котором была взращена работа Мак-Каллока и Питтса.

Математический гений Уолтер Питтс и Уоррен МакКаллок, написавшие свою работу по модели нейрона… Будучи не в вакууме и не в одиночестве, а пребывая в сообществе единомышленников и, подозреваю, регулярно обмениваясь идеями в нем.

О возможном влиянии сообщества, созданного Николаем Петровичем, на работу, ставшую чуть ли не началом эпохи нейронных сетей, из всех пока что просмотренных зарубежных авторов говорит лишь один. Да и то мельком, между делом.

Ну и опять же, далее идет беглый обзор ряда работ, которые стали (по мнению автора) наиболее примечательными. Конечно же, будет сказано о работе Винера:

«… In 1948, Wiener’s famous book Cybernetics was published, describing some important concepts for control, communications, and statistical signal processing. The second edition of the book was published in 1961, adding new material on learning and self·organization».

Конечно же, будет сказано и о постулате обучения Хебба:

«… The next major development in neural networks came in 1949 with the publication of Hebb’s book The Organization of Behavior, in which an explicit statement of a physiological learning rule for synaptic modification was presented for the first time. Specifically, Hebb proposed that the connectivity of the brain is continually changing as an organism learns differing functional tasks, and that neural assemblies are created by such changes».

Вы здесь найдете и про проблему присвоения кредита (не скрипите зубами, я просто иронизирую):

«… An important problem encountered in the design of a multilayer perceptron is the credit assignment problem (i.e., the problem of assigning credit to hidden neurons in the network). The terminology “credit assignment” was first used by Minsky (1961), under the title “Credit Assignment Problem for Reinforcement Learning Systems”».

А есть и и вот такой фрагмент:

«… The idea of simulated annealing was later used by Ackley, Hinton, and Sejnowski (1985) in the development of a stochastic machine known as the Boltzmann machine, which was the first successful realization of a multilayer neural network».

«… the Boltzmann machine, which was the first successful realization of a multilayer neural network»? Ну что же, хорошо. Возможно, автор, когда писал эту историческую справку, просто не был в курсе того, что над обучением многослойной сети уже работали Алексей Григорьевич Ивахненко и Валентин Григорьевич Лапа чуть-чуть раньше. Либо автор в курсе и по каким-то причинам считает, что эта работа не является первым успешным прецедентом обучения многослойной сети. Тут остается лишь гадать.

Charu C. Aggarwal

Извлек из закладок книгу «Neural Networks and Deep Learning»:

Здесь словосочетание «deep learning» тоже используется уже как устоявшийся термин. Есть тут, в частности, глава, в которой дается очень сжатое описание взлетов и падений интереса к искусственным нейронным сетям.

Автор начинает главу с упоминания книги Марвина Минского и Сеймура Пейперта «Perceptrons. An Introduction to Computational Geometry» в которой (как утверждает автор) Минский и Пейперт выступали решительно против нейронных сетей по причине невозможности обучения их многослойных вариантов:

«In their influential book, Minsky and Papert [330] strongly argued against the prospects of neural networks because of the inability to train multilayer networks».

Ну и я хотел бы, конечно, сказать, что дальше по тексту будет раскрыто, откуда взялся термин «deep learning», но нет, такого не происходит, к сожалению. Автор рассказывает про то, что алгоритм обратного распространения ошибки был предложен Румельхартом и это был первый серьезный прорыв в обучении нейронных сетей:

«The first significant breakthrough in this respect was proposed by Rumelhart et al. [408, 409] in the form of the backpropagation algorithm».

Здесь, конечно, стоит оговориться, что в книге на эту тему присутствует сноска:

«Although the backpropagation algorithm was popularized by the Rumelhart et al. papers [408, 409], it had been studied earlier in the context of control theory. Crucially, Paul Werbos’s forgotten (and eventually rediscovered) thesis in 1974 discussed how these backpropagation methods could be used in neural networks. This was well before Rumelhart et al.’s papers in 1986, which were nevertheless significant because the style of presentation contributed to a better understanding of why backpropagation might work».

Памятуя о том, как избирательно (как это уже было показано на нескольких примерах) могут составляться подобные исторические справки, невольно задаешься вопросом: а может и тут кто-нибудь тоже чисто случайно не упомянут?
Но это так, вопрос в воздух. Впрочем, ответ на этот вопрос уже попытались дать, вполне успешно.

Rina Dechter

Пока шерстил книгу Минского и Пейперта, наткнулся и на ее описание в Википедии, а уже с этой странички перескочил на страничку по deep learning, на которой есть вот такой вот пассаж:

«In addition, term deep learning was proposed in 1986 by Rina Dechter although the history of its appearance is apparently more complicated».

Да не, это же Википедия! Разве можно в таких важных вопросах ссылаться на Википедию? Ведь в конце концов, как писал в своей рукописи «Мастер и Маргарита» ~~Мастер~~ Булгаков (так и написал, слово в слово, честное-пречестное, можно и не проверять даже), вкладывая в уста профессора Воланда свое интеллигентское «фи»:

«Помилуйте, – снисходительно усмехнувшись, отозвался профессор, – уж кто-кто, а вы-то должны знать, что ровно ничего из того, что написано в Википедии, не происходило на самом деле никогда, и если мы начнем ссылаться на Википедию как на исторический источник… – он еще раз усмехнулся, и Берлиоз осекся, потому что буквально то же самое он говорил Бездомному, идя с тем по Бронной к Патриаршим прудам».

Что же мы сможем найти еще? Много чего, но в числе прочего еще и вот такую статью:

Оффтоп. Был у меня на одной из работ коллега, по иронии судьбы тоже из Швейцарии и тоже Юрген. Работать с ним было одно удовольствие: в рабочих статьях он описывал все настолько дотошно и четко, что родилось словечко «Юргенизировать». Термин применялся для ситуаций, когда что-то (бизнес-процесс, задача, явление) разбиралось на атомы, анализировалось и укладывалось в стройную конструкцию, где каждому компоненту есть свое строго определенное место.

Статьи в энциклопедиях ссылаются на оригинальную работу Рины Дехтер — «Learning While Searching in Constraint-Satisfaction-Problems». Где же она там говорит о глубоком обучении? А вот тут:

«… Discovering all minimal conflict-sets amounts to acquiring all the possible information out of a dead-end. Yet, such deep learning may require considerable amount of work».

А еще вот тут:

«… When deep learning is used in conjunction with restricting the level of learning we get deep first-order learning (identifying minimal conflict sets of size 1) and deep second-order learning…».

И вот тут:

«… Our experiments (implemented in LISP on a Symbolits LISP Machine) show that in most cases both performance measures improve as we move from shallow learning to deep learning and from first-order to second-order».

И вот тут:

«… The zebra problem, …. Second-order-deep learning caused a second leap in performance, with gains over no-learning-backjump by a factor of 5 to 10».

The zebra problem? Hey, zebra, is there any problem here? Что еще за зебра? Какая там у нее проблема?

Ну да ладно, это я так, дурачусь. Вообще конечно формулировка задачи присутствует в конце статьи:

Это так называемая головоломка о зебре, a.k.a. загадка Эйнштейна, и рассматривается она в статье как задача удовлетворения ограничений (CSP — constraint satisfaction problem).

Мы сталкиваемся с подобными задачами регулярно. Например, приготовление обеда: нужно взять точное количество ингредиентов, правильно их нарезать, смешать и готовить на нужном огне определенное время. Если все сделать правильно, то мы получим вкусный обед. Чем вам не задача удовлетворения ограничений?

И вот тут может возникнуть вопрос: а причем тут вообще обучение, да еще и глубокое? Кого и чему там учат? Чтобы ответить на этот вопрос, достаточно почитать оригинальную статью, которая, кстати, по объему не очень-то и большая (семь страничек).

В ней автор описывает различные вариации алгоритма поиска с возвратом, применяемые для решения задач удовлетворения ограничений. Основной акцент делается на том, как алгоритмы возвращаются на предыдущие шаги, если поиск зашел в тупик.

«Those improvements center on the issue of “jumping-back” to the source of the problem in front of dead-end situations».

Рина Дехтер рассматривает проблему с другой стороны и предлагает идею сохранения причин возникновения тупиковых ситуаций. Сразу вспоминается фраза:

«Умный человек найдет выход из любого сложного положения. Мудрый в этом положении не окажется».

В начале статьи автор приводит небольшую классификацию улучшений «ванильного» алгоритма поиска с возвратом. Изобразим ее небольшой схемкой:

И буквально через абзац появляется мысль об обучении:

«Constraint-recording in look-back schemes can be viewed as a process of learning, as it has some of the properties that normally characterize learning in problem solving:

1. The system has a learning module which is independent of the problem-representation scheme and the algorithm for solving problem instances represented in this scheme.

2. The learning module works by observing the performance of the algorithm on any given input and recording some relevant information explicated during the search.

3. The overall performance of the algorithm is improved when it is used in conjunction with the learning module.

4. When the algorithm terminates, the information accumulated by the learning module is part of a new, more knowledgeable, representation of the same problem. That is, if the algorithm is executed once again on the same input, it will have a better performance».

С обучением разобрались, но где глубина? Опять-таки немного почитаем статью. Дальше Рина пишет, что при решении задачи удовлетворения ограничений могут возникать последовательности, которые, приводят к тупику. В статье для такого случая вводится термин «conflict set». Вопрос: к тупику привела вся последовательность или только ее отдельные куски (в статье — «subsets»)?

Повествование ведет к мысли, что запоминать всю последовательность — не очень-то и полезно для поиска решения, а вот выделить какие-то ее отдельные фрагменты, которые привели к тупику — вот это уже другой разговор. Чем больше, так сказать, «уроков» будет «извлечено» из возникшей ситуации, тем лучше. И вот уже это (извлечение максимального количества цепочек решений, приведших к тупику) автором и было обозначено термином «deep learning».

Получается, что ученик — это модификация алгоритма поиска с возвратом, которая учится тому, чтобы осуществлять задачу поиска решения более эффективно (что измеряется скоростью поиска) по мере накопления опыта в виде новых ограничений, которые были выявлены в процессе разбора тупиковых ситуаций.

Что-то я уже как-то начинаю подозревать, что где-то я нечто подобное видел… Ах да, ну как же! Вот же:

«A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E».

Это определение, которое Том Митчелл дал термину «machine learning» в своем учебнике «Machine learning», который был опубликован издательством McGraw Hill в 1997-м году.

Tom Mitchell

Ну и раз уж мы упомянули Митчелла, заглянем и в его книгу.

Источник.

Употребления термина «deep learning» тут, как и во многих других книгах, нет, как и выделенных фрагментов с историческими справками. Но это вполне ожидаемо. Книга сконцентрирована на технической стороне вопроса.

Тем не менее, автор все же что-то пишет о том, как развивались нейронные сети:

«… Work on artificial neural networks dates back to the very early days of computer science. McCulloch and Pitts (1943) proposed a model of a neuron … During the early 1960s Widrow and Hoff (1960) explored perceptron networks (which they called “adelines”) and the delta rule, and Rosenblatt (1962) proved the convergence of the perceptron training rule … Minsky and Papert (1969) showed that even simple functions such as XOR could not be represented or learned with singlelayer perceptron networks, … (Rumelhart and McClelland 1986; Parker 1985). These ideas can be traced to related earlier work (e.g., Werbos 1975). … book on parameter learning methods for pattern recognition is Duda and Hart (1973). The text by Widrow and Stearns (1985) covers perceptrons and related single-layer networks and their applications. Rumelhart and McClelland (1986) produced an edited collection of papers that helped generate the increased interest in these methods beginning in the mid-1980s. Recent books on neural network learning include Bishop (1996); Chauvin and Rumelhart (1995); Freeman and Skapina (1991); Fu (1994); Hecht-Nielsen (1990); and Hertz et al. (1991)».

Особо больше тут ничего и не скажешь. Это в первую очередь техническая литература, так что рассчитывать на развернутую историческую разметку не приходится.

Igor N. Aizenberg , Naum N. Aizenberg , Joos Vandewalle

С чего это вдруг? А с того, что на приведенной выше страничке эта книга упоминается, как книга, в которой термин «deep learning» был применен уже непосредственно к нейронным сетям:

Тут статья, собственно, отсылает нас к одному посту:

И если вы попытаетесь его просто открыть, то ничего не увидите. Тем не менее, интернет, видимо, действительно помнит если не все, то очень многое:

А вот, собственно, сама книга:

И да, все на месте:

Ну что же, господа LBH, кажется, здесь произошло какое-то недоразумение. Очевидно, что вы могли придумать словосочетание «глубокое обучение» независимо и параллельно с другими авторами, однако выходит так, что кто-то (ну, точнее говоря, Игорь Айзенберг, Наум Айзенберг и Йос Вандевалле) сделал это до вас.
Есть ли у меня доказательство того, что вы, господа LBH, заглядывали в эту книгу? Нет, таких доказательств у меня нет. Могу лишь сказать, что сам термин применительно к нейронным сетям существовал и до того, как вы его, по выражению мистера «L», придумали.

Итого

Ну что же, думаю, что тут имеет смысл поставить точку (с запятой) и подвести какой-никакой итог.

Мы просмотрели ряд работ зарубежных авторов, в частности тех, у кого хоть в каком-то виде присутствует анализ исторического развития глубокого обучения. Некоторые из этих работ дают очень сжатую справку, иные разворачивают повествование очень и очень подробно, однако всех (за некоторыми исключениями) объединяет одно: описание вклада в развитие глубокого обучения в частности и машинного обучения/искусственного интеллекта в целом сильно смещено в сторону западноевропейских и американских/канадских исследователей.

Разумеется, повторимся в очередной раз, рассмотренные авторы, очевидно, имеют право поступать подобным образом. Нам просто в свою очередь надо делать на это поправку. Так что когда речь заходит о том, что «X является первооткрывателем Y», надо делить эту фразу на десять с половиной, понимая, что это может быть, так сказать, недоговорочка. При этом будет невозможно прикопаться. Вам сказали правду. Просто не всю.

Что касается происхождения термина «глубокое обучение», то мы более или менее разобрались:

что имела в виду Рина Дехтер, когда писала о глубоком обучении,
то, что описывает она, вполне подпадает под определение машинного обучения по Тому Митчеллу.

О чем это говорит? О том, что впервые термин «глубокое обучение» мог появиться ну никак не позже 1986-го года, поскольку на тот момент статья Рины Дехтер была опубликована. Достаточно ли этого, чтобы говорить, что современное понимание этого термина зародилось именно тогда? Очевидно нет, ведь из самой статьи Рины Дехтер видно, что речь идет уж совсем никак не о том глубоком обучении, к которому мы привыкли.

Далее мы также взглянули, что именно подразумевали под словосочетанием «deep learning» Игорь Айзенберг, Наум Айзенберг и Йос Вандевалле в своей книге. Лично я там смог найти только одно упоминание этого термина и только в одном контексте (честно говоря, причина тут еще может быть в том, что в сети в открытом доступе я нашел только фрагментарный вариант книги). Достаточно ли этого для того, чтобы утверждать, что именно с этого началось использование термина «deep learning» в том смысле, к которому мы привыкли сегодня? Да вроде бы тоже нет. Так что же все-таки можно утверждать?

На мой взгляд, можно утверждать лишь то, что на момент, который Ян Лекун описывает в своей книге, словосочетание «deep learning» уже как минимум дважды было использовано разными авторами независимо друг от друга. Означает ли это, что Ян Лекун соврал? Разумеется, нет! Он с коллегами мог прийти к подобному термину, не будучи в курсе, что кто-то уже поставил слова «deep» и «learning» рядом друг с другом. Каких-то веских доказательств обратного нет, так что и утверждать тут больше особо нечего.

Тем не менее, подобный разбор книг и статей, монографий и прочих источников, на которые эти книги ссылаются, показывает, что существует, скажем так, популярная линия рассуждений, согласно которой подавляющее большинство основополагающих работ в области глубокого обучения и искусственного интеллекта возникло в США, Канаде, ну или на худой конец в Западной Европе. Большинство рассмотренных выше авторов даже не пытаются играть в объективность. Максимум, что можно увидеть, это то, что они это признают. Вызывает ли это вопросы? Ну не знаю, вы мне скажите. Я просто книжки полистал и привел некоторое количество вырезок.

Можно ли говорить, что если в рассмотренных выше книжках объяснение происхождения термина «deep learning» не встретилось, то его и нет вообще? Да нет, ничуть. Другой вопрос, что делать, если все-таки хочется это объяснение найти? По-хорошему надо было бы взять все работы в области искусственного интеллекта, поискать в них вхождения подобных слов и словосочетаний и далее внимательно смотреть, как формировался контекст данных слов и словосочетаний и как он менялся во времени. И это мы еще не говорим о ситуациях, когда суть одно и то же понятие обозначается разными терминами. И уж даже неловко как-то говорить, что работы в области искусственного интеллекта велись и в СССР, и в Китае, и справедливости ради эти работы тоже нужно проанализировать. Не случайно в своей статье «Early History of Machine Learning» Александр Львович Фрадков пишет следующее:

«…the history of its appearance is apparently more complicated. A detailed and preferably objective analysis of the events of this period is still waiting for its researcher».

Головоломка? Почему головоломка?

Потому что по мере изучения источников, разобранных выше, я прямо ощущал, как в голове спорят между собой грусть, злость, отвращение и радость. Я здесь уже наверное не успею расписать прямо все, что вызывало те или иные эмоции, но думаю, что по тексту плюс-минус понятно, что преобладало. Да-да, преобладал вот этот парень:

Почему? Что ж, достаточно того факта, что в книгах, которые затрагивают вопрос истории ИИ (по крайней мере, в тех, что мы рассмотрели) эта самая история преподносится с такой однобокостью, что остается только руками развести от изумления.
Нет, разумеется, есть те, кто из этого тренда выбивается. Есть, безусловно, прекрасные работы Юргена Шмидхубера, есть работа Тары Абрахам, в которой она не пытается отнять славу создателей «первой» модели нейрона (кстати странно, почему это их еще не окрестили отцами ИИ). Все, что делает Тара Абрахам, это всего лишь напоминает, что работы подобные той, что писали гениальный беспризорник и профессор, не рождаются из воздуха, сами по себе, а всегда являются плодом творческого переосмысления и систематизации трудов и идей, созданных раньше другими людьми. Да и Юрген, собственно, (как видится лично мне) своими работами по истории ИИ не дискредитирует заслуги предполагаемых соперников (как выражается мистер «H»), а делает ровно то, что имеет в виду в одном из своих постов:

«…We must stop crediting the wrong people for inventions made by others».

Это уже вызывает другую эмоцию:

Только ли эти эмоции вызвал поиск истоков глубокого обучения? О нет, отнюдь! Впрочем:

Ну вы поняли.

Заключение

В заключение я бы хотел привести еще парочку книг. Начну с «Незападной истории науки» (есть на русском и английском):

Может возникнуть вопрос: «Зачем?». Затем, что эта книга, как мало какая другая иллюстрирует идею того, что наука никогда не была достоянием какой-то одной страны или одного континента. Наука всегда была продуктом тесного взаимодействия самых различных культур, стран и народов и катализатором ее развития являлись не гениальные «отцы-основатели», а глобальные экономические и политические процессы, нередко жестокие и бесчеловечные. Как и с наукой в целом, с искусственным интеллектом и, в конечном итоге, глубоким обучением, дело обстоит, подозреваю, точно так же. И вот вопрос: такая ли картинка сложится, если почитать упомянутые выше книги? Рискну предположить, что нет.
Рискну предположить, что при не очень критическом прочтении может сложиться точка зрения, которую сформулировал Мартин Форд (а это другая книжка):

«…These three men not only made seminal contributions to the mathematical theory underlying deep learning, they also served as the technology’s primary evangelists. Together they refined ways to construct much more sophisticated—or “deep”—networks with many layers of artificial neurons».

Как вы думаете, о каких «three men» идет речь?

Впрочем, это же все были зарубежные авторы. А что думают, наши, отечественные? Об этом расскажу потом, а пока что пожелаю всем хорошего времени суток!

Нейросети и ML