Глубинное обучение хрюку. Смогут ли котята и утята разговаривать друг с другом с помощью нейросетей

12.10.2022

Время чтения: 5 мин.

Вне всякого сомнения, животные общаются между собой с помощью разнообразных сигнальных систем, и многие из этих систем настолько сложны, что тысячелетия наблюдений не слишком приблизили человечество к расшифровке «речей» животных. Сегодня целый ряд исследовательских проектов делает ставку на искусственный интеллект. По замыслу ученых, нейросети, обученные на огромном объеме данных о сигналах животных, смогут выстраивать из них цельные системы, подобные тем, что уже существуют для человеческих языков. Зои Корбин разобралась, как может быть устроен Google Translate для межвидового общения и почему некоторые ученые относятся к этой идее с большим скепсисом.

Дрессировщик показывает дельфинам жест, означающий слово «вместе», за которым следует жест «создать». Два дельфина исчезают под водой, обмениваются звуковыми сигналами, потом выныривают, переворачиваются на спину и поднимают хвосты. Они придумали свой собственный трюк и исполнили его в паре, как их и просили.

«Это не значит, что у дельфинов есть полноценный язык, — говорит Аза Раскин. — Но, безусловно, если бы у них был доступ к некому символическому способу общения, это значительно облегчило бы задачу».

Раскин — соучредитель и президент Earth Species Project (ESP), калифорнийской некоммерческой организации со смелыми амбициями: расшифровать язык животных с помощью искусственного интеллекта на основе машинного обучения, а затем сделать так, чтобы общаться с животными могли все — это должно помочь наладить отношения между видами и способствовать сохранению некоторых из них. Альбом 1970 года с песнями китов спровоцировал общественное движение, добившееся запрета на коммерческий китобойный промысел. К чему тогда может привести настоящий Google Translate для сигнальных систем животных?

Люди давно пытаются понять, что животные «говорят» с помощью своих сигналов. Различные приматы издают тревожные крики, которые различаются в зависимости от того, какого именно хищника они заметили, дельфины общаются друг с другом характерными свистками, а некоторые певчие птицы используют пение, чтобы что-то сообщить. Но большинство экспертов воздерживаются от того, чтобы называть эти сигнальные системы языками.

До недавнего времени расшифровка сигналов животных основывалась преимущественно на кропотливом наблюдении. Не так давно ученые решились применить машинное обучение для обработки огромных объемов данных с датчиков, прикрепленных к животным.

Элоди Брифер, адъюнкт-профессор Копенгагенского университета, изучающая вокальную коммуникацию у млекопитающих и птиц, разработала алгоритм, который анализирует хрюканье свиньи, чтобы определить, какую эмоцию испытывает животное — положительную или отрицательную. Другой алгоритм, который получил название DeepSqueak, определяет, испытывают ли грызуны стресс, по издаваемым ими ультразвуковым сигналам. Еще одна инициатива — проект CETI (Cetacean Translation Initiative — «Инициатива по переводу с языка китообразных») — планирует использовать машинное обучение для расшифровки «речи» кашалотов.

Тем не менее сотрудники ESP говорят, что их подход отличается от всего вышеперечисленного, поскольку он сосредоточен на расшифровке методов общения не одного вида, а всех возможных. Хотя Раскин признает, что, хотя вероятность существования богатой символической коммуникации между социальными животными, например приматами или китами, в целом намного выше, задача их проекта всё же состоит в разработке инструментов, которые можно было бы применить ко всему животному миру.

«Мы не ориентируемся на какой-то конкретный вид, — говорит Раскин. — Инструменты, которые мы разрабатываем… могут пригодится всем — от котов до китов».

По словам Раскин, «мотивирующей интуицией» для ESP послужило исследование, показавшее, что машинное обучение можно использовать для перевода с разных, порой совсем неродственных человеческих языков — без каких-либо предварительных условий.

Этот процесс начинается с разработки алгоритма, который визуализирует отношения между словами. В многомерном геометрическом пространстве соотношения слов (то есть их семантические отношения) выражаются с помощью направления и длины отрезков, которые можно прочертить между точками (то есть словами). Например, если протянуть отрезок между словами «король» и «мужчина», то расстояние и направление отрезка будут такими же, как у отрезка между словами «королева» и «женщина». (Подобные соотношения выстраиваются без учета содержания слов, но путем наблюдения, например, за тем, как часто они встречаются рядом друг с другом.)

Позже было замечено, что подобные «геометрии» одинаковы для разных языков.

А в 2017 году две группы исследователей, работающих независимо друг от друга, открыли метод, который позволил добиться перевода с одного языка на другой. Чтобы перевести с английского на урду, нужно соотнести их «геометрии». «Таким образом вы можете достаточно точно перевести большинство слов», — говорит Раскин.

Задача ESP состоит в том, чтобы создать такие же модели для «языков» животных — работая как с конкретными видами, так и с совокупностью видов — а затем понять, можно ли их соотнести с человеческим языком. Мы не знаем, как животные воспринимают мир, говорит Раскин, но есть эмоции, например горе и радость, которые, похоже, некоторые виды вполне разделяют с нами — и могут об этом сообщить.

Он добавляет, что животные общаются не только голосом. Пчелы, например, сообщают сородичам о местонахождении цветка с помощью «танца покачиваний». Здесь также очевидна необходимость в переводе между различными способами коммуникации.

Сделать это не легче, чем полететь на Луну, признается Раскин. Правда, исследователи вовсе не пытаются расшифровать все сигнальные системы в мгновение ока. Скорее, стратегия их проекта предполагает решение ряда небольших проблем, по мере чего будет выстраиваться общая картина. Конкретные решения лягут в основу конкретных инструментов для исследователей, изучающих поведение какого-либо вида с помощью ИИ.

Например, ESP недавно опубликовала статью о так называемой проблеме коктейльной вечеринки, когда трудно различить, как именно вокализирует конкретная особь в шумной группе животных одного вида.

«Насколько нам известно, никто раньше не делал подобного разложения голосов животных», — говорит Раскин.

Разработанная ESP ИИ-модель, которая была опробована на свисте дельфинов, ворчании макак и вокализации летучих мышей, лучше всего распознавала сигналы тех особей, на чьих звуках была обучена; но с большими наборами данных она смогла выделить крики «незнакомых» ей животных в мешанине других криков.

Другой проект предполагает использование искусственного интеллекта для генерации «сообщений» животных — в качестве тестового вида используются горбатые киты. Новые «сообщения» создаются путем разделения вокализаций на микрофонемы (отдельные единицы звука продолжительностью в сотую долю секунды), которые ИИ использует для «говорения» чего-то на «китовьем»; затем исследователи смотрят, как киты на это реагируют. Если ИИ в итоге сможет определить, где говорится бессмыслица, а где присутствуют какие-то семантические значения, это приближает нас к пониманию коммуникации, объясняет Раскин:

«Это значит, что искусственный интеллект говорит на их языке, хотя мы еще не знаем, что именно».

Еще один проект разрабатывает алгоритм, который будет определять, сколько типов крика использует определенный вид животных. Для этого применяется ИИ, не требующий в ходе своего обучения какой-либо маркировки данных со стороны экспертов-людей. Команда во главе с Кристианом Рутцем, профессором биологии в Университете Сент-Эндрюс, сделала множество аудиозаписей сигналов гавайской вороны — вида, который, как обнаружил Рутц, обладает способностью создавать и использовать инструменты для добывания пищи и, как считается, обладает значительно более сложным набором вокализаций, чем другие виды ворон. ИИ будет исследовать эти записи, чтобы составить вокальный репертуар гавайской вороны.

Рутц особенно взволнован экологической пользой от своего проекта. Гавайская ворона находится под угрозой исчезновения и размножается только в неволе, где ее разводят для заселения в дикую природу. Есть надежда, что с помощью записей, сделанных в разное время, можно будет отследить, не сократился ли репертуар сигналов этого вида в неволе — например, могут быть утрачены специфические сигналы тревоги, что может иметь последствия для заселения гавайский ворон в дикую природу.

«Так мы можем помочь этим птицам вернуться к нормальной жизни», — говорит Рутц, добавляя, что обнаружение и классификация сигналов вручную были бы очень трудоемкими.

Проект, который ведет лаборатория Ари Фридлендера, профессора океанологии Калифорнийского университета в Санта-Крусе, изучает, как ведут себя под водой дикие морские млекопитающие (наблюдать за ними непосредственно — это крайне трудная задача).

Небольшие электронные устройства, прикрепленные к животным, фиксируют их местоположение, тип движения и даже то, что они видят (устройства могут включать видеокамеры). В лаборатории также поступают данные с расположенных в океане звукозаписывающих устройств.

ESP стремится сначала применить машинное обучение к данным тегов, чтобы понять, что делает животное (например, кормится ли оно, отдыхает, путешествует или общается), а затем добавить к этим данным аудиоданные, чтобы увидеть, можно ли придать функциональный смысл сигналам, привязанным к этому поведению. Сначала метод опробуют на данным о горбатых китах — сотрудники лаборатории уже пометили несколько животных в одной группе, чтобы можно было видеть, как передаются и принимаются сигналы между ними.

Но не все полагаются на силу искусственного интеллекта для достижения таких грандиозных целей. Роберт Сейфарт — почетный профессор психологии Пенсильванского университета; он более сорока лет изучал социальное поведение и речевую коммуникацию приматов в их естественной среде обитания. Хотя Сейфарт считает, что машинное обучение может быть полезно для решения некоторых проблем, например для определения вокального репертуара животного, есть и другие области знаний, в том числе открытие значений и функций вокализаций, где ИИ может быть бессилен.

Проблема, объясняет Сейфарт, заключается в том, что, хотя у многих животных могут быть сложные общества, репертуар их звуков гораздо меньше, чем у людей.

Один и тот же звук может использоваться для обозначения разных вещей в разных контекстах, и только изучая контекст — кто конкретно слушает сообщение, как эта особь связана с другими, какое место она занимает в иерархии, с кем она взаимодействует — можно надеяться установить значение звука.

«Я думаю, что методов искусственного интеллекта недостаточно, — говорит Сейфарт. — Нужно пойти туда и понаблюдать за животными».

В целом же сама концепция может оказаться полностью провальной — как минимум потому, что «геометрия» общения животных может вовсе не пересекаться с «геометрией» языка людей. Применение компьютерного анализа к человеческому языку, с которым мы хорошо знакомы — это одно, говорит Сейфарт. Но всё может быть совсем по-другому в случае животных.

«Это захватывающая идея, но в нее трудно поверить всерьез», — говорит Кевин Коффи, нейробиолог из Вашингтонского университета и соавтор алгоритма DeepSqueak.

Раскин признает, что одного ИИ может быть недостаточно, чтобы наладить связь с другими видами. Но он ссылается на исследования, которые показали, что многие виды общаются способами, «более сложными, чем люди когда-либо могли себе представить». Камнем преткновения стала наша способность собирать достаточное количество данных и анализировать их, а также наше собственное ограниченное восприятие.