Нейросети на смену приложениям


гугл-поиск-на-мобильном.jpg

Нейросети приходят на замену приложениям

Приложение Shazam было настоящим маст-хэвом последнего десятилетия. Казалось, оно способно воплотить абсолютно все обещания «постайфоновского» мира: просто прикоснувшись к экрану, можно было отправить информацию в облако, чтобы узнать, какая песня играет в рекламе, баре или на радио. Но для этого «Шазаму» требовалось создать огромную «серверную ферму» - его собственный центр обработки данных, чтобы справляться с такого рода нагрузками.

Чтобы понять, как всё изменилось за последнее десятилетие со времён дебюта Шазам, подумайте вот над чем: в приложении под названием Now Playing, установленном на Pixel 2, Гугл сумел урезать эквивалент бесчисленных серверов “Шазама” до размеров, позволяющих ему полностью помещаться на одном только телефоне. Он может определять до 70 тысяч песен, не требуя подключения к сети. И вместо того, чтобы давать ответ на ваш запрос о том, какая песня играет сейчас, Now Playing слушает всё время и знает ответ ещё до того, как вы его спросите.

Как это стало возможно? “Произошла масштабная революция в сфере знаний“, говорит Мэтт Шарифи, разработчик программного обеспечения в Гугл, который первым сумел добавить идентификацию музыки в собственную панель поиска Google еще в 2010 году. “Когда мы начали работать над этой задачей, алгоритмы распознавания музыки отличались от методов 2017-ого года. Мы подходили ко всему с доскональной проработкой, в том числе и к машинному обучению.“

Преимущества запуска Now Playing на Pixel были очевидны: он станет быстрее и обеспечит пользователю лучшую конфиденциальность, поскольку аудио фрагменты больше не нужно отправлять в облако. Но, вероятно, самая главная причина установки Now Playing на телефон является и наиболее простой из них: то, что это вообще стало возможным.

Для непосвященных, в первый раз, когда вы видите Now Playing в работе, оно смотрится как жутковатое всевидящее око. Экран блокировки Pixel 2 выглядит как старые радио-часы, показывая время наряду с минимальным количеством уведомлений. И над всем этим написано название песни, которая сейчас играет в комнате.

По изначальной задумке, в Гугл не хотели, чтобы от вида, работающего Now Playing пользователя бросало в холодный пот. “The Pixel – это про то, чтобы быть полезным и практичным, но так же и немного шутливым“, говорит Брэндон Барбелло, менеджер по продуктам. “Now Playing успешно занимает обе позиции. В момент возникновения вопроса “Что это за песня?” вы можете посмотреть на экран вашего смартфона - и ответ уже будет там.

Но эта не требующая усилий “всеобъемлющая осведомлённость”, как её называет Гугл, на самом деле результат многолетних разработок. Даже несмотря на то, что команда уже ранее работала над созданием “гугловской” технологии музыкального поиска в 2010, ей потребовалось начать с нуля, чтобы запустить аудиопоиск на телефоне. Причина тому – относительно большая вычислительная мощность, которой обладает Google в облаке.

Для того чтобы выпустить Now Playing, первое, что сделали исследователи – это создали базу данных из 70 “звуковых отпечатков пальцев”, которые представляют собой, по существу, сложные снимки осциллограмм песен. Для этого была использована нейросеть, сжимающая аудио-отпечатки в абсолютно малые файлы, по-прежнему распознающиеся как уникальные. Это непросто, так как одного распознавания песни мало, необходимо иметь достаточно информации, чтобы идентифицировать отпечаток, даже если запись будет крайне нечёткой, перебиваемой звуками окружающей среды, например, разговорами или шумом пылесоса.

Эти отпечатки были созданы на серверах Гугла, но та же нейросеть была размещена прямо на смартфонах Pixel. По мере поступления в Pixel, звук фильтруется супермощным DSP чипом, отслеживающим ключевые слова, такие как: «Оkay, Google». DSP слушает всё время, пока не удостоверится, что слышит музыку. Как только это происходит, чип врубает мощный, энергоёмкий процессор «Пикселя», который, в свою очередь, запускает работу нейросети Now Playing. Пары секунд чистого аудио хватает, чтобы сеть создала на устройстве новый музыкальный отпечаток. После чего другой алгоритм пытается найти идентичный отпечаток среди семидесяти тысячной библиотеки на телефоне.

определение-трека.jpg

Вся эта внутренняя технология абсурдно сложна, но для пользователя это незаметный труд. Искусственный интеллект всегда в ожидании момента, когда его юзеру потребуется помощь в решении крайне специфической задачи. Всё это правдиво и для других частей “Пикселя”, использующих AI. Его камера использует искусственный интеллект чтобы осуществлять обработку изображений. Пользовательский интерфейс для определения именно того фрагмента текста, который вы, возможно, пытаетесь скопировать и вставить. И все эти примеры поднимают один вопрос: можем ли мы иметь телефоны, которые в будущем будут работать на своем собственном ИИ, без необходимости общаться с облаком вообще?

«Я уверен, существует множество возможностей использования ИИ на смартфонах» - говорит Шарифи, однако торопясь добавить – «есть также множество вещей, которые должны быть реализованы в облаке, поскольку для них требуется большая база данных. С Google Assistant вы получаете доступ к знаниям мира. Крайне непросто воплотить это на мобильном устройстве.» 

[все фото: собственность Google]

Вернуться к списку