aeb923e11dcf02d390eb5a00f23a253f.jpg

Компания Google на прошлой неделе огласила тарифы на использование интерфейса Cloud Vision. На базе этой технологии построен ее сервис Google Photos. Теперь ей смогут воспользоваться любые другие разработчики приложений.

Google Vision позволяет распознавать различные объекты в изображениях. Это технология компьютерного зрения. Например, если на картине нарисован спортивный автомобиль, суши или орел, или просто контент определенного типа, то программа его распознает. Более того, если на картинке есть логотип или же надпись, наземный ориентир, они будут тут же идентифицированы и прочитаны (программа поддерживает разные языки). И это еще не все. Программа может распознать не только человеческое лицо, но еще и эмоцию его обладателя: удивление, злость, радость, грусть.

Не самый первый, но самый точный

Первую тысячу объектов Google определяет бесплатно. На каждую следующую тысячу с 1 марта действует определенный тариф. Дороже всего обходится обнаружение меток (лейблов) - $5 за тысячу. Все остальные виды компьютерного зрения - по $2,5 за то же количество объектов. Если разработчик закупает услугу оптом (от 5 млн изображений в месяц), то каждая тысяча обходится ему дешевле - в $0,6-2. Есть и лимиты по объему - обработка до 20 млн картинок за проект в месяц. Если разработчик знает, что его приложение требует бОльшую облачную мощность, он должен будет обратиться отдельно в Google за специальными условиями сотрудничества.


С декабря 2015 года Google Vision тестировалось разработчиками. Как сообщают в Google, тысячи проектов уже начали пользоваться этим решением. И популярность сервиса уже зашкаливает. Хотя, как стоит напомнить, в сфере облачного зрения Google не первопроходец. Например, Microsoft предлагает разработчикам аналогичный функционал в сервисе Project Oxford API. И тарифы у этой компании даже ниже. В месяц 5000-10000 изображений, лиц, эмоций распознается бесплатно. При этом можно доплачивать за скорость - обработка 10 изображений в секунду обойдется от $0,1 до $1,5 за каждую тысячу картинок.

В чем же основное отличие Google? "До запуска Cloud Vision на рынке уже были решения от Clarifai, Imagga и многих других игроков. Главная проблема таких сервисов - в точности определения объектов, эмоций, распознавании текста в картинке. Они не всегда могут давать необходимый уровень детализации", - подчеркивает вице-президент по развитию Depositphotos Вадим Нехай. Но с появлением Cloud Vision, по словам управленца, у разработчиков появится доступ к алгоритму, обученному на миллиардах изображениях в поисковой системе Google, и миллиардах людей, которые эти изображения ищут. Иными словами, у этой программы "глаз наметан". 

Как компьютерное зрение меняет мир?

Как говорит Вадим Нехай, если алгоритм от Google будет работать с заявленной точностью, стоит ожидать массового появления рекламы, которая будет показываться в зависимости от контекста изображения, а не текста вокруг него. Кроме того, разработчики различных веб-сервисов, по его словам, смогут успешно фильтровать или каталогизировать поступающий графический контент. Например, по принципу наличия "обнаженки" или наличия определенных предметов, брендов. "Интернет-магазины смогут более точно предлагать вещи, похожие на те, что вам нравятся. Бренды будут отслеживать все появления своего логотипа в сети. А в Instagram наконец-то появится полноценный поиск. Я думаю, что все это произойдет в скором будущем", - рассуждает Нехай о применении технологий машинного зрения.

Читайте также: Дневник Давоса: Искусственный разум - реальность. Что он может?

Один из директоров компании Luxoft Игорь Стареправо также прогнозирует, что приложения компьютерного зрения имеют очень хорошую перспективу. В частности, по его словам, такие решения могут быть использованы для мобильных приложений с улучшенным пользовательским интерфейсом и бОльшего количества функций. "Очевидно, что следующем этапом развития станут технологии компьютерного зрения, работающего непосредственно на устройствах. Такие технологии уже апробируются лидерами индустрии", - подчеркивает он. В частности Люксофт, в рамках конференции Mobile World Congress 2016 совместно с ARM показали демо приложение, распознающее до 1000 объектов реального мира. Кроме того, компания ведет разработки специального беспилотного приложения для автомобилей - Advanced Driver Assisst (ADAS), которое также основано на технологиях компьютерного зрения.

Украинская лаборатория

Такие платформы как Google Vision, Project Oxford API создают подспорье для экспериментов местных команд c компьютерным зрением. Специалистов подобного профиля в Украине не много, но они имеются. Как заявлял ресурсу AIN.ua основательArgumented Pixels Виталий Гончарук, в Украине есть порядка 200-300 людей, разбирающихся в этой технологии. И успешные примеры для подражания в этой сфере в Украине тоже уже существуют. Тот же стартап Гончарука, работающий в сфередополненной реальности, получил инвестиции в $1,5 млн и переехал в Калифорнию. Также в прошлом году громко выстрелил проект по распознаванию и модификации лиц в реальном времени Looksery. Одесская команда стала частью мессенджера глобального Snapchat, получив за свою технологию порядка $150 млн.


Еще одна сфера применения облачных решений компьютерного зрения - робототехника. Та же Google в видео-презентацииCloud Vision использует не фото в интернете, а реального маленького робота, оборудованного камерой. Он может делать снимки и анализировать, что видит перед собой. В Украине энтузиастов, собирающих различные "умные железяки", тоже хватает.