DotData extracts key data features to make machine learning useful

Обновите технологию и стратегию корпоративных данных до Трансформация 2021.


Многие эксперты в области искусственного интеллекта утверждают, что запуск алгоритма ИИ — это лишь часть работы. Подготовка и очистка данных — это только начало, но настоящая проблема — понять, что изучать и где искать ответ. Он спрятан в книге транзакций? А может в цветном узоре? Чтобы найти правильные функции для исследования алгоритма ИИ, часто требуется глубокое знание самого бизнеса, чтобы алгоритмы ИИ могли найти нужное место.

DotData хочет автоматизировать эту работу. Компания хочет помочь предприятиям определить лучшие функции для Обработка AIи найдите лучшее место для поиска этих функций. Компания представила DotData Py Lite, контейнерную версию своего набора инструментов машинного обучения, которая позволяет пользователям быстро создавать доказательства концепции (POC). При поиске ответов владельцы данных могут загрузить набор инструментов и запустить его локально или запустить в облачной службе DotData.

VentureBeat встретился с основателем и генеральным директором DotData Риохеем Фуджимаки, чтобы обсудить новый продукт и его роль в более широком подходе компании к упрощению рабочих нагрузок ИИ для всех, у кого больше данных, чем времени.

VentureBeat: Как вы думаете, ваш инструмент больше похож на базу данных или движок ИИ?

Рёхей Фуджимаки: Наш инструмент больше похож на движок ИИ, но он [tightly integrated with] данные. Во многих компаниях есть три основных этапа обработки данных. Во-первых, это озеро данных, которое в основном представляет собой необработанные данные. Затем идет фаза хранилища данных, которая в некоторой степени очищена и разработана. Он в хорошем состоянии, но его еще нелегко употребить. Затем есть рынок данных, который представляет собой набор таблиц данных для целей и задач. Легко употреблять и бизнес-аналитика или алгоритм машинного обучения.

Начинаем работать с данными между озеро данных и хранилище данных фаза. [Then we prepare it] для алгоритмов машинного обучения. Наша поистине ключевая компетенция, наша основная способность — автоматизировать этот процесс.

VentureBeat: Процесс поиска нужных данных в огромном море?

Фудзимаки: Мы думаем об этом как о «разработке функций», которая основана на необработанных данных, где-то между фазами озера данных и хранилища данных, выполняет большую очистку данных и вводит алгоритм машинного обучения.

VentureBeat: помогает ли машинное обучение находить важные функции?

Фудзимаки: Да. Функциональная инженерия в основном настраивает проблему машинного обучения на основе опыта в предметной области.

VentureBeat: Насколько хорошо это работает?

Фудзимаки: Один из лучших примеров наших клиентов — управление подпиской. Там компания использует свою платформу для управления клиентами. Проблема в том, что существует множество отклоненных или отложенных транзакций. Для них это почти 300 миллионов долларов.

До появления DotData они вручную создавали 112 запросов для создания набора функций на основе 14 исходных столбцов из одной таблицы. Их точность составила около 75%. Но мы взяли семь таблиц из их набора данных и нашли 122 000 шаблонов объектов. Точность подскочила до более чем 90%.

VentureBeat: Значит, обнаруженные вручную функции были хорошими, но ваше машинное обучение обнаружило в тысячу раз больше функций, а точность подскочила?

Фудзимаки: Да. Эта точность — только техническое усовершенствование. В конце концов, им удалось избежать почти 35% плохих транзакций. Это почти 100 миллионов долларов.

Мы перешли от 14 разных столбцов в одной таблице к почти 300 столбцам в семи таблицах. Наша платформа определит, какие шаблоны функций являются более многообещающими и значимыми, а использование наших важных функций может значительно повысить точность.

VentureBeat: Итак, какие особенности он обнаруживает?

Фудзимаки: Давайте рассмотрим еще один пример прогнозирования спроса на продукцию. Обнаруженные особенности очень и очень просты. Машинное обучение использует временное агрегирование из таблиц транзакций, таких как продажи, за последние 14 дней. Очевидно, это может повлиять на спрос на продукцию на следующей неделе. Для продаж или предметов домашнего обихода алгоритм машинного обучения был лучшим предиктором 28-дневного окна.

VentureBeat: Это всего лишь одно окно?

Фудзимаки: Наш движок может автоматически обнаруживать определенные закономерности тенденций продаж товаров для дома. Это называется частичной или годовой периодической формулой. Алгоритм определяет годовые периодические закономерности, которые особенно важны для влияния сезонных событий, таких как Рождество или День благодарения. В этом случае использования много истории платежей, очень интересная история.

VentureBeat: Трудно найти хорошие данные?

Фудзимаки: Этого достаточно часто, но не всегда хорошо. Некоторые заказчики-производители изучают свои цепочки поставок. Мне нравится этот пример из производственной компании. Они анализируют данные датчиков с помощью DotData, и их очень много. Они хотят выяснить некоторые закономерности отказов или попытаться максимизировать отдачу от производственного процесса. Мы поддерживаем их, развертывая наш модуль прогнозирования потоков в [internet of things] датчики на заводе.

VentureBeat: Ваш инструмент избавит вас от поиска и попытки представить все эти комбинации. Это должно способствовать науке о данных.

Фудзимаки: Традиционно этот тип функциональной инженерии требовал большого количества навыков инженерии данных, потому что данные очень большие и существует множество комбинаций.

Большинство наших пользователей сегодня не являются специалистами по обработке данных. Есть несколько профилей. Один похож [business intelligence] тип пользователя. Как эксперт по визуализации, который создает панель управления для описательного анализа и хочет ускорить прогнозный анализ.

Другой — инженер данных или системный инженер, знакомый с концепцией модели данных этого типа. Системные инженеры могут легко понять и использовать наш инструмент для машинного обучения и искусственного интеллекта. Сами специалисты по данным становятся все более и более интересными, но наш основной продукт особенно полезен для таких людей.

VentureBeat: Вы автоматизируете процесс обнаружения?

Фудзимаки: В принципе, наши клиенты очень и очень удивляются, когда мы показываем, что автоматизируем извлечение этой функции. Это самая сложная и продолжительная часть. Обычно говорят, что автоматизировать это невозможно, потому что это требует большого знания предметной области. Однако мы можем автоматизировать эту часть. Мы можем автоматизировать процесс обработки данных до машинного обучения.

VentureBeat: Значит, это не только этап поиска лучших функций, но и работа, которая ему предшествует. Работайте над определением самих функций.

Фудзимаки: Да! Мы используем ИИ для генерации Вход AI. Есть много игроков, которые могут автоматизировать финальное машинное обучение. Большинство наших клиентов выбрали DotData, потому что мы можем сначала автоматизировать часть поиска функций. Эта часть — немного нашего секретного соуса, и мы очень этим гордимся.

VentureBeat

Миссия VentureBeat — быть цифровым квадратом для технических специалистов, которые получают знания о технологиях трансформации и транзакциях. На нашем веб-сайте представлена ​​основная информация о технологиях и стратегиях обработки данных, которые помогут вам руководить своей организацией. Мы приглашаем вас стать членом нашего сообщества, чтобы получить доступ к:

  • актуальная информация по интересующим вас темам
  • наши информационные бюллетени
  • закрытые идеи лидеров контента и доступ со скидкой к нашим ценным мероприятиям, таким как Трансформация 2021: Больше информации
  • сетевые функции и многое другое

Стать членом

Add a Comment

Ваш адрес email не будет опубликован. Обязательные поля помечены *