Лучший момент для машинного обучения — сейчас!
За последние десятилетия человечество накопило колоссальный массив информации. В докладе аналитической компании IDC «Эра данных 2025» [1] прогнозируется рост объема всех данных в мире до 163 зеттабайт к 2025 году. А это 163 секстиллиона байт или 163 миллиона миллионов гигабайт. Впечатляет, не правда ли?
Но обладать информацией недостаточно. Не менее важно качество данных, умение их обрабатывать, анализировать и принимать на их основании правильные решения. Исследование международной компании KPMG [2] в 2016 году показало, что только 34% лиц, ответственных за принятие решений, высоко оценивают свои аналитические способности. Чтобы устранить данный пробел, ведущие компании стали развивать культуру принятия решений, основанных на данных (англ. «data-driven culture»).

С развитием математических инструментов и невероятным увеличением вычислительной мощности компьютеров и смартфонов появилась возможность в новых масштабах использовать подходы, основанные на машинном обучении и нейронных сетях, которые дают существенный прирост в точности прогнозирования и оценке ситуации.
Выделим некоторые из классов задач, которые помогают решить методы Машинного обучения:
Машинное обучение в действии
На примере компании Schneider Electric рассмотрим случаи применения машинного обучения в рамках приведенных классов задач.
- Цепочка поставок:
- Прогнозирование загрузки
- Снижение излишков на складе за счёт предсказания оптимального количества изготавливаемых изделий на основании рыночного спроса, количества доступных деталей, сроков поставки новых деталей и т.п. (регрессия);
- Управление стоимостью продукции и услуг
- Определение оптимальной цепочки поставки и оптимизация стоимости на основании внешних и внутренних экономических и конкурентных показателей (регрессия);
- Повышение качества продукции и услуг
- Определение скрытого брака по отклонениям технологических характеристик от нормы (поиск аномалий, классификация).
- Прогнозирование загрузки
- HR:
- Повышение качества первичного отбора кандидатов на основе текста резюме или публичных данных LinkedIn (Рекомендательные системы, классификация);
- Поиск талантов внутри компании за счёт выявления ключевых факторов эффективности (Классификация, Регрессия).
- Клиентский опыт и качество:
- Повышение скорости и качества предоставления ответов на запросы клиентов за счёт классификации писем на основе их содержания, чат-боты, контекстные подсказки для ускорения и улучшения качества ответа (классификация, обработка естественного языка);
- Аналитика поведения пользователей на веб-ресурсах, рекомендательные системы на основе профиля просмотров и покупок (регрессия, кластеризация, классификация).
- Уникальная цифровая платформа EcoStruxure:
- Прогнозирование вероятности выхода из строя оборудования (регрессия на вероятность выхода из строя или непосредственно на остаток жизненного ресурса);
- Оптимизация архитектуры системы на основе измерений с полевых датчиков (рекомендательная модель, классификация);
- Прогнозирование ожидаемых технологических показателей процесса на основе текущих и прошлых измерений (регрессия).
- Кибербезопасность:
- Выявление внутренних и внешних угроз на основе трафика или поведения пользователей (классификация, поиск аномалий).
Существует множество других классов задач, не рассмотренных в этой статье. К примеру, компьютерное зрение (англ. computer vision), то есть распознавание/ сегментация изображения или видео; обработка естественного языка (англ. natural language processing), то есть распознавание речи; ассоциация; а также понижение размерности/обобщение (в англ. dimension reduction).
Для улучшения своих продуктов Schneider Electric использует не только собственные ресурсы и накопленные знания, но и привлекает ведущих экспертов из различных отраслей. В 2019 году состоялось открытое соревнование по машинному обучению “Sustainable Industry: Rinse Over Run” [3] на платформе Drivendata, в рамках которого предлагалось решить одну из задач в рамках цифрового продукта EcoStruxure CIP Advisor. Независимые исследователи и ведущие инженеры со всего мира предсказывали степень мутности воды в процессах CIP-мойки (регрессия). Участники, показавшие лучший результат, презентовали свои подходы и идеи экспертному совету Schneider Electric.
Подводя итоги, хочется отметить, что машинное обучение стало неотъемлемой частью инновационных разработок во многих отраслях и сферах нашей жизни, а развитие культуры принятия решений на основе данных должно помочь избежать ошибок прошлого и сделать нашу жизнь более осознанной.
Источники:
-
- David Reinsel; John Gantz; John Rydning; An IDC White Paper – #US44413318; Data age 2025; Nov 2015; https://www.se.com/ru/ru/work/campaign/energy-advice/video.jsp?videoid=E42QvDRgnX0
- KPMG International Data & Analytics; Building trust in analytics. Breaking the cycle of mistrust in D&A; 2016; https://assets.kpmg.com/content/dam/kpmg/xx/pdf/2016/10/building-trust-in-analytics.pdf
- https://www.drivendata.org/competitions/56/predict-cleaning-time-series/
- EcoStruxure CIP Advisor, https://www.se.com/ru/ru/work/campaign/energy-advice/video.jsp?videoid=E42QvDRgnX0
Нет комментариев