Переводные статьи
Популярное | Последнее
355
×
Критические значения и качество данных
Сообщество Lean+6Sigma в России
Критические значения и качество данных
Вадим Сеничев, Преподаватель каф. АИДМиСВ МГОУ
23 июня в 14:00
Перевод статьи «Critical Data Elements and Data QualityCritical Data Elements and Data Quality» Р. Маханти выполнил Вадим Сеничев

Мы живем в эпоху цифровых технологий и тонем в необъятном океане данных. Любую организацию сопровождает большое количество объектов данных и их элементов, огромный объем информации, отображающей одни и те же параметры и метрики. Эти объемы продолжают накапливаться и множиться с каждым днем. При работе с большим количеством данных важно знать, что представляет собой «качественные» данные, а что – нет. 

Сущности, элементы, размеры данных 

Прежде чем мы продолжим, позвольте мне объяснить терминологию, которую я применяю в отношении баз или хранилищ данных.

  • «Объекты данных» – это реально существующие объекты, концепции, события и явления реального мира, о которых мы собираем данные.

  • «Элементы данных» – это различные атрибуты, которые описывают объект данных.

Таким образом, объект данных служит «контейнером», содержащим все элементы данных, которые его описывают. 

Рассмотрим заводской цех, в котором расположены разные типы станков: станки с ЧПУ, токарные станки, прессы и тому подобное. «Станок» это объект данных, представляющий физический объект, находящийся в цеху. А элементами данных могут выступать: его тип (например, ЧПУ, токарный и т.д.), идентификатор, имя, марка, местоположение, время работы, тип обрабатываемых деталей, время работы, последняя поломка, последнее обслуживание и так далее. Все эти данные выражают значения атрибутов для разных станков. 

Еще один термин «измерения качества данных». Он относится к характеристикам, которые будут определять качество элемента данных. Обращаясь к станкам в нашем примере, понятие качества будет относиться к наличию полезных значений для каждого из элементов, данных в каждой записи объекта данных от этого станка, таких как своевременная доступность, точность, дублированные значения и так далее. Измерения качества данных это то, что дает вам представление о качестве данных.

 

Что такое качественные данные?

Данные считаются высококачественными, если они соответствуют предполагаемому использованию. Другими словами, качество данных может быть определено как оценка того, служат ли эти данные цели в данном контексте. Хотя качество данных является абстрактным и не может быть измерено как таковое, оно имеет несколько аспектов или аспектов, которые можно измерить и рассматривать как параметры качества данных. Некоторыми примерами измерений качества данных являются полнота (т.е. наличие или отсутствие значений), уникальность (степень, в которой данные, относящиеся к объекту, не повторяются) и точность (близость значений к реальности). 

В приведенном выше примере станка с ЧПУ, если наша цель состоит в том, чтобы отслеживать общее использование оборудования на нашем заводе, то элементы станка, типа времени работы и местоположения были бы необходимыми данными для этого использования и должны быть точными, полными, и не дублироваться. Цвет станка при этом не будет являться необходимыми данными. 

Измерением качества для такого элемента данных, как «время работы без поломок и отказов» может быть частота сбора данных. Если бы мы записывали время работы машины в течение одного дня в году, это было бы не очень полезно. Но если бы мы фиксировали время безотказной работы машины каждый день, это было бы очень полезно и, следовательно, стало бы качественными данными.

 

Важны ли данные? Все относительно 

Обеспечение качества всех данных организации является дорогостоящим и ресурсоемким занятием. Однако не все данные имеют одинаковый уровень важности. Некоторые элементы данных имеют решающее значение, и организации должны обеспечить их высокое качество и соответствие их предполагаемому использованию. С другой стороны, некоторые элементы данных могут не иметь никакой ценности, и оценка их качества является пустой тратой времени, денег и усилий. 

Например, многие значения данных собираются и хранятся по сомнительным причинам, например, являются частью купленной модели данных или сохраняются в проекте переноса данных, но они могут не быть необходимыми для достижения каких-либо бизнес-целей. Оценка качества таких данных пустая трата времени и усилий. 

Рассмотрим процесс профилирования данных, который включает измерение качества данных, необходимых для кампании прямого маркетинга. Здесь необходимо ответить на вопрос: какие данные нужны для проведения прямой маркетинговой кампании? По существу, для этого потребуются контактные данные клиентов, такие как имена, адреса, адреса электронной почты и т.д. Следует выбрать правильный источник данных, содержащий контактные данные клиента и правильные элементы данных поля, содержащие имена клиентов, адреса, адреса электронной почты. Однако такие поля, как записи комментариев и названия должностей, являются частью контактных данных клиентов, но не имеют никакой коммерческой ценности для целей проведения рыночной кампании.

 

Влияние данных в нижней строке 

Критический элемент данных может быть определен как элемент данных, который поддерживает корпоративные обязательства или критические бизнес-функции или процессы, и может вызвать неудовлетворенность клиентов, создать риск несоответствия или оказать прямое влияние на благополучие компании, если качество данных не будет находиться на должном уровне. 

Недовольство клиентов или несоответствие нормам и актам может оказать негативное влияние на прибыль и благосостояние компании. Например, несоблюдение правил может привести к тому, что предприятие будет регулярно платить штрафы. Недовольные клиенты могут перенести свои дела к вашим конкурентам, что также приведет к потере дохода. В целом, финансовые последствия могут включать штрафные издержки, стоимость упущенных возможностей, увеличение расходов или уменьшение выручки и прибыли. Таким образом, стоимость, связанная с элементом данных, группой элементов данных или объектом данных в отношении разных измерений качества данных, может использоваться для определения критичности этих данных для вашей организации. 

Например, неточные элементы данных имен и адресов в большинстве организаций, ориентированных на клиента, таких как финансовые услуги, телекоммуникации, коммунальные услуги или розничные компании, могут привести к огромным расходам на почтовые услуги. Следовательно, для них адресные данные имеют решающее значение.

Одним из способов понимания критических объектов данных и связанных с ними элементов данных является рассмотрение важных корпоративных обязательств, которые зависят от качества данных и отображения зависимостей данных, то есть критических объектов данных и связанных элементов данных, необходимых для получения информации по каждому обязательству. 

Элементы данных, которые имеют решающее значение для одного обязательства предприятия, могут не иметь решающего значения для другого обязательства предприятия. 

Например, корпоративные обязательства в розничной компании могут включать отчетность о продажах и тенденции поведения потребителей. Хотя возраст клиента, годовой доход и род занятий могут быть важными элементами данных для отчетов о тенденциях поведения потребителей, они не являются важными элементами данных для отчетов о продажах. 

С другой стороны, существуют элементы данных, которые могут иметь решающее значение для большинства обязательств предприятия. Обязательства предприятия могут различаться в зависимости от отрасли или типа бизнеса. Следующие факторы могут быть использованы для определения критичности элементов данных:

  • Количество обязательств предприятия, для которых используются элементы данных

  • Стоимость, связанная с элементами данных

  • Риски, связанные с элементами данных

  • Количество отделов, команд или пользователей, использующих эти данные

В дополнение к вышесказанному некоторые данные и информация являются чрезвычайно конфиденциальными и могут быть классифицированы как критические с точки зрения безопасности данных. Примерами таких данных и информации являются номера социального страхования, номера дебетовых карт, номера кредитных карт, PIN-коды, коды доступа и номера паспортов. Иногда один элемент данных может не считаться чувствительным, но становится чувствительным, когда находится в группе элементов данных. Личная информация является примером такого вида данных.

Определение и расстановка приоритетов критических элементов данных это один из первых шагов, которые необходимо выполнить, прежде чем организация сможет приступить к оценке качества своих данных по соответствующим аспектам качества данных, которые являются измеримыми аспектами качества данных. Попытка измерить и управлять качеством всех данных может быть огромной и финансово невыполнимой задачей, попытка справиться с которой обязательно приведет к провалу. Следовательно, когда вы думаете об оценке и улучшении качества данных, помните комментарий известного физика Альберта Эйнштейна: «Не все, что можно подсчитать, имеет значение, и не все, что имеет значение, может быть подсчитано». 

Чтобы узнать больше о качестве данных, в том числе о том, как измерять измерения качества данных, внедрять методологии управления качеством данных и аспекты качества данных, учитываемые при выполнении проектов с интенсивным использованием данных, прочитайте книгу Качество данных: размеры, измерения, стратегия, управление и управление. Эта статья в значительной степени опирается на исследования, представленные в этой книге.

Войдите, чтобы оставить комментарий
E-Mail
Комментариев нет
Рекомендовано
Реклама
Поделиться