Предварительная обработка — информация

Предварительная обработка — информация

Предварительная обработка данных

Предварительная обработка данных — важный шаг в процессе интеллектуального анализа данных . Фраза «мусор на входе, мусор на выходе» особенно применима к проектам интеллектуального анализа данных и машинного обучения . Методы сбора данных часто плохо контролируются, что приводит к значениям, выходящим за пределы диапазона (например, доход: −100), невозможным комбинациям данных (например, пол: мужской, беременный: да), отсутствующим значениям и т. Д. не был тщательно проверен на наличие таких проблем, может привести к неверным результатам. Таким образом, представление и качество данных — это в первую очередь до проведения любого анализа. [1] Часто предварительная обработка данных является наиболее важным этапом проекта машинного обучения , особенно в вычислительной биологии . [2]

Если имеется много нерелевантной и избыточной информации или зашумленных и ненадежных данных, то обнаружение знаний на этапе обучения становится более трудным. Этапы подготовки и фильтрации данных могут занять значительное время обработки. Предварительная обработка данных включает в себя очистку , выбор экземпляра , нормализацию , преобразование , извлечение и выбор признаков и т. Д. Результатом предварительной обработки данных является окончательный обучающий набор .

Предварительная обработка данных может повлиять на способ интерпретации результатов окончательной обработки данных. [3] Этот аспект следует тщательно учитывать, когда интерпретация результатов является ключевым моментом, например, при многомерной обработке химических данных ( хемометрия ).

В этом примере у нас есть 5 взрослых в нашем наборе данных, которые имеют пол мужской или женский, независимо от того, беременны они или нет. Мы можем обнаружить, что Adult 3 и 5 — невозможные комбинации данных.

Мы можем выполнить очистку данных и выбрать удаление таких данных из нашей таблицы. Мы удаляем такие данные, потому что можем определить, что такие данные, существующие в наборе данных, вызваны ошибками ввода пользователем или повреждением данных. Причина, по которой может потребоваться удалить такие данные, заключается в том, что невозможные данные повлияют на процесс вычисления или обработки данных на более поздних этапах процесса интеллектуального анализа данных.

Мы можем выполнить редактирование данных и изменить пол взрослого, зная, что взрослый является беременным, мы можем сделать предположение, что взрослый является женщиной, и внести соответствующие изменения. Мы редактируем набор данных, чтобы иметь более четкий анализ данных при выполнении манипуляций с данными на более поздних этапах процесса интеллектуального анализа данных.

Мы можем использовать форму сокращения данных и отсортировать данные по полу, и, сделав это, мы можем упростить наш набор данных и выбрать, на каком поле мы хотим сосредоточиться больше.

Истоки предварительной обработки данных лежат в интеллектуальном анализе данных . [ Требуется цитата ] Идея состоит в том, чтобы объединить существующую информацию и выполнить поиск по содержанию. Позже было признано, что для машинного обучения и нейронных сетей также необходим этап предварительной обработки данных. Таким образом, это стало универсальной техникой, которая используется в вычислениях в целом.

Предварительная обработка данных позволяет удалять нежелательные данные с помощью очистки данных, это позволяет пользователю иметь набор данных, содержащий более ценную информацию после этапа предварительной обработки для обработки данных на более поздних этапах процесса интеллектуального анализа данных. Редактирование такого набора данных для исправления искажения данных или человеческой ошибки является важным шагом для получения точных количественных показателей, таких как истинные положительные, истинные отрицательные, ложные и ложные отрицательные результаты, найденные в матрице путаницы , которые обычно используются для медицинского диагноза. Пользователи могут объединять файлы данных вместе и использовать предварительную обработку для фильтрации любого ненужного шума из данных, что может обеспечить более высокую точность. Пользователи используют сценарии программирования Python, сопровождаемые библиотекой pandas, которая дает им возможность импортировать данные из значений, разделенных запятыми, в качестве фрейма данных. Затем фрейм данных используется для управления данными, которые в противном случае могут быть затруднены в Excel. pandas (программное обеспечение) — мощный инструмент, позволяющий анализировать данные и манипулировать ими; что значительно упрощает визуализацию данных, статистические операции и многое другое. Многие также используют R (язык программирования) для выполнения таких задач.

Причина, по которой пользователь преобразовывает существующие файлы в новые, заключается по многим причинам. Предварительная обработка данных имеет целью добавить недостающие значения, агрегированную информацию, пометить данные категориями ( биннинг данных ) и сгладить траекторию. [ необходима цитата ] Более продвинутые методы, такие как анализ основных компонентов и выбор функций , работают со статистическими формулами и применяются к сложным наборам данных, которые записываются GPS-трекерами и устройствами захвата движения.

Сложные проблемы требуют более сложных методов анализа существующей информации. Вместо создания простого сценария для объединения разных числовых значений в одно имеет смысл сосредоточиться на предварительной обработке данных на основе семантики. [4] Это идея создания специальной онтологии, которая объясняет на более высоком уровне, в чем проблема. [5] Заглянувшее (программное обеспечение) является стандартным средством для этой цели. [6] Второй более продвинутый метод — это нечеткая предварительная обработка . Вот идея обосновать числовые значения лингвистической информацией. Исходные данные преобразуются в естественный язык .

Подготовка данных для расширенного машинного обучения

Предварительная обработка и очистка данных должны проводиться до того, как набор данных будет использоваться для обучения модели. Необработанные данные зачастую искажены и ненадежны, и в них могут быть пропущены значения. Использование таких данных при моделировании может приводить к неверным результатам. Эти задачи являются частью процесса обработки и анализа данных группы и обычно подразумевают первоначальное изучение набора данных, используемого для определения и планирования необходимой предварительной обработки. Более подробные инструкции по процессу TDSP см. в процедуре, описанной в статье Процесс обработки и анализа данных группы.

Задачи предварительной обработки и очистки данных, например задача изучения данных, могут быть выполнены в самых разнообразных средах, таких как SQL, Hive или Студия машинного обучения Azure (классическая версия), и с помощью различных средств и языков, таких как R или Python, в зависимости от того, где хранятся данные и как они отформатированы. Поскольку по свой природе процесс TDSP является итеративным, эти задачи могут выполняться на различных этапах рабочего процесса.

В этой статье рассматриваются разные концепции и принципы обработки данных, которые могут применяться как перед приемом данных в Студию машинного обучения Azure (классическая версия), так и после него.

Пример просмотра и предварительной обработки данных в Студии машинного обучения Azure (классическая версия) см. в этом видеоролике.

Зачем нужна предварительная обработка и очистка данных?

Реальные данные собираются для последующей обработки из разных источников и процессов. Они могут содержать ошибки и повреждения, негативно влияющие на качество набора данных. Вот какими могут быть типичные проблемы с качеством данных:

  • Неполнота: данные не содержат атрибутов, или в них пропущены значения.
  • Шум: данные содержат ошибочные записи или выбросы.
  • Несогласованность: данные содержат конфликтующие между собой записи или расхождения.

Качественные данные — это необходимое условие для создания качественных моделей прогнозирования. Чтобы избежать появления ситуации «мусор на входе, мусор на выходе» и повысить качество данных и, как следствие, эффективность модели, необходимо провести мониторинг работоспособности данных, как можно раньше обнаружить проблемы и решить, какие действия по предварительной обработке и очистке данных необходимы.

Какие есть стандартные методы мониторинга работоспособности данных

Вот что нужно оценить, чтобы проверить качество данных:

  • Количество записей.
  • количество атрибутов (или компонентов);
  • Типы данных атрибута (номинальные, порядковые или непрерывные).
  • Количество пропущенных значений.
  • Данные правильного формата.
    • Если данные имеют формат TSV или CSV, проверьте правильность разделения столбцов и строк соответствующими разделителями.
    • Если данные имеют формат HTML или XML, убедитесь, что формат данных соответствует надлежащим стандартам.
    • Для извлечения структурированной информации из частично структурированных или неструктурированных данных также может потребоваться синтаксический анализ.

    При обнаружении проблем с данными необходимо выполнить обработку, которая зачастую включает очистку пропущенных значений, нормализацию данных, дискретизацию, обработку текста для удаления и/или замены внедренных символов, которые могут влиять на выравнивание данных, смешанные типы данных в общих полях и пр.

    В машинном обучении Azure используются табличные данные правильного формата. Если данные уже представлены в табличной форме, то вы можете провести их предварительную обработку прямо в Студии машинного обучения Azure (классическая версия) при машинном обучении. Если данные находятся не в табличной форме, а, например, в формате XML, для их преобразования в табличную форму может потребоваться синтаксический анализ.

    Каковы главные задачи предварительной обработки данных

    • Очистка данных: заполнение отсутствующих значений, обнаружение и удаление шума данных и выбросов.
    • Преобразование данных: нормализация данных для уменьшения размеров и шума.
    • Уменьшение данных: образцы записей данных или атрибутов для упрощения обработки данных.
    • Дискретизация данных. Преобразуйте непрерывные атрибуты в атрибуты категорий, чтобы упростить их использование с определенными методами машинного обучения.
    • Очистка текста — удаление внедренных символов, которые могут нарушать выравнивание данных, например внедренных символов табуляции в файле с разделителем-табуляцией, внедренных новых линий, которые могут, например, разбивать записи.

    В следующем разделе описаны некоторые шаги предварительной обработки данных.

    Как обрабатывать пропущенные значения

    При работе с пропущенными значениями лучше сначала определить причину их появления в данных, что поможет решить проблему. Вот какие бывает методы обработки пропущенных значений:

    • Удаление: удаление записей с пропущенными значениями.
    • Фиктивная подстановка — замена пропущенных значений фиктивными, например подстановка значения unknown (неизвестно) вместо категориальных или значения 0 вместо чисел.
    • Подстановка среднего значения: пропущенные числовые данные можно заменить средним значением.
    • Подстановка часто используемого элемента: пропущенные категориальные значения можно заменить наиболее часто используемым элементом.
    • Подстановка по регрессии: использование регрессионного метода для замены пропущенных значений регрессионными.

    Как нормализовать данные

    Нормализация данных позволяет масштабировать числовые значения в указанном диапазоне. Ниже представлены распространенные методы нормализации данных.

    • Нормализация по методу минимакса: линейное преобразование данных в диапазоне, например, от 0 до 1, где минимальное и максимальное масштабируемые значения соответствуют 0 и 1 соответственно.
    • Нормализация по Z-показателю: масштабирование данных на основе среднего значения и стандартного отклонения: деление разницы между данными и средним значением на стандартное отклонение.
    • Десятичное масштабирование: масштабирование данных путем удаления десятичного разделителя значения атрибута.

    Как дискретизировать данные

    Данные можно дискретизировать, преобразовав непрерывные значения в номинальные атрибуты или интервалы. Это можно сделать несколькими способами.

    • Группирование равной ширины: разделение диапазона всех возможных значений атрибута в группы (N) одинакового размера с последующим присвоением значений, относящихся к ячейке с соответствующим номером.
    • Группирование равной высоты: разделение всех возможных значений атрибута в группы (N), содержащие одинаковое количество экземпляров, с последующим присвоением значений, относящихся к ячейке с соответствующим номером.

    Как сократить объем данных

    Существуют различные методы, с помощью которых вы можете уменьшить размер данных для упрощения обработки данных. В зависимости от размера данных и домена вы можете применить такие методы:

    • Выборка записей: создание выборки записей данных и выбор репрезентативного подмножества из общего набора данных.
    • Выборка атрибутов: выбор в данных набора важнейших атрибутов.
    • Агрегирование: разделение данных на группы и хранение числовых значений для каждой группы. Например, для уменьшения размера данных вы можете агрегировать числа, обозначающие ежедневный доход сети ресторанов за последние 20 лет, так, чтобы указывался ежемесячный доход.

    Как очистить данные

    Текстовые поля в табличных данных могут содержать символы, сбивающие выравнивание столбцов или границы записей (или и то и другое вместе). Например, табуляции, внедренные в файл с разделителем-табуляцией, могут сбить выравнивание столбцов, а внедренные символы новой строки могут разорвать линии записей. Неправильная кодировка текста при его чтении или записи приводит к потере информации или появлению нечитаемых символов (например, нуль-символов), а также она может сказаться на разборе текста. Чтобы очистить текстовые поля, исправить выравнивание и извлечь структурированные текстовые данные из неструктурированных или полу-структурированных, могут потребоваться тщательные разбор и редактирование текста.

    Функция просмотра данных позволяет ознакомиться с данными заблаговременно. Это поможет вам выявить те или иные проблемы с данными и применить соответствующие методы для решения этих проблем. Важно понимать, что породило проблемы, как они могли появиться. Это процесс поможет решить, к каким действиям по обработке данных нужно прибегнуть для устранения проблем. Определение окончательных вариантов использования и пользователей можно также использовать для установления приоритетов при обработке данных.

    Ссылки

    Интеллектуальный анализ данных: концепции и методы. Издание третье, Morgan Kaufmann Publishers, 2011. Цзявей Хань (Jiawei Han), Мишлин Кэмбер (Micheline Kamber) и Цзянь Пей (Jian Pei)

    Предварительная обработка данных — Data pre-processing

    Предварительная обработка данных может относиться к манипулированию или удалению данных перед их использованием для обеспечения или повышения производительности и является важным шагом в процессе интеллектуального анализа данных . Фраза «мусор на входе, мусор на выходе» особенно применима к проектам интеллектуального анализа данных и машинного обучения . Методы сбора данных часто плохо контролируются, что приводит к значениям, выходящим за пределы диапазона (например, доход: −100), невозможным комбинациям данных (например, пол: мужской, беременный: да), отсутствующим значениям и т. Д. не был тщательно проверен на наличие таких проблем, может привести к неверным результатам. Таким образом, представление и качество данных — это в первую очередь до проведения любого анализа. Часто предварительная обработка данных является наиболее важным этапом проекта машинного обучения , особенно в вычислительной биологии .

    Если имеется много нерелевантной и избыточной информации или зашумленных и ненадежных данных, то обнаружение знаний на этапе обучения становится более трудным. Этапы подготовки и фильтрации данных могут занять значительное время обработки. Примеры предварительной обработки данных включают очистку , выбор экземпляра , нормализацию , одно горячее кодирование , преобразование , извлечение и выбор признаков и т. Д. Результатом предварительной обработки данных является окончательный обучающий набор .

    Предварительная обработка данных может повлиять на способ интерпретации результатов окончательной обработки данных. Этот аспект следует тщательно учитывать, когда интерпретация результатов является ключевым моментом, например, при многомерной обработке химических данных ( хемометрия ).

    СОДЕРЖАНИЕ

    Задачи предварительной обработки данных

    Пример

    В этом примере у нас есть 5 взрослых в нашем наборе данных, которые имеют пол мужской или женский, независимо от того, беременны они или нет. Мы можем обнаружить, что Adult 3 и 5 — невозможные комбинации данных.

    Мы можем выполнить очистку данных и выбрать удаление таких данных из нашей таблицы. Мы удаляем такие данные, потому что можем определить, что такие данные, существующие в наборе данных, вызваны ошибками ввода пользователем или повреждением данных. Причина, по которой может потребоваться удалить такие данные, заключается в том, что невозможные данные повлияют на процесс вычисления или обработки данных на более поздних этапах процесса интеллектуального анализа данных.

    Мы можем выполнить редактирование данных и изменить пол взрослого, зная, что взрослый является беременным, мы можем сделать предположение, что взрослый является женщиной, и внести соответствующие изменения. Мы редактируем набор данных, чтобы иметь более четкий анализ данных при выполнении манипуляций с данными на более поздних этапах процесса интеллектуального анализа данных.

    Мы можем использовать форму сокращения данных и отсортировать данные по полу, и, сделав это, мы можем упростить наш набор данных и выбрать, на каком полу мы хотим сосредоточиться больше.

    Сбор данных

    Истоки предварительной обработки данных лежат в интеллектуальном анализе данных . Идея состоит в том, чтобы агрегировать существующую информацию и искать по содержанию. Позже было признано, что для машинного обучения и нейронных сетей также необходим этап предварительной обработки данных. Таким образом, это стало универсальной техникой, которая используется в вычислениях в целом.

    Предварительная обработка данных позволяет удалять нежелательные данные с помощью очистки данных, это позволяет пользователю иметь набор данных, содержащий более ценную информацию после этапа предварительной обработки для манипулирования данными на более поздних этапах процесса интеллектуального анализа данных. Редактирование такого набора данных для исправления искажения данных или человеческой ошибки является важным шагом для получения точных количественных показателей, таких как истинные положительные, истинные отрицательные, ложные и ложные отрицательные результаты, найденные в матрице путаницы , которые обычно используются для медицинского диагноза. Пользователи могут объединять файлы данных вместе и использовать предварительную обработку для фильтрации любого ненужного шума из данных, что может обеспечить более высокую точность. Пользователи используют сценарии программирования Python вместе с библиотекой pandas, которая дает им возможность импортировать данные из значений, разделенных запятыми, в качестве фрейма данных. Затем фрейм данных используется для управления данными, которые в противном случае могут быть затруднены в Excel. pandas (программное обеспечение), которое представляет собой мощный инструмент, позволяющий анализировать и обрабатывать данные; что значительно упрощает визуализацию данных, статистические операции и многое другое. Многие также используют R (язык программирования) для выполнения таких задач.

    Причина, по которой пользователь преобразовывает существующие файлы в новые, заключается по многим причинам. Предварительная обработка данных имеет целью добавить недостающие значения, агрегированную информацию, пометить данные категориями ( биннинг данных ) и сгладить траекторию. Более продвинутые методы, такие как анализ главных компонентов и выбор функций , работают со статистическими формулами и применяются к сложным наборам данных, которые записываются GPS-трекерами и устройствами захвата движения.

    Предварительная обработка семантических данных

    Сложные проблемы требуют более сложных методов анализа существующей информации. Вместо создания простого сценария для объединения разных числовых значений в одно имеет смысл сосредоточиться на предварительной обработке данных на основе семантики. Это идея создания специальной онтологии, которая объясняет на более высоком уровне, в чем проблема. Заглянувшее (программное обеспечение) является стандартным инструментом для этой цели. Второй более продвинутый метод — это нечеткая предварительная обработка . Вот идея обосновать числовые значения лингвистической информацией. Исходные данные преобразуются в естественный язык .

    Предварительная обработка данных

    Всем привет! Я веб-разработчик и вот уже несколько лет интересуюсь машинным обучением. Поскольку в повседневной рабочей парктике мне приходится решать менее интересные для меня задачи, не связанные с машинным обучением, время от времени я забываю то, о чем когда-то читал или использовал. Чтобы составить памятку для себя, укрепить свои знания и поделиться ими с окружающими, я решил написать несколько статей по машинному обучению. Начну с предварительной обработки данных.

    В этой статье я расскажу о том, какие проблемы случаются с данными, как их решать, а также про наиболее часто используемые методы подготовки данных перед тем как их «скармливать» разным моделям.

    Пропуски

    Рассмотрим набор данных следующего вида. Я его честно придумал и далее в рамках этой статьи буду ссылаться на него.

    IDИмяСпортивная дисциплинаСтранаГод рождения спортсменаВес спортсменаМедаль
    1ИванАкадемическая гребляРоссийская Федерация1985265B
    2БоксВеликобритания198654S
    3КимГреко-римская борьбаСеверная Корея198693G
    4ОлегГреко-римская борьба1984B
    5ПедроАкадемическая гребляБразилия97N
    6ВалерийАкадемическая гребляРоссийская Федерация200497N

    Очень часто случается так, что в наборе данных пропущены те или иные значения. Данные с пропусками чаще всего нельзя просто так взять передать в модель. Самый простой способ избавиться от пропусков в данных — просто удалить строки, в которых есть пропущенные значения. Но бывают случаи, когда такое удаление строк может привести к потере большого количества информации.

    Помимо удаления строк существуют иные, более «стойкие» к потере обучающей информации, методы. Прежде чем рассмотреть эти методы, отмечу, что признаки можно поделить на категориальные и численные.

    Категориальный признак — признак, значение которого можно отнести к какой-либо группе, но порядок значений в этой группе абсолютно не важен. Более того, между значениями категориальных признаков невозможно установить отношения «больше» или «меньше». Однако, никто не мешает исследователю отсортировать значения признака, например, по алфавиту для наглядности или по какому-либо другому критерию для какой-либо другой цели. Примеры категориальных признаков в моем наборе данных: Имя, Спортивная дисциплина, Страна, Год рождения спортсмена.

    Значения численного признака является скаляром. Объекты в наборе данных можно упорядочить по значению такого признака в возрастающем или убывающем порядке. В качестве примеров численного признака можно привести Год рождения спортсмена и Вес спортсмена.

    Я не ошибся, отнеся год рождения спортсмена как к численным так и к категориальным признакам. Дело в том, что многие признаки можно отнести одновременно к двум категориям. Но в модели такие признаки будут использоваться вполне однозначно: либо как численные, либо как категориальные. Классификация таких спорных признаков — творческий процесс и зависит от задачи, которую вы решаете.

    Пропуски в категориальных признаках

    Заполнить пропуски в категориальных признаках можно следующими способами:

    • Заменить пропущенное значение новой категорией «Неизвестно».
    IDИмяСпортивная дисциплинаСтранаГод рождения спортсменаВес спортсменаМедаль
    2НеизвестноБоксВеликобритания198654S
    • Заменить пропущенное значение наиболее популярным значением.
    IDИмяСпортивная дисциплинаСтранаГод рождения спортсменаВес спортсменаМедаль
    4ОлегГреко-римская борьбаРоссийская Федерация1984B
    Пропуски в численных признаках

    Если имеем дело с численными признаками, можно применить следующие подходы:

    • Заменить пропущенное значение средним значением.
    IDИмяСпортивная дисциплинаСтранаГод рождения спортсменаВес спортсменаМедаль
    4ОлегГреко-римская борьба1984(265 + 54 + 93 + 97 + 97) / 5 = 121.2B

    Как видно из примера выше, выброс значения признака «Вес спортсмена» в строке с идентификатором 1 очень сильно повлиял на среднее значение.

    • Заменить пропущенное значение медианой. Если в данных присутствуют выбросы, этот способ замены пропусков является предпочтительным.
    IDИмяСпортивная дисциплинаСтранаГод рождения спортсменаВес спортсменаМедаль
    4ОлегГреко-римская борьба1984Медиана(54, 93, 97, 97, 265) = 97B

    Выбросы

    В данных могут присутствовать значения, являющиеся выбросами. Это, как правило, не ошибки. Однако, своими значениями они «шокируют» модель. Пример выброса — значение веса Ивана из таблицы выше (ниже продублирована строка).

    IDИмяСпортивная дисциплинаСтранаГод рождения спортсменаВес спортсменаМедаль
    1ИванАкадемическая гребляРоссийская Федерация1985265B

    Для того, чтобы определить, является ли значение выбросом, пользуются характеристикой выборки, называемой интерквартильным размахом. Определяется он следующим образом:

    где — первая квартиль — такое значение признака, меньше которого ровно 25% всех значений признаков. — третья квартиль — значение, меньше которого ровно 75% всех значений признака.

    Для того, чтобы понять, является ли значение выбросом, можно воспользоваться эвристикой: выбросы лежат за пределами следующего интервала:

    Чаще всего от выбросов в обучающей выборке лучше всего избавляться.

    Нормализация

    Нормализация — это приведение всех значений признака к новому диапазону. Например, к диапазону [0, 1]. Это полезно, поскольку значения признаков могут изменяться в очень большом диапазоне. Причем, значения разных признаков могут отличаться на несколько порядков. А после нормализации они все будут находиться в узком (и, часто, едином) диапазоне.

    Наиболее популярным способом нормализации является нормализация методом минимакса. Для того, чтобы применить этот метод, должно быть известно максимальное и минимальное значение признака. Проблема в том, что эти значения известны не всегда.

    Также довольно популярным методом является Z-нормализация. Диапазон новых значений для Z-нормализации выглядит следующим образом:

    где — среднеквадратическое отклонение признака X.

    Выполняется Z-нормализация по формуле ниже.

    где M[X] — математическое ожидание признака X.

    Отмечу, что в случае применения Z-нормализации к нескольким признакам, диапазон значений для них будет разным.

    One-hot encoding

    Это способ предварительной обработки категориальных признаков. Многие модели плохо работают с категориальными признаками как таковыми. Дело в том, что слово «Российская Федерация» нельзя просто взять и умножить на какое-нибудь число. Но многие модели работают именно так: берется коэффициент и на него умножается значение признака. Аналогичная операция выполняется с остальными признаками. Все результаты суммируются. На основе значения суммы делается вывод о принадлежности объекта к тому или иному классу (такие модели называются линейными).

    Однако, как поступать с признаками, значения которых нельзя выразить численно? Можно заменить их значения численным идентификатором. Например, вместо значения «Российская Федерация» использовать значение 1, а вместо «Великобритания» — 2. Тогда линейная модель будет работать. Но, если поступить таким образом, будет утеряно свойство категориальности признака. Иными словами, модель будет пытаться сравнивать идентификаторы признаков между собой. Но они не сравнимы по значению.

    Чтобы бороться с этой проблемой, был придуман способ преобразовать исходный признак в несколько новых, бинарных признаков. Например, можно признак «Страна» превратить в 4 новых бинарных признака следующим образом:

    IDИмяСтрана_Российская ФедерацияСтрана_ВеликобританияСтрана_Северная КореяСтрана_Бразилия
    1Иван1
    2Майкл1
    3Ким1
    4Олег1
    5Педро1
    6Валерий1

    Для каждого из этих признаков линейная модель будет использовать независимый коэффициент и, таким образом, не будет сравнивать категориальные значения одного и того же признака между собой.

    Заключение

    Итак, мы имеем две группы методов предварительной обработки. Первая из них сфокусирована на исправлении ошибок данных. Конечно, ошибки можно не исправлять, а просто избавиться от объектов с ошибками. В некоторых случаях это будет даже лучше. Вторая группа методов сфокусирована на корректировке данных таким образом, чтобы известные модели работали лучше.

    Спасибо, что дочитал или долистал до сюда. Я описал далеко не все способы предварительной обработки, да и эта статья вряд ли пригодится профессиональным data scientist-ам. Однако, если ты новичок и не знаешь что делать со своими данными, можешь смело сюда возвращаться. Удачи в обучении и интересных задач!

    Список источников

    Я не ученый и эта статья не претендует на звание научной. Поэтому и источники я не буду оформлять по ГОСТам. Прошу за это меня извинить.

    Читайте также  Cроки сдачи 3 НДФЛ 2022, срок подачи декларации
Рейтинг
( Пока оценок нет )
Понравилась статья? Поделиться с друзьями:
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!:

Adblock
detector