Запуск вашего первого классификатора в Weka

Опубликовано: 09/01/2021 Время на прочтение: 4 минут

Графический века броузере

Нажмите кнопку «проводник«, чтобы запустить Weka Explorer.

Этот графический интерфейс позволяет загружать наборы данных и запускать алгоритмы классификации. Он также предоставляет другие функции, такие как фильтрация данных, кластеризация, извлечение ассоциативных правил и визуализация, но мы не будем использовать эти функции прямо сейчас.

3. Откройте набор данных data/iris. arff

Нажмите кнопку ”Открыть файл…“, чтобы открыть набор данных, и дважды щелкните каталог ”данные«.

Weka предоставляет ряд небольших общих наборов данных машинного обучения,которые вы можете использовать для практики.

Выберите файл ”iris.arff«, чтобы загрузить набор данных Iris.

Интерфейс Weka Explorer с загруженным набором данных Iris

Набор данных Iris-это известный набор данных из статистики, который в значительной степени заимствован исследователями в области машинного обучения. Он содержит 150 экземпляров (строк) и 4 атрибута (столбцов), а также атрибут класса для вида цветка ириса (один из setosa, versicolor и virginica).

4. Выберите и запустите алгоритм

Теперь, когда вы загрузили thedataset, пришло время выбрать алгоритм машинного обучения, чтобы смоделировать проблему и сделать прогнозы.

Перейдите на вкладку «классификация«. Это область для запуска алгоритмов против загруженного набора данных в Weka.

Вы заметите, что алгоритм «ZeroR» выбран по умолчанию.

Нажмите кнопку «Пуск«, чтобы запустить этот алгоритм.

Результаты Weka для алгоритма ZeroR на наборе данных цветов ириса

Алгоритм ZeroR выбирает мажоритарный класс В наборе данных (все три вида ириса одинаково присутствуют в данных, поэтому он выбирает первый: setosa) и использует его для всех прогнозов. Это базовая линия для набора данных и мера, по которой можно сравнивать все алгоритмы. Результат составляет 33%, как и ожидалось (3 класса, каждый из которых представлен одинаково, присвоение одного из трех каждому прогнозу приводит к точности классификации 33%).

Вы также заметите, что параметры теста по умолчанию выбирают перекрестную проверку с 10 складками. Это означает, что набор данных разбивается на 10 частей: первые 9 используются для обучения алгоритма, а 10-я используется для оценки алгоритма.

Алгоритм ZeroR важен, но не очень интересен.

Нажмите кнопку «Выбрать” в разделе “классификатор”, нажмите на “деревья” и нажмите на алгоритм «J48».

Это реализация алгоритма C4. 8 в Java (“J » для Java, 48 для C4.8, отсюда и название J48) и является незначительным расширением знаменитого алгоритма C4.5. Подробнее об алгоритме C4.5 Вы можете прочитать здесь.

Нажмите кнопку «Пуск«, чтобы запустить алгоритм.

Результаты алгоритма Weka J48 на наборе данных Iris

5. Обзор Результатов

После запуска алгоритма J48 вы можете отметить результаты в разделе «Вывод классификатора».

Алгоритм был запущен с 10-кратной перекрестной проверкой: это означает, что ему была предоставлена возможность сделать прогноз для каждого экземпляра набора данных (с различными тренировочными складками), и представленный результат представляет собой сводку этих прогнозов:

Результаты алгоритма J48 на наборе данных Iris в Weka

Во-первых, обратите внимание на точность классификации. Вы можете видеть, что модель достигла результата 144/150 правильных или 96%, что кажется намного лучше, чем базовый уровень в 33%.

Во-вторых, посмотрите на матрицу путаницы. Вы можете увидеть таблицу фактических классов по сравнению с прогнозируемыми классами, и вы можете видеть, что в общей сложности существует 6 ошибок. Эта таблица может помочь объяснить точность, достигнутую алгоритмом.



прокрутка вверх