Цель работы: научиться пользоваться инструментальными средствами анализа данных RapidMiner
Задача: Произвести кластеризацию документов на web ресурсе
ОГЛАВЛЕНИЕ
- Установка RapidMiner и обновление его до последней версии
- Установка компонентов textMining и WebMining
- Использование оператора CrawlWeb для сохранения документов на рабочий компьютер
- Использование компонента — Process Dociment from files и различных фильтров
- Проведение кластеризации документов
1. Установка RapidMiner
Зайдем на веб-сайт программного продукта и скачаем установочный файл (рис.1). Окно запуска установленной версии приведено на рис.2.
Рис.1 Установка RapidMiner
Рис.2 Запуск RapidMiner
Рис.3 Интерфейс RapidMiner
2. Установка компонентов textMining и WebMining
Зайдем в меню установки плагинов и выберем соответствующие компоненты для установки (рис.4).
Рис.4 Переход в интерфейс управления компонентами RapidMiner Studio 7.4
Установив необходимые компоненты, они будут отображаться в перечне (package is up to date). Результаты приведены на рис.5 и рис.6.
Рис.5 Результат установки компонентов в RapidMiner Studio 7.4
Рис.6 Окно просмотра установленных компонентов в RapidMiner
3. Использование CrawlWeb для сохранения документов
В окне Operations выберем каталог Extensions-Web Mining и перетащим компонент Crawl Web в поле Process (рис.7).
Установим ограничение анализа и скачивания не более 50 страниц (рис.8). В соответствующее поле введем выбранный сайт для сохранения.
Рис.7 Выбор компонента Crawl Web
Рис.8 Конфигурация компонента Crawl Web
Подадим выходной сигнал компонента на результирующий вход и запустим процесс (рис.9,10).
Рис.9 Соединение компонента Crawl Web с выходом для обработки
Рис.10 Результат анализа заданного сайта с помощью компонента Crawl Web
4. Использование Process Dociment from files
Выберем из палитры компонентов с помощью поиска Process Documents from Files (рис.11). Зададим каталог, куда были сохранены результаты работы компонента Crawl Web (рис.12) для обработки.
Рис.11 Окно выбора компонента Process Documents from Files
Рис.12 Окно задания пути к данным для работы компонента Process Documents from Files
Применим компонент Tokenize в составе Process Documents from Files для анализа текста (рис.13) в режиме «non letters». Добавим компонент фильтрации по длине символов (от 4 до 15), результат приведен на рис.14.
Рис.13 Применение компонента Tokenize в составе Process Documents from Files для анализа текста
Рис.14 Применение компонента фильтрации Filter Tokens (by Length) в составе Process Documents from Files для анализа текста
Итоговый состав сконфигурированных компонентов фильтрации в Process Documents from Files для анализа текста (фильтр по количеству символов, стоп-слов и преобразования регистра символов) приведен на рис.15.
Рис.15 Итоговый состав компонентов фильтрации в Process Documents from Files для анализа текста
5. Проведение кластеризации
На базе работы компонента Process Documents from Files необходимо обеспечить кластеризацию документов. Для этого найдем и подключим компонент K-means (каталог Modelling-Segmentation) (рис.16 и 17).
Рис.16 Поиск компонента кластеризации K-means
Рис.17 Результат размещение компонента кластеризации K-means
После подключения компонента запустим созданную модель, результаты отображаются в окне результатов во вкладках ExampleSet и Cluster Model (рис.18-20).
Рис.18 Вкладка просмотра информации о результатах обработки данных
Рис.19 Вкладка просмотра результатов по статистике полученной модели (часть 1)
Рис.20 Вкладка просмотра результатов по статистике полученной модели (часть 2)
Описание результатов модели кластеризации (количества документов по каждому кластеру и общего количество проанализированных материалов и другие статистические данные) приведено на рис.21-24.
Рис.21 Вкладка описания результатов модели кластеризации
Рис.22 Вкладка просмотра результатов кластеризации текстовых файлов по 2-м категориям cluster_0 и cluster_1 (часть 1)
Рис.23 Вкладка просмотра результатов кластеризации текстовых файлов по 2-м категориям cluster_0 и cluster_1 (часть 2)
Рис.24 Графическая визуализация результатов кластеризации по обработанным словам в текстовых документах
Как можно заметить, количество текста, отнесенного к 1-му кластеру (красный цвет), превышает значение 2-го кластера (синий цвет), что свидетельствует о большей степени корреляции проанализированных данных в 1-м кластере.
Это свидетельствует о том, что на анализируемом веб-ресурсе информация не является в полной степени однородной и узко-тематичной, семантика разнообразна, в чем можно удостовериться умозрительно изучив данный веб-сайт. На основании этого можно утверждать, что поставленная задача и цель работы выполнены, проведена кластеризация данных веб-сайта на базе использования программного продукта Rapid Miner.
Прикрепленные файлы:
Прикрепленные файлы: |
|
|---|---|
|
Администрация сайта не рекомендует использовать бесплатные работы для сдачи преподавателю. Эти работы могут не пройти проверку на уникальность. Узнайте стоимость уникальной работы, заполните форму ниже: Узнать стоимость |
|
Скачать файлы: |
|
|
|



