Project:DMEU/Data mining

Data Mining или на български извличане на знания от данни е процес на откриване на смислени корелации, зависимости, повтарящи се образци (patterns), тенденции и аномалии в големи масиви от данни, съхранявани в складове чрез използване на техники и алгоритми от областта на машинното обучение, разпознаването на образи, статистиката, невронните мрежи и визуализацията на данни. За разлика от извличането на данни посредством заявки към база данни, извличането на знания от данните генерира имплицитно формулирана, неочевидна, предварително неизвестна, потенциално полезна информация.

Възникването и развитието на областта се явява естествено следствие от нарасналата употреба на бази данни и приложенията им в бизнеса. Традиционните средства за заявки към системата за управление на базата данни се използват за описание и извличане на точни масиви от данни от базата. В тези случаи потребителят е формулирал някаква хипотеза, която проверява посредством върнатите от системата данни. За разлика от по-общото извличане на информация (information retrieval, data retrieval), потребителят използва извличането на знания от данни, за да генерира хипотези.

Етапи
Процесът на извличане на знания от данни се състои от шест основни етапа:
 * Разбиране на проблемната област (Business understanding) — това е началният етап, който се фокусира върху дефинирането на целите на изследванията и съответните изисквания от гледната точка на потребителя. След завършването на етапа тези знания трябва да бъдат превърнати в дефиниции на задачи за сондиране на данни и да се състави предварителен план как тези цели могат да бъдат постигнати.
 * Разбиране на данните (Data understanding) — започва с първоначално събиране на данни и продължава с дейности, целящи задълбочаване на знанията на изследователя за естеството на данните. На този етап е необходимо да бъдат идентифицирани проблеми, свързани с качеството на данните, да бъде получено първоначално мнение за характера на данните, да бъдат намерени интересните подмножества на данните, за да бъдат формирани първоначални хипотези за скритата в данните информация.
 * Подготовката на данните (Data preparation) — покрива всички дейности по създаване от първоначални „сурови“ данни на крайното множество от данни (т.е. данни, които ще бъдат използвани от моделиращите средства). Етапът на подготовката на данни често се налага да бъде изпълняван многократно и по различно време. Задачите по подготовката на данни включват в себе си избор на таблиците с данни, техни атрибути и отделни записи, както и трансформация и изчистване на данни.
 * Mоделиране (Modeling) — този етап се състои от избор и прилагане на различни техники за моделиране, целящи извличане на закономерности от данните. Параметрите на моделите се калибрират до свои оптимални стойности. Тъй като някои модели имат свои специфични изисквания към форм&#768;ата на данните, на този етап често се налага връщането към етапа за подготовката на данни.
 * Оценка на модела (Model evaluation) — етапът се състои във внимателно преглеждане на всички стъпки, изпълнени при създаването на конкретния модел, за да се осигури, че те постигат поставените цели. В края на този етап се приема решение за използване на получените в процеса на сондиране резултати.
 * Експлоатация на модела (Deployment) — свързана е с необходимостта от наблюдение и стратегия за експлоатация. На този етап следва да се определи дали и кога да се поднови процедурата по извличане на знания от данни и при какви условия.

В литературата тези шест етапа се срещат и окрупнени до три: Подготовка на данните, Прилагане на алгоритъм за сондиране и Анализ на резултата.

Използвани техники
Обичайно използваните техники за извличане на знания от данни включват дървета на решенията, асоциативни правила, невронни мрежи, размита логика, генетични алторитми, клъстерен анализ по „метода на най-близкия съсед“.

Терминология
Терминът извличане на знания от данни, на английски knowledge discovery in databases, е възприет като български превод на популярния термин data mining, въпреки че на английски двата термина не винаги се смятат за точни синоними. В някои източници data mining се посочва само като един от етапите на knowledge discovery in databases. В българските източници е широко възприето да се ползва английският термин, както и транслитерацията му дейта майнинг, а се срещат и отделни преводи като сондиране на данни, интелектуален анализ на данните, интелигентен анализ на данните, дълбочинен анализ на данните, добиване на данни, добив на данни, целенасочено търсене на данни и други.

Източници

 * Introduction to Data Mining and its Applications, S. Sumathi, S. N. Sivanandam, In series: "Studies in Computational Intelligence" No. 29, Springer-Verlag Berlin Heidelberg 2006, ISBN 978-3-540-34350-9
 * Data Mining (Извличане на знания от данни), от Уикипедия, свободната енциклопедия