110
Tono Revista Técnic
a
de l
a
Empres
a
de Telecomunic
a
ciones de Cub
a
S.A.
H e r r a m i e n t a s
y
func iona lida de s d
e
minería de datos en
Oracle
I
n
t
r
o
d
u
cc
i
ó
n
H
oy día la informatizacn de la
sociedad e
s
toda una realidad,
millone
s
de
s
istema
s
informático
s
han sido de
s
arrollado
s
y, de una
forma u otra, apoyan, ejecutan o
controlan las actividade
s
y proce-
sos diario
s
. El empleo e
s
tratégico
de la información ha adquirido
nuevo
s
matice
s
, donde quien la
po
s
ee, tiene una gran ventaja y
posibilidades de éxito.
El De
s
cubrimiento del Conocimiento
en Base
s
de Dato
s
—del ing
s
,
Knowledge Di
s
cove
r
y in Databa
s
e
s
(KDD) con
s
i
s
te en el proce
s
o de
extracción no trivial de información
impcita, desconocida, y potencial-
mente útil de lo
s
dato
s
. El KDD po
s
ee
varia
s
etapas donde la má
s
impor-
tante e
s
la Minería de Dato
s
que
s
e
basa en la aplicación de cnica
s
de
diferente
s
campo
s
como la inteligen-
cia artificial y la e
s
tadí
s
tica a grande
s
volúmene
s
de dato
s
con el objetivo de
encontrar patrones y relaciones no
conocidas y, a veces, insospechadas
[7]. A tras de ella, pueden explicar-
s
e comportamientos que serían muy
difíciles de diagnosticar con otras
técnicas tradicionales. La realización
de proyectos de minería de datos tie-
ne
s
u
s
peculiaridades, existen meto-
dologías, herramientas y numerosos
e
s
tudios los cuales apoyan a los
e
s
pecialistas de esta rama en la ejecu-
cn de tales tareas.
En este artículo se presentan los
principales conceptos relacionados
con la Minea de Datos, con énfa-
s
i
s
particular en las herramientas y
funcionalidades que aporta Oracle
en tal
s
entido.
M
i
n
e
r
í
a
de
D
a
t
o
s
P
ara hablar de Minería de Datos
primero es necesario mencionar el
KDD, este se define como un pro-
ce
s
o de extracción no trivial de
información implícita, desconocida,
y potencialmente útil de los datos
[4]. El KDD cuenta con varias etapas
—compresión del negocio, selección
de datos, limpieza y preprocesa-
miento, transformación, minea de
datos, evaluación e interpretación de
los resultados—.
La Minería de Datos es una etapa
del KDD [4], e incluye el análisis de
grandes vomenes de datos, con el
objetivo de encontrar relaciones no
conocidas y resumirlas de forma no-
vedosa y útil para los duos de la
informacn. Los resultados son co-
nocidos como patrones o modelos
[5]. Los procesos pueden ser automá-
ticos o semiautoticos y los patrones
descubiertos deben ser significativos
y ventajosos para el intere
s
ado [10].
Las cnicas de minea de datos per-
miten obtener predicciones lidas [1].
Existe un dilema dado fundamen-
talmente por los rminos de KDD y
Minería de Datos (MD). Algunos
autores consideran que el primero
P
o
r
I
n
g
.
A
l
e
x
e
i
R
od
g
u
e
z
M
é
nd
e
z
,
T
é
c
n
i
c
o
e
n
S
i
s
t
e
m
a
d
e
C
o
m
pu
t
a
c
i
ón
,
G
e
r
e
n
c
i
a
d
e
I
nno
v
a
c
i
ón
y
D
e
s
a
rr
o
ll
o
,
U
N
T
I
S
W
,
E
T
E
C
S
A
a
l
e
x
e
i
.
r
od
ri
g
u
e
z
@
e
t
e
c
s
a
.c
u
Tono Revist
a
Técnic
a
de l
a
E
mpres
a
de Telecomunic
a
ciones de Cub
a
S.
A
.
111
más empleado por lo
s
e
s
tadí
s
tico
s
,
analistas de dato
s
y lo
s
s
i
s
tema
s
de
administracn de la información.
KDD, por su parte, tiene
s
eguido-
res en los estudio
s
o
s
de campo
s
de la inteligencia artificial y la
s
má-
quinas de aprendizaje.
M
e
t
o
d
o
l
o
g
í
a
s
de
M
i
n
e
r
í
a
de
D
a
t
o
s
Enfrentar un proyecto de Minería de
Dato
s
requiere de experiencia, capaci-
tación pero,
s
obre todo, planificación
y organización. La
s
metodología
s
para
el desarrollo de
s
oftware como RU
P
[6], XP [11], han logrado e
s
tandarizar
los proce
s
o
s
de
s
oftware. La Minea
de Dato
s
no puede tratar
s
e de forma
tradicional, tiene su
s
propia
s
caracte-
rística
s
, de ahí que exi
s
ten metodo-
logías para ejecutar e
s
to
s
proyecto
s
.
Entre ella
s
la
s
s
empleada
s
s
on
CRISP-DM del inglé
s
, CRo
ss
-Indu
s
-
try Standa
r
d P
r
oce
s
s fo
r
Data Mining
y SEMMA del ing
s
, Sample, Ex-
plore, Modify, Model, A
ss
e
ss
.
M
e
t
o
d
o
l
o
g
í
a
C
R
I
S
P
-
D
M
La metodología CRIS
P
-DM fue creada
en 1996 cuando un importante con
s
or-
(Dinamarca), AG (Alemania),
SPSS
(Inglaterra) y OHRA (Holanda)
unieron su
s
recur
s
o
s
para el de
s
a-
rrollo de e
s
ta metodología de libre
distribución. CRIS
P
-DM ha tenido
éxito porque está ba
s
ada en la prác-
tica, en experiencias reale
s
de mo
los experto
s
realizan lo
s
proyecto
s
de Minería de Dato
s
[9].
Es una metodología con propó
s
i-
tos generales para cualquier pro-
yecto de MD. Plantea idea
s
que
deben parametrizar
s
e para cada
entorno de ejecución, de
s
echando
algunas cosas y adicionando otra
s
,
es más amplio y abarcador que el
s
egún
s
ea la naturaleza y los objetivos del proyecto.
P
ropone modelos
segundo, donde MD
s
ólo
s
e refieregenérico
s
que deben ser adaptados: a esta acción se le denomina mapear el
al conjunto de algoritmo
s
y método
s
modelo.
empleado
s
para extraer el conoci-CRI
SP
-DM plantea cuatro niveles de abstracción durante un proyecto de
miento y forma parte del proce
s
o delDM, organizados de forma jerquica en tareas que van desde las gene-
KDD. Por otra parte, e
s
común en-rale
s
ha
s
ta las específicas fases, tareas genéricas, tareas específicas,
contrar el concepto de minería dein
s
tancia
s
de procesos. Tambn propone un modelo de referencia
datos como un símil del KDD.compue
s
to por 6 fases relacionadas entre sí y que interactúan de forma
El rmino Minería de Dato
s
e
s
cíclica como muestran la figura 1.
M
e
t
o
d
o
l
o
g
í
a
S
E
MM
A
E
s
ta metodología es desarrollada por
S
A
S
, empresa a la vanguardia en
tema
s
de minea de datos e inteligencia de negocio business intelli-
gence.
S
EMMA define una organización gica de actividades que se
ejecutan en el empleo de
S
A
S
Enterprise Miner para realizar proyectos
de minería de datos.
S
u nombre está formado por las iniciales de las
etapa
s
que propone:
S
ample (Muestreo), Explore (Exploración), Modif.
(Modificación), Model (Modelado), Asses (Evaluación) [2] (
F
igura 2).
F
i
g
u
r
a
1
F
a
s
e
s
d
e
l
m
od
e
l
o
d
e
r
e
f
e
r
e
n
c
i
a
C
R
I
S
P
-
D
M
C
o
m
p
a
r
a
c
i
ó
n
e
n
t
r
e
C
R
I
S
P
-
D
M
y
S
E
MM
A
Amba
s
metodologías son efectivas en un proyecto de minería,
e
s
tructuran las tareas en fases donde básicamente se manifiestan las
s
iguiente
s
etapas: extracción de los datos preparaciónmodelado
evaluación—despliegue. Estas etapas esn interrelacionadas, por ejemplo,
al obtener un modelo es posible que haya que realizar una nueva prepa-
ración de los datos u otra selección de los mismos.
S
EMMA es más limitada en cuanto a la comprensión del problema desde
el punto de vista empresarial. Comienza con la realización de una extrac-
ción de los datos, mientras que CRI
SP
-DM propone una gica
s
abar-
cadora, e
s
decir, entiende el negocio y por qué es necesario y dónde
realizar un proyecto de DM.
CRI
SP
-DM es publicada y distribuida libremente, puede ser imple-
mentada por cualquier interesado en el tema.
S
EMMA sólo muestra sus
a
s
pecto
s
generales y los acopla a su producto de minea Enterprise
M
iner.
cio de empresas europea
s
NCR
F
i
g
u
r
a
2
E
t
a
p
a
s
d
e
S
E
MM
A
112
Tono Revista Técnic
a
de l
a
Empres
a
de Telecomunic
a
ciones de Cub
a
S.A.
M
i
n
e
r
í
a
de
D
a
t
o
s
e
n
O
r
a
c
l
e
SAS actualmente ha planteado quela
s
actividades de preparación, creación de modelos y análisis se realizan en la
SEMMA no e
s
una metodoloa,BD, influyendo directamente en un aumento de la productividad y
sino una organización de pa
s
o
s
paraefectividad de los resultados.
hacer minería con
s
u producto de DM.La integración de ODM con la base de datos se logra a través de las interfaces
J
ava y PL/
S
QL. La interfaz Java facilita la creación de aplicaciones tipo java que
pretendan hacer minería en Oracle.
P
or otra parte, existen las interfaces
P
L/
S
QL
Oracle Corporation en una com-DBM
S
_DATA_MINING y DBM
S
_DATA_MINING_TRAN
SF
OR
M
, para el
pañía líder en el mundo en materia deacce
s
o a las técnicas de minería en aplicaciones
P
L/
S
QL. Es importante señalar
ba
s
e de datos y otra
s
aplicacione
s
.que, aunque ambas interfaces en un principio permiten las mismas
f
unciones,
Su producto insignia e
s
el motor deexi
s
ten diferencias entre ellas.
Ba
s
e de Dato
s
(BD) Oracle. En
s
u edi-La
s
funciones de Minería de Datos esn basadas en dos tipos de a-
ción Enterpri
s
e, a partir de la ver
s
nprendizajes supervisados y no supervisados. Los supervisados son
9i, incluye cnica
s
de minería deu
s
ados generalmente para predecir valores y son implementados en
dato
s
concebida
s
en O
r
acle Datamodelos predictivos.
P
or otra parte, los no supervisados se emplean en
Mining (ODM). E
s
ta
s
funcionalida-problemas donde no han sido definidos objetivos o variable
s
a deter-
des e
s
n completamente embebida
s
minar. Estos últimos pueden arrojar resultados insospechados.
en el propio motor de la ba
s
e de dato
s
,Entre las etapas propuestas de un proyecto de minería de datos se
por lo que no requieren de proce
s
o
s
encuentra la obtención del modelo, para ello se utilizan varios algoritmos
de instalación extra.provenientes, principalmente, de la estadística e inteligencia artificial.
ODM tiene su
s
orígene
s
en el pro-OD
M
implementa muchos de estos algoritmos conocidos y aporta sus
ducto Darwin de
s
arrollado porvariantes. Las funciones de minea que soporta ODM son las siguientes [8]:
Thinkign Machine
s
Corp., que fue
Š
Modelos predictivos —aprendizaje supervisado—: clasificación,
adquirido por Oracle en 1999 [3].regre
s
ión, importancia de atributo.
ODM e
s
una infrae
s
tructura que per-
Š
M
odelos descriptivos aprendizaje no supervisado: segmentación,
mite construir aplicacione
s
robu
s
ta
s
modelos de asociación, extracción de patrones.
de minería
s
in tener que recurrir aODM también tiene soporte para aplicaciones de minería de texto, así
softwares de tercero
s
. Lo
s
proce
s
o
s
como funciones específicas para el campo de la bioinformática a través
de extraccn del conocimiento
s
ede la herramienta BLA
S
T. Tambn, implementa algoritmos diversos,
simplifican, debido a que
s
e eli-algunos tradicionales y otros propietarios, a continuación en la tabla 1
mina la necesidad de movimiento
ss
e exponen los tipos de problemas y los algoritmos que pueden ser usa-
de los datos para
s
u análi
s
i
s
. Toda
s
do
s
.
P
r
oblemasD
ec
i
s
n B
ayes
B
ayes
Cl
ass
f
ac
to
r
iz
ac
n D
esc
N
e
two
rk
SVM
no n
e
g
a
ti
va
L
e
ngth
Algo
r
itmosÁ
r
bol
es
Ad
a
pt
a
ti
ve
N
a
i
ve
SVM On
e
A p
r
io
r
i M
a
t
r
izM i nK-M
ea
n
s
O-Clu
s
t
er
Detección
Ano
r
malidadesX
Reglas
AsociaciónX
Impo
r
tancia
At
r
ibutosX
ClasificacnXXXX
Cluste
r
ingXX
Ext
r
acción
Pat
r
onesX
Reg
r
esiónX
T
a
b
l
a
1
T
i
po
s
d
e
p
r
ob
l
e
m
a
s
y
a
l
g
o
ri
t
m
o
s
Tono Revist
a
Técnic
a
de l
a
E
mpres
a
de Telecomunic
a
ciones de Cub
a
S.
A
.
113
O
r
a
c
l
e
D
a
t
a
M
i
n
e
r
Oracle Data Miner e
s
una herramienta de minea de datos desarrollada
por Oracle. E
s
multiplataforma y utiliza la
s
interfaces de ODM. Cuenta
con una interfaz de u
s
uario
s
encilla e intuitiva. Implementa variadas
funcione
s
de preproce
s
amiento de lo
s
dato
s
de manera visual comple-
tamente, el usuario no nece
s
ita conocer lenguaje alguno de consultas
para realizar esta
s
actividade
s
. E
s
parametrizable y permite exportar los
resultados para fichero
s
c
s
v, a
s
í como la importación de fuentes de
datos externas a travé
s
de fichero
s
texto
s
.
Para la vi
s
ualización de lo
s
re
s
ultado
s
Oracle Data Miner propone
procedimiento
s
estándare
s
para cada tipo de actividad de minería, donde
puede comprobarse gráficamente la calidad de los modelos obtenidos,
así como otro
s
indicativo
s
de evaluación como la matriz de costo.
de minería de datos utilizando la BD Oracle.
E
m
p
l
e
o
de
O
r
a
c
l
e
D
a
t
a
M
i
n
e
r
de lo
s
resultados y el de
s
pliegue.
F
un
c
i
o
n
a
li
d
a
de
s
p
a
r
a
l
a
p
r
ep
a
r
a
c
i
ó
n
y
t
r
a
n
s
f
o
r
m
a
c
i
ó
n
de
l
o
s
d
a
t
o
s
diante un histograma —como mue
s
tra la figura 3, la distribución de los
dato
s
; en ca
s
o de que el dominio
s
ea muy amplio, se emplean técnicas como
Una caracterí
s
tica de reciente incorporacn en la versn 10.2.2 es laCon las funciones anteriores pue-
exportación de lo
s
paquete
s
P
L/
S
QL hacia la BD Oracle para ejecutar lasden ejecutarse variadas activida-
actividade
s
de minea realizada
s
con Oracle Data Miner, pero desdedes de preparación de los datos
otras aplicaciones que empleen la BD. A travé
s
de esta importante carac-sin necesidad de ser un conocedor
terística, se facilita, en gran medida, la implementación de aplicacionesde la sintaxis sql, ni de las particu-
laridades de Oracle. Además, exis-
ten funcionalidades relacionadas con
Oracle Data Miner
s
oporta gran cantidad de tareas de minería de datos,la explicación de los datos, donde
desde sus fa
s
es iniciale
s
de extraccn, tran
s
formacn hasta la evaluacnel especialista puede conocer qué
influencia tiene
un determinado
campo sobre el
resultado final,
La exploración de lo
s
dato
s
puede
s
er realizada a través de resúmenes paramostrado también en forma de
registros
s
imple
s
o multirregi
s
tro
s
, donde en cada caso se muestra, me-histograma pero horizontalmente.
C
o
n
st
r
u
cc
i
ó
n
de
l
m
o
de
l
o
P
ara esta etapa del desarrollo de un
la discretización.proyecto de minería de datos, la herra-
mienta posee diversas caracterís-
ticas. La secuencia de pasos varía en
dependencia del tipo de actividad
desarrollada y el algoritmo empleado,
aunque existen puntos comunes pa-
ra todos los proyectos que puedan
desarrollarse. A continuacn se ex-
plican las acciones a ejecutar en un
problema típico de clasificación.
El primer paso es seleccionar el
tipo de tarea que se desea ejecutar
asociación, clasificación,
r
egre-
sión, detección de anomalía
s
, seg-
mentación, importancia de atributos,
etc.—, en este caso clasificación y
el tipo de algoritmo a emplear.
Desps se selecciona la fuente de
datos, especificando los campos a
para cada registro; adicionalmente
se permite incluir otras fuentes de
datos, lo cual no debe ser necesario
si se ejecutó una preparación ade-
cuada. El paso siguiente consiste
en señalar cuál es la variable obje-
Para la tran
s
formación de lo
s
dato
s
y
s
u exploración, existen varias
funciones, entre ella
s
: agregación, campo
s
computados, discretización,
filtrado de campo
s
, valore
s
perdido
s
, normalización, tratamientos de
punto
s
fuera de rango, recodificación permite sustituir valores por
otros
s
egún criterio
s
de entrada—,
s
elección aleatoria, selección
aleatoria por capas, divi
s
ión, divi
s
n por capas (
F
igura 4).
F
i
g
u
r
a
3
H
i
s
t
o
g
r
a
m
a
p
a
r
a
e
l
c
a
m
po
a
ño
s
d
e
r
e
s
i
d
e
n
c
i
a
tener en cuenta y un identificador
F
i
g
u
r
a
4
T
r
a
n
s
f
o
r
m
a
c
i
ón
po
r
r
e
c
od
i
f
i
c
a
c
i
ón
114
Tono Revista Técnic
a
de l
a
Empres
a
de Telecomunic
a
ciones de Cub
a
S.A.
tivo del proyecto actual y su valor preferido —el algoritmo tratará de
maximizar la ocurrencia del valor dado (
F
igura 5).
Una vez realizado lo
s
pasos anteriores, la actividad está lista para ser
proce
s
ada y obtener el modelo correspondiente. La herramienta ejecuta
una
s
erie de tarea
s
predefinidas que pueden ser personalizadas si se
de
s
ea. Entre ella
s
s
e encuentran: una segunda selección de los datos,
por defecto no e
s
tá activada porque se supone que se hayan ejecutado
accione
s
anteriore
s
con esos objetivos. Discretizacn del dominio, está
activada por defecto aunque puede ser desactivada si se realizó esta ac-
cn en la fa
s
e de preparación, en caso contrario, no es recomendable
debido a que puede que la corrida del modelo se torne muy lenta.
P
articionamiento de lo
s
datos, se especifica qué seccn será destinada
a la con
s
trucción del modelo y cl a la prueba del mismo, una ran
recomendada e
s
(60–40) respectivamente.
P
arámetros de la construcción
del modelo entre lo
s
que se encuentran: metas de precisión —precisn
máxima promedio, preci
s
n xima global y parámetros propios para
cada algoritmo.
Una vez corrido el modelo, los resultados de cada etapa o pasos vistos
anteriormente pueden
s
er consultados en la pantalla de resultado de la
actividad que aparece en la figura 6.
F
i
g
u
r
a
5
F
o
r
m
u
l
a
ri
o
d
e
s
e
l
e
cc
i
ón
d
e
v
a
ri
a
b
l
e
ob
j
e
t
i
v
o
y
c
a
m
po
s
a
i
n
c
l
u
ir
e
n
e
l
m
od
e
l
o
F
i
g
u
r
a
6
P
a
n
t
a
ll
a
d
e
r
e
s
u
l
t
a
do
s
d
e
l
a
c
o
rri
d
a
d
e
l
m
od
e
l
o
Tono Revist
a
Técnic
a
de l
a
E
mpres
a
de Telecomunic
a
ciones de Cub
a
S.
A
.
115
La tarea de evaluacn de lo
s
re
s
ultado
s
o métricas de resultados
T
est
Metric
s
po
s
ee lo
s
dato
s
s
intere
s
ante
s
, porque Oracle Data Miner
brinda varios artefacto
s
de vi
s
ualización de lo
s
resultados donde, de una
forma muy interesante, el e
s
peciali
s
ta conoce la efectividad del modelo
hallado.
La gráfica de confianza de la predicción (
F
igura 7b), indica la calidad
del modelo. La zona verde
s
ignifica mejore
s
modelos, pero se considera
un buen re
s
ultado
s
i la aguja e
s
tá en la zona derecha del reloj.
La página de preci
s
n (
F
igura 7a) mue
s
tra varias interpretaciones de la
exactitud del modelo.
P
artiendo de que en lo
s
datos empleados se conoce
el valor real de la variable objetivo,
s
e con
s
truyen gráficas donde puede
verificar
s
e en qué cuantía el modelo predijo los resultados reales. Otro
aspecto
s
ignificativo e
s
la matriz de confu
s
n, a través de ella se
conoce el costo de hacer una mala predicción y así tomar decisiones.
C
o
n
c
l
u
s
i
o
n
e
s
Actualmente, la Minería de Datos es
un campo n en desarrollo, nuevas
tecnologías se abren camino cada día,
Oracle constituye con sus productos
de minea una solución ventajosa si
los datos yacen en este tipo de base
de datos. ODM es muy factible de em-
plear con resultados pidos y confiables
que permiten escalar en profesiona-
lidad y eficacia.
R
e
f
e
r
e
n
c
i
a
s
b
i
b
li
o
g
r
á
f
i
c
a
s
[
1
]
E
l
d
e
s
t
e
i
n
,
H
e
b
e
r
t
A
.
I
n
t
r
o
d
u
c
t
i
o
n
t
o
D
a
t
a
M
i
n
i
n
g
a
n
d
K
n
o
wl
ed
g
e
D
i
s
c
o
v
e
r
y
.
T
h
i
r
d
E
d
i
t
i
o
n
.
U
S
A
:
T
wo C
r
o
ss
Co
r
p
o
r
a
tio
n
,
2005.
[
2
]
E
-
I
n
t
e
lli
g
e
n
c
e
,
S
.
F
i
n
d
i
n
g
t
h
e
S
o
l
u
t
i
o
n
t
o
D
a
t
a
M
i
n
i
n
g
.
A
M
a
p
o
f
t
h
e
F
e
a
t
u
r
e
s
a
n
d
C
o
m
p
o
n
e
n
t
s
o
f
S
A
S
®
E
n
t
e
r
p
r
i
s
e
M
i
n
e
r
TM
S
o
f
t
w
a
r
e
V
e
r
s
i
o
n
4.1
,
2000.
D
i
s
p
o
n
i
b
l
e
e
n
:
h
tt
p
:
//www
.
s
a
s
.
c
o
m
(
Co
n
s
u
lt
a
:
20
/
11
/
2006
)
.
[
3
]
T
h
i
n
k
i
n
g
M
a
c
h
i
n
e
s
P
u
rc
h
a
s
e
d
by
O
r
a
c
l
e
,
D
i
s
p
o
n
i
b
l
e
e
n
:
h
tt
p
:
//
q
u
e
r
y
.
n
y
ti
me
s
.
c
o
m
/
g
s
t/
(
Co
n
s
u
lt
a
:
21
/
06
/
2006
)
.
[
4
]
F
a
y
a
d
,
U
.
M
.
,
P
i
a
t
e
t
s
k
y
-
S
h
a
p
i
r
o
,
G
.
&
S
m
y
t
h
,
P
.
F
r
o
m
D
a
t
a
M
i
n
i
n
g
to
K
n
owl
e
d
g
e
D
i
s
c
o
v
e
r
y
i
n
D
a
t
a
b
a
s
e
s
.
AAA
I
97
,
n
o
.
(
1996
)
:
18.
D
i
s
p
o
n
i
b
l
e
e
n
h
tt
p
:
//www
.
k
d
nu
gg
e
t
s
.
c
o
m
/
g
p
s
p
u
b
s
/
a
i
m
a
g
-
k
dd
-
o
v
e
r
v
i
e
w
-
1996
-
F
a
yy
a
d
.
pd
f
.
(
Co
n
s
u
lt
a
:
08
/
05
/
2006
)
.
[
5
]
H
a
n
d
,
D
a
v
i
d
;
M
a
nn
il
a
,
H
e
i
kk
i
;
y
S
m
y
t
h
,
P
a
d
h
r
a
i
c
.
P
r
i
n
c
i
p
l
e
s
o
f
D
a
t
a
M
i
n
i
n
g
.
E
.
U
.
:
M
I
T
P
r
e
ss
,
2001
,
546
p
á
g
s
.
[
6
]
J
a
c
o
b
s
o
n
,
I
v
a
r
;
Boo
c
h
,
G
r
a
dy
;
y
R
u
m
b
a
u
g
h
,
J
a
me
s
.
E
l
p
r
o
c
e
s
o
un
ifi
c
a
d
o
de
de
s
a
rr
o
ll
o
de
s
o
f
t
w
a
r
e
.
U
S
A
:
A
dd
i
s
o
n
W
e
s
l
e
y
,
2006.
[
7
]
M
é
n
d
e
z
,
A
.
R
.
E
m
p
l
e
o
de
t
é
c
n
i
c
a
s
de
M
i
n
e
r
í
a
de
D
a
t
o
s
c
o
n
s
o
p
o
r
t
e
O
r
a
c
l
e
e
n
a
p
o
y
o
a
l
a
t
o
m
a
de
de
c
i
s
i
o
n
e
s
r
e
l
a
c
i
o
n
a
d
o
c
o
n
f
r
a
u
de
e
n
l
a
s
r
e
c
l
a
m
a
c
i
o
n
e
s
t
e
l
e
f
ó
n
i
c
a
s
.
L
a
H
a
b
a
n
a
:
C
U
J
A
E,
2007
,
56
p
á
g
s
.
[
8
]
O
r
a
c
l
e
_Co
r
p
o
r
a
tio
n
.
O
r
a
c
l
e
D
a
t
a
M
i
n
i
n
g
C
o
n
c
e
p
t
s
,
10
g
R
e
l
e
a
s
e
1
(
10.1
)
,
Co
r
p
o
r
a
tio
n
O
r
a
c
l
e
,
2003.
P
a
r
t
N
o
.
B
10698
-
01
:
118.
D
i
s
p
o
n
i
b
l
e
e
n
:
h
tt
p
:
//www
.
o
r
a
c
l
e
.
c
o
m
/t
e
c
hn
olo
g
y
/
d
o
c
u
me
n
t
a
tio
n
/
d
a
t
a
m
i
n
i
n
g
.
h
t
m
l
.
(
Co
n
s
u
lt
a
:
15
/
11
/
2006
)
.
[
9
]
C
h
a
p
m
a
n
,
P
e
t
e
(
N
C
R
)
,
J
.
C
.
S.
,
K
e
r
b
e
r
,
R
a
n
dy
(
N
C
R
)
,
K
h
a
b
a
z
a
,
T
h
o
m
a
s
(
S
P
SS
)
,
R
e
i
n
a
r
t
z
,
T
h
o
m
a
s
(
D
a
i
m
l
e
rc
h
r
C
h
r
y
s
l
e
r
)
,
S
h
e
a
r
e
r
,
Coli
n
(
S
P
SS
)
a
n
d
W
i
r
t
h
,
R
ü
d
i
g
e
r
(
D
a
i
m
l
e
rc
h
r
C
h
r
y
s
l
e
r
)
.
C
R
I
S
P
-
D
M
1.0
S
t
e
p
-
b
y
-
S
t
e
p
D
a
t
a
M
i
n
i
n
g
G
u
i
de
,
2000.
D
i
s
p
o
n
i
b
l
e
e
n
:
h
tt
p
:
//
www
.
cr
i
s
p
-
d
m
.
o
r
g
.
(
Co
n
s
u
lt
a
:
13
/
10
/
2006
)
.
[
10
]
W
itt
e
n
I
a
n
H
.
;
F
r
a
n
k
,
E
i
b
e
.
D
a
t
a
M
i
n
i
n
g
:
P
r
a
c
t
i
c
a
l
M
a
c
h
i
n
e
L
e
a
r
n
i
n
g
T
oo
l
s
a
n
d
T
e
c
hn
i
q
u
e
s
.
S
e
c
o
n
d
E
d
i
t
i
o
n
.
S
a
n
F
r
a
n
c
i
s
c
o C
.
A
.
:
E
l
s
e
i
v
e
r
I
n
c
.
,
2005
,
558
pp
.
[
11
]
X
P
.
W
h
a
t i
s
E
x
t
r
eme
P
r
o
g
r
a
mm
i
n
g
?
(
2006
)
.
D
i
s
p
o
n
i
b
l
e
e
n
:
h
tt
p
:
//
www
.
e
x
t
r
eme
p
r
o
g
r
a
mm
i
n
g
.
o
r
g
/w
h
a
t
.
h
t
m
l
.
(
Co
n
s
u
lt
a
:
25
/
06
/
2007
)
.
La página de ROC mue
s
tra una gráfica muy útil para determinar posibles
cambio
s
en el modelo, re
s
ponde pregunta
s
como: ¿qué pasa si se cambia
x parámetro? La gráfica mue
s
tra la relación entre los resultados po-
sitivo
s
verdaderos y lo
s
fal
s
o
s
po
s
itivo
s
en lo
s
segmentos de datos, por
defectos lo
s
dato
s
s
on ordenado
s
por probabilidad y divididos en 10
partes. El usuario puede de
s
plazar la nea roja hasta lograr la relación
deseada de po
s
itivo
s
y negativo
s
,
s
egún
s
ea el interés (
F
igura 8a).
La página de acumulación de probabilidade
s
(
F
igura 8b), muestra otra
interpretación de lo
s
re
s
ultado
s
por probabilidades, las observaciones
realizadas aquí son del tipo ¿qué cantidad de veces el modelo es mejor
que una
s
olución aleatoria del problema vi
s
to?
F
i
g
u
r
a
7
M
a
t
ri
z
d
e
c
on
f
u
s
i
ón
y
g
r
á
f
i
c
a
d
e
c
on
f
i
a
n
z
a
Oracle Data Miner implementa utilitario
s
de exportación de los modelos a
paquete
s
PL/SQL en una ba
s
e de dato
s
Oracle, de esta forma el especialista
informático puede emplearlo
s
en aplicacione
s
más personalizadas. También
permite publicar los re
s
ultado
s
en un
s
ervidor Oracle Discover y al formato
PMML.
F
i
g
u
r
a
8
G
r
á
f
i
c
a
s
d
e
R
OC
y
d
e
a
c
u
m
u
l
a
c
i
ón
d
e
p
r
ob
a
b
ili
d
a
d
e
s