4
8
R
e
v
i
s
t
a
T
é
c
n
i
c
a
d
e
l
a
E
m
p
r
e
s
a
d
e
T
e
l
e
c
o
m
un
i
c
a
c
i
o
n
e
s
d
e
C
u
b
a
S
.
A
.
J
U
L
I
O / D
I
C
I
E
M
B
R
E
2016
V
O
L
.
13
4
9
P
o
r
:
I
ng
. L
i
e
t
e
r
P
l
a
s
e
n
c
i
a
M
o
r
e
n
o
y
D
r
a
.C. C
a
r
i
d
a
d
A
n
í
a
s
C
a
l
de
r
ó
n
,
I
S
P
J
A
E
.
li
e
t
e
r
.
p
m
@
g
m
a
il
.
c
o
m
;
c
a
c
h
a
@
t
e
s
l
a
.
c
u
j
a
e
.
e
d
u
.
c
u
E
l
a
l
t
o
de
s
a
rr
o
ll
o
a
l
c
a
n
z
a
d
o
e
n
l
a
s
T
e
c
n
o
l
o
g
í
a
s
de
l
a
I
n
f
o
r
m
a
c
i
ó
n
a
n
i
ve
l
g
l
o
b
a
l
y
e
l
i
n
t
e
n
s
o
u
s
o
p
o
r
p
a
r
t
e
de
l
o
s
u
s
u
a
r
i
o
s
de
l
a
s
m
i
s
m
a
s
h
a
n
p
r
o
v
o
c
a
d
o
e
l
i
n
c
r
e
m
e
n
t
o
de
l
o
s
v
o
l
ú
m
e
n
e
s
de
d
a
t
o
s
q
u
e
s
e
t
r
a
n
s
p
o
r
t
a
n
p
o
r
l
a
s
r
ede
s
.
L
a
b
ú
s
q
u
ed
a
de
nu
ev
o
s
m
é
t
o
d
o
s
p
a
r
a
g
e
st
i
o
n
a
r
d
i
c
h
o
s
d
a
t
o
s
c
o
n
ll
ev
ó
a
l
s
u
r
g
i
m
i
e
n
t
o
de
l
t
é
r
m
i
n
o
B
i
g
D
a
t
a
,
i
m
p
o
n
i
é
n
d
o
s
e
un
nu
ev
o
p
a
r
a
d
i
g
m
a
e
n
l
a
g
e
st
i
ó
n
de
l
o
s
m
i
s
m
o
s
.
E
n
e
st
e
a
r
t
í
c
u
l
o,
s
e
p
r
e
s
e
n
t
a
c
ó
m
o
B
i
g
D
a
t
a
p
u
ede
s
e
r
e
m
p
l
e
a
d
o
e
n
l
a
o
p
t
i
m
i
z
a
c
i
ó
n
de
l
a
g
e
s
-
t
i
ó
n
de
r
ede
s
y
s
e
r
v
i
c
i
o
s
de
l
a
s
T
e
l
e
c
o
m
un
i
c
a
c
i
o
n
e
s
,
m
ed
i
a
n
t
e
e
l
e
m
p
l
e
o
de
un
a
a
r
q
u
i
t
e
c
t
u
r
a
r
e
f
e
r
e
n
c
i
a
l
de
B
i
g
D
a
t
a
a
p
li
c
a
b
l
e
e
n
e
st
e
s
e
c
t
o
r
.
P
a
l
a
b
r
a
s
c
l
a
v
e
:
B
i
g
D
a
t
a
,
G
e
st
i
ó
n
,
T
e
l
e
c
o
m
un
i
c
a
c
i
o
n
e
s
T
h
e
h
i
gh
deve
l
o
p
m
e
n
t
r
e
a
c
h
ed
i
n
t
h
e
I
n
f
o
r
m
a
t
i
o
n
T
e
c
hn
o
l
o
g
i
e
s
w
o
r
l
d
w
i
de
a
n
d
t
h
e
i
n
t
e
n
s
e
dep
l
o
y
-
m
e
n
t
u
s
e
r
s
m
a
k
e
o
f
t
h
e
s
e
t
e
c
hn
o
l
o
g
i
e
s
,
h
a
ve
c
a
u
s
ed
t
h
e
i
n
c
r
e
a
s
e
o
f
d
a
t
a
v
o
l
u
m
e
s
t
h
a
t
a
r
e
t
r
a
n
s
m
i
tt
ed
t
h
r
o
ugh
n
e
t
w
o
r
k
s
. T
h
e
s
e
a
r
c
h
o
f
n
e
w
m
e
t
h
o
d
s
t
o
m
a
n
a
g
e
s
u
c
h
d
a
t
a
l
ed
t
o
t
h
e
a
ppe
a
r
a
n
c
e
o
f
t
h
e
t
e
r
m
B
i
g
D
a
t
a
,
i
m
p
o
s
i
ng
a
n
e
w
p
a
r
a
d
i
g
m
i
n
t
h
e
i
r
m
a
n
a
g
e
m
e
n
t
.
I
n
t
h
i
s
a
r
t
i
c
l
e
,
t
h
e
a
u
t
h
o
r
p
r
e
s
e
n
ts
h
o
w
B
i
g
D
a
t
a
c
a
n
be
u
s
ed
i
n
t
h
e
o
p
t
i
m
i
z
a
t
i
o
n
o
f
t
h
e
m
a
n
a
g
e
m
e
n
t
o
f
T
e
-
l
e
c
o
mm
un
i
c
a
t
i
o
n
s
n
e
t
w
o
r
k
s
a
n
d
s
e
r
v
i
c
e
s
,
u
s
i
ng
a
B
i
g
D
a
t
a
r
e
f
e
r
e
n
t
i
a
l
a
r
c
h
i
t
e
c
t
u
r
e
a
pp
li
ed
i
n
t
h
i
s
s
e
c
t
o
r
.
K
e
y
w
o
r
d
s
:
B
i
g
D
a
t
a
,
M
a
n
a
g
e
m
e
n
t
,
T
e
l
e
c
o
mm
un
i
c
a
t
i
o
n
s
T
É
C
N
I
C
A
E
M
P
L
E
O D
E
BI
G
DATA
E
N L
A
G
E
STIÓN D
E
L
A
S
T
E
L
E
COM
U
NICACION
E
S
A
B
S
T
R
A
CT
R
E
S
U
M
EN
I
n
t
r
o
d
u
cc
i
ó
n
En lo
s
último
s
año
s
s
e ha apreciado una evolución
acelerada de la
s
Tecnología
s
de la Información y la
s
Comunicacione
s
(TIC), de
s
tacándo
s
e el incremento de
la interacción de lo
s
u
s
uario
s
con la
s
mi
s
ma
s
, lo que ha
provocado el trá
f
ico de grande
s
cantidade
s
de dato
s
que no
exi
s
tían. Por otra parte, la digitalización de prácticamente
todo en el nuevo mundo digital, ha dado lugar a nuevo
s
tipo
s
de dato
s
en un amplio abanico de
s
ectore
s
, de lo
s
cuale
s
mucho
s
pre
s
entan una e
s
tructura que di
f
iculta
s
u
proce
s
amiento y almacenamiento.
D
e e
s
ta forma
s
urge el término Big
D
ata, que implica una
nueva forma de ge
s
tionar el alto nivel de dato
s
que exi
s
ten
y que
s
e generan en la actualidad a nivel global, y apro-
vecharlo
s
a
s
í en función de lograr la
s
meta
s
que
s
e trazan
la
s
di
s
tinta
s
empre
s
a
s
y organizacione
s
. Big
D
ata no e
s
má
s
que la combinación de vieja
s
y nueva
s
tecnología
s
que ayudan a obtener una mejor vi
s
ión del proce
s
amiento
de la información [1]. Tam
b
ién
s
e puede conceptualiza
r
como la capacidad de maneja
r
un inmen
s
o volumen de
dato
s
que
s
e generan de forma caótica, lo
s
que a la ve
-
locidad y temporización cor
r
ecta
s
, pe
r
miten el análi
s
i
s
en tiempo real y la de
f
inición de la
s
nece
s
a
r
ia
s
accione
s
a
s
ociada
s
.
D
ado el nuevo panorama que p
r
e
s
enta Big Data
s
e han de
-
s
arrollado nueva
s
herramienta
s
y plata
f
o
r
ma
s
pa
r
a el p
r
o
-
ce
s
amiento de dato
s
ma
s
ivo
s
que
s
e gene
r
an en la
s
r
ede
s
de
s
de diferente
s
fuente
s
y, de ello
s
, obtene
r
in
f
o
r
mación
valio
s
a. La aplicación de Big Data en la
s
telecomunica
-
cione
s
contribuye al de
s
arrollo de novedo
s
o
s
y potente
s
s
i
s
tema
s
de ge
s
tión de rede
s
y
s
e
r
vicio
s
. Alguna
s
de la
s
aplicacione
s
de Big
D
ata en e
s
te
s
ecto
r
s
on:
Ó
ptimo almacenamiento
d
e dato
s
ma
s
ivo
s
en la nube
mediante almacene
s
virtualizado
s
[
2
]
.
5
0
R
ev
i
st
a
T
é
c
n
i
c
a
de
l
a
E
m
p
r
e
s
a
de
T
e
l
e
c
o
m
un
i
c
a
c
i
o
n
e
s
de
C
u
b
a
S.
A
.
J
U
L
I
O / D
I
C
I
E
M
B
R
E
2016
V
O
L
.
13
5
1
T
É
C
N
I
C
A
T
É
C
N
I
C
A
Técnicas de
r
eubicación de datos en nodos de t
r
ansmi
-
s
ión de g
r
an velocidad y, con ello, la obtención
d
e
r
utas
má
s
óptimas pa
r
a el transporte de datos.
I
nteg
r
ación de los datos que circulan por las redes.
Análisis de la in
fo
rmación para la detección de fallos.
Visualización de diferentes tipos de datos.
C
r
eación de frameworks para mejorar los servicios de
comunicaciones móviles mediante la evaluación de la ca
-
lidad de expe
r
iencia —
Q
uality of Experience (
Q
oE
)
— de
lo
s
usua
r
ios.
E
s
te a
r
tículo aba
r
ca cómo Big
D
ata puede ser aplicado en
el
s
ecto
r
de las telecomunicaciones.
P
ara ello se emplea
una a
r
quitectu
r
a
r
e
f
erencial de Big
D
ata, la cual
p
e
r
mite
la obtención e integración de información de alto impacto
en la gestión de la
s
redes y los servicios de este secto
r
en
un caso de gestión de seguridad de una red.
A pa
r
ti
r
de la investigación realizada, se elaboró la a
r
qui
-
tectu
r
a
r
e
f
e
r
encial de Big
D
ata para la gestión de las tele
-
comunicaciones. Algunos de los principios que fo
r
ma
r
on
la base de esta p
r
opuesta fueron:
-
La necesidad de conocer qué datos son relevantes a los
objetivos que se persiguen al emplear Big
D
ata.
-
La u
r
gencia de
r
equerir procesos de extracción, t
r
ans
-
f
o
r
mación y ca
r
ga para garantizar la captura y almacena
-
mie
n
to de todo tipo de datos relevantes.
-
La t
r
ans
f
o
r
mación de los datos que no presentan una es
-
t
r
uctu
r
a adecuada para su posterior análisis.
-
El empleo de los sistemas aislados o de la nube pa
r
a el
almacenamiento de los datos, garantizándose que se alma
-
cenen todos aquellos que se capturen y se procesen.
-
La dete
r
minación de las herramientas de análisis de da
-
to
s
a emplea
r
segú
n
los objetivos que se persigan.
-
El empleo de la virtualización, dadas las ventajas que
p
r
opo
r
ciona.
-
La necesidad de
s
eguir un modelo de gestión de datos
di
s
tribuido, puesto que las fuentes de las cuales estos se
ext
r
ae
r
án se encuentran geográ
f
icamente distribuidas.
-
La ga
r
antía en todo momento de la seguridad de los da
-
to
s
, siendo este u
n
o de los retos de la gestión de datos
ma
s
ivos.
Finalmente, en el último nivel de la arquitectura referen-
cial propue
s
ta
s
e encuentran la
s
aplicacione
s
de ge
s
tión de
la
s
rede
s
y
s
ervicio
s
de telecomunicacione
s
, la
s
cuale
s
s
e
ven optimizada
s
gracia
s
al análi
s
i
s
de lo
s
dato
s
ma
s
ivo
s
,
como por ejemplo, para lograr la con
f
iguración e
f
iciente
de lo
s
di
s
po
s
itivo
s
de interconexión de rede
s
, la mejora
en lo
s
s
ervicio
s
telefónico
s
y una mayor calidad de la
s
oferta
s
a lo
s
cliente
s
.
Se debe re
s
altar que el término de dato
s
ma
s
ivo
s
s
e em-
plea en lo
s
proce
s
o
s
que ocurren en lo
s
nivele
s
de Extrac-
ción, Tran
s
formación y Carga,
A
lmacenamiento y
A
ná-
li
s
i
s
de dato
s
, pue
s
s
olo de
s
pué
s
que lo
s
dato
s
s
alen del
nivel de
A
náli
s
i
s
, e
s
que e
s
to
s
s
e con
s
ideran información
relevante, e
s
decir, información que puede
s
er aplicada en
la ge
s
tión de rede
s
y
s
ervicio
s
de telecomunicacione
s
.
N
i
v
e
l
d
e
E
x
t
r
a
cc
i
ó
n,
Tr
a
n
s
f
o
r
m
a
c
i
ó
n
y
C
a
r
g
a
d
e
l
a
a
r
q
u
i
t
e
c
t
u
r
a
p
r
o
p
ue
s
t
a
El nivel de Extracción, Tran
s
formación y Carga de la ar-
quitectura referencial de Big
D
ata para la ge
s
tión de la
s
te-
lecomunicacione
s
s
e mue
s
tra en la
f
igura 2. Lo
s
proce
s
o
s
realizado
s
en dicho nivel
s
on pilare
s
al plani
f
icar y di
s
eñar
una infrae
s
tructura de manejo de dato
s
que implique la
integración de diferente
s
y variada
s
fuente
s
. E
s
to
s
proce-
s
o
s
s
on lo
s
re
s
pon
s
able
s
de recopilar la información de la
s
fuente
s
de origen de dato
s
adaptarla,
f
iltrarla e integrarla
en un repo
s
itorio digital, por ejemplo, una ba
s
e de dato
s
.
Lo
s
principale
s
proce
s
o
s
a ejecutar
s
e en el nivel de Extrac-
ción, Tran
s
formación y Carga
s
e preci
s
an en la
f
igura 2 y
s
u
s
caracterí
s
tica
s
s
on:
Proce
s
o de extracción:
s
e obtienen lo
s
dato
s
de la
s
fuen-
te
s
de origen.
H
abitualmente, con el objetivo de evitar
s
atu-
ración en lo
s
s
ervidore
s
donde
f
inalmente
s
e almacenarán
lo
s
dato
s
,
s
e
s
uelen implementar repo
s
itorio
s
intermedio
s
,
conocido
s
como ba
s
e
s
de dato
s
operacionale
s
o almacene
s
de dato
s
operacionale
s
, que actúan de pa
s
arela
s
entre la
s
fuente
s
de dato
s
y el
s
i
s
tema de
s
tino de la información.
F
i
g
u
r
a
2
.
P
r
o
c
e
s
o
s
de
l
n
i
ve
l
de
E
x
t
r
a
cc
i
ó
n
,
T
r
a
n
s
f
o
r
m
a
c
i
ó
n
y
C
a
r
g
a
de
l
a
a
r
q
u
i
t
e
c
t
u
r
a
p
r
o
p
u
e
st
a
.
F
u
e
n
t
e
:
E
l
a
b
o
r
a
c
i
ó
n
p
r
o
p
i
a
.
Proce
s
o de cla
s
i
f
icación:
p
e
r
mite la cla
s
i
f
icación de lo
s
dato
s
que
s
e extraen en diferente
s
dimen
s
ione
s
pa
r
a la
s
im
-
pli
f
icación de futuro
s
proce
s
amiento
s
.
Proce
s
o de integración: armonización de dato
s
de di
s-
tinta
s
fuente
s
y
s
u integración en un g
r
upo único ante
s
de
s
er tran
s
formado
s
y reducidos en un
f
o
r
mato común.
Proce
s
o de coordinación: mantiene y cont
r
ola a todo
s
lo
s
demá
s
proce
s
o
s
que
s
e realizan en e
s
te nivel de la a
r
quitectu
r
a.
Proce
s
amiento Ma
s
ivo P
a
ralelo
(
MPP
):
r
ealiza la di
-
vi
s
ión de tarea
s
para proce
s
a
r
la
s
al mi
s
mo tiempo y de
forma ai
s
lada.
As
í, el
s
i
s
tema e
s
má
s
e
f
iciente en el p
r
oce
-
s
amiento de dato
s
[3].
Proce
s
o de carga:
s
e cargan lo
s
dato
s
, ya e
s
t
r
uctu
r
ado
s
en
el formato de
s
eado, en el
s
i
s
tema de almacenamiento de
s
ti
-
no donde po
s
teriormente
s
erá
n
p
r
oce
s
ado
s
y analizado
s
[
3
]
.
N
i
v
e
l
d
e
a
l
m
a
c
en
a
m
i
en
t
o
d
e
l
a
a
r
q
u
i
t
e
c
t
u
r
a
p
r
o
p
ue
s
t
a
El concepto de almacene
s
de dato
s
s
e o
r
iginó hace va
r
ia
s
década
s
. Inicialmente
s
e co
n
cibió pa
r
a que
f
ue
s
en utili
-
zado
s
por u
s
uario
s
que admini
s
t
r
aban
s
i
s
tema
s
ope
r
acio
-
nale
s
que nece
s
itaban almacena
r
in
f
o
r
mación pa
r
a apoya
r
la toma de deci
s
ione
s
. Con la llegada de Big Data el con
-
cepto de almacén de dato
s
ha evolucionado; no ob
s
tante,
lo
s
almacene
s
de dato
s
tradicionale
s
s
iguen
s
iendo u
s
ado
s
debido a que
s
on e
f
iciente
s
en el análi
s
i
s
de dato
s
ope
r
a
-
cionale
s
antiguo
s
.
Lo
s
almacene
s
de dato
s
tradicionale
s
s
opo
r
tan dato
s
e
s-
tructurado
s
, e
s
tán optimizado
s
pa
r
a p
r
opó
s
ito
s
e
s
pecí
f
ico
s
y generalmente
s
on centralizado
s
. Con la apa
r
ición de Big
D
ata
s
e ha pen
s
ado en almacene
s
de dato
s
híb
r
ido
s
, en lo
s
que
s
e encuentren tanto lo
s
dato
s
e
s
t
r
uctu
r
ado
s
como lo
s
no e
s
tructurado
s
proce
s
ado
s
po
r
la
s
he
rr
amienta
s
ETL.
Ge
s
t
i
ón d
e
R
e
d
e
s y
S
er
vi
c
ios d
e
las
T
e
l
ec
omuni
c
a
c
ion
e
s
P
r
o
p
ue
s
t
a
d
e
a
r
q
u
i
t
e
c
t
u
r
a
Análisis d
e
D
atos
Alma
ce
nami
e
nto d
e
D
atos
Fu
e
nt
e
s d
e
D
atos
E
x
t
r
a
cc
ión,
T
r
ansfo
r
ma
c
ión y Ca
rg
a
d
e
D
atos (ETL o ELT)
dentro de grande
s
volúmene
s
de dato
s
y la
s
de vi
s
ualización
que permitan repre
s
entar información de interé
s
s
obre la
s
rede
s
y lo
s
s
ervicio
s
de la
s
empre
s
a
s
de telecomunicacione
s
.
datos (ETL o ELT)
P
r
oc
e
sa
m
i
e
n
toCa
r
ga
m
as
i
vo pa
r
a
l
e
l
o
Coo
r
d
i
n
ac
i
ó
n
T
r
a
n
sfo
r
m
ac
i
ó
n
C
l
as
i
f
icac
i
ó
n
Ext
r
acc
i
ó
n
I
n
t
e
g
r
ac
i
ó
n
Sistemas de monitoreo de redes capaces de p
r
ocesa
r
velocidades y desde distintos puntos geog
r
á
f
ico
s
. En
Ejemplo
s
de e
s
ta
s
herramienta
s
s
on la
s
de análi
s
i
s
predictivo
miles de datos en c
u
estiones de segundos.el segundo nivel apa
r
ecen los p
r
ocesos de Ext
r
acción,
de dato
s
, algoritmo
s
para e
s
tablecer punto
s
de interrelación
Ext
r
acc
i
ó
n
,
T
r
a
n
sfo
r
m
ac
i
ó
n
y Ca
r
ga d
e
T
r
ans
f
o
r
mación y Ca
r
ga —Extraction, Transfor
m
ation
and Load
(
ETL
)
— de los datos masivos.
El objetivo es ext
r
ae
r
los datos de distintas
f
uentes y en-
via
r
los a los
r
eposito
r
ios donde se almacenan. Lo
s
pro-
cesos de t
r
ans
f
o
r
mación y ca
r
ga pueden ocu
rr
i
r
de do
s
f
o
r
mas p
r
incipales. En la p
r
ime
r
a, los datos son cargado
s
inicialmente en las bases de datos que los almacenarán,
dent
r
o de estas, se hacen las t
r
ans
f
o
r
maciones necesaria
s
,
lo que
f
acilita que las he
rr
amientas de análisis de dato
s
los p
r
ocesen y ent
r
eguen la in
f
o
r
mación de manera cla-
r
a y comp
r
endible. Mient
r
as que en la segunda, los dato
s
son t
r
ans
f
o
r
mados p
r
eviamente al almacenamiento de lo
s
mismos.
F
i
g
u
r
a
1
.
Ar
q
u
i
t
e
c
t
u
r
a
r
e
f
e
r
e
n
c
i
a
l
de
B
i
g
D
a
t
a
p
a
r
a
l
a
g
e
st
i
ó
n
de
l
a
s
t
e
l
e
c
o
m
un
i
c
a
c
i
o
n
e
s
.
F
u
e
n
t
e
:
E
l
a
b
o
r
a
c
i
ó
n
p
r
o
p
i
a
.
En el te
r
ce
r
nivel de la a
r
quitectu
r
a se conside
r
a el alma-
cenamiento de datos masivos. Este nivel puede variar de
una implementación a ot
r
a de la a
r
quitectu
r
a, pue
s
to que
existen he
rr
amientas ETLque no solo t
r
ans
f
o
r
man lo
s
da-
tos sino que p
r
esentan espacios de almacenamiento para
g
r
andes volúmenes de in
f
o
r
mación, no
r
equi
r
iéndose em-
plea
r
bases de datos adicionales.
A
demás, cada empre
s
a u
o
r
ganización donde se aplique la a
r
quitectu
r
a que se pro-
pone puede dete
r
mina
r
, de acue
r
do a los tipos de dato
s
con
los que va a t
r
abaja
r
, cómo almacena
r
los.
En la
f
igu
r
a 1 se muestra la arquitectura referencial de Big
Data pa
r
a la gestión de las telecomunicaciones pr
o
puesta.
En el nivel más bajo de la arquitectura se encue
n
t
r
an las
Proce
s
o de tran
s
formación: cuando lo
s
dato
s
proceden
de di
s
tinta
s
fuente
s
, lo común e
s
que no coincidan en for-
mato.
D
ebido a e
s
to, re
s
ulta impre
s
cindible realizar tarea
s
de tran
s
formación para, entre otro
s
problema
s
, evitar dupli-
cidade
s
innece
s
aria
s
de dato
s
o que
s
e e
s
tablezcan grupo
s
de dato
s
que no pre
s
entan conexione
s
entre ello
s
. En e
s
te
proce
s
o
s
e llevan lo
s
dato
s
extraído
s
a una e
s
tructura lógica
En la
f
igura 3
s
e mue
s
tran la
s
p
r
incipale
s
ca
r
acte
r
í
s
tica
s
que
En el cua
r
to nivel de la a
r
quitectu
r
a se conside
r
a el análi
s
i
s
de datos, en el que se emplean he
rr
amientas que se encargan
de obtene
r
in
f
o
r
mación de alto nivel de impacto, útil para
f
uentes que gene
r
an grandes
f
lujos de datos a dife
r
entesla gestión de las
r
edes y se
r
vicios de telecomunicacione
s
.
común nece
s
aria para
s
u proce
s
amiento y análi
s
i
s
po
s
terior.cualquier tecnología que
s
e utilice pa
r
a la implementación
52
R
ev
i
st
a
T
é
c
n
i
c
a
de
l
a
E
m
p
r
e
s
a
de
T
e
l
e
c
o
m
un
i
c
a
c
i
o
n
e
s
de
C
u
b
a
S.
A
.
J
U
L
I
O / D
I
C
I
E
M
B
R
E
2016
V
O
L
.
13
5
3
T
É
C
N
I
C
A
T
É
C
N
I
C
A
del nivel de Almacenamiento de
D
atos de la arquitectu
r
a
pro
p
uesta. Estas ca
r
acterísticas son:
Re
p
licació
n:
pe
r
mite la redundancia de información en
la
s
bases de datos, con lo cual, si una base de datos deja
de
f
unciona
r
, la in
fo
rmación se asegura pues se encuent
r
a
replicada en ot
r
as.
B
a
la
n
ceo
d
e carga: realiza la adecuada distrib
u
ción de
la
s
b
ases de datos en múltiples servidores.
Escala
b
ili
d
a
d
h
orizo
n
tal: permite que los datos se pue
-
dan almacena
r
en varios servidores.
A
mayor cantidad de
in
f
o
r
mación, más servidores se emplearán.
Sis
t
e
m
as
d
is
t
ri
b
ui
d
os
d
e
f
ic
h
eros: opera con una
r
ed o
clúste
r
de se
r
vido
r
es interconectados y con
f
igura
d
os pa
r
a
t
r
a
b
aja
r
con un sistema de
f
icheros lógico. El tamaño del
s
i
s
tema de
f
iche
r
os puede variar, aumentar o di
s
minui
r
,
de acue
r
do a las necesidades y sin afectar el rendimiento
gene
r
al del sistema
.
S
an
dboxi
n
g o esta
b
lecimie
n
to
d
e almace
n
es de da
t
os
te
mp
orales
:
pe
r
mite la creación de almacenes de datos
tempo
r
ales pa
r
a la experimentación, el procesamiento y
análisis de datos. Los datos que contienen son copiados
de
s
de la
f
uente donde se encuentran almacenados y lib
r
e
-
mente se puede esc
o
ger cómo se van a tratar los mismos y
qué hace
r
con ellos, sin afectar los datos originales.
Fil
t
ros
d
e
d
a
t
o
s
: permiten obtener datos especí
f
icos
que se desean t
r
atar o asegurar en el sistema de almace
-
namiento.
F
i
g
u
r
a
3
.
C
a
r
a
c
t
e
r
í
st
i
c
a
s
de
l
n
i
ve
l
de
A
l
m
a
c
e
n
a
m
i
e
n
t
o
de
d
a
t
o
s
de
l
a
a
r
q
u
i
t
e
c
t
u
r
a
p
r
o
p
u
e
st
a
.
F
u
e
n
t
e
:
E
l
a
b
o
r
a
c
i
ó
n
p
r
o
p
i
a
.
Un
o
de los dilemas a los que se enfrentan muchas em
-
presas es que no pueden costear la infraestructura
f
ísica
necesa
r
ia pa
r
a almacenar grandes volúmenes de datos no
e
s
tructu
r
ados. En la actualidad, muchos proveedo
r
es de
almacenamiento de datos ofrecen soluciones para la nube
que, como pa
r
te de su gama de productos, se comercializan
ent
r
e los clientes como soluciones asequibles y accesibles.
El almacenamiento en la nube pe
r
mite que solo se nece
s
i-
te alquila
r
potentes se
r
vido
r
es equipados con so
f
isticada
s
aplicaciones diseñadas especialmente pa
r
a maneja
r
gran-
des volúmenes de datos, a los que se puede acceder per-
manentemente. Existen va
r
ias ventajas del uso de la nube
en ento
r
nos Big
D
ata, ent
r
e ellas, la escalabilidad, la ela
s
-
ticidad, la utilización e
f
iciente de
r
ecu
r
sos compa
r
ti
d
o
s
, la
r
educción de costos y la tole
r
ancia a
f
allos.
N
i
v
e
l
d
e
A
n
á
li
s
i
s
d
e
d
a
t
os
d
e
l
a
a
r
q
u
i
t
e
c
t
u
r
a
p
r
o
p
ue
s
t
a
Teó
r
icamente, una de las ventajas del empleo de Big
D
ata es que mient
r
as más datos se analicen, mayor
se
r
á la amplitud de visiones que se puedan establecer
en to
r
no a los objetivos que pe
r
siga una o
r
ganización o
emp
r
esa. La p
r
ime
r
a p
r
egunta que hay que
f
o
r
mular
s
e
pa
r
a selecciona
r
las he
rr
amientas de análisis de dato
s
e
s
:
¿qué o cuáles p
r
oblemas se están t
r
atando de
r
e
s
olver
y en qué secto
r
o á
r
ea de la sociedad se encuent
r
an en-
fr
ascados? También, en la selección de he
rr
amienta
s
de
análisis se debe tene
r
en cuenta el nivel de complejidad
del p
r
oblema a
r
esolve
r
.
En la tabla 1 se
r
ecoge el empleo de algunas he
rr
amienta
s
analíticas pa
r
a va
r
ios tipos de análisis a
r
ealiza
r
. En el
N
ivel de
A
nálisis de datos de la a
r
quitectu
r
a
r
e
f
e
r
encial
pa
r
a la gestión de
r
edes y se
r
vicios de telecomunicacio-
nes que se p
r
opone solo son de inte
r
és los dos p
r
imero
s
tipos de análisis.
Las analíticas básicas son utilizadas pa
r
a explo
r
a
r
grande
s
volúmenes de datos. Pe
r
miten la división de estos en pe-
queños g
r
upos que son más
f
áciles de analiza
r
en tiempo
r
eal al posibilita
r
identi
f
ica
r
en ellos anomalías e inciden-
tes. En la gestión de las
r
edes y se
r
vicios de telecomunica-
ciones, estas he
rr
amientas son de g
r
an impo
r
tancia para el
monito
r
eo del desempeño de los dispositivos y los
s
ervi-
cios de la
r
ed, la detección de anomalías y la visualización
de las con
f
igu
r
aciones.
Las analíticas avanzadas p
r
oveen algo
r
itmos pa
r
a análi-
sis complejos de distintos tipos de datos, posibilitando
s
u
p
r
ocesamiento y la obtención de pat
r
ones de los mi
s
mo
s
pa
r
a la p
r
edicción y p
r
evención de eventos. Ejemplo
s
del
empleo de estas he
rr
amientas es la elabo
r
ación de mode-
los p
r
edictivos que
f
aciliten a las emp
r
esas que brindan
se
r
vicios de telecomunicaciones dete
r
mina
r
comporta-
mientos delictivos po
r
pa
r
te de los usua
r
ios, p
r
evenir fa-
llas y e
rr
o
r
es que puedan ocu
rr
i
r
, etc. También se pueden
utiliza
r
en el análisis de textos pa
r
a ext
r
ae
r
in
f
o
r
mación
valiosa o en el desa
rr
ollo de algo
r
itmos que ayuden a la
mine
r
ía de datos. Es deci
r
, se emplean en la obtención
de in
f
o
r
mación sob
r
e los se
r
vicios o aplicaciones que
s
e
desean suminist
r
a
r
.
T
I
PO DE ANÁL
I
S
I
S
U
T
I
L
I
ZAC
I
ÓN
A
n
a
lí
t
i
cas bás
i
casS
e
l
e
cc
i
ó
n
y d
i
v
i
s
i
ó
n
d
e
datos
,
r
e
po
r
t
e
s
,
v
i
s
u
a
li
zac
i
o
n
e
s
s
i
m
p
l
e
s y
m
o
n
i
to
r
e
o bás
i
co
A
n
a
lí
t
i
cas ava
n
zadasA
n
á
li
s
i
s co
m
p
l
e
j
os co
m
o
m
od
e
l
os p
r
e
d
i
ct
i
vos o t
é
c
n
i
cas
d
e
e
stab
l
e
c
i
m
i
e
n
to d
e
pat
r
o
n
e
s
A
n
a
lí
t
i
casA
n
á
li
s
i
s d
e
p
r
oc
e
sos d
e
op
e
r
ac
i
o
n
a
li
zadas
n
e
goc
i
os
A
n
a
lí
t
i
cas
m
o
n
e
t
i
zadasA
n
á
li
s
i
s
m
o
n
e
ta
r
i
os
T
a
b
l
a
I
.
C
a
s
o
s
de
u
s
o
de
l
a
s
h
e
rr
a
m
i
e
n
t
a
s
a
n
a
lí
t
i
c
a
s
.
F
u
e
n
t
e
:
[
4
]
.
En la
f
igura 4,
s
e mue
s
tran lo
s
principale
s
proce
s
o
s
que
deben realizar
s
e en el
N
ivel de
A
náli
s
i
s
de dato
s
de la ar-
quitectura propue
s
ta. E
s
to
s
s
on:
Proce
s
o de deducción de valor: determina qué informa-
ción e
s
relevante a lo
s
objetivo
s
que
s
e per
s
iguen.
Proce
s
o de
s
elección y divi
s
ión de dato
s
:
s
e
s
eleccionan
y
s
e dividen lo
s
alto
s
volúmene
s
de dato
s
en pequeño
s
grupo
s
para
s
u análi
s
i
s
.
Proce
s
o de determinación de patrone
s
: e
s
tablece inte-
rrelacione
s
entre lo
s
grupo
s
de dato
s
obtenido
s
.
Proce
s
o de vi
s
ualización: mue
s
tra en una interfaz grá
f
i-
ca el análi
s
i
s
que
s
e realiza de lo
s
dato
s
.
Proce
s
o de diagnó
s
tico y reporte: permite obtener in-
formación útil re
s
ultante del análi
s
i
s
de lo
s
dato
s
, aplica-
ble a lo
s
objetivo
s
que
s
e per
s
iguen.
Proce
s
o de monitoreo: permite conocer el de
s
empeño y
comportamiento del
s
i
s
tema.
En e
s
te punto
s
e debe preci
s
ar que lo
s
proce
s
o
s
de lo
s
ni-
vele
s
de Extracción, Tran
s
formación y Carga,
A
lmacena-
miento de dato
s
y
A
náli
s
i
s
de dato
s
de la arquitectura pro-
pue
s
ta
s
on
s
imilare
s
para diferente
s
aplicacione
s
de Big
D
ata en la ge
s
tión de la
s
telecomunicacione
s
. Sin embar-
go, lo
s
proce
s
o
s
del nivel de Ge
s
tión de
r
ede
s
y
s
e
r
vicio
s
de la
s
telecomunicacione
s
depende
r
án de lo
s
objetivo
s
e
s
pecí
f
ico
s
de ge
s
tión que
s
e tengan.
N
i
v
e
l
d
e
G
e
s
t
i
ó
n
d
e
r
e
d
e
s
y
s
e
r
v
i
c
i
os
d
e
t
e
l
e
c
o
m
un
i
c
a
c
i
o
ne
s
d
e
l
a
a
r
q
u
i
t
e
c
t
u
r
a
p
r
o
p
ue
s
t
a
La ge
s
tión de la
s
telecomunicacione
s
e
s
tá compue
s
ta
por cinco área
s
funcionale
s
de la ge
s
tión: con
f
igu
r
ación,
de
s
empeño o pre
s
tacione
s
, fallo
s
,
s
egu
r
idad y contabilidad.
A
lguno
s
ca
s
o
s
del empleo de Big Data en la
s
á
r
ea
s
funcionale
s
de la ge
s
tión de rede
s
s
e explican en e
s
ta
s
ección.
La obtención de información
s
ob
r
e la
s
r
ede
s
y
s
u
s
s
e
r-
vicio
s
s
e ha vi
s
to bene
f
iciada con el
s
u
r
gimiento de Big
D
ata, que ha incorporado u
n
amplio núme
r
o de he
rr
a
-
mienta
s
y oportunidade
s
para el t
r
atamiento de g
r
ande
s
cantidade
s
de dato
s
, e
s
tructurado
s
y no e
s
t
r
uctu
r
ado
s
. La
s
herramienta
s
analítica
s
de dato
s
ma
s
ivo
s
pueden
s
e
r
em
-
pleada
s
en el análi
s
i
s
de tran
s
accione
s
f
inancie
r
a
s
, en a
r-
chivo
s
de log
s
y en el trá
f
ico de la
s
r
ede
s
, lo que pe
r
mite
identi
f
icar anomalía
s
y activi
d
ade
s
s
o
s
pecho
s
a
s
y co
rr
ela
-
cionar coherentemente múltiple
s
f
uente
s
de dato
s
.
U
no de lo
s
u
s
o
s
de Big
D
ata e
s
en la ge
s
tión de la
s
e
-
guridad de la
s
rede
s
. En un ca
s
o de e
s
tudio publicado,
Zion
s
Bancorporation anunció el empleo de Hadoop
[
5
]
(una de la
s
principale
s
herramienta
s
de p
r
oce
s
amiento de
dato
s
empleada
s
en entornos Big Data
)
y de ot
r
a
s
he
rr
a
-
mienta
s
de análi
s
i
s
inteligente que pe
r
miten t
r
abaja
r
con
gran cantidad de dato
s
en meno
r
tiempo que con la
s
he
rr
a
-
mienta
s
de análi
s
i
s
de dato
s
t
r
adicionale
s
s
egún el e
s
tudio,
s
e empleó de 20 minuto
s
a 1 ho
r
a pa
r
a analiza
r
g
r
ande
s
volúmene
s
de dato
s
utilizando la
s
he
rr
amienta
s
t
r
adicio
-
nale
s
, mientra
s
que con
H
a
d
oop
s
e
r
ealizó en 1 minuto
aproximadamente.
A
demá
s
,
s
e aumentó la
s
egu
r
idad de
s
u
s
rede
s
gracia
s
al análi
s
i
s
e
f
ectivo de in
f
o
r
mación p
r
o
-
veniente de di
s
tinta
s
fuente
s
como
fi
r
ewall
s
, di
s
po
s
itivo
s
de rede
s
, trá
f
ico por la red, p
r
oce
s
o
s
de negocio y t
r
an
s
ac
-
cione
s
diaria
s
.
O
tro ejemplo de cómo Big
D
ata puede
s
e
r
empleado en la
ge
s
tión de la
s
eguridad de la
s
rede
s
e
s
el t
r
abajo
r
ealizado po
r
H
PLab
s
para identi
f
icar di
s
po
s
itivo
s
in
f
ectado
s
con malwa
r
e
(tipo de
s
oftwa
r
e malintencionado que daña lo
s
di
s
po
s
itivo
s)
en la
s
rede
s
empre
s
ariale
s
. Para ello
s
e analiza
r
on millone
s
de
dato
s
de
s
olicitude
s
del Protocolo de T
r
an
sf
e
r
encia de Hipe
r-
texto—
H
ype
r
text T
r
an
s
fe
r
P
r
otocol
(
HTTP
)
—, del Si
s
tema
de
N
ombre
s
de
D
ominio —
Do
main Name Sy
s
tem
(
DNS
)
—
y de lo
s
s
i
s
tema
s
de alerta de int
r
u
s
o
s
[
6
]
.
G
racia
s
a la evolución de Big Data,
s
e han log
r
ado e
s-
tablecer mejore
s
e
s
trategia
s
y método
s
en la detección
de
A
menaza
s
Per
s
i
s
tente
s
A
vanzada
s
—Advanced Pe
r-
s
i
s
tent Th
r
eat (
A
PT)— [7],
q
ue e
s
uno de lo
s
p
r
oblema
s
F
i
g
u
r
a
4
.
P
r
o
c
e
s
o
s
de
l
n
i
ve
l
de
A
n
á
li
s
i
s
de
d
a
t
o
s
de
l
a
a
r
q
u
i
t
e
c
t
u
r
a
p
r
o
p
u
e
st
a
.
F
u
e
n
t
e
:
E
l
a
b
o
r
a
c
i
ó
n
p
r
o
p
i
a
.
A
l
m
ac
e
n
a
m
i
e
n
to d
e
Datos
Sa
n
dbox
i
n
g
R
e
p
li
cac
i
ó
n
S
i
st
em
as d
i
st
r
i
b
u
i
dos
Ba
l
a
n
c
e
o d
e
ca
r
ga
d
e
f
ic
h
e
r
os
F
il
t
r
os d
e
datosEsca
l
ab
ili
dad
h
o
r
i
zo
n
ta
l
A
n
á
li
s
i
s d
e
Datos
D
e
t
e
r
m
i
n
ac
i
ó
n
d
e
V
i
s
u
a
li
zac
i
ó
n
pat
r
o
n
e
s
D
i
ag
n
óst
i
cos
S
e
l
e
cc
i
ó
n
y d
i
v
i
s
i
ó
n
M
o
n
i
to
r
e
o
R
e
po
r
t
e
sD
e
d
u
cc
i
ó
n
d
e
va
l
o
r
5
4
R
ev
i
st
a
T
é
c
n
i
c
a
de
l
a
E
m
p
r
e
s
a
de
T
e
l
e
c
o
m
un
i
c
a
c
i
o
n
e
s
de
C
u
b
a
S.
A
.
J
U
L
I
O / D
I
C
I
E
M
B
R
E
2016
V
O
L
.
13
55
T
É
C
N
I
C
A
T
É
C
N
I
C
A
má
s
se
r
ios que en
f
rentan las empresas y organizaciones
en cuanto a la seg
u
ridad de la información. Las APT, en
cont
r
aste a ot
r
os tipos de
m
alware como los troyanos y
lo
s
gusanos, son agresores de las redes que trabajan en
modo low
-
and
-
slow, es decir, low pues mantienen un pe
r-
f
il bajo en la
r
ed haciendo muy difícil su detección y slow
po
r
que están activos durante un largo periodo de tiempo.
Antes de Big Data, la detección de estas amenazas se
ba
s
aba en la experiencia humana, lo que constit
u
ía una
lab
or
intensiva, di
f
ícil de generalizar y no escala
b
le. Con
el empleo de Big Data, el análisis de grandes grupos de
dat
o
s ya no constit
u
ye un desafío, pues se ha logrado es
-
tablece
r
un método que utiliza algoritmos de monito
r
eo
para dete
r
mina
r
p
r
ácticamente todos los posibles ataques
en las
r
edes.
Big Data puede t
r
aer grandes ventajas en el desem
p
eño de
la
s
redes. Actualmente, se habla de redes más inteligentes,
donde se log
r
a la o
p
timización de rutas para la ent
r
ega de
miles de paquetes
d
e información, así como la selección
de los nodos o dispositivos de la red que poseen mayo
r
cantidad de
r
ecu
r
sos disponibles para que por ellos ci
r
cu
-
len los mayo
r
es
f
lujos de datos, aliviando así la ca
r
ga de
ot
r
os dispositivos
y
, de esta forma, eliminar o di
s
minui
r
la
s
colas de paquetes que puedan provocar pérdidas de da
-
to
s
y demo
r
as en las redes.
Dive
r
sos estudios se re
f
ieren a la aplicación de Big
D
ata en
la mejo
r
a de la calidad de experiencia de los usuarios. Pa
r
a
ello, se utilizan téc
n
icas de extracción y análisis
d
e datos
actualizados sob
r
e las opiniones de millones de usua
r
ios
de dive
r
sos se
r
vici
o
s, lo que permite que las empresas co
-
nozcan cómo sus servicios son aceptados y respon
d
e
r
a las
nue
v
as necesidade
s
de los clientes.
O
tra forma de mejo
r
a
r
la
Q
oE —Quality of Experience—, es optimizar la calidad
de
s
e
r
vicio —Quality of Service (
Q
o
S
)— que brindan las
r
edes y los se
r
vicios que se ofrecen, puesto que ambos
conceptos se encuentran estrechamente relaciona
d
os.
Adicionalmente, se han trazado diversos acercamientos a
la gestión de las
r
e
d
es y sus servicios en los nuevos ento
r-
no
s
Big Data, ent
r
e ellos la gestión de la red basada en el
valo
r
—Value
-
Based Network Manage
m
ent (
V
BNM
)
—.
La
V
BNM se sustenta en el análisis del comportamiento
de los clientes y del consumo de los recursos de la
r
ed po
r
parte de estos. También se basa en la extracción de in
f
o
r-
mación de los dispositivos la red, o sea, no solo conside
r
a
lo
s
datos que ci
r
culan por ella, sino que tiene e
n
cuenta
la in
f
o
r
mación b
r
indada por los elementos de la misma,
para log
r
a
r
disminuir el consumo de recursos y el tiempo
de
r
eta
r
do de la in
f
ormación, aumentar la e
f
iciencia de los
di
s
positivos, mejo
r
ar la con
f
iguración de estos, di
s
minui
r
la congestión de la red y reubicar los recursos disponibles
donde su utilizació
n
sea más productiva. [8]
I
BM —
I
nternational Business
M
achines—, una de la
s
emp
r
esas más destacadas en tecnología y consulto
r
ía, opi-
na que Big
D
ata está hecho pa
r
a la indust
r
ia de las teleco-
municaciones.
Gr
acias al desa
rr
ollo de las
r
edes y la pro-
li
f
e
r
ación de dispositivos inteligentes, los p
r
oveedore
s
de
se
r
vicios de telecomunicaciones tienen acceso a un gran
cúmulo de in
f
o
r
mación sob
r
e los compo
r
tamiento
s
y la
s
p
r
e
f
e
r
encias de sus clientes.
A
ctualmente, a nivel interna-
cional, muchas emp
r
esas que b
r
indan se
r
vicios de teleco-
municaciones se encuent
r
an en
fr
ascadas en el desarrollo
de alte
r
nativas pa
r
a emplea
r
Big
D
ata en su gestión [9],
una de las
r
azones po
r
la que se conside
r
a impo
r
tante la
investigación que en este a
r
tículo se p
r
esenta.
E
m
p
l
e
o
d
e
l
a
a
r
q
u
i
t
e
c
t
u
r
a
p
r
o
p
ue
s
t
a
d
e
B
i
g
D
a
t
a
en
l
a
g
e
s
t
i
ó
n
d
e
s
e
g
u
r
i
d
a
d
d
e
un
a
r
e
d
La gestión de
r
edes se basa en la plani
f
icación, in
s
tala-
ción, supe
r
visión y cont
r
ol de los elementos que forman
una
r
ed pa
r
a ga
r
antiza
r
un nivel de se
r
vicio de ac
u
erdo a
un costo. Su objetivo es mejo
r
a
r
la disponibilidad
,
la re-
lación calidad
-
costo y el
r
endimiento de las
r
edes y
s
ervi-
cios log
r
ando una mayo
r
p
r
oductividad en la o
r
ganización
y un aumento de la satis
f
acción de los usua
r
ios.
En esta sección se muest
r
a cómo la a
r
quitectu
r
a
d
e Big
D
ata p
r
opuesta puede se
r
empleada en un caso especí
f
i-
co dent
r
o de la gestión de
r
edes. En dicho caso se inte-
g
r
an pa
r
a la gestión de la segu
r
idad de la Red
-
Cujae y,
en pa
r
ticula
r
, en la detección de int
r
usiones, he
rr
amienta
s
t
r
adicionales empleadas en la segu
r
idad de una
r
e
d
y he-
rr
amientas empleadas en ento
r
nos Big
D
ata.
Se escogió la Red
-
Cujae pa
r
a la aplicación de la a
rq
uitec-
tu
r
a
r
e
f
e
r
encial de Big
D
ata que se p
r
opone, teniendo en
cuenta sus dimensiones, ca
r
acte
r
ísticas técnicas, volumen
de se
r
vicios y usua
r
ios. En esta
r
ed es necesa
r
io, como
en muchas ot
r
as, una mejo
r
integ
r
ación de los dat
os
para
optimiza
r
los p
r
ocesos de gestión y sus se
r
vicios.
N
o obstante, pa
r
a log
r
a
r
en la Red
-
Cujae una adecuada im-
plementación de un sistema de gestión de datos ma
s
ivo
s
como Big
D
ata, se
r
ía necesa
r
io
r
ealiza
r
modi
f
icacione
s
y
actualizaciones, tanto de ha
r
d
w
a
r
e como de so
f
t
w
are, te-
niendo en cuenta que esta tecnología demanda mucho
s
r
ecu
r
sos. En pa
r
ticula
r
, se
r
equie
r
e una g
r
an capacidad
de p
r
ocesamiento y almacenamiento en los se
r
vidore
s
,
dados los volúmenes de datos que se necesitan t
r
atar, lo
s
cuales están
r
elacionados con la
f
o
r
ma en que lo
s
u
s
ua-
r
ios pe
r
ciben los se
r
vicios, el desempeño de la
r
ed y de
los dispositivos de inte
r
conexión y la detección de falla
s
y amenazas.
Los p
r
incipales puntos de inte
r
és pa
r
a aplica
r
la a
r
quitec-
tu
r
a p
r
opuesta a la gestión de la segu
r
idad de la
r
ed
s
on:
D
e
f
inir la
s
principale
s
fuente
s
de dónde
s
erán extraído
s
lo
s
dato
s
.
D
eterminar la
s
herramienta
s
nece
s
aria
s
para la extrac-
ción, tran
s
formación y carga de lo
s
dato
s
, de
s
de la
s
fuen-
te
s
que lo
s
generan ha
s
ta lo
s
s
i
s
tema
s
de almacenamiento.
D
e
f
inir un
s
i
s
tema de detección de intru
s
ione
s
ba
s
ado en
herramienta
s
de ge
s
tión de
s
eguridad de la red y entorno
s
de ge
s
tión de dato
s
ma
s
ivo
s
para la correcta detección de
anomalía
s
en la red.
E
s
tablecer un
s
i
s
tema de almacenamiento para (archivar)
lo
s
dato
s
capturado
s
.
D
e
f
inir lo
s
proce
s
o
s
de análi
s
i
s
y la
s
herramienta
s
nece-
s
aria
s
para ejecutarlo
s
. E
s
to permite mejorar la ge
s
tión de
la
s
eguridad de la red.
E
s
importante de
s
tacar que el último nivel de la arquitec-
tura debe con
s
iderar
s
e dentro del objetivo e
s
pecí
f
ico en
el que
s
e de
s
ea emplear la arquitectura propue
s
ta. En e
s
te
ca
s
o
s
erá en la ge
s
tión de
s
eguridad de la Red-Cujae y e
s
-
pecí
f
icamente en la detección de intru
s
ione
s
. El e
s
quema
del ca
s
o que
s
e explica
s
e mue
s
tra en la
f
igura 5.
Para el e
s
tablecimiento del
s
i
s
tema de detección de
intru
s
ione
s
en la Red-Cujae
s
e empleará Sno
r
t [10] y
H
adoop. Sno
r
t e
s
un analizador de paquete
s
y detector
de intru
s
o
s
—Int
r
u
s
ion
D
etection Sy
s
te
m
(I
D
S)— que
ofrece capacidade
s
de almacenamiento tanto en archi-
vo
s
de texto como en ba
s
e
s
de dato
s
open
s
ou
r
ce. Im-
plementa un motor de detección de ataque
s
y monito-
reo de puerto
s
que regi
s
tra, alerta y re
s
ponde ante la
s
anomalía
s
previamente de
f
inida
s
. Po
s
ibilita, entre otra
s
funcione
s
, la ob
s
ervación del funcionamiento y el trá
f
i-
co de la red en tiempo real.
Por
s
u parte,
H
adoop e
s
una herramienta de código abierto
con un alto de
s
empeño en el proce
s
amiento de dato
s
ma-
s
ivo
s
, la cual fue
s
eleccionada para la extracción, tran
s
for-
mación y carga de lo
s
dato
s
que captura Sno
r
t. Cuenta con
di
s
tinto
s
componente
s
que
s
e encargan de la
s
funcione
s
ETLde dato
s
no e
s
tructurado
s
, que en mucha
s
herramien-
ta
s
no exi
s
ten, permitiendo la extracción ma
s
iva de dato
s
en cue
s
tione
s
de
s
egundo
s
.
La mayoría de lo
s
s
i
s
tema
s
de detección de intru
s
o
s
iden-
ti
f
ican rápidamente ataque
s
a partir de una
s
erie de regla
s
.
Lo
s
paquete
s
entrante
s
s
on analizado
s
y comparado
s
con
la
s
regla
s
de
f
inida
s
y
s
i no cumplen con la
s
regla
s
, en-
tonce
s
accione
s
e
s
peci
f
icada
s
s
e realizarán. E
s
obvio que
a mayor cantidad de regla
s
de
f
inida
s
, mayor número de
amenaza
s
s
e podrán identi
f
icar. La mayor de
s
ventaja de
lo
s
s
i
s
tema
s
de detección de intru
s
o
s
e
s
que no
s
on capa-
ce
s
de identi
f
icar ataque
s
de
s
conocido
s
, e
s
decir, evento
s
que no
s
e encuentran de
f
inido
s
en
s
u
s
regla
s
.
En el ca
s
o analizado, la principal
f
uente de la cual
s
e ex
-
traerán lo
s
dato
s
hacia
H
adoop
s
e
r
á de Sno
r
t. Dicha he
rr
a
-
mienta pre
s
enta vario
s
modo
s
de ejecución. Uno de e
s
to
s
modo
s
e
s
el Packet Logge
r
, en el cual Sno
r
tanaliza el t
r
á
f
i
-
co de la red, captura lo
s
paquete
s
de inte
r
é
s
y lo
s
almacena
temporalmente en una unida
d
de almacenamiento. Aquí
s
e
guardarán en el Si
s
tema
D
i
s
t
r
ibuido de A
r
chivo
s
de Ha
-
doop, —
H
adoop
D
i
s
t
r
ibuted File Sy
s
tem
(
HDFS
)
—.
Lo
s
principale
s
dato
s
de inte
r
é
s
pa
r
a la aplicación que
s
e
analiza
s
erán lo
s
paquete
s
que ci
r
culan de
s
de o hacia lo
s
di
s
tinto
s
nodo
s
que
s
e encuent
r
an di
s
t
r
ibuido
s
en la
r
ed.
E
s
to
s
dato
s
s
on generado
s
po
r
lo
s
di
s
po
s
itivo
s
de la
r
ed, lo
s
u
s
uario
s
interno
s
y externo
s
, la
s
aplicacione
s
, etc.
Exi
s
ten ataque
s
que
s
e caracte
r
izan po
r
el envío de un g
r
an
número de paquete
s
hacia un di
s
po
s
itivo como
s
on lo
s
ataque
s
del Protocolo de
M
en
s
aje
s
de Cont
r
ol de
I
nte
r
net
—Inte
r
net Cont
r
ol Me
ss
age P
r
otocol
(I
C
M
P
)
—, lo
s
ping
s
de la muerte, lo
s
ataque
s
smur
f, lo
s
ataque
s
del P
r
otoco
-
lo de
D
atagrama
s
de
Us
uario —U
s
e
r
Datag
r
am P
r
otocol
(
UD
P)—, entre otro
s
. En la detección de e
s
te tipo de ame
-
naza
s
s
e centra principalmente e
s
te ca
s
o de u
s
o.
H
adoop e
s
capaz, en la medida que va ext
r
ayendo lo
s
da
-
to
s
de Sno
r
t, de identi
f
icar y cla
s
i
f
ica
r
de
s
de y hacia donde
e
s
tán dirigido
s
lo
s
paquete
s
y dete
r
mina
r
la cantidad que
F
i
g
u
r
a
5
.
E
s
q
u
e
m
a
de
l
s
i
st
e
m
a
B
i
g
D
a
t
a
p
a
r
a
l
a
de
de
t
e
cc
i
ó
n
de
i
n
t
r
u
s
i
o
n
e
s
.
F
u
e
n
t
e
:
E
l
a
b
o
r
a
c
i
ó
n
p
r
o
p
i
a
.
D
e
t
e
cc
i
ó
n
d
e
I
n
t
r
u
s
i
o
n
e
s
A
n
á
li
s
i
s d
e
Datos
G
e
p
h
i
P
e
n
ta
h
o B
I
S
u
i
t
e
Datos
S
n
o
r
t (
M
odo
d
e
l
a
r
e
d
Pack
e
t Logg
e
r
)
e
xt
r
a
í
dos
Datos
e
xt
r
a
í
dos
5
6
R
ev
i
st
a
T
é
c
n
i
c
a
de
l
a
E
m
p
r
e
s
a
de
T
e
l
e
c
o
m
un
i
c
a
c
i
o
n
e
s
de
C
u
b
a
S.
A
.
J
U
L
I
O / D
I
C
I
E
M
B
R
E
2016
V
O
L
.
13
5
7
T
É
C
N
I
C
A
T
É
C
N
I
C
A
e
s
tos son, empleando para ello las banderas y los campos
del p
r
otocolo
IP
—Internet Protocol— de los
p
aquetes
como la di
r
ección
f
uente y destino y el número de pue
r
to.
El p
r
ocesamiento de los datos dentro de
H
adoop se mues
-
t
r
a en la
f
igu
r
a 6.
Además, Hadoop realiza procesos de mapeo y
r
educ
-
ció
n
pa
r
a elimina
r
los paquetes que presentan la misma
inf
or
mación, así como la entrega la información en un
f
ormato adecuado para su posterior análisis. Los datos
s
on enviados a Hive [5], componente de
H
a
d
oop, el
cual a pa
r
ti
r
de la
s
reglas implementadas en Snort, es
capaz de identi
f
icar cuando existe un ataque hacia un
nodo o dispositivo, marcando los paquetes identi
f
icados
pa
r
a
r
econoce
r
que son un ataque.
H
ive tendrá las
r
e
-
glas de
f
inidas en
S
nort implementadas en su lenguaje
de consulta HiveQL.
D
ada la facilidad del lenguaje de
prog
r
amación de
H
ive es posible elaborar nueva
s
r
eglas
que pueden se
r
añadidas a Snort para la detección de
anomalías.
Las p
r
incipales
r
azones que se tuvie
r
on en cuenta para e
s
-
coge
r
a Mongo
D
B como base de datos son:
A
lto nivel de integ
r
ación con
H
adoop en escena
r
i
os
Big
D
ata, pe
r
mitiendo el almacenamiento de g
r
an va
r
iedad de
datos.
Simple instalación
A
lto nivel de escalabilidad
Bajos costos de implementación
A
lta adopción a nivel inte
r
nacional
Las dos he
rr
amientas seleccionadas pa
r
a el análi
s
i
s
de
los datos almacenados en Mongo
D
B
f
ue
r
on: Pentaho BI
Suite
[
11
]
y
G
ephi
[
12
]
. Pentaho constituye un conjunto
de p
r
og
r
amas open source que incluyen los componente
s
p
r
incipales
r
eque
r
idos pa
r
a implementa
r
solucione
s
ba
s
a-
das en p
r
ocesos. Posee una
W
eb o
r
ganizada en p
r
oducto
s
o componentes de
r
epo
r
te, análisis, mine
r
ía de dato
s
y
dashboards, y es altamente utilizado pa
r
a el acces
o
, inte-
g
r
ación, visualización y explo
r
ación de todo tipo de dato
s
que puedan impacta
r
en los negocios. Pentaho
f
ue
s
elec-
cionada pa
r
a la aplicación de la a
r
quitectu
r
a p
r
opue
s
ta ya
que sopo
r
ta los p
r
incipales p
r
ocesos de análisis de dato
s
que se desean implementa
r
: mine
r
ía de datos y a
n
áli
s
i
s
p
r
edictivo de
f
allas y amenazas.
G
ephi se seleccionó p
r
incipalmente po
r
la alta capacidad
de visualización de
r
edes que p
r
ovee. Es una he
rr
amienta
open source, c
r
eada pa
r
a
f
acilita
r
que el usua
r
io ex
p
lore la
r
ed, la visualice y
r
ealice análisis en tiempo
r
eal.
A
demá
s
,
po
r
sus ca
r
acte
r
ísticas es altamente aplicable a la
g
e
s
tión
de los se
r
vicios de una
r
ed.
Para el almacenamiento de todos los datos de la
r
ed,
cumpliendo con la implementación de la arquitectu
r
a
p
r
opuesta en la Red-Cujae, se recomienda utiliza
r
Con el empleo de Pentaho se pueden desa
rr
olla
r
diagrama
s
como base de datos principal a Mongo
D
B, la cual esdonde se muest
r
en los
r
esultados del análisis del t
r
á
f
ico de la
no
r
elacional, o
r
ientada a documentos y ampliamente
r
ed, dete
r
minándose aquellos pa
r
ámet
r
os que más in
f
luyan
utilizada a nivel internacional. El objetivo es queen la optimización de la segu
r
idad de la
r
ed y la gestión de
de
s
pués de analizados los datos en
H
adoop, estos seanla misma. También pe
r
mite
r
ealiza
r
el análisis p
r
edictivo de
almacenados en un sistema que sea escalable y altamenteamenazas a pa
r
ti
r
de los datos que se encuent
r
an almacena-
di
s
ponible pa
r
a su uso posterior. Es importante
pr
ecisa
r
dos en Mongo
D
B y de los obtenidos en tiempo
r
eal.
necesa
r
ios pa
r
a la gestión de la Red
-
Cujae, no s
o
lo lo
s
r
eque
r
idos pa
r
a la gestión de segu
r
idad.
que en Mongo
D
B se almacena
r
án todos los datos que
s
ean
C
o
n
c
l
u
s
i
o
ne
s
La tecnología Big
D
ata tiene un alto nivel de aplicación
en el
s
ector de la
s
telecomunicacione
s
. Su arquitectura re-
ferencial para la ge
s
tión de la
s
telecomunicacione
s
que
s
e
propone e
s
de interé
s
para la ge
s
tión de rede
s
y
s
ervicio
s
de di
s
tinto
s
e
s
cenario
s
.
M
ediante e
s
te
s
i
s
tema de detección de int
r
u
s
ione
s
s
e pudo
aplicar la arquitectura referencial de Big Data pa
r
a la ge
s-
tión de la
s
Telecomunicacio
n
e
s
en un ca
s
o
r
eal que puede
demo
s
trar que la arquitectu
r
a p
r
opue
s
ta de Big Data e
s
aplicable a la ge
s
tión de rede
s
y que puede
s
e
r
implemen
-
tada con la
s
tecnología
s
exi
s
tente
s
de
s
o
f
twa
r
e lib
r
e y có
-
digo abierto.
R
e
f
e
r
en
c
i
a
s
b
i
b
li
o
g
r
á
f
i
c
a
s
[1]
Hurtwitz,
J
.: Big Data for Dummie
s
,
J
ohn Wiley &
S
on
s
. New
J
er
s
ey, 2013.
[2]
Liu, Z.: “A Domain
S
cienti
f
ic Data Cloud Ba
s
ed on Virtual Data
s
pace
s
”,
P
arallel and Di
s
tributed
Pr
ocessing
S
ympo
s
ium Work
s
hop
s
P
hD &
F
orum (I
P
D
PS
W) IEEE 26th International, pp. 2176-2182, 2012.
[3]
Ka
s
ibhotla, D.: Introduction to
M
a
ss
ively
P
arallel
P
roce
ss
ing (
MPP
) Databa
s
e, URL: https://dwa
r
ehouse.
wordpre
ss
.com/2012/12/28/ introduction -to-ma
ss
ively-parallel-proce
ss
ing-mpp-databa
s
e.
F
echa de consulta: 4
de febrero de 2015.
[4]
S
choenborn, B.: Big Data Analytic
s
Infra
s
tructure for Dummie
s
,
J
ohn Wiley &
S
on
s
, New
J
er
s
ey, 2014.
[5]
White, T.: Hadoop: The De
f
initive Guide, O´Reilly
M
edia,
S
eba
s
topol, 2011.
[6]
Big Data Analytic
s
for
S
ecurity Intelligence, Cloud
S
ecurity Alliance White
P
aper, 2013.
[7]
Giura,
P
. y W. Wang: U
s
ing Large
S
cale Di
s
tributed Computing to Unveil Advanced
P
er
s
i
s
tent Th
r
eats, A
S
E,
2012.
[8]
Aria
s
,
J
.: Value-Ba
s
ed Network
M
anagement for Telecom
s
, 2015.
[9]
F
ox, B.; R. Dam y R.
S
hockley: “Analytic
s
: el u
s
o de Big Data en el mundo real aplicado a la
s
Telecomunicacio
-
ne
s
”, IB
M
Global Bu
s
ine
ss
S
ervice
s
, Bu
s
ine
ss
Analytic
s
and Optimization, 2013.
[10]
P
rathibha,
P
.G. y E.D. Dilee
s
h: “De
s
ign of a Hybrid Intru
s
ion Detection
S
y
s
tem u
s
ing
S
nort and Hadoop”,
I
n
-
ternational
J
ournal of Computer Application
s
, Vol.73, No.10, 2013.
[11]
Goodman, N.:
P
entaho Data Integration, Bayon Technologie
s
White
P
aper, 2009.
F
i
g
u
r
a
6
.
P
r
o
c
e
s
a
m
i
e
n
t
o
de
l
o
s
d
a
t
o
s
e
n
H
a
d
oo
p
.
F
u
e
n
t
e
:
E
l
a
b
o
r
a
c
i
ó
n
p
r
o
p
i
a
.
HDFSH
i
v
e
d
e
datos
P
r
oc
e
so
Paq
u
e
t
e
s
M
apR
e
d
u
c
e
R
e
g
l
as pa
r
a d
e
t
e
r
m
i
n
a
r
i
n
t
r
u
sos
Datos a
S
n
o
r
t
a
l
m
ac
e
n
a
r
La p
r
incipal ventaja que presenta la integración de
H
a
-
doop y Snort es q
u
e las reglas se pueden establece
r
en
Snort p
r
evio y posterior al análisis de los datos.
G
ene
r
al
-
me
n
te, Snort analiza los paquetes para determina
r
posi
-
ble
s
amenazas, guiándose por las reglas que previamente
Con el empleo de
H
adoop esto puede mejorarse, ya que
r
ed
y,
en
pa
r
ticula
r
,
pa
r
a la
detección
de
int
r
usione
s
.
Pr
i
-
y elabo
r
a
r
nuevas
r
eglas a partir de las amenazas que sema que visualice la
r
ed y sus elementos, lo que a
y
uda a
encuent
r
an en los
d
atos analizados. Estas nueva
s
r
eglasdete
r
mina
r
las p
r
incipales zonas de
r
iesgo, los elemento
s
s
on inco
r
po
r
adas en
H
ive incrementándose la ca
p
acidadde la
r
ed más vulne
r
ables y dónde han ocu
rr
ido mayor
de detección de amenazas.cantidad de amenazas. Esto
f
acilita que se puedan llevar
a cabo las acciones necesa
r
ias pa
r
a optimiza
r
la detección
de int
r
usiones.
f
ueron establecidas. Esto puede generar un alto núme
r
o de
El empleo de estas he
rr
amientas de análisis
r
ep
r
e
s
enta
[12]
Amat, C.B.:
"
Análi
s
i
s
de rede
s
y vi
s
ualización con Gephi
"
, REDE
S
- Revi
s
ta Hi
s
pana para el análisis de
r
edes
f
al
s
as ala
r
mas ante la llegada de paquetes desco
n
ocidos.
g
r
andes ventajas pa
r
a la gestión de la segu
r
idad
d
e
una
s
ociale
s
, 2014.
como antes se dijo este es capaz de analizar los paquetesme
r
amente, mediante
G
ephi se puede
r
ealiza
r
un e
s
que-
(
Ar
t
í
c
u
l
o
r
e
c
i
b
i
d
o
e
n
n
o
v
i
e
m
b
r
e
de
2015
y
a
p
r
o
b
a
d
o
e
n
f
eb
r
e
r
o
de
2016
)