# Start writing code here...
# Construction 1
from spacy.tokenizer import Tokenizer
from spacy.lang.es import Spanish
nlp = Spanish()
# Create a blank Tokenizer with just the Spanish vocab
tokenizer = Tokenizer(nlp.vocab)
import os
path = 'txt/'
data = []
clases = []
#lectura de spam data
for file in os.listdir(path):
with open(path+file, encoding='latin-1') as f:
data.append(f.read())
clases.append('UTH')
len(data)
data[]
tokens = tokenizer(data[0])
len(tokens)
for token in tokens:
print(token)
Blake
es
hijo
de
una
familia
de
empresarios
multimillonarios.
Tiene
un
hermano
mayor
que
practicamente
vive
en
el
extrajero.
Sin
embargo,
todo
esto
no
le
importa
mucho
a
Blake.
La
empresa
de
sus
padres
proporcionan
armamento
militar
de
vanguardia
al
pais.
Los
beneficios
sin
lugar
a
dudas
trajeron
grandes
lujos
a
la
familia.
Sin
embargo,
tambien
los
separo
de
forma
lenta,
pero
concisa.
Willian
Doyle.
Presidente
del
conglomerado
de
empresas
llamada
Doyle
Corporation.
Son
un
conjunto
de
empresas
armamentisticas
de
EE.UU.
y
en
el
mundo
en
general.
Sus
productos
van
desde
aviones
de
guerra
tripulados
y
no
tripulados,
sistemas
satelitales,
misiles
y
sistemas
de
defensa,
inteligencia
y
seguridad.
Hasta
verse
involucrados
en
la
tecnologia
aeroespacial.
Los
principales
compradores
de
Doyle
Corporation
son
los
EE.UU.
Su
papel
como
presidente
es
buscar
y
cerrar
tratos
con
los
mejores
inversores
y
compradores.
Se
mantiene
viajando
por
todo
el
mundo
la
mayor
parte
del
año.
Siempre
acompañado
de
un
buen
libro
y
una
taza
de
cafe,
conoce
a
personajes
tan
importantes
como
a
presidentes
de
varios
paises
con
quienes
ha
cerrado
tratos.
Iris
(Miller)
Doyle.
Vice
Presidenta
de
Doyle
Corporation,
esposa
de
William,
su
trabajo
se
basa
principalmente
en
la
gestion
interna
de
la
organización.
Lider
de
lideres,
se
encarga
de
formar
y
delegar
trabajo
por
toda
la
organización.
Ella
no
es
creyente
del
seguimiento
de
actividades
proactivo:
si
tienes
un
equipo
capacitados
y
con
valores
firmes,
no
necesitas
estar
detras
de
ellos
todo
el
tiempo;
es
su
forma
de
pensar.
Muchas
veces
Iris
es
quien
redigire
el
rumbo
de
la
organización,
el
plan
estrategico
en
general
esta
a
cargo
de
ella,
y
muchas
veces
llega
con
un
nueva
idea
o
propuesta
para
William.
Issac
Doyle.
Hermano
mayor
de
la
familia.
Tiene
8
años
más
que
Blake.
Fue
criado
como
el
heredero
de
la
compañia,
se
le
dio
la
mejor
educación
y
se
le
inculcó
los
valores
de
los
empresarios.
A
corta
edad
ya
conocia
los
aspecto
fundamentales
de
los
negocios
y
la
cadena
de
valor
de
una
empresa.
Sus
años
de
universidad
se
la
paso
viajando
por
todo
el
mundo,
haciendo
contactos
y
perfeccionando
su
conocimiento.
A
sus
22
años
ya
ha
obtenido
su
titulo
universitario
en
Administración
de
Empresas
y
ahora
se
esta
especializando
en
el
extrajero
en
tecnologÃas
de
vanguardia
de
armamento
militar.
De
personalidad
tranquila
y
directa,
es
capaz
de
entablar
conversación
incluso
con
los
personajes
más
problematicos.
Antes
de
tomar
una
decisión
pesa
en
su
mente
los
pros
y
contras,
de
tal
manera
que
pueda
tomar
la
mejor
decisión
en
base
a
la
información
que
tiene
en
ese
momento.
Su
relación
con
sus
padres
es
meritocrática;
mientras,
sea
capaz
de
mostrar
resultados
tangibles
tiene
la
libertad
de
ir
y
hacer
lo
que
quiera.
Por
otra
parte,
espera
que
su
hermano
menor
pueda
hacer
lo
que
quiera:
con
sus
padres
se
puede
decir
que
tuvo
un
solo
camino
desde
pequeño,
el
tenÃa
que
cargar
con
las
expectativas
de
sus
padres;
no
quieres
que
ese
sea
el
caso
de
su
hermano
menor,
le
mostró
las
posibilidades
que
tenÃa,
le
mostro
su
mundo
y
el
de
sus
padres,
además,
de
muchos
otros.
Esperando
que
Blake
sea
capaz
de
tomar
su
propio
camino.
Blake
Doyle
El
segundo
y
menor
de
los
hijos.
Ignorado
por
sus
padres,
alejado
de
su
hermano,
él
basicamente
se
crió
con
los
criados
de
la
mansión
que
le
cuidaban
cuando
sus
padres
se
encontraban
ocupados
con
la
empresa.
Al
igual
que
su
hermano
mayor,
se
le
dio
la
misma
educación,
esperando
que
sea
tan
bueno
como
su
hermano.
Sin
figuras
paternas
reales,
Blake
se
crio
alejado
emocionalmente
del
resto
de
personas.
Siempre
vivio
bajo
la
sombra
de
su
hermano,
se
esperaba
que
fuera
tan
bueno
como
lo
es
él.
Expectativas
que
no
pudo
cumplir,
mejor
dicho,
que
no
quizo
cumplir.
Su
hermano,
no
solo
era
increible
en
lo
academico
y
social;
ademas,
era
un
alma
libre
como
el
viento.
Cada
vez
que
venia
de
sus
viajes
lo
llevaba
a
un
lugar
o
experiencia
nueva.
Blake,
odiaba
estas
incursiones
ya
que
odiaba
ser
comparado
con
su
hermano.
Cuando
Blake
tenia
13
años
Issac
lo
llevo
a
un
campo
de
tiro
donde
probaban
nuevas
armas
fabricadas
por
la
empresa
de
su
familia.
Conocio
de
primera
mano
en
que
es
lo
que
trabajan
tanto
sus
padres.
La
tecnologia
utilizada
iba
mas
alla
de
lo
que
veia
en
el
cine
o
television.
Le
dejaron
tocar
una
de
las
armas,
e
incluso
dispararla,
los
elogios
vacios
y
la
sensacion
que
dejaba
el
retroceso
en
sus
manos
le
dejaron
claro.
Esto
es
lo
que
queria
hacer
de
ahora
en
adelante.
Regreso
mas
de
una
vez
incluso
despues
de
que
su
hermano
se
fuera
de
nuevo
al
extranjero.
Como
un
lobo
solitario,
llegaba,
registraba,
preparaba
y
empezaba
a
disparar.
El
tiro
deportivo
es
un
deporte
en
el
que
el
practicante
debe
disparar
un
arma
de
fuego
o
de
aire
comprimido
con
precisión
al
blanco
de
tiro.
Su
recien
adquirida
aficion
lo
hizo
interesarse
en
las
armas.
Los
campos
de
tiros
eran
compartidos,
pero
para
Blake
esta
era
una
actividad
solitaria
mas
que
individual.
Aprendio
el
uso
de
armas
cortas
y
largas,
pero
sin
dudas
le
encantaba
la
sensacion
de
tener
una
pistola
en
su
mano.
Su
reto
favorito
es
disparar
blancos
moviles
en
un
tiempo
limite.
-------
[No
puede
ser
antes
de
los
hechos
de
UTH]
Pero,
hubo
algo
que
le
llamo
la
atencion
incluso
mas.
Paintball.
Un
juego
de
estrategia
complejo
en
el
que
los
participantes
usan
pistolas
de
paintball,
para
disparar
bolas
de
pintura
contra
los
integrantes
del
otro
equipo.
No
era
mas
que
un
espacio
recreativo,
pero
al
verlos
jugar
Blake
no
pudo
evitar
querer
probarlo
él
mismo.
Desde
ese
dÃa
regresa
asiduamente
a
jugar
en
un
equipo
de
4
personas,
incluido
él,
formado
por
hijos
de
los
trabajadores
de
la
empresa
de
sus
padres.
tokens[0].text
span = tokens[1:3]
span
span.text
[t.text for t in tokens]
apples = nlp("I like apples")
oranges = nlp("I like oranges")
apples_oranges = apples.similarity(oranges)
oranges_apples = oranges.similarity(apples)
print(apples_oranges)
print(oranges_apples)
print(apples_oranges == oranges_apples)
0.0
0.0
True
/shared-libs/python3.7/py-core/lib/python3.7/site-packages/ipykernel_launcher.py:3: UserWarning: [W007] The model you're using has no word vectors loaded, so the result of the Doc.similarity method will be based on the tagger, parser and NER, which may not give useful similarity judgements. This may happen if you're using one of the small models, e.g. `en_core_web_sm`, which don't ship with word vectors and only use context-sensitive tensors. You can always add your own word vectors, or use one of the larger models instead if available.
This is separate from the ipykernel package so we can avoid doing imports until
/shared-libs/python3.7/py-core/lib/python3.7/site-packages/ipykernel_launcher.py:3: UserWarning: [W008] Evaluating Doc.similarity based on empty vectors.
This is separate from the ipykernel package so we can avoid doing imports until
/shared-libs/python3.7/py-core/lib/python3.7/site-packages/ipykernel_launcher.py:4: UserWarning: [W007] The model you're using has no word vectors loaded, so the result of the Doc.similarity method will be based on the tagger, parser and NER, which may not give useful similarity judgements. This may happen if you're using one of the small models, e.g. `en_core_web_sm`, which don't ship with word vectors and only use context-sensitive tensors. You can always add your own word vectors, or use one of the larger models instead if available.
after removing the cwd from sys.path.
/shared-libs/python3.7/py-core/lib/python3.7/site-packages/ipykernel_launcher.py:4: UserWarning: [W008] Evaluating Doc.similarity based on empty vectors.
after removing the cwd from sys.path.