In [1]:
import sklearn 
# Set de datos que viene con las características: Un cuerpo de texto y con etiquetas 
# la categoria a la cual pertenece. La categoria es de que tema se esta hablando.
from sklearn.datasets import fetch_20newsgroups
# Separación de datos de entrenamiento y test
from sklearn.model_selection import train_test_split
# Algoritmo que va permitir vectorizar todo el texto que tenemos.    
from sklearn.feature_extraction.text import CountVectorizer
# Algoritmo de regresión logísticas para la clasificaci´
from sklearn.linear_model import LogisticRegression

In [2]:
# Set de datos
noticias = fetch_20newsgroups(subset="train")

In [21]:
# Podemos ver un ejemplo de datos que se va a procesar. Que se verá que es un corre electrónico
print("Cuerpo del mensaje: ", noticias.data[0])
# Si hacemo los mismo para ver a que clasificación pertenec. Aparecerá el valor 7, que es la clasificación a la que pertenece.
print("Clasificación: ", noticias.target[0])

Cuerpo del mensaje:  From: lerxst@wam.umd.edu (where's my thing)
Subject: WHAT car is this!?
Nntp-Posting-Host: rac3.wam.umd.edu
Organization: University of Maryland, College Park
Lines: 15

 I was wondering if anyone out there could enlighten me on this car I saw
the other day. It was a 2-door sports car, looked to be from the late 60s/
early 70s. It was called a Bricklin. The doors were really small. In addition,
the front bumper was separate from the rest of the body. This is 
all I know. If anyone can tellme a model name, engine specs, years
of production, where this car is made, history, or whatever info you
have on this funky looking car, please e-mail.

Thanks,
- IL
   ---- brought to you by your neighborhood Lerxst ----





Clasificación:  7


In [22]:
# Cuantos bloques de texto hay en el modelo de datos
print("Número de bloques de texto que hay: ", len(noticias.data))

Número de bloques de texto que hay:  11314


In [23]:
# Nombre de las clasificaciones
print("Nombres de las clasificaciones:", noticias.target_names)

Nombres de las clasificaciones: ['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x', 'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.space', 'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast', 'talk.politics.misc', 'talk.religion.misc']


In [9]:
# Variable para la vectorización
vector = CountVectorizer()

In [11]:
# Se le pasan los datos que tenemos en la variable vector.   
vector.fit(noticias.data)

CountVectorizer()

In [8]:
# Se visualizan los tokens generados de los datos pasados.print
# Un token = una palabra única en todo el set de datos.
print("Tokens generados: ", vector.vocabulary_)

30922': 3841, '144427': 4361, '17399': 5624, 'disqualification': 47865, 'leopard': 75338, 'coe861': 40841, '6047': 16511, '93743': 21852, '2pts': 11057, '1pt': 7361, '4pts': 14619, 'espo': 52534, 'clamor': 40191, 'uncorrupted': 118527, 'locutions': 76585, 'stigmata': 110692, 'uucico': 119974, 'waller': 123125, 'rschulz': 103283, 'shad': 106494, '86c': 20572, '16bb4c522': 5386, '14422': 4351, '1qh4m5inn2pu': 7445, 'burrow': 35742, 'pests': 93237, 'deet': 45837, 'ankles': 28314, 'waistband': 123068, 'chig': 39359, 'cortisone': 42789, 'creme': 43359, 'benzocaine': 32815, 'studeman': 111175, 'khouzam': 72553, 'protman': 96524, 'workgrp': 125034, '4416': 13693, 'copie': 42559, 'fai': 54195, 'vocation': 121979, '_deliverance_': 23691, 'offerred': 89401, 'rsd21': 103285, 'statutorily': 110412, 'conevnient': 41816, 'rosary': 102953, '_massively_': 24058, 'canonically': 37660, 'confrontational': 41903, '_longer_': 24020, 'overdone': 90981, 'babysitting': 31396, 'untruthful': 119348, 'zellner': 

In [12]:
# Se crea una variable con la bolsa de palabras. Esta bolsa es el vector donde se cuenta el número de repeticiones que tienen cada una de las palabras
bolsa = vector.transform(noticias.data)

In [24]:
# Resultado de la matriz.
# Devuelve un valor de 11314, 130105, 
# 11314 es el número de datos, o filas, que hay en el set de datos. 
# Y por cada fila tiene 130107 elementos, que es el número de palabras
# distintas que hay en el modelo.
print("Filas de datos x columnas: ", bolsa.shape)

Filas de datos x columnas:  (11314, 130107)


In [14]:
# Ahora se crea la variable que contiene las clasificaciones
bolsay = noticias.target

In [15]:
# Se separán los datos para entrenamiento y test.
X_ent, X_test, y_ent, y_test = train_test_split(bolsa, bolsay)

In [16]:
# Algoritmo de regresion
lr = LogisticRegression()

In [25]:
# Se le pasan los datos para el entrenamiento
lr.fit(X_ent, y_ent)

LogisticRegression()

In [26]:
# El resultado del entramiento
print("Resultado del entrenamiento:", lr.score(X_test, y_test))

Resultado del entrenamiento: 0.8727465535524921
