Categories Busineesses with Text analytics in Python

Technology ---> Category 1. AI ---> Category Artificial Intelligence 2. Artificial Intelligence ---> Category Artificial Intelligence 3. VR ---> Category Virtual Reality 4. Virtual reality ---> Category Virtual Reality 5. Mobile application ---> Category Application 6. Desktop softwares ---> Category Application

Here's one approach using sklearn. In past cases, I would use LabelBinarizer() but it won't work in a pipeline because it no-longer accepts X, y as inputs.

If you are a newbie, pipelines can be a bit confusing but essentially they just process the data in steps before passing to a classifier. Here, I am converting X into an ngram "matrix" (a table) of word and character tokens, and then passing that to a classifier.

import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.pipeline import Pipeline, FeatureUnion

X = np.array([['AI'],
       ['Artificial Intelligence'],
       ['VR'],
       ['Virtual Reality'],
       ['Mobile application'],
       ['Desktop softwares']])
y = np.array(['Artificial Intelligence', 'Artificial Intelligence',
       'Virtual Reality', 'Virtual Reality', 'Application', 'Application'])

pipeline = Pipeline(steps=[
    ('union', FeatureUnion([
        ('word_vec', CountVectorizer(binary=True, analyzer='word', ngram_range=(1,2))),
        ('char_vec', CountVectorizer(analyzer='char', ngram_range=(2,5)))
        ])),
    ('lreg', LogisticRegression())
    ])

pipeline.fit(X.ravel(), y)
print(pipeline.predict(['web application', 'web app', 'dog', 'super intelligence']))

Predicts:

['Application' 'Application' 'Virtual Reality' 'Artificial Intelligence']

Recommended topics

Hot tags