Coming soon - Get a detailed view of why an account is flagged as spam!
view details

This post has been de-listed

It is no longer included in search results and normal feeds (front page, hot posts, subreddit posts, etc). It remains visible only via the author's post history.

2
Need help with machine learning project from book Python for DS
Post Body

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import LogisticRegression

df = pd.read_csv("/python/sentiment labelled sentences/amazon_cells_labelled.txt",
                 names=['review', 'sentiment', ], sep="/t", engine='python')

Im having trouble with this

reviews = df['review'].values
sentiment = df['sentiment'].values
reviews_train, review_test, sentiment_train, sentiment_test = train_test_split(reviews, sentiment, test_size=.2,
                                                                            random_state=500)

I understand that the train_test_spilts module is suppose to spilt my data set and test_size parameter is supposed to randomly assign 20% of my data to the test sets and other 80% to training set. So basically it is suppose to put all that info into the first 4 variable's correct?

and if so then I finish the rest of my code

vectorizer = CountVectorizer()

vectorizer.fit(reviews)

vectorizer.fit(reviews)

X_train = vectorizer.transform(reviews_train)

X_test = vectorizer.transform(review_test)

classifier = LogisticRegression()
classifier.fit(X_train, sentiment_train)

accuracy = classifier.score(X_test, sentiment_test)

print("Accuracy:", accuracy)

I run the code get this (ValueError: Input y contains NaN.) Error because

classifier.fit(X_train, sentiment_train)

The y value in the variable sentiment_train contains nothing?

Why is this when I thought the train_test_spilt was supposed to do that for me?

Then I checked the variable it indeed contained nan

[nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan]

Any help?

Author
Account Strength
50%
Account Age
4 years
Verified Email
No
Verified Flair
No
Total Karma
153
Link Karma
87
Comment Karma
66
Profile updated: 1 day ago
Posts updated: 6 months ago

Subreddit

Post Details

We try to extract some basic information from the post title. This is not always successful or accurate, please use your best judgement and compare these values to the post title and body for confirmation.
Posted
2 years ago