Using TimeSeriesSplit within cross_val_score

def fit_model1(data: pd.DataFrame): df = data scores_fit_model1 = [] for sizes in test_sizes: # Generate Test Design input_data = df.drop('next_count',axis=1) output_data = df[['next_count']] X_train, X_test, y_train, y_test = train_test_split(input_data, output_data, test_size=sizes, random_state=0, shuffle=False) #scaling scaler = MinMaxScaler() scaled_train = scaler.fit_transform(X_train) scaled_test = scaler.transform(X_test) #Build Model lr = LinearRegression() lr.fit(scaled_train, y_train.values.ravel()) predictions = lr.predict(scaled_test) #Cross Validation Definition time_split = TimeSeriesSplit(n_splits=10) #performance metrics r2 = cross_val_score(lr, scaled_train, y_train.values.ravel(), cv=time_split.split(scaled_train), scoring = 'r2', n_jobs =1).mean() scores_fit_model1.append(r2) return scores_fit_model1

The TimeSeriesSplit is simply an iterator that yields a growing window of sequential folds. Therefore, you can pass it as is to cv, or you can pass time_series_split(scaled_train), which amounts to the same thing: making splits in an array of the same size as your train data (which cross_val_score takes as the second positional parameter). It doesn't matter whether the TimeSeriesSplit gets the scaled or original data, as long as cross_val_score has the scaled data.

I made some minor simplifications in your code as well - scaling before the train_test_split, and making the output data a Series (so you don't need values.ravel):

def fit_model1(data: pd.DataFrame):
    df = data
    scores_fit_model1 = []
    for sizes in test_sizes:
        # Generate Test Design
        input_data = df.drop('next_count',axis=1)
        output_data = df['next_count']
        scaler = MinMaxScaler()
        scaled_input = scaler.fit_transform(input_data)
        X_train, X_test, y_train, y_test = train_test_split(scaled_input, output_data, test_size=sizes, random_state=0, shuffle=False)

        #Build Model
        lr = LinearRegression()
        lr.fit(X_train, y_train)
        predictions = lr.predict(X_test)

        #Cross Validation Definition
        time_split = TimeSeriesSplit(n_splits=10)

        #performance metrics
        r2 = cross_val_score(lr, X_train, y_train, cv=time_split, scoring = 'r2', n_jobs =1).mean() 
        scores_fit_model1.append(r2)

    return scores_fit_model1

Recommended topics

Hot tags