Структура скрипта
- Требуемые библиотеки для проведения соревнования и краткий пример кода:
import numpy as np
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_auc_score
1. Загружаем данные
train = pd.read_csv('train_data.csv')
train.head()
test = pd.read_csv('test_data.csv')
test.head()
2. Готовим фичи и тренируем модель
features = [train.lat,
train.lon]
df = np.array(features).T
train_X, test_X, train_y, test_y = train_test_split(df, train.burned.values)
lr = LogisticRegression()
lr.fit(train_X, train_y)
roc_auc_score(test_y.astype(int), lr.predict_proba(test_X)[:, 1])
3. Делаем предсказание на тесте и загружаем ответы в файл
test_features = [test.lat,
test.lon]
df_test = np.array(test_features).T
probas = lr.predict_proba(df_test)[:, 1]
df = pd.DataFrame(probas, columns=['Prob'])
df.to_csv('submit.csv', index_label='Id')