Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину.
Вам предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализируйте возможную прибыль и риски техникой Bootstrap.
Шаги для выбора локации:
В избранном регионе ищут месторождения, для каждого определяют значения признаков; Строят модель и оценивают объём запасов; Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины; Прибыль равна суммарной прибыли отобранных месторождений.
Данные геологоразведки трёх регионов находятся в файлах:
-
/datasets/geo_data_0.csv.
-
/datasets/geo_data_1.csv.
-
/datasets/geo_data_2.csv.
-
id — уникальный идентификатор скважины;
-
f0, f1, f2 — три признака точек (неважно, что они означают, но сами признаки значимы);
-
product — объём запасов в скважине (тыс. баррелей).
- pandas
- matplotlib.pyplot
- numpy
- scipy.stats
- phik
- seaborn
- random
- lightgbm