import pandas as pd
import numpy as np
data = pd.read_excel('../work/Dataset_pandas_assign.xlsx', skiprows=[1])
data
#question1
feminism=data.groupby('Пол', as_index=False)['Возраст, полных лет'].mean()
womanmoment = data.groupby('Пол', as_index=False)['Дата проишествия'].count()
feminism['Процент дтп'] = (womanmoment['Дата проишествия'] / data['Дата проишествия'].count()) * 100
feminism
#question2
data.groupby('Пол')['Стаж вождения'].mean() - data.groupby('Пол')['КБМ'].mean()
#question3
data.groupby(data['Год выпуска'].dt.year)['Год выпуска'].count().sort_values(ascending=False)[:10]
#question4
print(data['Страховая премия'].mean())
correlation = data[['Страховая премия', 'КБМ']].copy()
correlation.corr()
#question5
top5 = data[data['Город'].isin(['Атырау', 'Уральск', 'Актау', 'Актобе', 'Нур-Султан'])].groupby(['Город'])['Модель'].agg(pd.Series.mode)
top5
#question6
dark = data[data['Цвет'].isin(['черный', 'синий', 'серый', 'серый металлик', 'черный металлик', 'темно-синий металлик', 'темно-синий'])].Цвет.count()
light =data[data['Цвет'].isin(['серебристый металлик архивный', 'белый', 'серебристый', 'красный', 'зелёный', 'синий металлик', 'зеленый металлик', 'золотистый металлик', 'комбинированный', 'белый металлик', 'вишневый', 'бежевый ', 'голубой'])].Цвет.count()
print(max(dark,light))
print('dark:',dark)
print('light',light)
#question7
iamtired = data[(data['Город'].isin(['Шымкент','Алматы','Нур-Султан'])) & (data['Пол'] == 'Ж')].groupby(['Город'])['Модель'].agg(pd.Series.mode)
iamtired
dior = data.groupby('Город',as_index=False)['Дата проишествия'].count().sort_values('Дата проишествия', ascending=False)
cities = ['Абай', 'Акколь', 'Аксай', 'Аксу', 'Актау', 'Актобе', 'Алга', 'Алматы', 'Арал', 'Аркалык', 'Арыс', 'Нур-Султан', 'Атбасар', 'Атырау', 'Аягоз', 'Байконыр', 'Балхаш', 'Булаево', 'Державинск', 'Ерейментау', 'Есик', 'Есиль', 'Жанаозен', 'Жанатас', 'Жаркент', 'Жезказган', 'Жем', 'Жетысай', 'Житикара', 'Зайсан', 'Алтай', 'Казалинск', 'Кандыагаш', 'Капшагай', 'Караганда', 'Каражал', 'Каратау', 'Каркаралинск', 'Каскелен', 'Кентау', 'Кокшетау', 'Костанай', 'Косшы', 'Кулсары', 'Курчатов', 'Кызылорда', 'Ленгер', 'Лисаковск', 'Макинск', 'Мамлютка', 'Павлодар', 'Петропавловск', 'Приозёрск', 'Риддер', 'Рудный', 'Сарань', 'Сарканд', 'Сарыагаш', 'Сатпаев', 'Семей', 'Сергеевка', 'Серебрянск', 'Степногорск', 'Степняк', 'Тайынша', 'Талгар', 'Талдыкорган', 'Тараз', 'Текели', 'Темир', 'Темиртау', 'Тобыл', 'Туркестан', 'Уральск', 'Усть-Каменогорск', 'Ушарал', 'Уштобе', 'Форт-Шевченко', 'Хромтау', 'Шардара', 'Шалкар', 'Шар', 'Шахтинск', 'Шемонаиха', 'Шу', 'Шымкент', 'Щучинск', 'Экибастуз', 'Эмба']
dior.loc[(dior['Город'].isin(cities)), 'Местность' ] = 'Город'
dior.loc[(~dior['Город'].isin(cities)), 'Местность' ] = 'Сельская местность'
dior.head(10)
#question10
data.groupby(['КБМ'])['Дата проишествия'].count()