import pandas as pd
import numpy as np
data = pd.read_excel('../work/Dataset_pandas_assign.xlsx', skiprows=[1])
data
#question1
feminism=data.groupby('Пол', as_index=False)['Возраст, полных лет'].mean()
womanmoment = data.groupby('Пол', as_index=False)['Дата проишествия'].count()
feminism['Процент дтп'] = (womanmoment['Дата проишествия'] / data['Дата проишествия'].count()) * 100
feminism
#question2
data.groupby('Пол')['Стаж вождения'].mean() - data.groupby('Пол')['КБМ'].mean()
#question3
data.groupby(data['Год выпуска'].dt.year)['Год выпуска'].count().sort_values(ascending=False)[:10]
#question4
print(data['Страховая премия'].mean())
correlation = data[['Страховая премия', 'КБМ']].copy()
correlation.corr()
#question5
top5 = data[data['Город'].isin(['Атырау', 'Уральск', 'Актау', 'Актобе', 'Нур-Султан'])].groupby(['Город'])['Модель'].agg(pd.Series.mode)
top5
#question6
dark = data[data['Цвет'].isin(['черный', 'синий', 'серый', 'серый металлик', 'черный металлик', 'темно-синий металлик', 'темно-синий'])].Цвет.count()
light =data[data['Цвет'].isin(['серебристый металлик архивный', 'белый', 'серебристый', 'красный', 'зелёный', 'синий металлик', 'зеленый металлик', 'золотистый металлик', 'комбинированный', 'белый металлик', 'вишневый', 'бежевый ', 'голубой'])].Цвет.count()
print(max(dark,light))
print('dark:',dark)
print('light',light)
#question7
iamtired = data[(data['Город'].isin(['Шымкент','Алматы','Нур-Султан'])) & (data['Пол'] == 'Ж')].groupby(['Город'])['Модель'].agg(pd.Series.mode)
iamtired
dior = data.groupby('Город',as_index=False)['Дата проишествия'].count().sort_values('Дата проишествия', ascending=False)
cities = ['Абай',  'Акколь',  'Аксай',  'Аксу',  'Актау',  'Актобе',  'Алга',  'Алматы',  'Арал',  'Аркалык',  'Арыс',  'Нур-Султан',  'Атбасар',  'Атырау',  'Аягоз',  'Байконыр',  'Балхаш',  'Булаево',  'Державинск',  'Ерейментау',  'Есик',  'Есиль',  'Жанаозен',  'Жанатас',  'Жаркент',  'Жезказган',  'Жем',  'Жетысай',  'Житикара',  'Зайсан',  'Алтай',  'Казалинск',  'Кандыагаш',  'Капшагай',  'Караганда',  'Каражал',  'Каратау',  'Каркаралинск',  'Каскелен',  'Кентау',  'Кокшетау',  'Костанай',  'Косшы',  'Кулсары',  'Курчатов',  'Кызылорда',  'Ленгер',  'Лисаковск',  'Макинск',  'Мамлютка',  'Павлодар',  'Петропавловск',  'Приозёрск',  'Риддер',  'Рудный',  'Сарань',  'Сарканд',  'Сарыагаш',  'Сатпаев',  'Семей',  'Сергеевка',  'Серебрянск',  'Степногорск',  'Степняк',  'Тайынша',  'Талгар',  'Талдыкорган',  'Тараз',  'Текели',  'Темир',  'Темиртау',  'Тобыл',  'Туркестан',  'Уральск',  'Усть-Каменогорск',  'Ушарал',  'Уштобе',  'Форт-Шевченко',  'Хромтау',  'Шардара',  'Шалкар',  'Шар',  'Шахтинск',  'Шемонаиха',  'Шу',  'Шымкент', 'Щучинск',  'Экибастуз',  'Эмба']
dior.loc[(dior['Город'].isin(cities)), 'Местность' ] = 'Город'
dior.loc[(~dior['Город'].isin(cities)), 'Местность' ] = 'Сельская местность'
dior.head(10)
#question10 
data.groupby(['КБМ'])['Дата проишествия'].count()