Jednym z najczęściej wykonywanych zadań przed przystąpieniem do właściwej analizy danych jest rekodowanie zmiennych. Oto dwa przykładowe sposoby zrekodowania zmiennej tekstowej.

Pierwszy pozwala na zamianę opisowych nazw "male", "female" na jednoliterowe, skonstruowane z pierwszej litery każdej nazwy (a więc M i F).

#przykład 1 - zamiana opisowych nazw "male", "female" na jednoliterowe M i F
df['Gender'] = df['Sex'].map( lambda x: x[0].upper() )

Drugi - przydatny wtedy, gdy korzystamy z narzędzi, które wymagają kodowania w postaci liczb (np. większość narzędzi scikit-learn), zamienia nazwy na kody liczbowe. Drugi przykład zadziała oczywiście także jako inny wariant przykładu #1 - rekodowania na krótsze nazwy.

#przykład 2a - zamiana nazw opisowych na kod liczbowe
df['Gender'] = df['Sex'].map( {'female': 0, 'male': 1} ).astype(int)

#przykład 2b - zamiana nazw opisowych na jednoliterowe
df['Gender'] = df['Sex'].map( {'female': 'F', 'male': 'M'} )

Previous Post Next Post