Jednym z najczęściej wykonywanych zadań przed przystąpieniem do właściwej analizy danych jest rekodowanie zmiennych. Oto dwa przykładowe sposoby zrekodowania zmiennej tekstowej.
Pierwszy pozwala na zamianę opisowych nazw "male", "female" na jednoliterowe, skonstruowane z pierwszej litery każdej nazwy (a więc M i F).
#przykład 1 - zamiana opisowych nazw "male", "female" na jednoliterowe M i F
df['Gender'] = df['Sex'].map( lambda x: x[0].upper() )
Drugi - przydatny wtedy, gdy korzystamy z narzędzi, które wymagają kodowania w postaci liczb (np. większość narzędzi scikit-learn), zamienia nazwy na kody liczbowe. Drugi przykład zadziała oczywiście także jako inny wariant przykładu #1 - rekodowania na krótsze nazwy.
#przykład 2a - zamiana nazw opisowych na kod liczbowe
df['Gender'] = df['Sex'].map( {'female': 0, 'male': 1} ).astype(int)
#przykład 2b - zamiana nazw opisowych na jednoliterowe
df['Gender'] = df['Sex'].map( {'female': 'F', 'male': 'M'} )