
str.normalize() 함수는 유니코드 문자열을 정규화하는 데 사용됩니다. 정규화는 한글의 모음과 자음이 하나의 코드 포인트로 표현되는 것을 의미합니다.
form 값은 정규화의 형식을 지정하는데, 다음 세 가지 형식을 지원합니다.
- 'NFC' (Normalization Form C): 가장 일반적으로 사용되는 형식입니다. 이 형식은 문자열을 읽기 쉽게 만듭니다.
- 'NFD' (Normalization Form D): 이 형식은 문자열을 분해하여 모음과 자음으로 나누어 표현합니다.
- 'NFKC' (Normalization Form KC): 이 형식은 'NFC'와 비슷하지만, 유니코드의 대체 문자를 사용합니다.
- 'NFKD' (Normalization Form KD): 이 형식은 'NFD'와 비슷하지만, 유니코드의 대체 문자를 사용합니다.
예를 들어, 'café'라는 문자열을 normalize하는 방법은 다음과 같습니다.
- str.normalize('NFC', 'café') : 'café'를 'café'로 normalize합니다.
- str.normalize('NFD', 'café') : 'café'를 'c' + 'a' + 'e' + 'f' + '\u0301'로 normalize합니다.
따라서, str.normalize('NFC', 'café')과 str.normalize('NFD', 'café')의 차이점은 'café'를 normalize한 결과가 다르다는 것입니다. 'NFC'는 'café'를 하나의 코드 포인트로 표현하지만, 'NFD'는 모음과 자음으로 나누어 표현합니다.
2025-06-26 13:36