반응형

환경

Cent OS 7.4
grep 2.20
(위와 다른 환경에서는 동작하지 않을 수 있습니다.)

배경

기존에 외부에서 전달받은 파일이 인코딩 이슈로 인하여 한글과 한자가 깨져있었다.
이후에 인코딩 이슈가 해결되어, 파일에 한글과 한자가 정상적으로 포함되어있는지 확인이 필요하였다.
한글과 한자는 전체 파일 내용 중에 극히 일부분만 포함되어 있어 grep을 이용하여 확인을 하고 싶었따

시도

정규표현식을 이용하여 ".*[가-힣]+.*" 형태로 grep을 하려 했으나... grep 자체의 문제인지 UTF-8 을 지원하지 않는다는 오류메시지가 떳다.

해결

perl 정규표현식을 이용하는 옵션인 -P를 이용하여, 바이트 범위를 넣음으로써 해결하였다.

grep --color='auto' -P -n "\[^\\x00-\\x7F\]" file

한글과, 한자, 심지어 특수개행 (HTML 에서 nbsp)도 잡히더라

반응형

'IT 개발 > Linux' 카테고리의 다른 글

[Linux] 리눅스의 디버거, gdb의 명령어와 사용법  (1) 2021.01.05
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기