XML 과 한국어 인코딩

Tags:

http://intertwingly.net/slides/2005/xmlconf/

이 슬라이드는 그냥 화면 아무데나 클릭하면 화면이 넘어갑니다.

trax님의 글을 보면

<?xml version="1.0" encoding="euc-kr"?>

이 잘못된 것처럼 설명되어있지만 제가 XML 스펙을 읽어본 바로는 잘못되었다는 점을 찾지 못하겠습니다. 물론 feedvalidator.org 에서는 이처럼 encoding=”foo”가 들어있을 때, foo를 쓰지 말라고 경고합니다. 이에 대해서 feedvalidator의 mailing list archive도 뒤져보았는데, 결론은 utf-8이 아닌 다른 인코딩의 경우 제대로 해석하지 못할 가능성이 있으므로라고 생각되는군요. 심지어 스펙에서 뭐라고 하든 utf-16도 쓰지 말고 호환성을 생각한다면 utf-8만 써라라는 식으로 말이죠.

링크한 글을 보아도

  • XMLDeclEncoding was routinely ignored by most of the initial RSS parsers and even the initial UserLand RSS validator.
  • “Aggregators” did the equivalent of strcat from various sources and left the results for the browser.
  • The current beta OPML validator similarly ignores the encoding declaration.

라고 설명합니다. 결국 euc-kr 쓰는게 호환성을 떨어뜨려 삽질을 늘려줄 가능성은 높겠지만, 기술적인 측면에서만 말할 때, 잘못된 건 아니라는 생각이 드는군요.

Comments

4 responses to “XML 과 한국어 인코딩”

  1. nmind Avatar

    저는 웹디자이너이지만 회사에서 작업하면서 엔코딩을 뭘로 할지 많이 고민하게 되더라구요.일본에서 일하고 있어서 기본적으로는 shift_jis를 사용합니다만…프로그래머가 작업을 하면 폼이 들어간 페이지는 EUC-JP로 바꾸고…사이트에 블로그를(거의 대부분 무버블타입이지만) 설치하면 UTF-8을 사용해서 한 사이트에 엔코딩 종류가 3종류나 쓰이는 경우도 있습니다.역시 UTF-8로 통일하는게 제일 좋은 방법일듯 한데 프로그래밍 할 경우 UTF-8이 불편한 경우가 있나요?

  2. MKSeo Avatar
    MKSeo

    코멘트 감사합니다. 제 생각엔 궁극으로는 UTF-8을 쓰는게 맞다고 생각합니다. 정말로 ‘기술적인 측면에서만 말할때’ euc-kr이라고 써도 틀리지 않다는 말씀이고요..

    프로그래밍 할 경우는 뭔가 인코딩 되어있다는 사실 자체가 그 자체로 저주입니다;;; 전 그냥 미국사람이었으면 머리도 안아프고 행복했을텐데라는 생각을 수십번도 더해본 듯 해요..

    하지만 euc-kr로 돌아가는 곳이 있다면 – 그리고 그런 곳들을 저도 많이 찍어낸 듯 합니다;; – 그건 예전에 만들땐 분위기가 그랬어서 지금도 그렇게 만드는 것일 겁니다. 또 편집기나 폰트가 utf-8을 제대로 지원하지 않는 경우도 있고요. 사실 여기 링크되있는 곳 중에 rubyist.or.kr 이라는 루비 메타블로그가 있는데 거기는 vim 으로 편집하다가 자꾸 한글이 깨져서 영어로 적어버린 것들도 있습니다. 사실 영어가 쓰고 싶어서가 아니었습니다;;;

  3. MKSeo Avatar
    MKSeo

    아.. ‘기술적인 측면’을 ‘이론적인 측면’이라고 수정해야할 듯 하네요. 사실 euc-kr 쓰면 feedvalidator 뿐만 아니라, 여기저기서 외국에서 만든 툴은 제대로 뭐 하나 연동 되는게 없습니다.

  4. nmind Avatar

    좋은 답변 감사합니다 :-)

Leave a Reply

Your email address will not be published. Required fields are marked *