한글

Tags:

궁금하오.. 사실 뉴스그룹에 물어봐야겠지만, 일단은 일하느라 바쁘니 여기다 저장하는 셈 치지만, 누군가 답해준다면 정말 감사할 것이오..

1. 파일을 랜덤 액세스 하면서 Reader로 읽을 순 없는건지?? 그러니까 바이너리가 아닌 캐릭터의 스트림으로 보면서 파일에 대한 랜덤 IO는 불가능한건지. 어째서 자바의 RandomAccessFile은 Reader 인터페이스가 아닌건지.

2. 어째서 URL을 UTF-8로 보냄이 IE에서 Default가 된건지? MS가 급진적이기 때문인건지? 아니면 나머지 애들이 게으른건지.

3. URL은 RFC 1738에 따르면

No corresponding graphic US-ASCII:

URLs are written only with the graphic printable characters of the US-ASCII coded character set. The octets 80-FF hexadecimal are not used in US-ASCII, and the octets 00-1F and 7F hexadecimal represent control characters; these must be encoded.

라는데.. URL을 UTF-8로 다시 보낸다는 건 무슨 의미인건지. 음, 근데 이거 철지난 스펙아닌가? 사실 url을 유니코드로 써서 공격할 수 있던 IIS의 버그를 생각한다면, 유니코드로 지정해도 되는 것 같은데..

그렇다면 사실 한글 파일이름을 url에서 요청하더라도 IE에서 이를 다시 utf-8로 인코딩해서 보낼테니까(그게 default로 체크가 되있으니까) 웹 서버에서 제대로 파일을 보여주어야하는 것 아닌지?

그게 제대로 안보인다는 건 아파치가 표준을 수용 안해서인건지?

Comments

2 responses to “한글”

  1. 복연 Avatar
    복연

    1번 문제..
    캐릭터 스트림으로 보면서 파일을 랜덤 IO 한다는 건 말이 안되는게.. 바이너리 데이터를 디코딩 해야 캐릭터가 튀어나오는데, 어떤 문자냐에 따라 1바이트로 인코딩되어 있을 수도 있고, 2바이트, 3바이트 등으로 인코딩되기도 하기 땜시.. 처음부터 쭉 읽어보지 않고서는 임의의 위치에 있는 데이터를 특정 캐릭터로 디코딩하기가 불가능하지.

  2. 민구 Avatar
    민구

    seek(x) where x는 앞에서부터의 문자위치. i.e., seek(x) 는 파일 포인터를 x 번째 문자위치로 옮김. 이런게 지원되면 참 좋을텐데..

    reader에서도 한글자 뒤로 가기 정도는 지원해줘도 되는것 아닌가..

    lexer만들다가 룩어헤드로 한글자 내다본건 처리하려니 귀찮아서 말이야..

Leave a Reply

Your email address will not be published. Required fields are marked *