1

J'ai créé une fonction PHP qui montre comment est codée une chaine en utf-8 et qui affiche chaque caractere décodé dans un navigateur.

source: http://www.galaxoft.org/~squalyl/ko/tests/utf8.txt
exec: http://www.galaxoft.org/~squalyl/ko/tests/utf8.php

but de démonstration, j'aimerais savoir ce que vous pensez de l'algo, on peut faire mieux, j'ai des buffer overflow, etc?

je mets pas dans la partie php parce que l'important n'est pas le langage mais l'algo de décodage.

je me suis basé sur la doc php : 6.40.13 utf8_encode() : Convertit une chaîne ISO-8859-1 en UTF-8

2

squalyl^2 :
j'ai des buffer overflow, etc?

Mis à part le fwrite final qui est assez risqué...

3

un fichier de test:
[google]utf-8 stress test[/google]
http://www.cl.cam.ac.uk/~mgk25/ucs/examples/UTF-8-test.txt
avatar
fabetal_ > Hier, je me suis fait monter par un pote
redangel > et en chevals, ça donne quoi?
Nil> OMG I think I'm gay

4

5

Oui il est très complet celui ci, mais c'est seulement pour le cas où tu passes des chaines utf-8 mal formées (genre des points unicode inexistants ou des échappements trop longs) à un parser d'utf-8.
Cependant, les explications données peuvent te permettre de ne pas exporter de mauvais utf-8 smile
avatar
fabetal_ > Hier, je me suis fait monter par un pote
redangel > et en chevals, ça donne quoi?
Nil> OMG I think I'm gay

6

oui, c'est très précis hehe c'est exactement ce que je cherchais.

7

toi qui a du bosser sur ça avec ton prog de révision, les caractère chinois normaux sont ils tous dans la zone UNICODE "60;CJK UNIFIED IDEOGRAPHS;4E00-9FFF", ou y'en a t'il d'autres? en particulier les "CJK compatibility set" sont ils des copies d'autres?

8

tout d'abord, je ne me suis pas renseigné sur les caractères chinois, (mais leurs déclinaisons japonaises), et d'une manière générale, il ne faut pas faire de suppositions comme ça ^^
c'est dans quel but?
avatar
fabetal_ > Hier, je me suis fait monter par un pote
redangel > et en chevals, ça donne quoi?
Nil> OMG I think I'm gay

9

(oui pardon je parlais d'idéogrammes au sens large, indépendamment de leur signification ou de la langue où on les trouve)

je commence une cross référence de leur utilisation en coréen #vapor# inside possible, mais bon j'ai de l'espoir hehe

10

la base de données d'unicode spéciale pour les caractères CJK
http://www.unicode.org/Public/UNIDATA/Unihan.txt
attention, c'est un gros fichier!
avatar
fabetal_ > Hier, je me suis fait monter par un pote
redangel > et en chevals, ça donne quoi?
Nil> OMG I think I'm gay

11

wow put1 le rêve ça va m'économiser un sacré boulot top²

lol bourrin inside j'ai fait un script php pour parser le tout et le balancer dans une base sql grin
parce que tel quel, c'est très peu heu... utilisable cheeky
après j'ai plus qu'à chercher les caracteres qui ont une signification coréenne grin

edit: parsing line 125688 842560 et toujours pas fini cheeky

12

J'avais fait un script perl qui se connecte à une db mySQL et la remplit, mais je ne le retrouve pas!
désolé sorry
avatar
fabetal_ > Hier, je me suis fait monter par un pote
redangel > et en chevals, ça donne quoi?
Nil> OMG I think I'm gay

13

14

non mais en perl, ça prenait 2-3 minutes max, c'est pour ça
avatar
fabetal_ > Hier, je me suis fait monter par un pote
redangel > et en chevals, ça donne quoi?
Nil> OMG I think I'm gay

15

smile

avec le script php-client (pas par apache) qui s'exécute sur le même celeron 600 que mysqld, affichage du numéro de ligne toutes les 16 lignes, tournant en fond avec SCREEN:
mysqld 75%cpu, php 20%cpu + autre processes:
[squalyl@server maint]$ time php ./mkunihan.php
done parsing 1077405 lines, 0 error(s), 71226 records in db

real    72m20.591s
user    9m13.367s
sys     1m46.763s
[squalyl@server maint]$



si le serveur était déporté avec connection LAN 100 MBps ce serait plus rapide, ok. mais enfin je vais pas me fairech grin

en fait c'était le echo à chaque ligne, connecté par ssh sur wifi G qui faisait ramer smile

16

ExtendeD
:
squalyl^2 :
j'ai des buffer overflow, etc?

Mis à part le fwrite final qui est assez risqué...



103
cf :pos=39{16bit} res=45796 -> ? 

Warning: fopen(text.txt) [function.fopen]: failed to open stream: Permission denied in /data/homes/squalyl/public_html/ko/tests/utf8.php on line 101

Warning: fwrite(): supplied argument is not a valid stream resource in /data/homes/squalyl/public_html/ko/tests/utf8.php on line 102

Warning: fclose(): supplied argument is not a valid stream resource in /data/homes/squalyl/public_html/ko/tests/utf8.php on line
avatar
Proud to be CAKE©®™


GCC4TI importe qui a problème en Autriche, pour l'UE plus et une encore de correspours nucléaire, ce n'est pas ytre d'instérier. L'état très même contraire, toujours reconstruire un pouvoir une choyer d'aucrée de compris le plus mite de genre, ce n'est pas moins)
Stalin est l'élection de la langie.

17

!close
--- Close : sujet clos !

oui mais non j'ai fait du vide, ça marche en fait; donc je remercie tous ceux qui m'ont aidé et à bientot pour de nouveaux testalacons grin