Discussione:
scompattare un file kanjidict
(troppo vecchio per rispondere)
s***@gmail.com
2007-11-26 12:52:50 UTC
Permalink
Kanjidict e' un file di testo che riporta i dati di alcune migliaia
di kanji ( circa 6000)

Ogni kanji e descritto con una serie di dati tecnici tra cui letture
on e kun numeri attributiti da vari dizionari ecc.
Purtoppo la formattazione di questo file non e' banale.

Io avrei bisogno di separare le varie informazioni in campi per
poterle ins4erire in un mio data base,
per caso quacuno ha la possibilita' di passarmi questo file con un
formato + importabile in un database?

( un formato tipo kanji <tab> Nuovo nelson> >tab> campo vupto <tab>
eccetera
l' ordine in cui sono messi i campi non impotra, basta che quando un
campo e' vuoto sia lasciatop vuoto tra 2 <tab> )
Chuck Norris
2007-11-26 14:57:49 UTC
Permalink
Post by s***@gmail.com
Kanjidict e' un file di testo che riporta i dati di alcune migliaia
di kanji ( circa 6000)
Ogni kanji e descritto con una serie di dati tecnici tra cui letture
on e kun numeri attributiti da vari dizionari ecc.
Purtoppo la formattazione di questo file non e' banale.
Io avrei bisogno di separare le varie informazioni in campi per
poterle ins4erire in un mio data base,
per caso quacuno ha la possibilita' di passarmi questo file con un
formato + importabile in un database?
( un formato tipo kanji <tab> Nuovo nelson> >tab> campo vupto <tab>
eccetera
l' ordine in cui sono messi i campi non impotra, basta che quando un
campo e' vuoto sia lasciatop vuoto tra 2 <tab> )
Ciao,
come sei messo a programmazione?
Credo che avrai già notato che esiste anche il KanjiDic2 in versione
XML.
Partendo dal file xml è molto più semplice fare un export in Db
relazionale quale Access/sql server/mysql.
Se poi usi il .NET framework è ancora + semplice.

Se non sbaglio tempo fa ho realizzato qualcosa del genere...appena
torno a casa controllo
nei miei vecchi progetti e se ho qualcosa di utile te la mando.

Se inceve vuoi usare la versione plain-text del kanjidic...beh
leggendo la documentazione
e avendo piccole conoscenze nella programmazione la cosa sarebbe
possibile (e credo di averla fatta anche io in passato)!!

Cmq ti faccio sapere se ho qualcosa già fatto...,
Ciao.
Chuck Norris
2007-11-26 15:09:01 UTC
Permalink
Post by Chuck Norris
Post by s***@gmail.com
Kanjidict e' un file di testo che riporta i dati di alcune migliaia
di kanji ( circa 6000)
Ogni kanji e descritto con una serie di dati tecnici tra cui letture
on e kun numeri attributiti da vari dizionari ecc.
Purtoppo la formattazione di questo file non e' banale.
Io avrei bisogno di separare le varie informazioni in campi per
poterle ins4erire in un mio data base,
per caso quacuno ha la possibilita' di passarmi questo file con un
formato + importabile in un database?
( un formato tipo kanji <tab> Nuovo nelson> >tab> campo vupto <tab>
eccetera
l' ordine in cui sono messi i campi non impotra, basta che quando un
campo e' vuoto sia lasciatop vuoto tra 2 <tab> )
Ciao,
come sei messo a programmazione?
Credo che avrai già notato che esiste anche il KanjiDic2 in versione
XML.
Partendo dal file xml è molto più semplice fare un export in Db
relazionale quale Access/sql server/mysql.
Se poi usi il .NET framework è ancora + semplice.
Se non sbaglio tempo fa ho realizzato qualcosa del genere...appena
torno a casa controllo
nei miei vecchi progetti e se ho qualcosa di utile te la mando.
Se inceve vuoi usare la versione plain-text del kanjidic...beh
leggendo la documentazione
e avendo piccole conoscenze nella programmazione la cosa sarebbe
possibile (e credo di averla fatta anche io in passato)!!
Cmq ti faccio sapere se ho qualcosa già fatto...,
Ciao.
...se ti interessa c'è già il kanjidic in formato MS-ACCESS

http://ftp.monash.edu.au/pub/nihongo/kanjidic_access.zip
s***@gmail.com
2007-11-26 16:19:51 UTC
Permalink
Post by Chuck Norris
Post by Chuck Norris
Post by s***@gmail.com
Kanjidict e' un file di testo che riporta i dati di alcune migliaia
di kanji ( circa 6000)
Ogni kanji e descritto con una serie di dati tecnici tra cui letture
on e kun numeri attributiti da vari dizionari ecc.
Purtoppo la formattazione di questo file non e' banale.
Io avrei bisogno di separare le varie informazioni in campi per
poterle ins4erire in un mio data base,
per caso quacuno ha la possibilita' di passarmi questo file con un
formato + importabile in un database?
( un formato tipo kanji <tab> Nuovo nelson> >tab> campo vupto <tab>
eccetera
l' ordine in cui sono messi i campi non impotra, basta che quando un
campo e' vuoto sia lasciatop vuoto tra 2 <tab> )
Ciao,
come sei messo a programmazione?
Credo che avrai già notato che esiste anche il KanjiDic2 in versione
XML.
Partendo dal file xml è molto più semplice fare un export in Db
relazionale quale Access/sql server/mysql.
Se poi usi il .NET framework è ancora + semplice.
Se non sbaglio tempo fa ho realizzato qualcosa del genere...appena
torno a casa controllo
nei miei vecchi progetti e se ho qualcosa di utile te la mando.
Se inceve vuoi usare la versione plain-text del kanjidic...beh
leggendo la documentazione
e avendo piccole conoscenze nella programmazione la cosa sarebbe
possibile (e credo di averla fatta anche io in passato)!!
Cmq ti faccio sapere se ho qualcosa già fatto...,
Ciao.
...se ti interessa c'è già il kanjidic in formato MS-ACCESS
http://ftp.monash.edu.au/pub/nihongo/kanjidic_access.zip
ms-access? e che roba e'?
(LOL)

Io sono un mac user.. quindi non uso access, peo' partendo da questo
forse resco a ad ottenere un file
in un formato non proprietario da poter utilizzare nel mio data base
relazionale

grazie
Joao do Sabao
2007-11-26 17:29:10 UTC
Permalink
Post by s***@gmail.com
Io avrei bisogno di separare le varie informazioni in campi per
poterle ins4erire in un mio data base,
per caso quacuno ha la possibilita' di passarmi questo file con un
formato + importabile in un database?
( un formato tipo kanji <tab> Nuovo nelson> >tab> campo vupto <tab>
eccetera
Per prima cosa, scrivi agli autori di KanjiDict e chiedi se hanno già
programmato loro qualcosa del genere. Non è da escludere e ti
risparmieresti la fatica.

Se la prima strada va male, non vedo soluzioni più brevi che
programmarti un parser, cioè un "compilatore" che legge e interpreta il
vecchio formato KanjiDict (parte sintattica) e poi costruisce un nuovo
file, magari XML, corrispondente (parte semantica).

Se sai programmare in Java stùdiati JavaCC che è un compiler-compiler,
ovvero un generatore di parser: <https://javacc.dev.java.net/>

Se invece programmi in C, usa yacc.

In tutti i casi devi sapere quello che stai facendo :-) ti segnalo a
questo proposito i lucidi di questo corso universitario:
<http://www.dis.uniroma1.it/~rosati/lingtrad/>

頑張ってください。
--
Tchau, -João do Sabão
s***@gmail.com
2007-11-26 17:39:04 UTC
Permalink
Post by Joao do Sabao
Post by s***@gmail.com
Io avrei bisogno di separare le varie informazioni in campi per
poterle ins4erire in un mio data base,
per caso quacuno ha la possibilita' di passarmi questo file con un
formato + importabile in un database?
( un formato tipo kanji <tab> Nuovo nelson> >tab> campo vupto <tab>
eccetera
Per prima cosa, scrivi agli autori di KanjiDict e chiedi se hanno già
programmato loro qualcosa del genere. Non è da escludere e ti
risparmieresti la fatica.
Se la prima strada va male, non vedo soluzioni più brevi che
programmarti un parser, cioè un "compilatore" che legge e interpreta il
vecchio formato KanjiDict (parte sintattica) e poi costruisce un nuovo
file, magari XML, corrispondente (parte semantica).
Se sai programmare in Java stùdiati JavaCC che è un compiler-compiler,
ovvero un generatore di parser: <https://javacc.dev.java.net/>
Se invece programmi in C, usa yacc.
In tutti i casi devi sapere quello che stai facendo :-) ti segnalo a
<http://www.dis.uniroma1.it/~rosati/lingtrad/>
頑張ってください。
--
Tchau, -João do Sabão
Ti ringrazio, ma se mi mettessi a scrivere del codice userei il buon
vecchio C utilizzando gcc. Questione di abitudini.

Vero Non avevopensato a scrivere agli autori!
Comunque convertire il file da access non credo sara' un gande
problema.
Ciao
Joao do Sabao
2007-11-26 18:22:18 UTC
Permalink
On 2007-11-26 18:39:04 +0100, ***@gmail.com said:

Con questo messaggio vado decisamente OT. Meglio parlare in altre sedi.
Post by s***@gmail.com
Ti ringrazio, ma se mi mettessi a scrivere del codice userei il buon
vecchio C utilizzando gcc. Questione di abitudini.
Benissimo, puoi usare C.

Comunque programmare un parser completamente a mano (ad esempio, in C
senza l'aiuto di un compiler-compiler come yacc) è solitamente
sconsigliabile: ti costringe a tanti livelli di annidamento ed è
"error-prone" perché gli alberi sintattici sono gestiti meglio da una
macchina che non da un uomo.

Voglio dire che, facendo un programmino puro e semplice con tutti gli
if del caso (sulle stringe di input), stringhe che tu "hai visto" a
intuito, ti può sfuggire qualcosa e potresti scontrarti con bug
inspiegabili a runtime.

Invece usare un generatore di parser come yacc ti fa sì studiare un po'
di teoria, ma una volta che sai esprimere la grammatica generatrice del
tuo linguaggio di input (il linguaggio del vecchio formato KanjiDict),
la dai in pasto a yacc secondo una sintassi tipo espressione regolare e
ottieni in output un file C che sarà un parser accurato di tutte le
stringe possibili, più accurato di quello che avresti scritto
completamente a mano.

Infine si aggiunge lo strato semantico con tutte le regole specifiche
di quello che vuoi fare, tipo: se riconosco in input la stringa
"$kun_reading=ひがし" allora genero in output il codice XML
"<kun_reading>ひがし</kun_reading>".
Post by s***@gmail.com
Vero Non avevopensato a scrivere agli autori!
Comunque convertire il file da access non credo sara' un gande
problema.
Meglio così.
--
Tchau, -João do Sabão
enrico
2010-07-22 17:53:15 UTC
Permalink
programmare un parser ... per kanjidic, come uccidere le mosche con il
cannone.

Se sai programmare in java un semplice programmino java che usa funzioni
elementari tipo la split o al massimo espressioni regolari.
Tempo fa ho estratto kanjidic informazioni da kanjidic ed edict, l'ho
fatto in java ed è stato banale, non ho fatt una copia pedissequa ma
inserivo tali informazioni in un deck anki (ie un piccolo db sqlite).
Se hai problemi a eseguire un task cosi semplice è probabile che non
riuscirai a fare molto con l'eventuale database, spero di non suonare
scoraggiante ma è cosi.

Se non sai programmare e sei disposto a imparare i concetti base per
leggere kanjidic python è più semplice di java.
Post by Joao do Sabao
Post by s***@gmail.com
Io avrei bisogno di separare le varie informazioni in campi per
poterle ins4erire in un mio data base,
per caso quacuno ha la possibilita' di passarmi questo file con un
formato + importabile in un database?
( un formato tipo kanji <tab> Nuovo nelson> >tab> campo vupto <tab>
eccetera
Per prima cosa, scrivi agli autori di KanjiDict e chiedi se hanno già
programmato loro qualcosa del genere. Non è da escludere e ti
risparmieresti la fatica.
Se la prima strada va male, non vedo soluzioni più brevi che
programmarti un parser, cioè un "compilatore" che legge e interpreta il
vecchio formato KanjiDict (parte sintattica) e poi costruisce un nuovo
file, magari XML, corrispondente (parte semantica).
Se sai programmare in Java stùdiati JavaCC che è un compiler-compiler,
ovvero un generatore di parser: <https://javacc.dev.java.net/>
Se invece programmi in C, usa yacc.
In tutti i casi devi sapere quello che stai facendo :-) ti segnalo a
<http://www.dis.uniroma1.it/~rosati/lingtrad/>
頑張ってください。
Loading...