Considerar futuramente listar até mesmo ports dos datasets listados para linguagens de programação #2

fititnt · 2018-05-20T02:21:46Z

Eu estou mais ocupado obtendo e listando os próprios datasets, porém qualquer pessoa que futuramente estiver lendo esse issue aqui, considere antes de fazer um port de um desses datasets para ser usado pela sua linguagem de programação favorita:

Ver se alguém já não fez.
E se não foi feito, considere que a forma como os bancos de dados estão nativamente encodados já existe alguma biblioteca que acesse o formato sem precisar converter para outro (a exemplo, o VERO-pt-BR usa hunspell, que possui biblioteca para algumas linguagens)

Por exemplo, o conjunto de dados VERO-pt-BR está disponível como dicionário instalável como pacote npm no mínimo nesse repositório aqui https://github.com/wooorm/dictionaries/tree/master/dictionaries/pt-BR feito por pessoa de fora do Brasil.

fititnt · 2018-05-20T02:44:48Z

Minha intuição de full stack developer é a seguinte: tão logo conjuntos de dados linguísticos estejam publicamente conhecidos, se tiverem uma licença aceitável, é provável que surja espontaneamente desenvolvedores de linguagens de programação mais usadas fazendo pacote para os demais usarem.

Ou seja, o problema chave aqui é, realmente descobrir datasets já existentes ou mesmo estimular criação dos datasets de interesse comum.

Como referência, o VERO-pt-BR que foi criado em função do libre office, a última versão com atualização do dicionário é a 3.2.13, e a última atualização foi em 2013-12-17. Será que realmente ficou tão perfeito assim para não precisar mais de atualização?

E se nesses últimos anos volta e meia problemas eram encontrados, mas como esses datasets tem uma forma diferente de ser atualizada do que ocorre com código fonte (talvez enviar por e-mail, por algo que talvez o mantainer nem esteja mais tão ativo, etc) nunca mais seja atualizado?

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Considerar futuramente listar até mesmo ports dos datasets listados para linguagens de programação #2

Considerar futuramente listar até mesmo ports dos datasets listados para linguagens de programação #2

fititnt commented May 20, 2018

fititnt commented May 20, 2018

Considerar futuramente listar até mesmo ports dos datasets listados para linguagens de programação #2

Considerar futuramente listar até mesmo ports dos datasets listados para linguagens de programação #2

Comments

fititnt commented May 20, 2018

fititnt commented May 20, 2018