You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Eu estou mais ocupado obtendo e listando os próprios datasets, porém qualquer pessoa que futuramente estiver lendo esse issue aqui, considere antes de fazer um port de um desses datasets para ser usado pela sua linguagem de programação favorita:
Ver se alguém já não fez.
E se não foi feito, considere que a forma como os bancos de dados estão nativamente encodados já existe alguma biblioteca que acesse o formato sem precisar converter para outro (a exemplo, o VERO-pt-BR usa hunspell, que possui biblioteca para algumas linguagens)
Minha intuição de full stack developer é a seguinte: tão logo conjuntos de dados linguísticos estejam publicamente conhecidos, se tiverem uma licença aceitável, é provável que surja espontaneamente desenvolvedores de linguagens de programação mais usadas fazendo pacote para os demais usarem.
Ou seja, o problema chave aqui é, realmente descobrir datasets já existentes ou mesmo estimular criação dos datasets de interesse comum.
Como referência, o VERO-pt-BR que foi criado em função do libre office, a última versão com atualização do dicionário é a 3.2.13, e a última atualização foi em 2013-12-17. Será que realmente ficou tão perfeito assim para não precisar mais de atualização?
E se nesses últimos anos volta e meia problemas eram encontrados, mas como esses datasets tem uma forma diferente de ser atualizada do que ocorre com código fonte (talvez enviar por e-mail, por algo que talvez o mantainer nem esteja mais tão ativo, etc) nunca mais seja atualizado?
Eu estou mais ocupado obtendo e listando os próprios datasets, porém qualquer pessoa que futuramente estiver lendo esse issue aqui, considere antes de fazer um port de um desses datasets para ser usado pela sua linguagem de programação favorita:
Por exemplo, o conjunto de dados VERO-pt-BR está disponível como dicionário instalável como pacote npm no mínimo nesse repositório aqui https://github.com/wooorm/dictionaries/tree/master/dictionaries/pt-BR feito por pessoa de fora do Brasil.
The text was updated successfully, but these errors were encountered: