Skip to content

criar o hips catalog (versão TSV do Aladin) #47

@gschwend

Description

@gschwend

Tarefa para dpto de curadoria de dados.
Executar o script java:

https://aladin.cds.unistra.fr/hips/HipsCat.gml

Informações (17/01/2024) - Luigi
Esta issue foi iniciada em 16/01/2024 pela manhã.

Após muito tempo investido, mesmo em comunicação com Singulani e Glauber, não foi possível rodar o pipeline que se encontra em https://aladin.cds.unistra.fr/hips/HipsCat.gml. Os problemas principais foram:

  • O pipeline foi feito para rodar apenas para um arquivo por vez. Ele não aceita uma lista de arquivos como input.
  • Tentamos, então, rodar o pipeline para cada arquivo individualmente, escrevendo no mesmo diretório de saída para todos. O pipeline deu erro, justamente por já existir arquivos na pasta de output.
  • Tentamos, então, rodar o pipeline para cada arquivo individualmente, criando diretórios de output separados para cada arquivo. Deu um erro para um dos arquivos de teste (DES2359-3957_dr2_main.fits), de excesso de memória no Java. Suspeita de ser por causa do tamanho da tabela do DES DR2 (215 colunas!). Obs.: não temos skinny table para o DES DR2, e também não sei se poderíamos usar skinny tables, por causa da completeza dos dados.
  • Fiz, então, um teste, filtrando 19 arquivos .fits para pegar só as colunas COADD_OBJECT_ID, RA, DEC e MAG_AUTO_I_DERED e salvando os dados concatenados em um único arquivo .csv. Deu certo, o pipeline rodou corretamente para esse arquivo único. O problema é o tempo. Levou 4 minutos para esse .csv único contendo informações de apenas 19 arquivos .fits. Em estimativa linear, levaria cerca de 35 horas para rodar para um .csv único contendo informações dos 10169 .fits (isso considerando apenas 4 colunas!)
  • O pipeline tem um parâmetro OBRIGATÓRIO -score , que pode ser uma coluna dos dados ou uma operação entre colunas. Parece que ele serve para sortar os dados. Estava pegando a coluna MAG_AUTO_I ou MAG_AUTO_I_DERED para esse parâmetro, mas não sei se é o correto ou o mais adequado para se integrar aos pipelines do LIneA. Na verdade, não entendi muito bem esse parâmetro, e a documentação do pipeline do Aladin é muito curta e incompleta.

Possíveis próximos passos:
A) Se quisermos ter esperança de rodar em paralelo

  • Escolher qual coluna usar como -score.
  • Filtrar o catálogo DES DR2 inteiro, selecionando apenas algumas poucas colunas de interesse (quais??), e salvar em vários .csv (parece que o pipeline do Aladin lida melhor com esse tipo de arquivo, que é o default).
  • Rodar o pipeline do Aladin para cada .csv desse separadamente.
  • Dar um jeito de juntar todos os diretórios HIPS de saída em um diretório único (na verdade, nem sabemos se isso é possível, porque provavelmente teriamos que concatenar arquivo por arquivo, subdiretório por subdiretório...)

B) Se estivermos com paciência e quisermos deixar o processo rodando por uns dias

  • Escolher qual coluna usar como -score.
  • Filtrar o catálogo DES DR2 inteiro, selecionando apenas algumas poucas colunas de interesse (quais??), e salvar tudo em um único arquivo .csv. Esse arquivo seria enorme, a depender do tanto de colunas selecionadas.
  • Rodar o pipeline para esse .csv único (previsão de dias de demora).
  • Tudo dando certo, o catálogo HIPS será gerado com sucesso em um diretório único.

Diretórios de trabalho:
/lustre/t0/scratch/users/luigi.silva/aladin_hipsgen
/lustre/t0/scratch/users/luigi.silva/hardcore_aladin_hipsgen

Aguardando orientações da @gschwend.

Comentários Julia - 06/02/2025 - 10h
Fazer só com as colunas de ID, RA e DEC.

Comentários Luigi - 06/02/2025 - 11h
Esqueci de falar que precisamos também de uma coluna para o -score.

Metadata

Metadata

Assignees

Labels

No labels
No labels

Type

No type

Projects

Status

To be achived

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions