criar o hips catalog (versão TSV do Aladin)

Tarefa para dpto de curadoria de dados.
Executar o script java:

https://aladin.cds.unistra.fr/hips/HipsCat.gml  


**Informações (17/01/2024) - Luigi**
Esta issue foi iniciada em 16/01/2024 pela manhã.

Após muito tempo investido, mesmo em comunicação com Singulani e Glauber, não foi possível rodar o pipeline que se encontra em https://aladin.cds.unistra.fr/hips/HipsCat.gml. Os problemas principais foram:
- O pipeline foi feito para rodar apenas para um arquivo por vez. Ele não aceita uma lista de arquivos como input. 
- Tentamos, então, rodar o pipeline para cada arquivo individualmente, escrevendo no mesmo diretório de saída para todos. O pipeline deu erro, justamente por já existir arquivos na pasta de output.
- Tentamos, então, rodar o pipeline para cada arquivo individualmente, criando diretórios de output separados para cada arquivo. Deu um erro para um dos arquivos de teste (DES2359-3957_dr2_main.fits), de excesso de memória no Java. Suspeita de ser por causa do tamanho da tabela do DES DR2 (215 colunas!). Obs.: não temos skinny table para o DES DR2, e também não sei se poderíamos usar skinny tables, por causa da completeza dos dados.
- Fiz, então, um teste, filtrando 19 arquivos .fits para pegar só as colunas COADD_OBJECT_ID, RA, DEC e MAG_AUTO_I_DERED e salvando os dados concatenados em um único arquivo .csv. Deu certo, o pipeline rodou corretamente para esse arquivo único. O problema é o tempo. Levou 4 minutos para esse .csv único contendo informações de apenas 19 arquivos .fits. Em estimativa linear, levaria cerca de 35 horas para rodar para um .csv único contendo informações dos 10169 .fits (isso considerando apenas **4 colunas**!)
- O pipeline tem um parâmetro OBRIGATÓRIO -score <field name or formula used to sort sources according to their pertinence>, que pode ser uma coluna dos dados ou uma operação entre colunas. Parece que ele serve para sortar os dados. Estava pegando a coluna MAG_AUTO_I ou MAG_AUTO_I_DERED para esse parâmetro, mas não sei se é o correto ou o mais adequado para se integrar aos pipelines do LIneA. Na verdade, não entendi muito bem esse parâmetro, e a documentação do pipeline do Aladin é muito curta e incompleta.

Possíveis próximos passos:
A) Se quisermos ter esperança de rodar em paralelo
- Escolher qual coluna usar como -score.
- Filtrar o catálogo DES DR2 inteiro, selecionando apenas algumas poucas colunas de interesse (quais??), e salvar em vários .csv (parece que o pipeline do Aladin lida melhor com esse tipo de arquivo, que é o default).
- Rodar o pipeline do Aladin para cada .csv desse separadamente.
- Dar um jeito de juntar todos os diretórios HIPS de saída em um diretório único (na verdade, nem sabemos se isso é possível, porque provavelmente teriamos que concatenar arquivo por arquivo, subdiretório por subdiretório...)

B) Se estivermos com paciência e quisermos deixar o processo rodando por uns dias
- Escolher qual coluna usar como -score.
- Filtrar o catálogo DES DR2 inteiro, selecionando apenas algumas poucas colunas de interesse (quais??), e salvar tudo em um único arquivo .csv. Esse arquivo seria enorme, a depender do tanto de colunas selecionadas.
- Rodar o pipeline para esse .csv único (previsão de dias de demora).
- Tudo dando certo, o catálogo HIPS será gerado com sucesso em um diretório único.

Diretórios de trabalho:
/lustre/t0/scratch/users/luigi.silva/aladin_hipsgen
/lustre/t0/scratch/users/luigi.silva/hardcore_aladin_hipsgen

Aguardando orientações da @gschwend.

**Comentários Julia - 06/02/2025 - 10h**
Fazer só com as colunas de ID, RA e DEC.

**Comentários Luigi - 06/02/2025 - 11h**
Esqueci de falar que precisamos também de uma coluna para o -score.


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

criar o hips catalog (versão TSV do Aladin) #47

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

criar o hips catalog (versão TSV do Aladin) #47

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions