Harmonic-aware Tri-path Convolution Recurrent Network for Singing Voice Separation

Separating mixture audio into background music and vocal.

Welcome to the Singing Voice Separation Demo.

This is the demonstration of the model we proposed(HA-TPCRN), and also shows the results of compared models we trained (DPRNN and DPCRN).

Mixture

Separated vocal (The proposed HA-TPCRN K=2)

Separated music (The proposed HA-TPCRN K=2)

Separated vocal (DPCRN 4 stacked)

Separated music (DPCRN 4 stacked)

Separated vocal (DPCRN 5 stacked)

Separated music (DPCRN 5 stacked)

Separated vocal (DPRNN 4 stacked)

Separated music (DPRNN 4 stacked)

Mixture

Separated vocal (The proposed HA-TPCRN K=2)

Separated music (The proposed HA-TPCRN K=2)

Separated vocal (DPCRN 4 stacked)

Separated music (DPCRN 4 stacked)

Separated vocal (DPCRN 5 stacked)

Separated music (DPCRN 5 stacked)

Separated vocal (DPRNN 4 stacked)

Separated music (DPRNN 4 stacked)

Mixture

Separated vocal (The proposed HA-TPCRN K=2)

Separated music (The proposed HA-TPCRN K=2)

Separated vocal (DPCRN 4 stacked)

Separated music (DPCRN 4 stacked)

Separated vocal (DPCRN 5 stacked)

Separated music (DPCRN 5 stacked)

Separated vocal (DPRNN 4 stacked)

Separated music (DPRNN 4 stacked)