Tese Mestrado
Towards end-to-end speech-to-text summarisation
Raul Pombo Monteiro
Resumo
A sumarização de fala para texto é uma técnica proeminente que permite economizar o tempo dispendido para acompanhar as notícias transmitidas diariamente. O surgimento de grandes modelos de linguagem a partir de aprendizagem profunda, que têm capacidades de geração de texto impressionantes, colocou o foco da investigação em sistemas de sumarização que produzem versões compactas e parafraseadas dos conteúdos de documentos, conhecidos como resumos abstrativos.
A modelagem de ponta-a-ponta para sumarização abstrativa de fala para texto é uma abordagem promissora que oferece a possibilidade de gerar representações latentes ricas que aproveitam as informações não-verbais e acústicas do áudio, em oposição ao simples uso de informações linguísticas presentes nas transcrições geradas automaticamente em sistemas em cascata. No entanto, a pouca literatura sobre modelação ponta-a-ponta desta tarefa falha em explorar diferentes domínios, nomeadamente notícias.
Modelamos a sumarização de fala para texto com sistemas em cascata e de ponta-a-ponta usando uma base de dados de notícias transmitidas em francês. Ao contrário da literatura disponível, a nossa nova implementação de ponta-a-ponta faz uso de dados externos, recorrendo à transferência de aprendizagem de um sumarizador de texto para texto pré-treinado.
Experiências mostram que os resumos abstratos gerados pelos sistemas em cascata e de ponta-a-ponta são mais fortes do que uma linha de base extrativa. No entanto, o desempenho da implementação de ponta-a-ponta é pior do que a implementação em cascata, o que é objeto de uma extensa análise que inclui direções futuras para fechar esta lacuna.