發布時間:2024-09-10 19:12:40 來源:本站 作者:admin
在 2024 年 8 月 29 日的一篇論文中,維也納大學的 Miguel Rios 探討了指令調整的大型語言模型 (LLM) 如何改善專業領域(尤其是醫學領域)的機器翻譯 (MT)。
Rios 指出,雖然最先進的 LLM 在高資源語言對和領域中表現出了令人鼓舞的結果,但它們在專業的低資源領域中往往難以實現準確性和一致性?!霸趯I領域(例如醫學),LLM 的表現低于標準的神經機器翻譯模型,”Rios 說。
他還解釋說,LLM 在低資源領域的局限性源于它們的訓練數據,這些數據可能無法充分涵蓋有效翻譯所需的特定術語和上下文細微差別。
為了應對這一挑戰,Rios 建議通過指令調整來整合專業術語,從而提高 LLM 的性能——這是一種使用格式化為指令的各種任務的數據集對模型進行微調的技術?!拔覀兊哪繕耸菍⑿g語、語法信息和文檔結構約束整合到醫學領域的 LLM 中,”他說。
具體來說,Rios 建議將醫學術語作為 LLM 指令的一部分。在翻譯一個片段時,會向模型提供翻譯中應使用的相關醫學術語。
此外,該方法還涉及識別與正在翻譯的文本相關的術語對——源術語和相應的目標術語——確保在翻譯過程中將正確的醫學術語應用于這些片段。
如果一個或多個候選術語在片段中成功匹配,則將它們合并到提供給 LLM 的指令模板中。這意味著模型會收到一個提示,不僅指示它翻譯文本,還指定要使用哪些醫學術語。
如果未找到匹配的候選術語,則向模型提供基本的翻譯任務提示,指示其在沒有任何特定醫學術語指導的情況下翻譯文本。
Unbabel 的 Tower 領先
在實驗中,Rios 使用 Google 的 FLAN-T5、Meta 的 LLaMA-3-8B 和 Unbabel 的 Tower-7B 作為基線模型,應用 QLoRA 進行參數高效微調,并在英語-西班牙語、英語-德語和英語-羅馬尼亞語語言對中對其進行測試。
結果顯示,指令調整后的模型在 BLEU、chrF 和 COMET 分數等自動指標方面“顯著”優于基線。具體而言,Tower-7B 模型在英語-西班牙語和英語-德語翻譯中表現出色,其次是 LLaMA-3-8B,它在英語-羅馬尼亞語翻譯中表現出色。
在與 Slator 交談時,里奧斯表示他打算在未來與專業翻譯人員進行人工評估,因為單靠自動化指標可能無法完全反映模型在翻譯中生成正確醫學術語的效果。