특허 문헌 검색 도구(시스템)를 통해 특허 문헌을 자동으로 번역할 수 있는 특허 문헌 번역 시스템.

본 백서에서는 시스템의 전반적인 설계와 시스템에서 사용되는 주요 번역 기술을 포함하여 실용적인 중-영 특허 문서 기계 번역 시스템을 소개합니다. 중국의 지적재산권에 대한 인식이 높아지고 국제 교류가 절실히 요구됨에 따라 특허 번역사에 의한 전통적인 수작업 번역으로는 더 이상 급증하는 특허 문서 번역 수요를 충족할 수 없으며, 이는 중국 특허 기술의 홍보와 교류에 어느 정도 장애가 되고 있습니다. 자동 기계 번역 및 보조 번역은 이 문제를 효과적으로 해결할 수 있는 방법입니다. 최근 몇 년 동안 기계 번역 기술은 큰 발전을 이루었으며, 특히 통계적 기계 번역 기술의 개발은 번역 품질을 크게 향상시키고 특허 문헌 번역을위한 새롭고 강력한 수단을 제공합니다.

특허 문헌 번역의 특징

일반 텍스트 번역과 비교하여 특허 문헌 번역에는 다음과 같은 특징이 있습니다.

● 많은 전문 분야가 관련되어 있습니다. 특허 문서는 도메인 특성이 강해 기존의 일반 번역 소프트웨어를 직접 사용해서는 이상적인 번역 결과를 얻기가 어렵습니다. 그러나 특허 문서의 분야는 국제 특허 분류 번호에 따라 비교적 명확하게 구분할 수 있습니다. 동시에 수년간의 축적을 통해 특정 도메인의 이중 언어 병렬 말뭉치를 비교적 쉽게 얻을 수 있어 기계 번역의 말뭉치 수집 및 도메인 분할에 편리합니다.

●기술 용어와 법률 용어가 많이 사용됩니다. 특허 문서에는 기술 용어와 법률 용어가 많이 포함되어 있어 번역사의 높은 종합적 품질이 요구됩니다. 따라서 특허 번역은 고가의 번역료를 지불합니다. 예를 들어 해외에서 모국어를 외국어로 번역할 때 지불하는 번역료는 원어 100개당 30~50달러 정도입니다. 일부 희귀 언어의 경우 번역 서비스 가격이 더 높을 수 있습니다. 따라서 기술 용어와 법률 용어의 번역 문제를 해결하기 위해 자동 번역 또는 보조 번역을 사용하면 특허 번역 비용을 크게 줄일 수 있습니다.

●다양한 언어로 번역. 특허 문서에는 국가별 특성이 있기 때문에 특허 문서를 여러 언어로 번역해야 하는 경우가 많습니다. 각 언어 번역 방향에 맞게 번역 시스템을 구축할 경우 많은 개발 비용이 필요합니다. 따라서 언어 독립적인 번역 기술을 사용하는 것이 합리적인 선택입니다.

●문서 양식이 표준화되어 있고 언어가 엄격합니다. 특허 문서는 법률 문서의 특성을 가지고 있기 때문에 뉴스나 구술 번역에 비해 텍스트의 형식이 비교적 고정되어 있고 언어가 비교적 표준화되어 있습니다. 특허 문서에는 "본 발명의 목적은 X이다", "청구항 N에 기재된 X는 Y를 특징으로 한다"와 같이 일반적으로 "문장 집합"이라고 알려진 고정된 문장이 포함되어 있는 경우가 많으며, 여기서 X와 Y는 어떤 단어나 문장이든 될 수 있습니다. Y는 임의의 단어나 문장이 될 수 있으며, N은 임의의 숫자 조합입니다. 이러한 문장 템플릿은 자동 기계 번역에 적합합니다.

위와 같은 특허 문서의 특성을 분석해 보면 표준화된 양식과 명확한 필드를 가진 특허 번역의 경우 기계 번역 방식을 사용하면 더 나은 번역 결과를 얻을 수 있음을 알 수 있습니다. 특히 최근 언어 독립성, 도메인 이식성, 편리한 지식 습득, 짧은 개발 주기 등의 특징을 가진 통계적 기계 번역 기술이 빠르게 발전하고 있어 특허 문헌 번역 시스템 구축에 매우 적합합니다.

중국과학원 전산연구소의 다국어 대화형 기술 연구소는 다년간의 기계 번역 연구 경험을 보유하고 있으며, 최근에는 통계적 기계 번역 연구에서도 좋은 성과를 거두었습니다. 베이징 오리엔탈 링둔 과학기술 유한공사는 특허 문서 번역에 대한 수요가 많으며 자동 번역 소프트웨어의 도움으로 번역 품질과 효율성을 더욱 향상시키기를 희망하고 있습니다. 오리엔탈 링둔 과학기술 유한회사의 의뢰를 받은 컴퓨팅 연구원들은 다국어 상호 작용 연구실에서 축적된 통계적 기계 번역 기술을 사용하고 특허 문서 번역의 특성을 결합하여 도메인별 중국어-영어 특허 문서 번역 시스템을 설계하고 실현했습니다. 현재 이 시스템의 번역 분야는 한의학 특허 문헌입니다. 통계적 기계 번역 기술을 채택했기 때문에 다른 기술 분야의 특허 번역에도 쉽게 이식할 수 있습니다.

전체 시스템 설계

대규모, 다중 사용자 및 동시 작업의 요구를 충족하기 위해이 시스템은 서버 / 클라이언트 네트워크 서비스 모드와 다중 스레드 스케줄링을 채택합니다. 시스템의 물리적 구조와 논리적 흐름은 다음과 같습니다.

1. 물리적 구조

중-영 특허 문헌 기계 번역 시스템의 물리적 구조는 다음과 같은 두 부분으로 구성됩니다.

●번역 엔진 서버: 번역 서비스 제공 및 번역 리소스 관리를 담당합니다.

●클라이언트: 사용자에게 번역 결과를 제시하고, 보조 번역 도구를 제공하며, 사용자 요청을 서버에 제출하는 역할을 담당합니다.

이 중 서버는 주로 번역을 위한 핵심 디코더와 구문 목록, 언어 모델, 템플릿 라이브러리, 사전, 메모리 라이브러리 등 필요한 모든 종류의 리소스를 저장합니다. 서버는 이러한 리소스를 균일하게 관리하고 합리적으로 스케줄링합니다. 서버는 이러한 리소스를 균일하게 관리하고 합리적으로 스케줄링합니다. 동시에 서버는 각 사용자 스레드의 스케줄링 및 시간 슬라이스 할당을 담당하고 각 사용자가 제출한 작업의 우선순위를 조정합니다.

클라이언트는 일반 사용자 클라이언트와 관리자 사용자 클라이언트로 나뉘며, 사용자마다 다른 권한을 갖습니다. 클라이언트는 사용자에게 편집 및 수정을 위한 편리한 인터페이스를 제공하고 작업 상태 및 서버 상태를 볼 수 있는 기능도 제공하며 서버의 일부 리소스에 실시간으로 액세스하고 수정할 수 있습니다. 사용자는 클라이언트를 통해 편리하게 번역 파일을 일괄 업로드할 수 있으며, 반환된 결과를 수정하고 번역을 다시 제출하고 번역 결과를 일괄 내보낼 수 있습니다.

서버와 클라이언트는 모두 독립적으로 실행할 수 있는 프로세스이며 네트워크를 통해 서로 연결됩니다.

2. 논리적 흐름

시스템의 논리적 구조는 데이터 입력부터 시스템 내부 처리를 통해 얻어지는 예상 결과, 최종 출력에 이르는 전체 과정을 설명하는 시스템의 전체적인 비즈니스 프레임워크입니다(시스템의 논리적 흐름 참조도는 그림 1 참조).

시스템의 주요 프로세스를 구체적으로 설명하면 다음과 같습니다.

●번역 서비스: 사용자가 제출한 문장이나 텍스트 파일을 번역하고 번역 결과를 출력하는 역할을 담당합니다. 번역 프로세스는 메모리 관리 프로그램, 사전 관리 프로그램, 템플릿 라이브러리 관리 프로그램을 호출하고 통계적 번역 모델 라이브러리에 액세스합니다.

●메모리 관리: 메모리를 구성 및 관리하고 번역 예제 조회, 추가, 수정, 삭제, 내보내기 등의 작업을 수행합니다. 사용자나 번역가가 메모리 작업 요청을 제출하면 메모리 관리 모듈이 메모리에 액세스하여 해당 작업을 수행하고 결과를 피드백합니다.

●사전 관리: 관리 시스템에서 모든 사전을 정리하고 사전 조회, 추가, 삭제, 일괄 가져오기 및 내보내기 등의 작업을 수행합니다. 사용자 또는 번역가가 사전 작업 요청을 제출하면 사전 관리 모듈이 시스템 사전 라이브러리에 액세스하여 해당 작업을 수행하고 결과에 대한 피드백을 제공합니다.

●템플릿 라이브러리 관리: 템플릿 라이브러리를 구성 및 관리하고 템플릿 쿼리, 추가, 수정, 삭제, 가져오기, 내보내기 및 기타 작업을 수행합니다. 사용자나 번역가가 템플릿 작업 요청을 제출하면 템플릿 관리 모듈이 템플릿 라이브러리에 액세스하여 해당 작업을 수행하고 결과에 대한 피드백을 제공합니다.

●사용자 관리: 사용자의 추가, 삭제, 권한 설정 등의 작업을 수신하고 실행하는 역할을 담당합니다.

시스템에서 사용되는 주요 번역 기법

시스템은 주로 템플릿 기반과 메모리 기반 번역 기법을 결합한 통계적 번역 기법을 기반으로 합니다.

1. 통계 기반 번역

통계적 기계 번역 기술은 현재 국제적으로 가장 많이 사용되는 기계 번역 기술로, 기존 규칙 기반 번역 방식의 주요 단점을 극복한 기술입니다. 전통적인 규칙 기반 기계 번역 방식에서는 번역 지식이 주로 사전과 규칙으로 구현되며, 이는 주로 인간 전문가가 작성합니다. 이 접근 방식의 주요 문제점은 다음과 같습니다. 인간 전문가는 언어 지식을 작성하는 데 많은 인력, 물적 자원 및 시간을 소비해야 하며, 서면 지식으로는 실제 번역 환경의 다양한 문제를 다루기 어렵습니다. 서면 언어 지식은 갈등에 직면했을 때 좋은 해결책이 없으며, 서면 언어 지식은 다른 언어와 도메인으로 쉽게 이전할 수 없습니다. 통계적 기계 번역에서는 모든 번역 지식이 실제 병렬 말뭉치에서 나오고, 병렬 말뭉치의 번역 지식은 통계적 모델링을 통해 자동으로 학습되므로 인간 전문가가 지식을 편집할 때 직면하는 주요 문제를 극복할 수 있습니다. 요약하면, 통계적 기계 번역은 다음과 같은 장점이 있습니다.

(1) 다른 지식 영역으로 쉽게 이식할 수 있습니다. 새로운 도메인의 이중 언어 병렬 말뭉치만 확보하면 해당 도메인에 적합한 번역 시스템을 빠르게 구축할 수 있습니다. 특허는 표준화된 도메인 구분 체계가 있어 다른 도메인의 특허 번역 텍스트를 쉽게 구할 수 있으므로 통계적 기계 번역의 이러한 특징은 특히 특허 번역 시스템에 적합합니다.

(2) 다른 언어로 이식하기 쉽습니다. 통계적 기계 번역은 언어적 독립성이 가장 뛰어나며 새로운 언어 쌍에 대한 번역 시스템을 구축하는 데 언어적 처리가 거의 필요하지 않습니다. 따라서 여러 언어로 번역해야 하는 특허에 대한 시스템 개발 비용을 크게 절감할 수 있습니다.

(3) 수동으로 규칙을 작성할 필요가 없습니다. 모든 번역 지식은 이중 언어 병렬 말뭉치에서 자동으로 획득되므로 시스템 개발에 필요한 인력, 물적 자원 및 시간을 크게 줄일 수 있습니다. 통계적 번역 시스템은 통계적 모델링을 기반으로 하며 지식 충돌을 극복할 수 있는 합리적인 솔루션도 갖추고 있습니다.

(4) 학습 데이터의 증가에 따라 시스템의 번역 품질을 점진적으로 향상시킬 수 있습니다. 특허 번역 시스템을 사용하면 점점 더 많은 이중 언어 병렬 코퍼스를 생성 할 수 있으며, 이는 시스템의 번역 성능과 사용 과정에서 번역 품질을 더욱 향상시킬 수 있습니다.

연구진은 시스템 구현에 구문 기반 통계적 기계 번역 모델을 사용했습니다. 이 모델은 구문을 기본 번역 단위로 삼고 이중 언어 말뭉치에서 모든 구문 번역과 구문 간 번역 확률, 즉 번역 모델을 자동으로 구합니다. 또한 학습 단계에서 목표 언어 모델을 얻습니다. 번역 과정에서 번역 모듈은 학습된 번역 모델과 언어 모델에 따라 특정 디코딩 알고리즘을 통해 전체 문장의 번역 결과로서 가장 가능성이 높은 후보 구문 번역 조합을 선택합니다.

2. 템플릿 기반 번역

템플릿 기반 방식은 시스템이 유사한 패턴의 문장을 쉽게 번역할 수 있도록 지원합니다. 특정 분야의 특허 문서는 종종 몇 가지 고정된 문장 패턴을 포함합니다. 예를 들어, 다음은 한약 분야의 여러 특허 제목입니다.

류마티스성 심장병 치료용 한약의 일종

골관절염 치료용 약봉지

진정 효과가 있는 무설탕 한약 조성물 및 그 제조 방법

체중 감량 효과가 있는 페이스트 건강식품의 일종 및 그 제조 방법.

이러한 제목의 구문은 "X를 치료하기 위한 Y"와 "X의 기능을 가진 Y 및 그 제조 방법"이라는 템플릿으로 요약할 수 있을 정도로 유사성이 많다는 것을 알 수 있습니다. 번역 시스템에서 완전한 번역 템플릿은 "템플릿의 소스 언어 부분"과 "템플릿의 대상 언어 부분"으로 구성되며, 각 부분은 "템플릿의 상수 부분"과 "템플릿의 상수 부분"으로 나뉩니다. 각 부분은 다시 "템플릿의 상수 부분"과 "템플릿의 변수 부분"으로 나뉩니다. 예를 들어, 위의 두 템플릿은 이 번역 시스템에서 다음과 같이 표현됩니다.

##1{...}을 처리하는 ##2{...}

= = = & gt ##1을 처리하는 ##2

##2{...}가 ##1{...}의 함수를 가지고 있음. ...} 및 그 제조 방법

= = & gt ##1의 치료를 위한 ##2 및 그 제조 방법

여기서 "###N"은 템플릿의 변수 부분이며, "N"은 템플릿에서 서로 다른 변수의 대응을 구분하는 데 사용됩니다. 대상 언어에서 서로 다른 변수의 대응을 구분하는 데 사용됩니다. 변수 뒤의 "{...}"에는 일치하는 문자열의 길이, 일치 방법(절의 시작과 일치할지, 절의 끝과 일치할지), 변수에 반드시 포함되거나 포함되지 않아야 하는 단어 등 변수의 일치를 제한하는 제약 조건을 추가하여 템플릿의 표현력을 높일 수 있습니다. . 여기서 템플릿은 전체 문장과 절을 일치시킬 수 있습니다.

템플릿 매칭 후 위의 예는 다음과 같은 형태로 번역됩니다.

류마티스성 심장병용 한약

골연화증 치료용 약봉지

진정 효과가 있는 무설탕 한약 조성물 및 그 제조 방법

체중 감량 효과가 있는 페이스트리 건강식품 및 그 제조 방법

이 템플릿이 문장에 사용된 것은 이번이 처음입니다. p>문장 템플릿 매칭을 통해 일부 고정된 문장 유형뿐만 아니라 일부 장거리 문장 순서도 잘 번역할 수 있어 장거리 순서에서 구문 기반 통계 번역 방법의 단점을 보완할 수 있음을 알 수 있습니다. 둘째, 템플릿 매칭 후 템플릿의 일부 상수가 올바르게 번역되고 통계 번역 디코더는 나머지 구문 조각 만 번역하면되므로 통계 디코더의 부담을 어느 정도 줄일 수 있습니다.

시스템에서 정의한 문장 템플릿은 직관적이고 언어학자가 쉽게 이해할 수 있습니다. 사용자는 번역할 텍스트의 문장 특성에 따라 번역 템플릿을 추가할 수 있어 시스템의 유연성을 크게 높일 수 있습니다.

3. 메모리 기반 번역

사용자는 시스템 사용 과정에서 올바르게 번역된 문장을 메모리에 일괄 추가할 수 있습니다. 번역 과정에서 동일한 문장이 메모리에 존재할 경우 시스템은 올바른 번역을 빠르게 검색할 수 있습니다. 메모리가 일정 규모까지 축적되면 학습 말뭉치에 추가하여 시스템의 자동 번역 품질을 더욱 향상시킬 수 있습니다.

또한 번역 시스템은 사용자가 필요에 따라 도메인 번역 사전과 사용자 번역 사전을 추가할 수 있어 시스템에 대한 사용자의 통제력을 강화할 수 있습니다.

그림 2는 중국어 텍스트 번역을 예로 들어 시스템의 주요 번역 프로세스를 보여줍니다. 이를 통해 전체 번역 프로세스에서 위의 번역 기술이 어떤 역할과 위치를 차지하는지 알 수 있습니다. 입력된 중국어 텍스트에 대해 먼저 메모리 관리 모듈을 통해 번역 메모리를 검색하고 번역 결과가 이미 존재하는 경우 바로 반환하고, 그렇지 않은 경우 시스템은 단어 분할 도구를 호출하여 중국어 단어 분할을 수행하고 단어 분할 결과를 후처리 한 다음 템플릿 매칭 모듈을 호출하여 텍스트에 템플릿 매칭을 수행 한 다음 마지막으로 통계 기반 번역을 수행합니다. 통계 기반 번역을 위해서는 통계 번역 모델 라이브러리, 즉 번역 모델과 언어 모델을 호출해야 합니다.

시스템의 주요 기능 및 성능

사용자는 시스템에서 제공하는 사용자 인터페이스를 통해 수정된 파일을 쉽게 열고 번역 용어와 번역 템플릿을 동적으로 추가하여 번역 결과를 안내할 수 있습니다. 동시에 사전에서 수정 중인 외딴 단어를 즉시 조회하고 올바른 수정 결과를 메모리에 일괄적으로 추가할 수 있습니다. 수정이 진행되는 동안에도 사용자는 번역 작업을 서버에 일괄적으로 제출하여 대기할 수 있으며, 작업이 번역된 후 번역 결과 파일을 다운로드하라는 메시지가 표시됩니다. 시스템 설계는 다중 사용자 및 다중 작업의 동시 실행을 충분히 고려했으며, 일괄 번역 작업은 클라이언트 측의 다른 비번역 작업 실행에 영향을 주지 않고 서버의 백그라운드에서 처리됩니다.

1. 번역 품질

시스템은 오리엔탈 스피릿 쉴드 테크놀로지 유한회사에서 제공하는 한의학 분야 80,000쌍의 문장(평균 문장 길이 31단어)을 학습용으로 채택했습니다. 번역 품질은 국제적으로 사용되는 평가 지표인 Bleu와 공통 평가 도구인 MTeval-V11b.pl을 사용하여 평가했습니다. 훈련 말뭉치 외부의 200개 문장으로 구성된 테스트 세트에서 표준 참조 답변 문장이 하나만 있을 때 시스템에 의한 자동 번역의 Bleu 값은 0.3020입니다.

최신 국제 수준의 기계 번역과 비교해보면, 2006년 국제적으로 유명한 NIST의 중국어-영어 번역 대규모 데이터 세트 평가에서 NIST 하위 집합(문장당 4개의 참조 답변 포함)은 다음과 같이 나타났습니다. 최고 점수는 0.3393점, 게일 게일 하위 집합(문장당 참조 답변 1개)의 최고 점수는 0.1470점이며, NIST 기계 번역 평가에 사용된 학습 데이터와 테스트 데이터는 뉴스 분야로, 학습 데이터의 규모가 본 특허 번역 시스템에 사용된 데이터보다 훨씬 큽니다. 둘을 직접 비교할 수는 없지만 소량의 학습 말뭉치만으로 특허 영역에서 시스템의 번역 수준이 세계 최고 수준의 뉴스 영역에 도달했거나 그 이상에 도달했음을 알 수 있습니다.

2. 번역 속도

번역 속도는 시간당 번역되는 단어 수로 측정합니다. 현재 시스템의 번역 속도는 시간당 654.38+0.4백만 단어입니다. 특허 제목당 평균 20단어, 특허 초록당 200단어를 번역하는 이 시스템은 12시간 작업 후 84,000개의 제목 또는 8,400개의 초록을 자동으로 번역할 수 있습니다. 이러한 번역 속도는 일상적인 보조 번역 작업의 요구를 충분히 충족할 수 있습니다.

요약하면, 이 시스템은 세계 최고의 통계 번역 기술을 채택하고 템플릿 기반과 메모리 기반 번역 방식을 결합하여 실용적인 중-영 특허 문헌 번역 시스템을 실현합니다. 이 시스템은 자동 번역 기능을 실현할 수 있을 뿐만 아니라 편리한 보조 번역 기능도 제공합니다. 사용자는 자동 번역 결과를 수정하고, 사전과 템플릿을 동적으로 추가하여 번역을 안내하고, 수정된 결과를 메모리에 일괄 추가할 수 있습니다. 현재 시스템은 시험 단계에 접어들었으며 번역 품질과 속도가 사용자의 기본 요구 사항을 충족했습니다.

(저자 푸 레이,, 허는 중국과학원 컴퓨팅 기술 연구소 대학원생입니다.)