정보 추출이란 무엇입니까?
정보 검색이라고도하는 정보 추출 (IE)은 컴퓨터 시스템과 함께 사용하여 사전 정의 된 일련의 기준을 사용하여 더 큰 데이터 본문에서 관련 데이터를 추출 할 수 있도록하는 프로세스입니다. 정보 추출의 기본 개념은 필요한 정확한 데이터를 찾기 위해 많은 양의 정보를 수동으로 처리 할 필요없이 특정 활동과 관련된 데이터를 쉽게 식별하고 동화 할 수 있도록하는 것입니다. 이 프로세스는 개념 마이닝 또는 웹 스크래핑의 아이디어와 유사합니다. 이러한 모든 접근 방식은 더 넓은 범위의 가용 데이터 풀에서 유용한 정보를 수집하려고합니다.
정보 추출에 대한 일반적인 접근 방식은 머신 판독 가능한 정보 소스를 스캔 할 수있는 프로그래밍을 사용해야합니다. 여기에는 일종의 전자 파일로 스캔 된 하드 카피 문서, 스프레드 시트 또는 워드 프로세싱 문서로 준비된 문서 또는 데이터베이스의 읽을 수있는 필드에 포함 된 데이터가 포함될 수 있습니다. 일반적으로 매개 변수는 소프트웨어 프로그램이 이러한 데이터 소스에 액세스 할 수있게하고 특정 기준을 사용하여 신속하게 스캔하여 사용 가능한 풀에서 특정 유형의 정보를 우선 순위 화하고 추출 할 수 있도록 설정됩니다. 이 프로세스는 일반적으로 간단한 검색 프로세스와 다릅니다.이 방법은 특정 단어 나 구 자체를 일치시키지 않고 자연어 처리라는 프로세스를 사용하므로 실제 단어뿐만 아니라 컨텍스트 및 그 맥락에서 암시 된 의미.
정보 추출과 관련된 복잡성으로 인해이 방법을 사용하는 것은 전 세계적으로 관리하기가 다소 어렵지만, 전자 도구와 관련된 데이터 원본과 같은 제한된 양의 데이터에서만 잘 작동하는 IE 도구가 있습니다. 회사의 서버 또는 제한된 수의 뉴스 피드와 관련된 소스 풀. 이 방법을 사용하면 일부 유형의 이벤트를 식별하고 이벤트에 특정 수의 참가자가 포함되도록 반환을 제한하고 날짜에 따라 데이터를 정렬 할 수 있습니다.
많은 형태의 기술과 마찬가지로 정보 추출에 사용되는 도구가 지속적으로 개선되고 있습니다. 21 세기 초 이래로 관련 정보 검색의 일부로 매개 변수를 설정하고 점점 더 많은 전자 데이터를 활용할 수있는 기능이 크게 향상되었습니다. 여기에는 대량의 비정형 데이터를 처리하고 해당 매개 변수를 사용하여 해당 데이터에 순서 나 구조를 가져 오는 기능이 포함되어있어 향후 검색에 더욱 유용합니다.