Main Images



Motivations and Contributions:


Phenotyping with electronic health records (EHR) has received much attention in recent years because the phenotyping opens a new way to discover clinically meaningful insights, such as disease progression and disease subtypes without human supervisions. In spite of its potential benefits, the complex nature of EHR often makes the analysis challenging. Traditional approaches on EHR-based phenotyping utilized unsupervised and supervised learning methods separately by independently detecting phenotypes and predicting medical risk scores. To improve EHR-based phenotyping by bridging the gap, this research develops Bayesian nonparametric collaborative topic Poisson factorization (BN-CTPF) that is the first nonparametric content-based Poisson factorization and the first application of jointly analyzing the phenotypes and estimating  the individual medical risks scores. BN-CTPF provides boosted performances in predicting the risk scores and shows improved phenotype quality in terms of perplexity. Also, BN-CTPF provides faceted views on the phenotypes by patient demographics.


전자의무기록(EHR) 을 통한 표현형의 발견은 최근 많은 관심을 받고 있다. 왜냐하면 표현형은 사람의 감독 없이도 질병 진행과 질병 하위유형과 같은 임상적으로 의미 있는 통찰력을 발견할 수 있는 새로운 길을 열었기 때문이다. 이러한 잠재적인 이점에도 불구하고, 흔히 EHR의 복잡한 특성은 분석을 도전적으로 만든다. EHR 기반 표현형에서의 전통적인 접근 방식은 독립적인 표현형 감지와 의료 위험도 점수에 의해 별도로 자율 및 지도학습방법을 활용한다. EHR 기반 표현형을 개선하기 위해서 공백을 메움으로써, 이 연구는 첫 번째 비모수 내용기반 포아송 분해이자, 표현형 분석과 개인 의료 위험도 점수 예측을 공동으로 한 첫 애플리케이션인 베이지안 비모수 공동 주제 포아송 인수 분해(BN-CTPF)를 개발한다. BN-CTPF는 위험 점수 예측에 있어서 성능을 증폭시키고, 혼란의 관점에서 개선된 표현형 품질을 보여준다. 또한 BN-CTPF는 환자 인구통계 자료에 의한 표현형에서 다면적인 관점을 제공한다.


Potential Impacts:


This nonparametric Bayesian model has a potential benefit in analyzing national-scale EHR. BN-CTPF utilized scalable stochastic variational inference algorithm and it enables scalable learning for real-world EHR with over three million prescriptions. Furthermore, compared to traditional pipelined-approaches, BN-CTPF is a tightly-coupled model in the sense that there is a close interaction between extracting phenotypes and predicting medical risks in learning procedure. As a result, we can extract faceted views on phenotypes by patient demographics and it provides more accurate medical risks estimation per demographics and the reason why.


이 비모수적 베이지안 모델은 국가 규모의 EHR 분석에서 잠재적인 이점이 있다. BN-CTPF는 확장 가능한 확률 변분 추론 알고리즘을 사용하고, 3백만 이상의 처방을 통해 실사회의 EHR에 대해 확장 가능한 학습이 가능하다. 또한 전통 파이프라인 방식에 비해, BN-CTPF는 학습과정에서 표현형 추출과 의료 위험 예측 사이에 밀접한 상호 작용이 존재한다는 의미에서 밀착 결합 모델이다. 그 결과, 우리는 환자 인구통계에 의한 표현형에서 다면적인 관점을 추출할 수 있고, 각 인구 통계에 대하여 더 정확한 의료 위험도 예측과 그 이유를 제공한다.


Related Publications


Lee, W., Lee, Y., Kim, H., and Moon, I.-C., 2016. Bayesian Nonparametric Collaborative Topic Poisson Factorization for Electronic Health Records-Based Phenotyping. In International Joint Conference on Artificial Intelligence (IJCAI 2016). pp.2544-2552, New York, USA