20. 10. 05부터 20. 12. 31까지 3개월간 진행되는 프로젝트입니다. 모델의 성능과 안정성이 그다지 좋지는 않지만 다양한 방법론을 고려하여 실제 데이터에 적용하는 것이 의미가 있습니다. 일부 숫자는 기능 엔지니어링을 위해 마스킹되었으며 자세한 열 이름은 독점입니다. 아쉬움이 있다면 분석 기간이 너무 짧다. . 그리고 공개할 수 없습니다. . 제 생각에는 시간이 추가된다면 도움이 될 것 같습니다.. 아무튼 짧지만 연구 체납에 도움이 되었으면 하는 마음으로 요약글을 작성합니다.
![]()
평화의 아침 후추

1. 분석 결과의 해석

□ 탐색적 데이터 분석(EDA)을 통한 수집 현황 파악

탐색적 데이터 분석(Exploratory Data Analysis, EDA)은 빅데이터 분석의 기반이 되는 “수금 불량 등급”을 이용하여 수금 내역을 n월 출하량과 비교하여 수금 등급에 대한 이해와 활용도를 높이는 것입니다. 데이터의 분포와 가치를 살펴봄으로써 데이터가 나타내는 현상을 보다 잘 이해하고 잠재적인 문제점을 발견하고자 하였으며, 그래프나 통계적 방법을 이용하여 추심 체납현황을 시각적으로 보는 과정을 진행하였다. 따라서 소액 연체금과 거액 연체금의 특성이 결정되며, 연체금 징수 수준에 따라 징수율이 달라진다. 또한 프로세스를 다각도로 관찰함으로써 문제정의 단계에서 파악하지 못한 연체 추심 현상의 패턴을 발견할 수 있으며, 이를 바탕으로 기존 프로세스를 수정하거나 새로운 정책을 제안할 수 있다. □ 통합 예측 모델 3개 모델의 통합 모델의 평균 예측 정확도는 63.93%이다. 10월 징수수준을 기준으로 한 분석자료에서는 연체율과 징수율이 6:94로 계층불균형 문제가 발생하였다. SMOTE에서는 오버샘플링을 적용하였지만 향후 징수활동에 대한 자료를 추가하고 연체 및 징수주체를 특성화하는 변수에 대한 연구가 더 많이 이루어지면 실제 예측 정확도를 높일 수 있을 것이다. 요컨대, 이미 개발된 모델을 보완하고 체납에 영향을 미치는 변수를 다시 도출해야 함을 의미한다. 분석에 따르면 예측분석에 사용되는 기초자료의 다양화와 분석모델을 적용할 지방자치단체의 확대를 통해 정확도를 더욱 높일 필요가 있다. 분석의 범위를 확대하고, 데이터 수집의 종류와 분석 데이터의 범위를 확장하고, 기존 분석 결과와 결합하여 지속적으로 모델을 개선할 필요가 있다. □ 의사결정트리 모델 기반 유형분류 모델 연체/부실 내부 데이터와 외부 데이터를 융합한 신용정보 기반 의사결정트리 모델로 가시화하고 체납/납부대상 유형 분류를 통해 납세자 패턴을 파악한다. 모델이 중요한 변수를 선택하여 직관적으로 표현하기 때문에 모델을 이해하기 쉽고 어떤 입력 변수가 목표 변수를 설명하기에 좋은지 판단하기 쉽고 주요 변수를 선택하기 쉽습니다. 따라서 불량 행위자의 유형을 분류하면 어떤 변수에 의해 어떤 특성과 패턴이 나타나는지 식별할 수 있습니다. 앞으로 이 모델은 호화롭게 생활하고 세금을 많이 내지 않는 악질적인 범법자의 특성을 파악하는 데 도움이 될 것입니다. 이를 위해 기존 악성범죄 사례를 분석모델에 적용하여 특징을 비교 추출하는 등 관련 연구의 필요성을 제시한다. 마지막으로 차량정비활동, 압류활동, 과태료 등 불법납세자의 특성에 맞는 행위를 분석한다면 디지털과세 우수사례로 발전할 것으로 기대된다. 2. 이용계획 □ 내·외부 자료에 기반한 통보방법 연령, 성별, 지역, 체납, 체납기간 등 다양한 내·외부 자료를 차별화된 통보방법 및 수집수준으로 활용할 예정이다. 예를 들어, 수집 수준, 연령, 채무불이행 기간 등 채무불이행자의 특성을 고려한 알림 방식으로 효과적인 수집 활동을 수행할 수 있으며, 기존 방식을 SMS로 대체하는 알림 방식을 제안한다. 동시 불이행자. 있을 것입니다. □ 불량유형의 특성에 따라 고효율 수집활동 의사결정트리모델을 기반으로 유형분류모델을 통해 불량유형의 분류를 결정한다. 위반행위를 분류하여 악의적 위반행위에 대해서는 출국금지 및 명단공시 등의 행정처벌을 내리거나 신용조회 및 차량정비활동을 통한 압류 등 강력한 추심행위를 할 수 있습니다. 통지 변경 및 청구 변경. 이에 따라 체납 추심 민원이 감소하고 행정 효율성이 향상되어 효율적인 추심 활동이 진행될 것으로 기대된다. □ 체납모형 검증을 통한 징수 실효성 확인 빅데이터를 기반으로 체납금 징수수준에 따른 실제 징수활동의 실효성을 확인하기 위해서는 어음배송과 비교한 징수내역을 중심으로 예측할 필요가 있다. 좋든 나쁘 든 연체에 . 다양한 내외부 변수를 이용하여 즐겨찾기 순위를 업데이트하는 것이 실제로 즐겨찾기 활동에 도움이 되는지 확인하는 작업으로 정기적으로 사용 및 확인해야 합니다. 3. 정책제언 □ 국세청 등 타 과세기관과 정보를 공유하는 디지털행정시대 도래에 따라 국세 및 지방세 빅데이터 관련 사업이 동시 추진되는 것으로 확인됨. 빅데이터는 “정보교류”에 중점을 두고 더 많은 정보와 더 큰 실익 우위를 활용하는 것을 목표로 합니다. 즉, 지역별 맞춤형 징수활동으로 “빅데이터를 활용한 불량회수 방법”을 소통하고, 연구사례 공모전 등 정직한 공모전을 통해 징수 노력을 앞당길 것을 제안하고자 합니다. □ 효율적인 징수활동을 위한 전문인력 필요 지방세 체납 징수인력이 부족한 상황에서 공공 빅데이터를 활용한 지방세 효율화 사업을 추진할 경우 기존 인력은 업무량이 많고 전문지식이 부족한 아르바이트가 필요함 , 그리고 결국에는 공공 빅데이터의 활성화를 저해하는 요인이 있을 것입니다. 따라서 조세에 대한 높은 지식과 요인변수의 수집 및 이해도, 통계 및 데이터에 대한 전문성을 갖춘 전문가가 요구될 것으로 예상됩니다. 이를 통해 공공 빅데이터의 개방성과 활용을 도모하는 이해관계자들에게 실질적인 시사점을 줄 것으로 기대된다. 4. 기대효과 □ 원가절감 및 환급액 시뮬레이션 분석은 최종 산출된 징수수준을 기준으로 실제 징수업무에 적용되는 원가절감 및 조기환급액을 산정한다. 아래 그림은 별도의 징수 활동을 통해 약 10,000원의 비용 절감 효과를 기대할 수 있음을 보여주는 시뮬레이션 결과입니다. 또 1만원을 환급비용으로 활용해 약 1만원의 연체금을 선불로 환급하는 효과도 기대된다. 이와 같이 징수수준에 따라 체계적이고 차별화된 징수전략을 시행함으로써 불필요한 압류 및 비용을 줄이고 무분별한 징수활동으로 인한 민원을 줄일 수 있을 것으로 기대된다. 이를 통해 악의적 체납에 대한 신속한 법적 조치를 통해 회수율을 높이고, 체납자에 대한 종합적인 사회복지 서비스를 제공하며, 지자체의 장기 체납 문제를 해결할 예정이다. 5. 분석한계 및 제언 □ 지방세정보시스템 및 과세지식을 통한 분석의 필요성 지방세 효율성 빅데이터 분석을 위해서는 지방세 체납 및 과세과정에 대한 심층적인 이해가 필요하다. 즉, 체납처분(압류, 공매, 과태료 등)에 대한 전반적인 업무지식과 체납징수활동에 있어 지방세정보시스템에 대한 지식이 필요한 것이 한계로 확인되었다. 모델을 구축하고 What-How 중심의 문제를 해결하고 효과를 파악하기 위해서는 세무 지식과 빅데이터에 대한 얕은 통계적 지식을 갖춘 전문가가 반드시 필요합니다. 이를 통해 첨단 빅데이터를 기반으로 지방세 업무 처리능력을 향상시켜 조세정의를 실현하고 재정안정을 도모할 수 있다. □ 부도의 좋고 나쁨에 대한 연구의 필요성 부도에 대한 빅데이터 분석의 등장으로 신용정보회사의 좋고 나쁨 정보를 통해 등급 및 채점 모델의 도출이 확인되었다. 이는 사용자 소득과 같은 신용 정보를 고려하여 대출 및 사기 적발과 같은 위험 점수를 기반으로 예측됩니다. 추심수준은 채무자의 소득을 반영하나 채무자의 소득, 지역, 친인척, 신용조회 등 다양한 특성을 반영하여 채무의 특성에 대한 맞춤형 변수를 찾아내고 이를 개선할 필요가 있는 것으로 나타났다. 예, 특정 수신자에게 발생한 세부 사항을 확인하기 위해 도메인을 이해하는 이해 관계자가 세부 분석을 수행해야 합니다. 이를 통해 구축된 모델의 변수로 추가된다면 더 높은 예측 정확도를 보일 것으로 기대할 수 있다. □ 수혜자 특성 파악을 위한 자료 필요 개발된 예측모델은 약 63%의 양호/불량 예측 정확도를 보였고, 모델 안정성 지표는 통계적으로 상당히 낮은 것으로 확인되었다. 이 모델은 6%의 수신자 비율에서 오버샘플링하여 클래스 불균형을 설명하도록 분석되었지만 실제 수신자와 체납자를 예측하는 데는 제한적이었습니다. 향후 체납과 체납의 데이터가 증가하고 그 패턴이 파악된다면 쉽게 체납과 체납을 예측하고 예측 정확도의 한계를 높일 수 있을 것이다. □ 빅데이터 분석 기간의 한계 실제 데이터를 탐색하기 전에 지방세 정보시스템과 체납조건 및 절차를 이해하는데 상당한 시간이 소요된다. 결과적으로 탐색적 데이터 분석(EDA) 프로세스를 통해 문제를 정의하고 해결하는 주기가 짧고 세부적인 분석이 제한됩니다. 또한 앙상블과 의사결정나무 모델의 임계값과 매개변수를 수정하는 데 소요되는 시간이 정확한 결과를 내기에는 다소 부족한 것으로 확인되었다. 충분한 분석 기간과 향후 시도가 의미 있는 결과를 낳을 것으로 기대된다. 행정안전부 주관 한국지능정보사회진흥원 주관 ‘2020 공공 빅데이터 청년 인턴 확장관리 우수상’ https: //bigdatafestival.or.kr/upfiles/exhibition/performance/wxfzsf83g6o2k22.pdf 글: http://www.joongboo.com/news/articleView.html?idxno=363463645 인천시, ‘공공데이터 뉴딜사업’ 성공적으로 마무리 공공데이터 개방과 질적 향상을 통해 디지털 경제를 선도하고 청년 일자리를 창출하는 공공데이터 뉴딜 사업을 성공적으로 완료했다고 23일 밝혔다. www.joongboo.com 다시봐 엉망진창 공부 열심히 해야지 엉엉