Refact : 전략 패턴에 맞추어 기존 코드 수정

hardwoong · hardwoong · commit 1126e9bd2aab · 2025-08-20T10:46:33.000+09:00
diff --git a/src/main/java/com/perfact/be/domain/alt/service/ArticleExtractionServiceImpl.java b/src/main/java/com/perfact/be/domain/alt/service/ArticleExtractionServiceImpl.java
@@ -1,9 +1,8 @@
 package com.perfact.be.domain.alt.service;
 
 import com.perfact.be.domain.alt.dto.ArticleExtractionResult;
-
 import com.perfact.be.domain.news.dto.NewsArticleResponse;
-import com.perfact.be.domain.news.service.NewsService;
+import com.perfact.be.domain.news.extractor.factory.NewsExtractorFactory;
 import lombok.RequiredArgsConstructor;
 import lombok.extern.slf4j.Slf4j;
 import org.springframework.stereotype.Service;
@@ -13,17 +12,14 @@
 @RequiredArgsConstructor
 public class ArticleExtractionServiceImpl implements ArticleExtractionService {
 
-  private final NewsService newsService;
+  private final NewsExtractorFactory newsExtractorFactory;
 
   @Override
   public String extractArticleContent(String url) {
     try {
-      if (newsService.isNaverNewsDomain(url)) {
-        NewsArticleResponse newsData = newsService.extractNaverNewsArticle(url);
-        return newsData.getContent();
-      } else {
-        return newsService.extractNewsArticleContent(url);
-      }
+      // 모든 뉴스 사이트에 대해 동일한 방식으로 처리
+      NewsArticleResponse newsData = newsExtractorFactory.extractNews(url);
+      return newsData.getContent();
     } catch (Exception e) {
       log.error("기사 본문 추출 실패 - URL: {}, 에러: {}", url, e.getMessage(), e);
       throw new RuntimeException(e);
@@ -33,22 +29,13 @@ public String extractArticleContent(String url) {
   @Override
   public ArticleExtractionResult extractArticleWithMetadata(String url) {
     try {
-      if (newsService.isNaverNewsDomain(url)) {
-        NewsArticleResponse newsData = newsService.extractNaverNewsArticle(url);
-        return ArticleExtractionResult.builder()
-            .title(newsData.getTitle())
-            .publicationDate(newsData.getDate())
-            .content(newsData.getContent())
-            .build();
-      } else {
-        String title = newsService.extractTitleFromOtherNewsSites(url);
-        String content = newsService.extractNewsArticleContent(url);
-        return ArticleExtractionResult.builder()
-            .title(title)
-            .publicationDate("날짜 정보 없음")
-            .content(content)
-            .build();
-      }
+      // 모든 뉴스 사이트에 대해 동일한 방식으로 처리
+      NewsArticleResponse newsData = newsExtractorFactory.extractNews(url);
+      return ArticleExtractionResult.builder()
+          .title(newsData.getTitle())
+          .publicationDate(newsData.getDate())
+          .content(newsData.getContent())
+          .build();
     } catch (Exception e) {
       log.error("기사 메타데이터 추출 실패 - URL: {}, 에러: {}", url, e.getMessage(), e);
       throw new RuntimeException(e);
diff --git a/src/main/java/com/perfact/be/domain/news/controller/NewsController.java b/src/main/java/com/perfact/be/domain/news/controller/NewsController.java
@@ -1,7 +1,7 @@
 package com.perfact.be.domain.news.controller;
 
 import com.perfact.be.domain.news.dto.NewsArticleResponse;
-import com.perfact.be.domain.news.service.NewsService;
+import com.perfact.be.domain.news.extractor.factory.NewsExtractorFactory;
 import com.perfact.be.global.apiPayload.ApiResponse;
 import io.swagger.v3.oas.annotations.Operation;
 import io.swagger.v3.oas.annotations.Parameter;
@@ -17,21 +17,20 @@
 @RequiredArgsConstructor
 public class NewsController {
 
-  private final NewsService newsService;
+  private final NewsExtractorFactory newsExtractorFactory;
 
-  @Operation(summary = "뉴스 기사 내용 추출", description = "네이버 뉴스 URL을 입력받아 기사의 제목, 날짜, 내용을 추출합니다.")
+  @Operation(summary = "뉴스 기사 내용 추출", description = "뉴스 URL을 입력받아 기사의 제목, 날짜, 내용을 추출합니다. 지원 사이트: 네이버뉴스, 연합뉴스, 뉴시스, 노컷뉴스")
   @GetMapping("/article-content")
   public ApiResponse<NewsArticleResponse> getNewsArticleContent(
-      @Parameter(description = "네이버 뉴스 URL", required = true, example = "https://news.naver.com/main/read.naver?mode=LSD&mid=shm&sid1=100&oid=001&aid=0012345678") @RequestParam String url) {
-    NewsArticleResponse response = newsService.extractNaverNewsArticle(url);
+      @Parameter(description = "뉴스 URL", required = true, example = "https://news.naver.com/main/read.naver?mode=LSD&mid=shm&sid1=100&oid=001&aid=0012345678") @RequestParam String url) {
+    NewsArticleResponse response = newsExtractorFactory.extractNews(url);
     return ApiResponse.onSuccess(response);
   }
 
   @Operation(summary = "네이버 뉴스 검색", description = "검색어를 입력받아 네이버 뉴스 검색 결과를 반환합니다.")
   @GetMapping("/search")
   public ApiResponse<String> searchNaverNews(
       @Parameter(description = "검색할 키워드", required = true, example = "AI 기술") @RequestParam String query) {
-    String searchResult = newsService.searchNaverNews(query);
-    return ApiResponse.onSuccess(searchResult);
+    throw new UnsupportedOperationException("네이버 뉴스 검색 기능은 현재 지원되지 않습니다.");
   }
 }
diff --git a/src/main/java/com/perfact/be/domain/news/exception/status/NewsErrorStatus.java b/src/main/java/com/perfact/be/domain/news/exception/status/NewsErrorStatus.java
@@ -11,7 +11,7 @@
 public enum NewsErrorStatus implements BaseErrorCode {
   NOT_NAVER_NEWS(HttpStatus.BAD_REQUEST, "NEWS4001", "네이버 뉴스 도메인이 아닙니다. 네이버 뉴스를 통한 링크만 가능합니다."),
   UNSUPPORTED_NEWS_SITE(HttpStatus.BAD_REQUEST, "NEWS4002",
-      "지원하지 않는 뉴스 사이트입니다. 현재 지원되는 사이트: 네이버뉴스, 연합뉴스, 뉴시스, 노컷뉴스, 오마이뉴스 (네이버 뉴스에 최적화되어 있습니다.)"),
+      "지원하지 않는 뉴스 사이트입니다. 현재 지원되는 사이트: 네이버뉴스, 연합뉴스, 뉴시스, 노컷뉴스 (네이버 뉴스에 최적화되어 있습니다.)"),
   NEWS_CONTENT_NOT_FOUND(HttpStatus.BAD_REQUEST, "NEWS4003", "뉴스 내용을 찾을 수 없습니다."),
   NEWS_TITLE_EXTRACTION_FAILED(HttpStatus.BAD_REQUEST, "NEWS4004", "뉴스 제목 추출에 실패했습니다."),
   NEWS_DATE_EXTRACTION_FAILED(HttpStatus.BAD_REQUEST, "NEWS4005", "뉴스 날짜 추출에 실패했습니다."),
diff --git a/src/main/java/com/perfact/be/domain/news/extractor/AbstractNewsExtractor.java b/src/main/java/com/perfact/be/domain/news/extractor/AbstractNewsExtractor.java
@@ -32,7 +32,7 @@ protected String extractTitle(Document doc, String[] titleSelectors) {
       }
     }
     log.warn("제목을 찾을 수 없습니다. 사용된 셀렉터: {}", String.join(", ", titleSelectors));
-    return "제목을 찾을 수 없습니다";
+    throw new NewsHandler(NewsErrorStatus.NEWS_TITLE_EXTRACTION_FAILED);
   }
 
   // HTML 문서에서 내용 추출
@@ -48,7 +48,7 @@ protected String extractContent(Document doc, String[] contentSelectors) {
       }
     }
     log.warn("내용을 찾을 수 없습니다. 사용된 셀렉터: {}", String.join(", ", contentSelectors));
-    return "내용을 찾을 수 없습니다";
+    throw new NewsHandler(NewsErrorStatus.NEWS_CONTENT_NOT_FOUND);
   }
 
   // 내용 요소 처리
@@ -98,10 +98,14 @@ protected Document getDocument(String url) {
   // 날짜 추출
   protected String extractDate(String url) {
     try {
-      return dateExtractorService.extractArticleDate(url);
+      String date = dateExtractorService.extractArticleDate(url);
+      if (date == null || date.equals("날짜 정보 없음")) {
+        throw new NewsHandler(NewsErrorStatus.NEWS_DATE_EXTRACTION_FAILED);
+      }
+      return date;
     } catch (Exception e) {
       log.warn("날짜 추출 실패: {}", url, e);
-      return "날짜 정보 없음";
+      throw new NewsHandler(NewsErrorStatus.NEWS_DATE_EXTRACTION_FAILED);
     }
   }
 
diff --git a/src/main/java/com/perfact/be/domain/news/extractor/impl/GenericNewsExtractor.java b/src/main/java/com/perfact/be/domain/news/extractor/impl/GenericNewsExtractor.java
@@ -18,14 +18,14 @@ public GenericNewsExtractor(com.perfact.be.domain.news.service.HtmlParserService
 
   @Override
   public boolean canExtract(String url) {
-    // 네이버 뉴스, 연합뉴스, 뉴시스, 노컷뉴스가 아닌 모든 URL을 처리
-    return !url.contains("news.naver.com") && !url.contains("yna.co.kr") && !url.contains("newsis.com")
-        && !url.contains("nocutnews.co.kr") && !url.contains("ohmynews.com");
+    // 지원하는 뉴스 사이트들만 처리하고, 나머지는 거부
+    return url.contains("news.naver.com") || url.contains("yna.co.kr") || url.contains("newsis.com")
+        || url.contains("nocutnews.co.kr"); //|| url.contains("ohmynews.com");
   }
 
   @Override
   public NewsArticleResponse extract(String url) {
-    log.info("일반 뉴스 사이트 판별: {}", url);
+    log.info("지원하는 뉴스 사이트 처리: {}", url);
 
     try {
       Document doc = getDocument(url);
@@ -37,7 +37,7 @@ public NewsArticleResponse extract(String url) {
       return new NewsArticleResponse(title, date, content);
 
     } catch (Exception e) {
-      log.error("일반 뉴스 사이트 판별 실패: {}", url, e);
+      log.error("뉴스 사이트 처리 실패: {}", url, e);
       throw e;
     }
   }
diff --git a/src/main/java/com/perfact/be/domain/news/extractor/impl/OhMyNewsExtractor.java b/src/main/java/com/perfact/be/domain/news/extractor/impl/OhMyNewsExtractor.java
@@ -67,33 +67,30 @@ protected String[] getContentSelectors() {
   // 오마이뉴스 특화 날짜 추출
   private String extractDate(Document doc) {
     try {
-      // 오마이뉴스 날짜 선택자
-      Elements dateElements = doc.select("div.atc-sponsor span.date");
-
-      if (!dateElements.isEmpty()) {
-        // 첫 번째 date span 사용
-        Element firstDateElement = dateElements.first();
-        String dateText = firstDateElement.text().trim();
-
-        log.debug("오마이뉴스 원본 날짜 텍스트: {}", dateText);
-
-        // "25.08.19 15:25" 형식을 "2025-08-19 15:25" 형식으로 변환
-        String convertedDate = convertOhMyNewsDate(dateText);
-
-        if (convertedDate != null) {
-          log.info("오마이뉴스 날짜 변환 성공: {} → {}", dateText, convertedDate);
-          return convertedDate;
-        }
-      }
-
-      // fallback: 다른 날짜 선택자들 시도
-      Elements fallbackElements = doc.select("span.date, .date, [class*='date']");
-      for (Element element : fallbackElements) {
-        String text = element.text().trim();
-        String convertedDate = convertOhMyNewsDate(text);
-        if (convertedDate != null) {
-          log.info("fallback으로 오마이뉴스 날짜 추출 성공: {} → {}", text, convertedDate);
-          return convertedDate;
+      // 오마이뉴스 날짜 선택자들 (우선순위 순)
+      String[] dateSelectors = {
+          "div.atc-sponsor span.date", // 기존 셀렉터
+          "span.date", // 직접 span.date
+          ".date", // 클래스로만
+          "[class*='date']" // 클래스에 date 포함
+      };
+
+      for (String selector : dateSelectors) {
+        Elements dateElements = doc.select(selector);
+
+        if (!dateElements.isEmpty()) {
+          Element firstDateElement = dateElements.first();
+          String dateText = firstDateElement.text().trim();
+
+          log.debug("오마이뉴스 원본 날짜 텍스트: {}", dateText);
+
+          // "25.08.19 15:25" 또는 "25.08.19 19:00" 형식을 "2025-08-19 15:25" 형식으로 변환
+          String convertedDate = convertOhMyNewsDate(dateText);
+
+          if (convertedDate != null) {
+            log.info("오마이뉴스 날짜 변환 성공: {} → {}", dateText, convertedDate);
+            return convertedDate;
+          }
         }
       }
 
@@ -108,20 +105,24 @@ private String extractDate(Document doc) {
   // 오마이뉴스 날짜 형식 변환
   private String convertOhMyNewsDate(String dateText) {
     try {
-      // "25.08.19 15:25" 형식 매칭
-      Pattern pattern = Pattern.compile("(\\d{2})\\.(\\d{2})\\.(\\d{2})\\s+(\\d{2}:\\d{2})");
+      // "25.08.19 15:25" 또는 "25.08.19 19:00" 형식 매칭 (시간이 1자리 또는 2자리)
+      Pattern pattern = Pattern.compile("(\\d{2})\\.(\\d{2})\\.(\\d{2})\\s+(\\d{1,2}):(\\d{2})");
       Matcher matcher = pattern.matcher(dateText);
 
       if (matcher.find()) {
         String year = matcher.group(1);
         String month = matcher.group(2);
         String day = matcher.group(3);
-        String time = matcher.group(4);
+        int hour = Integer.parseInt(matcher.group(4));
+        String minute = matcher.group(5);
 
         // 20xx년으로 변환 (25 → 2025)
         String fullYear = "20" + year;
 
-        return String.format("%s-%s-%s %s", fullYear, month, day, time);
+        // 시간을 2자리로 포맷팅
+        String formattedHour = String.format("%02d", hour);
+
+        return String.format("%s-%s-%s %s:%s", fullYear, month, day, formattedHour, minute);
       }
 
       return null;
@@ -150,8 +151,19 @@ private void removeOhMyNewsSpecificElements(Element contentElement) {
     contentElement.select("button.zoom-btn, button.rhksfus").remove();
     contentElement.select("figure.omn-photo").remove();
 
+    // 이미지 관련 요소들 제거
+    contentElement.select("figure, .pho-center, .pho-caption").remove();
+    contentElement.select("img[src*='ohmynews.com']").remove();
+
     // 기타 불필요한 요소들
     contentElement.select("div[id*='google'], div[id*='Google']").remove();
     contentElement.select("div[class*='ad'], div[class*='Ad']").remove();
+
+    // HTML 주석 제거
+    contentElement.select("*").forEach(element -> {
+      if (element.nodeName().equals("#comment")) {
+        element.remove();
+      }
+    });
   }
 }
diff --git a/src/main/java/com/perfact/be/domain/news/service/NewsService.java b/src/main/java/com/perfact/be/domain/news/service/NewsService.java
@@ -7,12 +7,6 @@ public interface NewsService {
   // URL에서 HTML 가져오기
   org.jsoup.nodes.Document getHtmlFromUrl(String url);
 
-  // 네이버 뉴스 도메인인지 확인
-  boolean isNaverNewsDomain(String url);
-
-  // 네이버 뉴스의 제목과 내용 추출
-  NewsArticleResponse extractNaverNewsArticle(String url);
-
   // 뉴스 기사 내용 추출
   String extractNewsArticleContent(String url);
 
diff --git a/src/main/java/com/perfact/be/domain/news/service/NewsServiceImpl.java b/src/main/java/com/perfact/be/domain/news/service/NewsServiceImpl.java
@@ -31,30 +31,6 @@ public String extractNewsArticleContent(String url) {
     return newsExtractorService.extractNewsArticleContent(url);
   }
 
-  @Override
-  public boolean isNaverNewsDomain(String url) {
-    return url.contains("news.naver.com");
-  }
-
-  @Override
-  public NewsArticleResponse extractNaverNewsArticle(String url) {
-    try {
-      log.info("네이버 뉴스 기사 추출 시작: {}", url);
-
-      // 새로운 팩토리 패턴 사용
-      NewsArticleResponse newsData = newsExtractorFactory.extractNews(url);
-
-      log.info("네이버 뉴스 기사 추출 완료 - 제목: {}, 날짜: {}, 내용 길이: {}",
-          newsData.getTitle(), newsData.getDate(), newsData.getContent().length());
-
-      return newsData;
-
-    } catch (Exception e) {
-      log.error("네이버 뉴스 기사 추출 실패: {}", url, e);
-      return null;
-    }
-  }
-
   @Override
   public String extractTitleFromOtherNewsSites(String url) {
     return newsExtractorService.extractTitleFromOtherNewsSites(url);
diff --git a/src/main/java/com/perfact/be/domain/report/service/ReportServiceImpl.java b/src/main/java/com/perfact/be/domain/report/service/ReportServiceImpl.java

Original file line number	Diff line number	Diff line change
`@@ -32,7 +32,7 @@ protected String extractTitle(Document doc, String[] titleSelectors) {`
`32`	`32`	`}`
`33`	`33`	`}`
`34`	`34`	`log.warn("제목을 찾을 수 없습니다. 사용된 셀렉터: {}", String.join(", ", titleSelectors));`
`35`		`- return "제목을 찾을 수 없습니다";`
	`35`	`+ throw new NewsHandler(NewsErrorStatus.NEWS_TITLE_EXTRACTION_FAILED);`
`36`	`36`	`}`
`37`	`37`
`38`	`38`	`// HTML 문서에서 내용 추출`
`@@ -48,7 +48,7 @@ protected String extractContent(Document doc, String[] contentSelectors) {`
`48`	`48`	`}`
`49`	`49`	`}`
`50`	`50`	`log.warn("내용을 찾을 수 없습니다. 사용된 셀렉터: {}", String.join(", ", contentSelectors));`
`51`		`- return "내용을 찾을 수 없습니다";`
	`51`	`+ throw new NewsHandler(NewsErrorStatus.NEWS_CONTENT_NOT_FOUND);`
`52`	`52`	`}`
`53`	`53`
`54`	`54`	`// 내용 요소 처리`
`@@ -98,10 +98,14 @@ protected Document getDocument(String url) {`
`98`	`98`	`// 날짜 추출`
`99`	`99`	`protected String extractDate(String url) {`
`100`	`100`	`try {`
`101`		`- return dateExtractorService.extractArticleDate(url);`
	`101`	`+ String date = dateExtractorService.extractArticleDate(url);`
	`102`	`+ if (date == null \|\| date.equals("날짜 정보 없음")) {`
	`103`	`+ throw new NewsHandler(NewsErrorStatus.NEWS_DATE_EXTRACTION_FAILED);`
	`104`	`+ }`
	`105`	`+ return date;`
`102`	`106`	`} catch (Exception e) {`
`103`	`107`	`log.warn("날짜 추출 실패: {}", url, e);`
`104`		`- return "날짜 정보 없음";`
	`108`	`+ throw new NewsHandler(NewsErrorStatus.NEWS_DATE_EXTRACTION_FAILED);`
`105`	`109`	`}`
`106`	`110`	`}`
`107`	`111`