포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.




이번 강의에서는 BeautifulSoup을 활용해 실제 웹페이지의 데이터를 긁어오는 과정을 처음부터 끝까지 배울 수 있었다. 직접 코드를 작성해보며 구조를 파악하고 원하는 정보를 어떻게 추출해야 하는지를 체감할 수 있는 강의였다. 특히 HTML 구조를 분석하는 법과 태그, 클래스, id를 기준으로 데이터를 선택하는 방법을 배우면서 웹페이지가 단순히 눈에 보이는 화면이 아니라 체계적으로 구성된 문서라는 사실을 다시 느꼈다. 평소에는 브라우저로 보는 겉모습만 익숙했는데, 개발자 도구를 열어 DOM 구조를 탐색해보니 데이터를 얼마나 체계적으로 가져올 수 있는지가 한눈에 보였다.BeautifulSoup에서 제공하는 find, find_all 메서드를 활용해 필요한 정보만 선별적으로 추출하는 방식이 직관적이어서 초보자도 쉽게 따라 할 수 있었다. 텍스트를 가져오는 것뿐만 아니라 속성 값을 읽거나 특정 조건을 만족하는 요소를 필터링하는 과정이 흥미로웠다. 또한 requests를 이용해 웹페이지 HTML을 불러오는 과정과 함께, 크롤링 시 꼭 고려해야 하는 요소들—예를 들어 헤더 설정, 차단 회피, robots.txt 확인 등—도 함께 짚어주어 실제 프로젝트에서도 바로 활용할 수 있는 실전 감각을 얻을 수 있었다. 웹에서 필요한 데이터를 직접 수집할 수 있다는 능력이 얼마나 강력한지였다. 그동안 데이터 분석이나 마케팅 자동화를 시도할 때 공개된 API만 사용해야 해서 한계가 있다고 느꼈는데, 웹 크롤링을 통해 더 다양한 데이터를 자유롭게 확보할 수 있는 가능성을 발견했다. 정보 수집이 자유로워지니 앞으로 만들 수 있는 서비스나 콘텐츠의 범위가 크게 넓어질 것 같다.또한 BeautifulSoup은 배우기 쉽고 빠르게 결과를 확인할 수 있어 웹 크롤링 입문용으로 적합한 도구라고 느꼈다. 직접 실습을 통해 코드를 작성해 보니, 앞으로는 원하는 웹사이트의 데이터를 수집해 자동화하거나 개인 프로젝트에 활용할 수 있다는 자신감도 생겼다. 특히 쇼핑몰 데이터, 블로그 글 정보, 키워드 관련 콘텐츠 수집 등 여러 활용 아이디어가 떠올랐다.