Giter Club home page Giter Club logo

team-project-team13's Introduction

team-project-team13

team-project-team13 created by GitHub Classroom

HTML Extractor

웹페이지의 dom 구조를 추출하여 사용자가 크롤링을 사용할 때 원하는 dom만 crawling 할 수 있게 selector를 추출해준다.

Install

  1. 파일을 다운로드 받으세요
  2. chorme 창을 켜고 오른쪽 상단 크롬 메뉴 중 '도구 더보기' -> '확장 프로그램'을 클릭하세요.
  3. 오른쪽 상단에 개발자 모드를 키세요.
  4. '압축해제된 확장 프로그램을 로드합니다.' 를 클릭하고, html_extract 디렉토리를 선택하세요.
  5. 오른쪽 상단에 아이콘이 추가되면, 원하는 웹페이지에서 해당 아이콘을 클릭하세요.
  6. spend 버튼을 누르면, 해당 페이지의 Dom 구조를 보여주줍니다.
  7. 마우스로 해당 dom 구조에 올려놓으면, 해당 페이지에 해당되는 backgound color를 노란색으로 바꿔주고, 마우스를 때면, 원래색으로 바꿔줍니다.

Caution

  1. 스르륵 하면 안됩니다. (마우스로 블록을 연속적으로 빠르게 할 경우 하이라이트 부분이 없어지지 않는 경우가 발생합니다.) sruruk

  2. 하이라이트 부분이 없어지지 않고 프로그램을 재실행 했을 경우 그 부분이 노란색으로 되어 있는 경우가 발생합니다. 따라서 해당 문제가 발생했을 때 새로고침한 후 프로그램을 재실행하여 주세요.

  3. 특정 페이지(ex.Google page)에서 Dom 추출이 너무 오래 걸려서 error가 난것처럼 동작하지 않아 보일 때가 있습니다. stop

Wish

1~2 : 해당 문제에 대해 해결책을 갖고 계신 분을 issue를 남겨주시거나 pull request를 보내주세요.

3 : 오래 걸릴 경우 최대 1분 이내에는 동작을 하게 됩니다. 기다려주세요.

team-project-team13's People

Contributors

chyoungjae avatar choiyooung avatar parkjinhyuk avatar njw1204 avatar jhaemin avatar comnamu18 avatar ucyang avatar ddamddi avatar

Stargazers

 avatar

Watchers

James Cloos avatar GyuJung Kim avatar

team-project-team13's Issues

에러 수정 관련 issue

안녕하세요.
issue는 아래와 같습니다.

  1. 에러 수정 관련

리드미 7번째 줄에 '마우스로 해당 dom 구조에 올려놓으면, 해당 페이지에 해당되는 backgound color를 노란색으로 바꿔주고, 마우스를 때면, 원래색으로 바꿔줍니다.' 라고 하셨는데 아래 링크로 실험해본 결과 노란색으로 전혀 바뀌지 않는 에러를 발견하였습니다.
#5
13조 issue

  1. README 수정(recommended)

리드미 6번째 줄에 spend 버튼을 클릭하라 하셨는데 해당 확장 프로그램에는 아래와 같은 버튼밖에 보이지 않습니다.
리드미를 수정하시던지 버튼 이름을 수정하셔야 사용자들이 더 잘 이해할것 같습니다.
13조 issue2

위의 issue 검토 부탁드리고 가능하시면 수정 또한 기대하겠습니다.
감사합니다.

id값이 null로 나옵니다

develop 브랜치에 있는게 젤 최신이신거같은데 현재, extension안에 dom 구조를 클릭하면 id값이 null 값이 나오는 버그가 발견되었습니다.

노란색이 제대로 표시가 안됩니다

12
11
위와 같이 노란색이 나타나지 않거나
배경 뒤에 살짝 보이는 식으로 나타납니다.
13
다른 곳을 클릭해 프로그램을 닫고 재시작해서 print를 누르면 위와같이 프로그램 내부가 노란색으로 칠해집니다.

그리고 프로그램이 어떤 특징을 가지고 있는 지 뭘 목표로 하고 있는 지에 대해 readme에 추가하면 더 좋을 것 같습니다.

Print 진행률 표시

Dom struct Print 버튼을 누르고나서 출력이 오래걸리는 페이지가 있습니다. (google등)
이런 경우, 출력이 많이 늦을경우 유저 입장에서는 아직도 출력작업이 진행중인 것인지, 도중에 오류가나서 작업이 멈춘것인지 컴퓨터의 렉인지 판단하기 어렵다는 문제가 있습니다.

따라서 출력작업 진행률을 표시한다면 좋겠습니다.

Dom struct Print 버튼을 2번 이상 클릭하면 잘못된 동작을 함

Dom struct Print 버튼을 2번 이상 클릭하면 아래의 사진과 같이 이상한 요소가 계속해서 추가됩니다. 현재 페이지 URL과 관계없이 발생하는 오류입니다.

image


아래의 사진처럼 나오면 안 될 메시지박스도 출력됩니다. 처음 클릭했을때는 메시지박스가 1개, 두번째에는 메시지박스가 2개, 세번째에는 3개 나오는 이상한 현상도 발생합니다.

image

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.