Giter Club home page Giter Club logo

maoxian-web-clipper's People

Contributors

altairwei avatar jadevane avatar landius avatar mika-cn avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

maoxian-web-clipper's Issues

建议完善几个功能

1.保存时自动创建的文件夹 前面有数字的,而且不是显示当前的日期,比如显示是这个:
1544167131-12月7日现货黄金、白银、原油、外汇短线交易策略_外汇动态报道_汇通网www-fx678-com.

2.增加删除按钮.
3.裁剪时,提供选择目录.

谢谢高手

可以考虑兼容 Boostnote

BoostIO/BoostNote-Legacy#1356
已经有155刀了。
虽然最后有个人说他想pickup,估计也是拿开源的改改。过程中出现了好几个说要做的,都没人给出结果。
今天刚好看到这个项目,感觉和Boostnote很切合,已经开发了这么多,可以顺便赚把小费。

增强一下latex公式剪藏的markdown输出

试着裁剪以下 HTML

$$<math xmlns="http://www.w3.org/1998/Math/MathML"><mstyle><msub><mi>s</mi><mi>k</mi></msub><mo>=</mo><mi>T</mi><mrow><mo>(</mo><msub><mi>r</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>=</mo><mn>255</mn><mo>⋅</mo><munderover><mo>∑</mo><mrow><mi>j</mi><mo>=</mo><mn>0</mn></mrow><mi>k</mi></munderover><mfrac><mrow><msub><mi>n</mi><mi>j</mi></msub></mrow><mrow><mi>n</mi></mrow></mfrac></mstyle></math>$$

保存为 Markdown 时表格和代码的格式有问题

问题描述:

  1. 网页含表格时,保存为 Markdown 会丢失表格的格式。
  2. 网页含代码时,能够正确转为代码的形式,但是丢失了换行。

问题重现:

  1. 打开 **/世界历史年代对照表 - 新浪 并保存为 Markdown ,会发现其中的表格被忽略掉了。
  2. 打开 什么是元编程? - 微信 并保存为 Markdown 。原文的代码是这样的:
    image
    保存后的代码是这样的:
    image

系统: Windows 10
浏览器:Chrome 69.0.3497.100

支持设置是否下载字体,以及下载何种字体?

在裁剪成 HTML 格式的时候,有些网站上有很多字体,全都下载下来没有必要,很多情况下我们甚至可以不下载字体。

除非有些字体是用来显示图标的,但图标也非我们主要想保存的东西。

[建议] 添加获取原始图片的功能

很多网站直接剪辑到的图片并非最高质量,比如twitter和pixiv,不知您是否有意向添加获取原图的功能,即在剪辑时加入一些额外步骤?

举个例子:
twitter: https://twitter.com/Masa8a/status/1133670079625777152页面上有四张图片,直接剪辑获取到的是https://pbs.twimg.com/media/D7uZ6wBUwAAEm7o.jpg,而原始图片实际上是https://pbs.twimg.com/media/D7uZ6wBUwAAEm7o.jpg:orig

pixiv: https://www.pixiv.net/member_illust.php?mode=medium&illust_id=75354898 页面上展开后有11张图片,每张图片都可以通过a href获取到其原始图片连接。

这功能并不属于插件本职范畴,算是一个个人需求。本来不该提出,但看到毛线助手里有“选取特定网站上页面元素”的功能,因此希望后续功能中考虑一下?

与第三方交互脚本无法在Firefox中正常工作

我利用脚本mx-wc-tool-v0.0.2.js写个一个简单的扩展,在chrome中可以正常使用,按C键就可以直接选中区域,但是在firefox中没有响应,控制台输出如下(和chrome中输出一致):
image

v0.1.24

自定义文件夹以"."开头时无法正常工作

这个插件非常好用,感谢作者。

最近使用中遇到问题:我习惯用Typora作为markdown管理与阅读,它可以自动隐藏以"."(英文句号,点)开头的子目录,但这个插件如果设置自定义图片文件夹名称以点开头会出错,比如$CLIP-FOLD/.assets,这会导致无法下载图片。可否考虑下修复?

谢谢。

能不能加一个定期 reset history 的功能

先来说一下我的使用场景吧

  1. 我有两台电脑,公司和家里
  2. 两个电脑的 chrome 通过 natvie app 的方式,把网页下载指定的目录
  3. 两台电脑的目录通过 dropbox 同步来保持一致
  4. 我使用了 offline index page 的功能

那么第 4 步就会出现问题,两台电脑个字产生 clippings.js 文件,内容是不一致,通过 dropbox 同步
之后,就会出现相互覆盖的现象

我想到的方式是,加一个定期 reset history 来保持 clippings.js 一致, 不知道是否有其他更合适的方式

还有我在部署 offline index page 页面的时候,需要把 url 前面加一个 / 才能正常使用,不知道这个是不是算一个 bug,
截图如下

image

@mika-cn 希望可以看一下,谢谢!

can't open the saved clips in the "History" page

Either browse or search for some clips in the "History" page, after clicking a row in the result table, it will pop-up a detail table about the clip. But I have to copy the URL of the clip and paste it to a new browser tab to see the content. May be more convenient to make the URL clickable.

非连续部分的剪藏

在使用印象笔记或是您的maoxian时,都有一个问题:无论是扩选还是缩选,剪藏插件都要求所选区域连续。

然而实际上,许多网页在有价值信息中间镶嵌了广告或者其它无关内容,如果要保存多个选区的有价值信息内容,会添加一些干扰信息,如图:
image

总而言之,希望支持点选多个非连续选区并保存在同一文件。

原始网页链接:

另外,

  • 历史中似乎不能编辑,比如希望删除一部分
  • 希望支持导入到印象笔记的接口

增强 Clip History 的管理功能 & 使用标题作为文件夹名

把 index.json 合成一个目录文件,内置到扩展中,设置成可导入、可导出

这样方便在扩展内修改 tag 且导出单一的 index.json 方便对接第三方。

想要进行删除的话,可以在 index.json 里标记删除,然后交给第三方清理。

使用标题作为 文件夹

当前用时间当作文件夹名,使本地管理的效率大大降低 ,要进入每个文件里才能知道内容,十分不便。

建议

  • 使用标题作为 文件夹
  • 时间内置到 index.json 里
  • 文件名统一 index.html index.md 方便第三方管理

使用本地程序下载时不会下载图片,使用浏览器下载能成功下载

描述

在设置中将保存方式设置为浏览器下载,能正常下载页面、CSS、图片
在设置中将保存方式设置为本地程序下载,能正常下载页面和CSS,但是不会下载图片

出现问题的网页

https://www.jianshu.com/p/7e04ed3f4bea

出现问题的浏览器

  • 360极速浏览器
    image

  • Google Chrome
    版本 73.0.3683.86(正式版本) (64 位)
    (注:google Chrome没有使用其他扩展程序)

可能导致出现该问题的原因

src\js\background\clipping-handler-native-app.js 文件中
在handle方法调用state.port.postMessage(task) 之后,responseHandler没有接收到"download.url"消息。
image

操作系统

windows10专业版 版本号1809

信息页

  • 360极速浏览器
    image

‘本地程序’ 安装失败,windows10

描述

下载,解压,修改 config.yaml 中路径后,运行 install.bat ,弹出命令行窗口立即闪退,不知道是否安装成功,tmp 文件夹下没有错误日志,重新打开浏览器还是提示安装本地程序。

运行环境

系统:Windows10 1809
ruby:2.6.3p62 (2019-04-16 revision 67580) [x64-mingw32]

截图

image


解决

犯糊涂了,已解决。

  • 运行 install.bat 弹窗关闭即运行成功
  • 没看清楚设置那提示,需要先设置 ’ 本地程序下载 ’ 才能生效

希望能增加直接选中网页正文的功能,避免多次操作

如题,因为一般剪切网页都是想保存正文内容,抛弃其它不重要的内容,所以希望可以增加这样的功能,以提高交互体验。(个人想法是可以通过id、class属性、div块大小等方式识别,理论上会出现误判,但是小几率也没关系)

无法打开以前裁剪的内容

版本:0.1.11

今天裁剪的内容可以正常弹出详情窗口
以前裁剪的内容 日期全部变成了今天 无法打开详情窗口
手动打开保存的目录 资料都还在

多个页面裁剪卡顿及Enter按键响应范围

  1. 因为有多个链接需要留档,在裁剪多个页面之后,前一个页面在下载中,则后一个页面内经常无法使用裁剪功能,表现为点击裁剪按钮不出现裁剪框,我不知道是我自身的原因还是插件的原因.
  2. Enter按键的响应范围,在裁剪框进入绿色状态,按Enter之前,拖动浏览器的滚动条后,Enter不响应,此时再次点击页面任意内容,Enter可以响应

另:有没有一个文件夹名称和url对应的方式来保证能通过url就能定位到对应的文档呢,因为是留档,可能有时候需要根据url找一找这个留档文件,有一个对应关系会好一点,我估计可行的方案是Base64和sha128,Base64保证了完全对应但是需要使用url安全的base64避免路径问题,sha128是因为考虑到个人的文档资料不会过多,git也采用了sha128,所以这种也是可以的

知乎页面上不能用了

如题,试过关闭其他所有扩展,还是不行,任何回答都这样,结果如下:

# [有哪些华而不实的武器? - 知乎]



---------------------------------------------------


原网址: [访问](https://www.zhihu.com/question/28712460/answer/495266315)

创建于: 2018-09-20 22:49:03

目录: 无

标签: 无

can't download

capture

the message "downloading..." just appear beside the scroll bar, but nothing happened, no files downloaded.

browser: firefox
os: win10

gist 代码无法裁剪成 markdown 的代码块

发生场景:

  • 直接裁剪 gist.github.com 上的代码
  • 其他网站在文章中引用了 gist 代码

发生原因:

gist 在渲染的时候格式不标准,不是 <pre><code>$code</code></pre>

关于插件二次开发的一些建议

maoxian-web-clipper 是我目前在 GitHub 上见过的 HTML 格式剪辑效果最好的浏览器插件。但我常用 WizNote 来保存和查阅网页剪裁,因此正在为 maoxian-web-clipper 开发一个 clipping-handler-WizNotePlus.js 用以将网页剪辑保存到 WizNotePlus 。

对于 maoxian-web-clipper 的发展,我有以下几点不成熟的建议:

  1. 完善 clipping-handler 相关 APIs :从 src/js/background 中的两个 clipping-handler 来看,maoxian-web-clipper 可以用不同的保存工具来拓展用途。比如 browsernative-appclipping-handler 都自己维护本地文件以保存剪辑。如果想在这一方向更进一步,让其他开发者能够轻松开发出适用新工具的 clipping-handler ,希望可以将 APIs 调用设计的更完善一些,包括更加丰富的剪辑保存进度通知系统目录和标签查询接口剪辑历史查询接口 等等。简而言之就是降低网页剪裁和 clipping-handler 的耦合度,让第三方开发者能够更加轻松的设计各自的 clipping-handler

  2. 明确剪辑任务顺序:在开发一个新的 clipping-handler 的经历中,我发现无法准确判断剪辑保存任务的起始和结束顺序;举个例子,在 src/js/content/store-client.js 中:

      addAssets: function(clipId, assetFold, assetInfos){
        T.each(assetInfos, function(it){
          // same link, download once.
          KeyStore.add(it.link).then((canAdd) => {
            if(canAdd) {
              StoreClient.addAsset(clipId, assetFold, it);
            }
          }).catch((err) => {
            console.error(err);
            console.trace();
          });
        });
      },

    网页剪辑的 assets 会先经过 KeyStore 的异步操作后,才调用 StoreClientaddAsset ,这样会导致 index.html 的消息先于各个资源文件传递给 clipping-handler 。从 src/js/content/save.js 来看,index.json 文件应该是剪辑起始位点,而从 src/js/content/save-as-html.js 来看,index.html 应该是剪辑结束位点,但从我实践中发现 index.html 并不是最后一个需要下载的文件。

  3. 使用 async/await 改写回调函数:从代码维护和阅读方向来看,async/await 毫无疑问比回调地狱更有优势。希望尽量将回调函数的调用改写成 async/await 模式,这方面工作量很大我可以帮忙。另外,考虑到第三方工具可能需要异步初始化远程连接,所以在 src/js/background.jssaveTask 函数中,请等待 await handler.init() 完成后再调用 handler.handle(task),并且如果初始化失败,能够提示用户相关信息。

裁剪 github issue 頁的時候,卡在 start save clipping...

TypeError: window is null 96 WebRequestContent.js:124:7
TypeError: window is null 136 WebRequestContent.js:124:7
Content Security Policy: Ignoring ‘x-frame-options’ because of ‘frame-ancestors’ directive.
This site appears to use a scroll-linked positioning effect. This may not work well with asynchronous panning; see https://developer.mozilla.org/docs/Mozilla/Performance/ScrollLinkedEffects for further details and to join the discussion on related tools and features! 1356
Security Error: Content at moz-nullprincipal:{2eff5fba-29e7-4ea4-8961-864a1b8bed57} may not load data from moz-extension://e2385c5b-0d67-4278-ae24-e93faf81d070/js/background/web-request.js.
NS_ERROR_DOM_BAD_URI: Component returned failure code: 0x805303f4 [nsIWebNavigation.loadURI] viewSource-content.js:288
SearchSuggestionController: HTTP error SearchSuggestionController.jsm:380
Content Security Policy: Ignoring ‘x-frame-options’ because of ‘frame-ancestors’ directive. 6
This site appears to use a scroll-linked positioning effect. This may not work well with asynchronous panning; see https://developer.mozilla.org/docs/Mozilla/Performance/ScrollLinkedEffects for further details and to join the discussion on related tools and features! 1356
Cross-Origin Request Blocked: The Same Origin Policy disallows reading the remote resource at ‘https://collector.githubapp.com/collect’. (Reason: Credential is not supported if the CORS header ‘Access-Control-Allow-Origin’ is ‘*’).

Content Security Policy: Ignoring ‘x-frame-options’ because of ‘frame-ancestors’ directive.

時好時壞

Feature request: Saving all data to SQlite

Awesome tool. Nice conversion to markdown incl. frontmatter/json. And perhaps the best: Fantastic customizations are possible. Any plans of saving all data to SQlite?

加上测试

不管以何种手段, 需加上测试, 至少是把核心功能加上测试。

能不能把history.html页面移动或者同步备份到到保存目录下

因为没法单独删除一条记录(浏览扩展的自身限制吗?),所以打算自己写个小程序来管理下载的条目。history.html的位置太隐蔽了。
所以如果能在保存目录下保存history.html,管理条目的小程序做起来就方便的多。
希望能考虑一下。

【建议】能否支持开发者功能

插件能不能支持开发者选项,通过支持本地localhost 交互 http请求
二次开发者可以通过其他二次开发软件来和chrome的这个插件交互
保存网页到本地,这样自动化

最后还是要赞美下这个插件
本来想要找一个类似印象笔记剪藏功能的本地实现
找了一圈,发现了这个神器,可以本地保存

自定义图片文件夹名称 与 图片文件名优化

感谢作者!扩展很好用。
针对markdown有两个建议

  1. 能不能自定义图片文件夹名称(联动文章内相对引用一起改)
  2. 能不能在图片名称前加上和文件夹名称一样的unix time呢?因为是在别处重新管理md文档,一些文件的图片会放到一个文件夹里,图片名称全部随机的话不太好管理。
    image

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.