mika-cn / maoxian-web-clipper Goto Github PK

A web extension to clip information from web page. Save it to your local machine to avoid information invalidation. Not bored registration, Not charged.

License: MIT License

Shell 0.63% JavaScript 87.69% CSS 1.85% HTML 6.53% Ruby 3.31%

maoxian-web-clipper's People

Contributors

Stargazers

Watchers

Forkers

cpiger kai256 chence xiongyibo abhisharmab huangjiaju altairwei shuixin536 lslz627 poramasionwu alonefire monkeyfx forkpool can-cc markwu brickc7 mlp84 6313504 lsj8924 liuhoward haigeno1 adeis collectionsbox szp1206 webest lornewu sugear myanbin agathauy ridge66 mrwrh tianshuqitan paullcm gema-arta photon-platform kevinlights fraloow czqhurricnae zoenbo dneht christopherongys cslily bigshans no2key zxhycxq zermylf djsousuo sirius-fan rxhmdia ouer1224 appotry ftzz100 shaohan0228 bbglx wooodhead wulinfa lzong-tw bryanwall gitboy129 jackylau0219 yuzengbaocy jshpng douzh coderexamples zhuoshuai asialiugf simontage d-s-c-j un33ku yyy33 xqzh2012 hutupro contropist cjh0613 weiwan5675 10bits kawhiwei bsdmylove liangguo mxq-lcc bodhihi 2089764 heismart vivisoymilk3 product-think2049 eyecat geekhuyang jackpanl elmeet fcworker bldc888 yimoki waibo st2ne songsinfra fspark dosycorps landius lijian hbj87

maoxian-web-clipper's Issues

建议完善几个功能

1.保存时自动创建的文件夹前面有数字的,而且不是显示当前的日期,比如显示是这个:
1544167131-12月7日现货黄金、白银、原油、外汇短线交易策略_外汇动态报道_汇通网www-fx678-com.

2.增加删除按钮.
3.裁剪时,提供选择目录.

谢谢高手

可以考虑兼容 Boostnote

BoostIO/BoostNote-Legacy#1356
已经有155刀了。
虽然最后有个人说他想pickup，估计也是拿开源的改改。过程中出现了好几个说要做的，都没人给出结果。
今天刚好看到这个项目，感觉和Boostnote很切合，已经开发了这么多，可以顺便赚把小费。

$$<math xmlns="http://www.w3.org/1998/Math/MathML"><mstyle><msub><mi>s</mi><mi>k</mi></msub><mo>=</mo><mi>T</mi><mrow><mo>(</mo><msub><mi>r</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>=</mo><mn>255</mn><mo>⋅</mo><munderover><mo>∑</mo><mrow><mi>j</mi><mo>=</mo><mn>0</mn></mrow><mi>k</mi></munderover><mfrac><mrow><msub><mi>n</mi><mi>j</mi></msub></mrow><mrow><mi>n</mi></mrow></mfrac></mstyle></math>$$

保存为 Markdown 时表格和代码的格式有问题

问题描述：

网页含表格时，保存为 Markdown 会丢失表格的格式。
网页含代码时，能够正确转为代码的形式，但是丢失了换行。

问题重现：

打开 **/世界历史年代对照表 - 新浪并保存为 Markdown ，会发现其中的表格被忽略掉了。
打开什么是元编程？ - 微信并保存为 Markdown 。原文的代码是这样的：

保存后的代码是这样的：

系统： Windows 10
浏览器：Chrome 69.0.3497.100

Http header 问题

有些图片，没有正确的 Referer 可能保存不下来。

支持设置是否下载字体，以及下载何种字体？

在裁剪成 HTML 格式的时候，有些网站上有很多字体，全都下载下来没有必要，很多情况下我们甚至可以不下载字体。

除非有些字体是用来显示图标的，但图标也非我们主要想保存的东西。

bug ,正文内容无法被下载

https://blog.csdn.net/github_35160620/article/details/53353672?utm_source=blogxgwz0
下载此链接时 ,发现正文内容无法被下载 ,浏览器内置下载器显示下载失败(.md文件下载失败), 然后鼠标无法划选该网页 ,不过在刷新网页后恢复划选 .
https://blog.csdn.net/zhxlx/article/details/79291814
但是这个链接正文内容可以下载 ,也没有出现鼠标无法划选的问题
不知道这bug是什么原因造成的

[建议] 添加获取原始图片的功能

很多网站直接剪辑到的图片并非最高质量，比如twitter和pixiv，不知您是否有意向添加获取原图的功能，即在剪辑时加入一些额外步骤？

举个例子：
twitter: https://twitter.com/Masa8a/status/1133670079625777152页面上有四张图片，直接剪辑获取到的是https://pbs.twimg.com/media/D7uZ6wBUwAAEm7o.jpg，而原始图片实际上是https://pbs.twimg.com/media/D7uZ6wBUwAAEm7o.jpg:orig

pixiv: https://www.pixiv.net/member_illust.php?mode=medium&illust_id=75354898 页面上展开后有11张图片，每张图片都可以通过a href获取到其原始图片连接。

这功能并不属于插件本职范畴，算是一个个人需求。本来不该提出，但看到毛线助手里有“选取特定网站上页面元素”的功能，因此希望后续功能中考虑一下？

与第三方交互脚本无法在Firefox中正常工作

我利用脚本mx-wc-tool-v0.0.2.js写个一个简单的扩展，在chrome中可以正常使用，按C键就可以直接选中区域，但是在firefox中没有响应，控制台输出如下（和chrome中输出一致）：

v0.1.24

自定义文件夹以"."开头时无法正常工作

这个插件非常好用，感谢作者。

最近使用中遇到问题：我习惯用Typora作为markdown管理与阅读，它可以自动隐藏以"."（英文句号，点）开头的子目录，但这个插件如果设置自定义图片文件夹名称以点开头会出错，比如$CLIP-FOLD/.assets，这会导致无法下载图片。可否考虑下修复？

谢谢。

能不能加一个定期 reset history 的功能

先来说一下我的使用场景吧

我有两台电脑，公司和家里
两个电脑的 chrome 通过 natvie app 的方式，把网页下载指定的目录
两台电脑的目录通过 dropbox 同步来保持一致
我使用了 offline index page 的功能

那么第 4 步就会出现问题，两台电脑个字产生 clippings.js 文件，内容是不一致，通过 dropbox 同步
之后，就会出现相互覆盖的现象

我想到的方式是，加一个定期 reset history 来保持 clippings.js 一致, 不知道是否有其他更合适的方式

还有我在部署 offline index page 页面的时候，需要把 url 前面加一个 / 才能正常使用，不知道这个是不是算一个 bug，
截图如下

maoxian-web-clipper/offline-pages/history/assets/script.js

Line 36 in 0312831

url: url

@mika-cn 希望可以看一下，谢谢！

请高手增加一个另存为mht的功能

请高手增加一个另存为mht的功能,mht文件是单个文件,这样保存和检索更简单便捷.这个功能类似于save page WE 这个插件.

can't open the saved clips in the "History" page

Either browse or search for some clips in the "History" page, after clicking a row in the result table, it will pop-up a detail table about the clip. But I have to copy the URL of the clip and paste it to a new browser tab to see the content. May be more convenient to make the URL clickable.

能不能像印象笔记剪藏一样保存？

非连续部分的剪藏

在使用印象笔记或是您的maoxian时，都有一个问题：无论是扩选还是缩选，剪藏插件都要求所选区域连续。

然而实际上，许多网页在有价值信息中间镶嵌了广告或者其它无关内容，如果要保存多个选区的有价值信息内容，会添加一些干扰信息，如图：

总而言之，希望支持点选多个非连续选区并保存在同一文件。

原始网页链接：

另外，

历史中似乎不能编辑，比如希望删除一部分
希望支持导入到印象笔记的接口

增强 Clip History 的管理功能 & 使用标题作为文件夹名

把 index.json 合成一个目录文件，内置到扩展中，设置成可导入、可导出

这样方便在扩展内修改 tag 且导出单一的 index.json 方便对接第三方。

想要进行删除的话，可以在 index.json 里标记删除，然后交给第三方清理。

使用标题作为文件夹名

当前用时间当作文件夹名，使本地管理的效率大大降低，要进入每个文件里才能知道内容，十分不便。

建议

使用标题作为 文件夹 名
时间内置到 index.json 里
文件名统一 index.html index.md 方便第三方管理

用了这款软件，你将收获整个世界！

我是蔡徐坤，我非常满意这款软件。

使用本地程序下载时不会下载图片,使用浏览器下载能成功下载

描述

在设置中将保存方式设置为浏览器下载，能正常下载页面、CSS、图片
在设置中将保存方式设置为本地程序下载，能正常下载页面和CSS，但是不会下载图片

出现问题的网页

https://www.jianshu.com/p/7e04ed3f4bea

出现问题的浏览器

360极速浏览器
Google Chrome
版本 73.0.3683.86（正式版本）（64 位）
(注:google Chrome没有使用其他扩展程序)

可能导致出现该问题的原因

src\js\background\clipping-handler-native-app.js 文件中
在handle方法调用state.port.postMessage(task) 之后，responseHandler没有接收到"download.url"消息。

操作系统

windows10专业版版本号1809

信息页

360极速浏览器

‘本地程序’ 安装失败，windows10

描述

下载，解压，修改 config.yaml 中路径后，运行 install.bat ，弹出命令行窗口立即闪退，不知道是否安装成功，tmp 文件夹下没有错误日志，重新打开浏览器还是提示安装本地程序。

运行环境

系统：Windows10 1809
ruby：2.6.3p62 (2019-04-16 revision 67580) [x64-mingw32]

截图

解决

犯糊涂了，已解决。

运行 install.bat 弹窗关闭即运行成功
没看清楚设置那提示，需要先设置 ’ 本地程序下载 ’ 才能生效

希望能增加直接选中网页正文的功能，避免多次操作

如题，因为一般剪切网页都是想保存正文内容，抛弃其它不重要的内容，所以希望可以增加这样的功能，以提高交互体验。（个人想法是可以通过id、class属性、div块大小等方式识别，理论上会出现误判，但是小几率也没关系）

bug

https://www.toshellandback.com/2017/02/11/psexec/
该页面无法裁剪。

NativeApp: DisconnectErr:Native host has exited.

history 页面删除文章的时候，报错，报错如下

错误日志见附件
怀疑 rmdir 可能没加参数
app.log

文件夹名字

https://ws1.sinaimg.cn/large/aefe63a0gy1fyjfhdh4mpj20jz02fdfr.jpg

我已经使用标题作为文件夹的名字了，但那个默认裁剪文件夹格式无法去掉。不可二选一吗？想去掉前面的时间。那个时间太长了导致中文都显示不全。

保存成 Markdown 時，隱藏的元素不要保存

无法打开以前裁剪的内容

版本：0.1.11

今天裁剪的内容可以正常弹出详情窗口
以前裁剪的内容日期全部变成了今天无法打开详情窗口
手动打开保存的目录资料都还在

希望能把index.html 换成网页标题的名字

多个页面裁剪卡顿及Enter按键响应范围

因为有多个链接需要留档,在裁剪多个页面之后,前一个页面在下载中,则后一个页面内经常无法使用裁剪功能,表现为点击裁剪按钮不出现裁剪框,我不知道是我自身的原因还是插件的原因.
Enter按键的响应范围,在裁剪框进入绿色状态,按Enter之前,拖动浏览器的滚动条后,Enter不响应,此时再次点击页面任意内容,Enter可以响应

另:有没有一个文件夹名称和url对应的方式来保证能通过url就能定位到对应的文档呢,因为是留档,可能有时候需要根据url找一找这个留档文件,有一个对应关系会好一点,我估计可行的方案是Base64和sha128,Base64保证了完全对应但是需要使用url安全的base64避免路径问题,sha128是因为考虑到个人的文档资料不会过多,git也采用了sha128,所以这种也是可以的

新增一个离线的索引页

功能与了历史页面类似。

处理NativeApp 做在对接后，修改配置文件的更新问题

需更新扩展拿到的目录路径

请问能解决和其它下载插件的冲突问题吗

我目前使用了Aria2的下载管理器。但是和这个工具存在冲突。由于两个都是常用的工具，不知道在技术上有没有可能解决两个插件的冲突。

选中元素刚好是一个Iframe 的时候，裁剪有问题

如果选中的是图片元素呢？测试这些特殊情况...

知乎页面上不能用了

如题，试过关闭其他所有扩展，还是不行，任何回答都这样，结果如下：

# [有哪些华而不实的武器？ - 知乎]



---------------------------------------------------


原网址: [访问](https://www.zhihu.com/question/28712460/answer/495266315)

创建于: 2018-09-20 22:49:03

目录: 无

标签: 无

希望增加一个可选功能, 把unix时间戳换成这种格式201810031240

这样看起来直观

can't download

the message "downloading..." just appear beside the scroll bar, but nothing happened, no files downloaded.

browser: firefox
os: win10

UI 流程优化

优先级低

加一个 Enter 同等功能的按钮？

gist 代码无法裁剪成 markdown 的代码块

发生场景:

直接裁剪 gist.github.com 上的代码
其他网站在文章中引用了 gist 代码

发生原因:

gist 在渲染的时候格式不标准，不是 <pre><code>$code</code></pre>

裁剪github readme页面时图片下载不全

裁剪github readme页面时图片下载不全。如：https://github.com/TideSec/Tide
别的页面有时图片较多时，也会出现图片下载不全无法显示。（暂时忘记哪个页面了）

Mac 下无 realpath 导致 Native App 的安装脚本执行失败

因为 macOS 下无 realpath 命令，导致install.sh中：

DIR=$(dirname $(realpath "$0"))

执行出错。

反馈一个bug ,剪csdn论坛文章时 ,图片无法被正确下载

https://blog.csdn.net/weiaitaowang/article/details/52048462
文章里的png图片都被下载为 ,254字节的空白文件

关于插件二次开发的一些建议

maoxian-web-clipper 是我目前在 GitHub 上见过的 HTML 格式剪辑效果最好的浏览器插件。但我常用 WizNote 来保存和查阅网页剪裁，因此正在为 maoxian-web-clipper 开发一个 clipping-handler-WizNotePlus.js 用以将网页剪辑保存到 WizNotePlus 。

对于 maoxian-web-clipper 的发展，我有以下几点不成熟的建议:

完善 clipping-handler 相关 APIs ：从 src/js/background 中的两个 clipping-handler 来看，maoxian-web-clipper 可以用不同的保存工具来拓展用途。比如 browser 和 native-app 等 clipping-handler 都自己维护本地文件以保存剪辑。如果想在这一方向更进一步，让其他开发者能够轻松开发出适用新工具的 clipping-handler ，希望可以将 APIs 调用设计的更完善一些，包括更加丰富的剪辑保存进度通知系统、目录和标签查询接口、剪辑历史查询接口 等等。简而言之就是降低网页剪裁和 clipping-handler 的耦合度，让第三方开发者能够更加轻松的设计各自的 clipping-handler ；
明确剪辑任务顺序：在开发一个新的 clipping-handler 的经历中，我发现无法准确判断剪辑保存任务的起始和结束顺序；举个例子，在 src/js/content/store-client.js 中：
```
  addAssets: function(clipId, assetFold, assetInfos){
    T.each(assetInfos, function(it){
      // same link, download once.
      KeyStore.add(it.link).then((canAdd) => {
        if(canAdd) {
          StoreClient.addAsset(clipId, assetFold, it);
        }
      }).catch((err) => {
        console.error(err);
        console.trace();
      });
    });
  },
```
网页剪辑的 assets 会先经过 KeyStore 的异步操作后，才调用 StoreClient 的 addAsset ，这样会导致 index.html 的消息先于各个资源文件传递给 clipping-handler 。从 src/js/content/save.js 来看，index.json 文件应该是剪辑起始位点，而从 src/js/content/save-as-html.js 来看，index.html 应该是剪辑结束位点，但从我实践中发现 index.html 并不是最后一个需要下载的文件。
使用 async/await 改写回调函数：从代码维护和阅读方向来看，async/await 毫无疑问比回调地狱更有优势。希望尽量将回调函数的调用改写成 async/await 模式，这方面工作量很大我可以帮忙。另外，考虑到第三方工具可能需要异步初始化远程连接，所以在 src/js/background.js 的 saveTask 函数中，请等待 await handler.init() 完成后再调用 handler.handle(task)，并且如果初始化失败，能够提示用户相关信息。

裁剪 github issue 頁的時候，卡在 start save clipping...

TypeError: window is null 96 WebRequestContent.js:124:7
TypeError: window is null 136 WebRequestContent.js:124:7
Content Security Policy: Ignoring ‘x-frame-options’ because of ‘frame-ancestors’ directive.
This site appears to use a scroll-linked positioning effect. This may not work well with asynchronous panning; see https://developer.mozilla.org/docs/Mozilla/Performance/ScrollLinkedEffects for further details and to join the discussion on related tools and features! 1356
Security Error: Content at moz-nullprincipal:{2eff5fba-29e7-4ea4-8961-864a1b8bed57} may not load data from moz-extension://e2385c5b-0d67-4278-ae24-e93faf81d070/js/background/web-request.js.
NS_ERROR_DOM_BAD_URI: Component returned failure code: 0x805303f4 [nsIWebNavigation.loadURI] viewSource-content.js:288
SearchSuggestionController: HTTP error SearchSuggestionController.jsm:380
Content Security Policy: Ignoring ‘x-frame-options’ because of ‘frame-ancestors’ directive. 6
This site appears to use a scroll-linked positioning effect. This may not work well with asynchronous panning; see https://developer.mozilla.org/docs/Mozilla/Performance/ScrollLinkedEffects for further details and to join the discussion on related tools and features! 1356
Cross-Origin Request Blocked: The Same Origin Policy disallows reading the remote resource at ‘https://collector.githubapp.com/collect’. (Reason: Credential is not supported if the CORS header ‘Access-Control-Allow-Origin’ is ‘*’).

Content Security Policy: Ignoring ‘x-frame-options’ because of ‘frame-ancestors’ directive.

時好時壞

能不能自定义图片文件夹名称（联动文章内相对引用一起改）
能不能在图片名称前加上和文件夹名称一样的unix time呢？因为是在别处重新管理md文档，一些文件的图片会放到一个文件夹里，图片名称全部随机的话不太好管理。