如何将知乎的答案一键导出?


#1

大家好!

知乎的一个话题,一旦有了三四年后,答案的数量可能达到好几百好几千。

虽然安装了 Chrome 脚本,可以自动加载答案,但答案并不是一次性的全部加载完成的,需要按 End 键到网页的底部,才会自动加载答案。

但一直按住 End 的键,好几十分钟,仍然没有完全的加载完成。

我的需求是,答案可以迅速的加载完成,或者一键导出为没有图片的 html,我之后再将答案复制到 workflowy 中进行整理。

我需要导出所有答案的是这个链接: 有哪些 100 元以下,实用且贴心,用了之后相见恨晚甚至感动出泪的东西? - 知乎 https://www.zhihu.com/question/27509931


#2

https://www.zhihu.com/api/v4/questions/27509931/answers?include=data[*].is_normal%2Cadmin_closed_comment%2Creward_info%2Cis_collapsed%2Cannotation_action%2Cannotation_detail%2Ccollapse_reason%2Cis_sticky%2Ccollapsed_by%2Csuggest_edit%2Ccomment_count%2Ccan_comment%2Ccontent%2Ceditable_content%2Cvoteup_count%2Creshipment_settings%2Ccomment_permission%2Ccreated_time%2Cupdated_time%2Creview_info%2Crelevant_info%2Cquestion%2Cexcerpt%2Crelationship.is_authorized%2Cis_author%2Cvoting%2Cis_thanked%2Cis_nothelp%2Cis_labeled%3Bdata[*].mark_infos[*].url%3Bdata[*].author.follower_count%2Cbadge[*].topics&limit=5&offset=5&platform=desktop&sort_by=default

  • limit 是加载的文章数量,上限可能是 20;
  • offset 是偏移量,确定从哪篇文章开始加载;

然后就可以列出所有地址,获取 json 数据,提取相应内容,拼接成 html 文件……


#3

初步用这个在线的 json 转换为 csv 后(https://json-csv.com/,这个网站只能一天转换一次),再将 html部分的内容,复制到记事本,然后保存为 html 可以打开。

虽然需求是没有图片的。不过保存的 html 没有加载图片,反而阅读起来有点茫然。

然后发现好像有692个答案,考虑有20个文章的上限,这意味着仍然要反复下载、转换、合并,个人感觉折腾起来仍然需要半个小时以上,似乎仍然没有达到省时省力的目的。

期望能有更好的方案。


#4

写个脚本就好了,我自己没需求,懒得写……


#5

真希望我学过脚本 :confused:


#6

倒也不难……我看看吧


#7

我写出来了,效率还可以,你举例的问题差不多一分钟搞定吧。

但是……这样的东西就不好放出来了。

我就加了些限制,每十秒抓取一页(20 个答案),只能抓取大约 60% 的内容。我觉得一般情况足够用了吧,而且内容太多网页显示出来会卡崩掉的。

小书签

既然楼主的问题解决了
这个还是隐去吧
毕竟这种东西虽然没什么技术含量
但是被某些盗文者获得还是很烦的
我不想与之相关
小众也不提倡讨论这些东西
散啦散啦,回家次饭~

#8

完美的解决方案!

我把脚本保存为 Chrome 书签,并把数值0.6改为1后,692个答案导出在一个页面之中,然后通过 Chrome 的PDF 打印功能,导出为 PDF,最后把 PDF 导入到 iPad Pro 的 LiquidText 中阅读~

完美!

谢谢 @alay9999 !也给你安利一下 LquidText,比 MarginNote 更好的做思维导图的阅读工具。


#9

你自己篡改程序我就不负责任了,喵

多么讲理的一件事情啊。

看在这么讲理的份上,你一定找得到我的二维码,然后请我喝咖啡,是不是,嘿嘿嘿


安利的内容就喵唧 @Qingwa 吧,我没有苹果设备,继续妙计~


#10

好奇不知为何在我的浏览器里报bug。。。


#11

不知道了……


#12

好像出了点误会,就是知乎自己没带 jQuery,但是我这里可能被哪个脚本给引入了,我误以为自带,就用了 JQ。然后楼主那里也有,仿佛或许大概是这样吧,刚起床,懒得仔细看,还想睡觉中……


看了,是知乎去隐私授权的油猴脚本引入了,就……楼主那里情况可能和我类似,也真是巧合呢


#13

了解了,多谢!


#14

是的~请了 :grinning:


#15

谢谢~


#16

今天又试了这个脚本,发现只能获取每个答案的10%,或者仅仅是摘要的内容,而不是全文的内容。

请问 @alay9999,这个脚本还有机会改善么?


#17

我这里测试很完整啊


#18

以前有zhihuhelp脚本的,后来大概知乎各种改接口各种反爬虫渐渐挂掉了