网页为了恶心用户，连基本的开发标准都抛弃了

dms · 2020 年7 月 24 日 04:55

今天研究如何判断网页正文，看到有的网站用换行（br）代替段落，有的网站干脆自己定义了一个类，然后用 div 代替段落。有筷子不用，非得用碗从锅里蒯着吃……

技术不咋行，胡搞第一名。

feeshy · 2020 年7 月 24 日 05:49

求问正常应该怎么搞呀

（我就是定义了一个class，然后把正文全放在那个div里面）

Mirtle · 2020 年7 月 24 日 05:59

用</br>应该能省不少字节，似乎以前知乎回答是这样搞的，反正看起来都一样；另外已经我学的时候，老师也叫我们干脆全部用 div，应该是习惯问题

914066828 · 2020 年7 月 24 日 06:44

不是有一些Html2Article这样的正文提取库可以方便爬虫用吗

liu · 2020 年7 月 24 日 06:56

开发网页的时候最讨厌要文字两端对齐的设计。应该不可能通过css实现。语义化也没什么用

dms · 2020 年7 月 24 日 07:02

text-align: justify;

Niceb · 2020 年7 月 24 日 07:22

现在前段开发很多都是模板框架，，

dms · 2020 年7 月 24 日 07:28

没听太懂，左侧这种是都没折行么？

你读这里吧

这是我写的教程，这些内容我都对着 mdn 自己整理测试了一遍的。

liu · 2020 年7 月 24 日 07:56

你的网址我这打不开。图中是一个表格，想让第一列的字进行两端对齐。

dms · 2020 年7 月 24 日 07:59

text-align: justify;    // 文字对齐方式：两端对齐，但不包含最后一行
text-align-last: justify;    // 最后一行文字的对齐方式，可以单独设置

liu · 2020 年7 月 24 日 08:26

学习了，不过还是在Firefox上不生效。代码是这样

<!DOCTYPE html>
<html lang="en">
<head>
  <meta charset="UTF-8">
  <meta name="viewport" content="width=device-width, initial-scale=1.0">
  <title>Document</title>
  <style>
    .a{
      text-align: justify;
      text-align-last: justify;
    }
  </style>
</head>
<body>
  <table>
    <thead>
      <tr>
        <th></th>
      </tr>
    </thead>
    <tbody>
      <tr>
        <td class="a">测试</td><td>1</td>
      </tr>
      <tr>
        <td class="a">测试测</td><td>1</td>
      </tr>
      <tr>
        <td class="a">测试测试</td><td>1</td>
      </tr>
      <tr>
        <td class="a">测试测</td><td>1</td>
      </tr>
      <tr>
        <td class="a">测试测试测</td><td>1</td>
      </tr>
      <tr>
        <td class="a">测试</td><td>1</td>
      </tr>
    </tbody>
  </table>
</body>
</html>

dms · 2020 年7 月 24 日 08:52

测试了一下，确实如此，打给火狐对此属性的这个值兼容的不好，因为挺冷僻的，所以也没什么人反馈吧。

不过现在 Chrome 占有率这么高，基本算是现实标准了，大部分时候我只考虑对 Chrome 的兼容性。

liu · 2020 年7 月 24 日 08:59

确实chrome的占有率很高，但是当时客户要求了只能使用Firefox。

dms · 2020 年7 月 24 日 09:02

把每个单字放进一个 span，然后 flex 布局应该可以吧

liu · 2020 年7 月 24 日 09:17

之前我就这么干的。幸亏当时要求的Firefox版本能支持flex。

dms · 2020 年7 月 24 日 09:19

用 span 虽然代码磨叽，但在语义化方面没啥问题

xiaokonglong · 2020 年7 月 24 日 11:02

因为对于开发来说, div后期方便调整.

用p的话, 基本不可控了.

dms · 2020 年7 月 24 日 11:04

正文里的段落，还调整什么……

而且用 p 也一样可控的

xiaokonglong · 2020 年7 月 24 日 11:05

比如加广告.

这是最现实的.

dms · 2020 年7 月 24 日 11:13

加广告和这个没关系。

反正前端可用的方法很多，去广告的规则可用方法有限。所以加一个不容易去掉的广告并不很难。

反过来只要能往页面注入脚本（比如油猴子），什么广告都能给干掉，除非写软文。不过这种要牺牲的性能多点。

这种违背规则的做法最直接效果就是正文识别难度增加，想弄一个同时适配所有网站的规则很难。但对于爬虫（一般只针对单个站），其实效果不大。

话题		回复	浏览量
小众桌面端的页面或许可以考虑限制一下页面宽度讨论分享	7	1051	2019 年6 月 13 日
【油猴脚本】假装水墨屏（黑白&彩色&反色三模式）稻米鼠的频道🐹 油猴脚本	16	4474	2020 年8 月 10 日
求推荐浏览器智能放大字体插件问题求助❓ chrome	23	3063	2022 年7 月 11 日
正则也就那么一回事稻米鼠的频道🐹	4	822	2023 年8 月 2 日
从一个误解说开去稻米鼠的频道🐹	10	1078	2023 年8 月 15 日

网页为了恶心用户，连基本的开发标准都抛弃了

Related topics