Skip to content

关于域名分类数据的讨论 #28

@IceCodeNew

Description

@IceCodeNew

geolocation-cn 文件里有这么一段话:

# The following domains are carried over from geosite:cn.
# TODO: Decide how to deal with these domains

这下面的域名没有分类,只是按照字典序排列在一起,其实是非常不利于利用和维护的。

首先很多时候数个域名其实都归属于同一个平台,硬按照字典序打乱了夹在其他域名中间——不利于阅读分析,且在这个服务/平台下线的时候可能会删不干净,这是维护上的困难(本来这么庞大的列表就应该包含了很多访问量极小的站点,里面有些站也许只是昙花一现)

其次现在 @attr 还没有得到充分的应用,未来如果这个数据库进一步扩展,那这里提到的未分类域名都将非常不适合就地添加上 @attr(试想当你只想屏蔽某一特定平台的广告,结果这个平台的域名放在了 geolocation-cn 下,和其他被打了 @ads 属性的未分类域名混在一起)——这是利用上的困难

所以我觉得让 geolocation-cn 下尽量多一些 include:,少一些未分类域名,是最好的发展方向——而这就是我希望拿出来讨论的点了,因为其实就在刚才我的一个 PR#25 才得到了滥用分类的评价,所以这里一定是有协作者之间的看法差异的。

希望能早点讨论出一个共识,避免在需要拐弯的时候给已经十分庞大的历史遗留问题进一步「添砖加瓦」。

Metadata

Metadata

Assignees

No one assigned

    Labels

    data structureDiscussion about format of directories and files

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions