Adres Ayrıştırma (Address Parsing) Hackathon Projesi

Bu proje, bir hackathon kapsamında geliştirilmiş olup, standart olmayan, serbest metin formatındaki Türkçe adres verilerini ayrıştırarak il, ilçe, mahalle gibi yapısal bileşenlere dönüştürmeyi hedeflemektedir.

🎯 Projenin Amacı ve Hedefi

Türkiye'deki adres verileri genellikle standart bir formattan yoksundur ve kullanıcılar tarafından serbest metin olarak girilir. Bu durum, adres verilerini analiz etmeyi, coğrafi bilgi sistemlerinde kullanmayı veya veritabanlarında tutarlı bir şekilde saklamayı zorlaştırır.

Bu projenin temel hedefi, aşağıdaki gibi dağınık bir adres metnini: "Örnek mah. Atatürk cad. no:12/3 daire:5 Şişli/İstanbul" yapısal hale getirerek şu bileşenlere ayırmaktır:

İl: İstanbul
İlçe: Şişli
Mahalle: Örnek Mahallesi
Cadde/Sokak: Atatürk Caddesi
Bina No: 12/3
Daire No: 5

💻 Kullanılan Teknolojiler

Bu projede, adres ayrıştırma problemini çözmek için farklı yaklaşımlar denenmiş ve en iyi sonuçları veren yöntemlerin birleşimi hedeflenmiştir. Kullanılan temel teknolojiler ve denenen yaklaşımlar aşağıda sıralanmıştır:

Python 3.9+: Projenin ana programlama dilidir.
Pandas & NumPy: Büyük veri setlerinin temizlenmesi, manipülasyonu ve analizi için temel kütüphaneler olarak kullanılmıştır.
Scikit-learn: Makine öğrenmesi algoritmaları ve değerlendirme metrikleri için kullanılmıştır. Özellikle BERT modelinin çıktılarının sınıflandırılması ve model performansının ölçülmesi aşamalarında önemli rol oynamıştır.
Matplotlib & Seaborn: Veri setinin ve model sonuçlarının görselleştirilmesi için kullanılmıştır. Özellikle modelin doğru ve yanlış tahminlerinin analizinde, veri dağılımlarını anlamada ve sonuçları raporlamada faydalı olmuştur.
Doğal Dil İşleme (NLP) Yaklaşımları:
- Regex (Regular Expressions): Basit ve belirgin kalıpları (örneğin, "no:", "apt:", "mah.") ayrıştırmak için ilk aşama olarak kullanılmıştır. Farklı kalıpların bir araya getirildiği bir Regex Ensemble yapısı denenmiştir.
- BERT Modelleri: Daha karmaşık ve kalıp dışı adres metinlerini anlamak ve ayrıştırmak için çeşitli BERT (Bidirectional Encoder Representations from Transformers) modelleriyle denemeler yapılmıştır. Türkçe adres verileri üzerinde en iyi performansı verecek model arayışı, projenin kritik bir parçasını olmuştur. Bu modellerin eğitimi ve ince ayar (fine-tuning) süreçleri, projenin derinlemesine bir NLP çalışması olduğunu göstermektedir.

🚧 Karşılaşılan Zorluklar ve Öğrenilenler

Türkçe Adreslerin Standart Olmaması: En büyük zorluk, "mahallesi" yerine "mah.", "apartmanı" yerine "apt." gibi kısaltmaların ve yazım hatalarının yaygın olmasıdır.
NLP Modelleri İçin Uygun Veri Seti Bulma: Türkçe adresler için etiketlenmiş, kaliteli bir veri seti bulmak zorlayıcı olmuştur.
Regex ve NLP Entegrasyonu: Farklı yaklaşımların (Regex ve BERT) bir arada kullanılarak daha sağlam (robust) bir çözüm oluşturulması teknik bir meydan okuma olmuştur.

📈 Projenin Mevcut Durumu ve Gelecek Adımlar

Proje şu anda temel adres bileşenlerini ayrıştırabilen bir prototip aşamasındadır. Gelecek adımlar şunları içerecektir:

Daha büyük ve çeşitli adres verileriyle modelin performansını artırmak.
Kullanıcı dostu bir API veya arayüz oluşturarak projenin pratik kullanımını sağlamak.
Coğrafi koordinat verilerini (latitude, longitude) entegre ederek adresleri harita üzerinde görselleştirmek.

Name		Name	Last commit message	Last commit date
Latest commit History 89 Commits
.devcontainer		.devcontainer
.github/workflows		.github/workflows
.venv		.venv
.vs		.vs
.vscode		.vscode
addresskit		addresskit
configs		configs
data/raw		data/raw
notebooks		notebooks
scripts		scripts
tests		tests
tools		tools
.gitattributes		.gitattributes
.gitignore		.gitignore
.pre-commit-config.yaml		.pre-commit-config.yaml
Dockerfile		Dockerfile
README-ARCHITECTURE.md		README-ARCHITECTURE.md
README.md		README.md
create_structure_files.py		create_structure_files.py
make_match_preview.py		make_match_preview.py
pyproject.toml		pyproject.toml
pytest.ini		pytest.ini
requirements-dev.txt		requirements-dev.txt
requirements.txt		requirements.txt
submission.csv		submission.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Adres Ayrıştırma (Address Parsing) Hackathon Projesi

🎯 Projenin Amacı ve Hedefi

💻 Kullanılan Teknolojiler

🚧 Karşılaşılan Zorluklar ve Öğrenilenler

📈 Projenin Mevcut Durumu ve Gelecek Adımlar

🤝 Katkıda Bulunanlar

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Adres Ayrıştırma (Address Parsing) Hackathon Projesi

🎯 Projenin Amacı ve Hedefi

💻 Kullanılan Teknolojiler

🚧 Karşılaşılan Zorluklar ve Öğrenilenler

📈 Projenin Mevcut Durumu ve Gelecek Adımlar

🤝 Katkıda Bulunanlar

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages