隨風起伏的塵埃: linux

顯示具有 linux 標籤的文章。顯示所有文章

2017年9月18日星期一

docker image 與 docker-hub

這篇大致在說明編寫image設定檔, 然後透過 github 及 docker hub 自動產生 image 的流程.

基礎資訊

很多情況, 會需要自己建一個符合需求的 image, 例如說我需要 php 7.0 + mongo + mysql 的環境, 但可能沒有剛好符合需求的 image , 就需要自己 build image 了.

在自建 image 前, 先考慮要將 image 放在那個 repo , 最簡單的就是放在 docker hub 上.
假設要放在 docker hub 上, 先去註冊一個帳號, 這個帳號會用來之後 image 要 push 或 pull 時的識別. 例如我的帳號是 duanli , 建立的 image 名稱是 php-fpm , 那 image 完整的識別名稱就是 duanli/php-fpm .

可以用指令 docker login 來快速在 docker hub 上申請帳號.

編寫 Dockerfile 及 build image

docker 要 build image 的設定檔是 Dockerfile , 然後透過指令來 create image
在設定好的 Dockerfile 同目錄下, 最簡單的指令是

docker build -t "duanli/php-fpm" .

以下是我的 php-fpm 的 Dockerfile

FROM ubuntu:xenial

MAINTAINER duan duan.li@gmail.com

ENV HOME /root
ENV LC_ALL          C.UTF-8
ENV LANG            en_US.UTF-8
ENV LANGUAGE        en_US.UTF-8


RUN mkdir -p /usr/local/openssl/include/openssl/ /var/www/html && \
    ln -s /usr/include/openssl/evp.h /usr/local/openssl/include/openssl/evp.h && \
    mkdir -p /usr/local/openssl/lib/ && \
    ln -s /usr/lib/x86_64-linux-gnu/libssl.a /usr/local/openssl/lib/libssl.a && \
    ln -s /usr/lib/x86_64-linux-gnu/libssl.so /usr/local/openssl/lib/

RUN pecl install mongodb

RUN echo "extension=mongodb.so" > /etc/php/7.0/fpm/conf.d/20-mongodb.ini && \
    echo "extension=mongodb.so" > /etc/php/7.0/cli/conf.d/20-mongodb.ini && \
    echo "extension=mongodb.so" > /etc/php/7.0/mods-available/mongodb.ini

COPY fpm /etc/php/7.0/fpm
COPY supervisord.conf /etc/supervisor/conf.d/supervisord.conf

EXPOSE 9000
CMD ["/usr/bin/supervisord", "-c", "/etc/supervisor/conf.d/supervisord.conf"]

大致上就是設定

FORM : 從那個 image 當 base
ENV : 設定環境變數
RUN : 在這個 base image 裡要執行那些指令
COPY : 將 host 的 (執行 docker build) 所在目錄下的檔案 copy 到 image 內
EXPOSE : 需要使用到的 port
CMD : 當 container 啟動後, 預設會執行的指令

這篇文章對 Dockerfile 的編寫有不錯的說明 (其實不止 Dockerfile, 這整篇介紹 Docker 都蠻不錯的)

上傳到 Docker Hub

上傳到 Docker Hub 相當簡單, 以上面例子來說
docker push duanli/php-fpm

之後就可以在任何機器上用 docker pull duanli/php-fpm 取得自建的 image 了.

自動化流程

有時候可能只是改一點 Dockerfile 的設定, 不想用自己機器來 build image , 可以考慮把 Dockerfile 放上 github / bitbucket , 再透過設定去觸發 docker hub 做自動 build image 的流程, 像這篇文章最下面提到的流程.

以 github 為例, 這篇有蠻完整的設定流程.

之後每次把 Dockerfile push 到 github 後, 在 docker hub 上就會自動 build 最新版的 image.

docker 與 docker-compose in linux

docker 的文件非常多, 這邊是簡單整理一下半年前的筆記.

基本安裝及設定

1. apt-get install docker.io

2. edit /etc/default/docker
   DOCKER="/usr/bin/docker"
   DOCKER_OPTS="-H tcp://127.0.0.1:2375 --dns 192.168.0.1"

3. export DOCKER_HOST=tcp://127.0.0.1:2375

第二項是設定 docker server 要使用的 DNS Server, 之前若沒有設定, 在 docker intranet 可能在 DNS 查詢上會有問題, 後來似乎沒有這個設定也不會有問題了.

docker 裡幾個常看到的名詞

image : 這個和 OS image 是差不多的意思, 只是 docker 的 image 產生的方式不一樣.
container : 將 image 掛載執行起來後的環境, 類似 Virtual Machine .
host : 執行 docker container 的主機
volume : 可以想像為 container 上所掛載的 storage

image 的內容是不會更動的, 如果要保存 data , 最簡單的方法就是把 data 存在 volume, 這樣當 container 中止後, volume 內的 data 還可以使用.

另一種情況是, 當環境還在開發中, 例如軟體設定檔和網頁, 就可以放在 volume, 這樣修改和測試都比較方便.

Docker 常用指令

docker images , list all images in host

docker pull [images]:[version] , e.g.  docker pull ubuntu:15.04

docker run -it [images]:[version] /bin/bash , e.g. docker run -it nginx /bin/bash
docker run -itd [images]:[version] /bin/bash  # run as daemon
docker run --name nginx -v /var/www:/usr/share/nginx/html:ro -v /var/nginx/conf:/etc/nginx:ro -p 80:80 -d nginx
   
docker ps -a  , list all container

docker exec -ti [container]

docker rm [container]
docker rm [image]

docker inspect [container] , get container information

docker rm $(docker ps -f "status=exited" -q)
docker rmi $(docker images -f "dangling=true" -q)

docker volume rm `docker volume ls -f 'dangling=true' -q`

因為後來都使用 docker-compose 來管理, 除了最後 3 個指令, 已經很少用 docker 指令了.

Docker Compose 安裝與使用

docker-compose 是透過 yml 格式的設定檔, 來管理 container , 例如 docker 的 argument , container 執行的相依性 (順序) 等.
對初學者來說, 看起來好像是要多學一個東西, 但其實可以節省不少管理與學習摸索上的時間, 而且對於架構不是非常複雜的環境來說, docker-compose 算蠻實用的了.

ubuntu 上直接用 apt-get 安裝即可
apt-get install docker-compose

docker-compose 預設讀取現行目錄下的 docker-compose.yml 的內容, 可以使用 -f 來指定 yml 檔案路徑名稱.

docker-compose 1.x 和 2.x 的 yml 格式有相當差異, 我之前只使用過 1.x 版本, 因此以下都是以 1.x 版本當例子

yml 格式設定蠻容易理解的, 例如


web:
  image: nginx
  ports:
    - "80:80"
    - "443:443"
  volumes:
    - /home/duan/docker/nginx:/etc/nginx:rw,z
  links:
    - php

php:
  image: duanli/php-fpm
  volumes:
    - /home/duan/docker/bridge:/var/www/bridge:rw,z
    - /run/php:/run/php:rw,z
  links:
    - mysql
    - mongo
    - redis

這是透過 docker-compose 帶起 nginx + php-fpm 的例子, 後面省略了 mysql + mongo + redis 的部份.

要說明的部份大概是 volumes 和 links

volumes 最後的 rw,z 在 ubuntu 並非必要的, 在 centos 上因為 SELinux 的關係, 需要加上參數才能設定 volume 的讀寫權限
上面的例子中, nginx 的 volume 是為了使用 host 上的設定檔, 這樣測試時比較方便.
php 的第一個 volume 是放網頁的路徑, 理由同上.
第二個 volume 是因為我使用的 image 內沒有那個路徑, 但是 php-fpm 執行時需要這個路徑, 因此預設情況下會造成錯誤. 在不變更 image 內容情況下, 最簡單的方式就是掛載一個 volume 來給 php-fpm 使用.
links 表示這個 continer 執行前, 要先執行那些 container .
以上面例子而言, 就是要先執行 mysql/mongo/redis , 再執行 php , 再執行 web

這邊可以看到 docker-compose 的格式會因為作業系統而有所差異, 在 windows 上的差異又更大了.

設定完 yml 後, 可以透過 docker-compose 指令來管理 container 了.

docker-compose up -d # 將 yml 裡的所有 container 放到背景執行
docker-compose stop # 停止所有 container
docker-compose start # 將目前 stop 的 container 再 start
docker-compose logs # 將目前執行中的 container 所產生的 log 列出來, 常使用的指令
docker-compose rm # 移除目前所有被 stop 的 container
docker-compose ps # 列出目前所有 container

centos 上的安裝與設定

印像中是在 centos 6.0 上, 因為環境的不同及 SELinux 機制的關係, 所以會有些差異.
原則上我會盡量保持 host 原本的樣子, 所以不會去關閉 SELinux, 所以有些地方就必須配合系統的差異性去做調整.

mkdir -p /etc/systemd/system/docker.service.d/
vim /etc/systemd/system/docker.service.d/docker.conf
systemctl daemon-reload
systemctl restart docker

export DOCKER_HOST=tcp://127.0.0.1:2375

最後一行在 centos 7.0 的作法又不太一樣, 編輯 /etc/sysconfig/docker-network

DOCKER_NETWORK_OPTIONS="-H tcp://127.0.0.1:2375 --dns 168.95.1.1"

docker-compose 的部份

yum install epel-release
yum install -y python-pip
pip install docker-compose
pip install docker-compose --force --upgrade

Container 的使用

一般來說, 初學者最常遇到的問題是, 怎麼尋找需要的 image , 以及如何設定 container 的參數. 有時候即使是設定很常見或很熟悉的軟體, 因為是透過 docker 使用, 也會遇到不少問題.

透過指令會列出符合名稱的 image , 例如
docker search postgresql
就會列出 postgresql 相關的 image, 以及一些相關的資訊, 例如是否官方提供的 (officical) , 目前得到好評數 ( Stars)
我個人的經驗是, official 不一定好用, 看 stars 可能較有參考性.

至於設定 container 的參數, 原則上當然是先找該 image 的官方文件.
其次是透過 docker exec 的方式進到 container 內查看 log 或系統情況來找問題.
最後就是修改該 image 的 dockerfile 重新製作 debug 用的 image 來找問題.
或者換一個 image 也可能是比較快的解決方案.

透過 Samba 設定 AD DC 及將 NAS (Synology) 加入網域

主要是參考這系列的文章 , 這系列文章都有簡體中文翻譯的版本 (事實上我是先查到簡體版本, 沒寫文章出處但感覺是翻譯的, 才自行找到原文).

如果單純只是要設定 Samba 作為 AD Server, 這系列的前兩篇就足夠了.
後面的部份我也沒有設定過, 因為手上沒有可以加入網域的 windows client (隨機版的 windows 10 沒有加入網域的功能).

原本對 Samba 的印像還停留在很久前, 最多就是設定為 PDC BDC 之類的.
看了這系列文章, 加上正好公司進了台 Synology NAS, 因此找了台 linux 設定為 AD DC , 然後將 Synoloy NAS 加入網域並同步帳號, 來讓 NAS 的使用管理上更為方便.

基本上照文章來設定, 大致上不會遇到什麼問題, 很容易就設定好一台 AD DC.
在設定過程中, 會因為測試或管理的需求, 使用到很多平常不會用到的指令.

samba-ad-dc 管理上主要的指令是 samba-tool , 最常見的 user / group 的管理, 指令本身的 help 做的很完善, 大部份參數都很直覺, 一看就知道用途 , 例如:

samba-tool user add duan #網域裡新增使用者 duan
samba-tool user list
samba-tool group add mygroup
samba-tool group addmembers mygroup duan #使用者 duan 加入 mygroup 群組
samba-tool user setpassword duan

另外內建的 password policy 很嚴格, 如果要變更寬鬆一些, 可以用 samba-tool domain passwordsettings 指令及相關參數來檢視現有規則及進行變更.

這篇文章有蠻完整的 samba-tool 指令介紹.

將 Synoloy NAS 和 AD DC 同步帳號

在控制台的 "網域/LDAP" 設定裡, 設定網域的部份

勾選 "加入網域"
設定 "網域名稱" "DNS 伺服器" , 後者即設定為 samba AD DC 的 IP
勾選 "進階網域選項"
設定 "DC IP/FQDN" (DNS 伺服器) "網域的 Netbios 名稱" "網域 FQDN"

設定完後 Synology 會詢問 AD DC 的 administrator 密碼, 然後進行一些連線檢查, 都通過的話, 在 "網域使用者" 及 "網域群組" 就會出現 samba AD DC 上所設定好的資料. 之後就可以透過網域使用者或群組來設定 NAS 使用權限.

管理 AD DC 裡的使用者/群組資料

我要讓 AD DC 裡的使用者/群組資料同步的來源是 mysql , 因此自己寫 php script 先從 mysql 拉資料出來, 然後用 shell script 讀資料同步到 samba AD DC 裡.

script 寫的不好, 就不在這裡獻醜了. 不過有兩個經驗可以分享:

1. 在用 samba-tool add user 時, 有參數可以直接設定 password .
但是平日太習慣一遇到問題就 google, 沒去查 samba-tool 本身的文件, 直接 google 網路上其他人的設定經驗, 結果大部份文件因為不是用 script 處理, 所以沒有需求要直接帶參數設定密碼, 結果繞了半天路才發現可以直接設定, 浪費了不少時間. samba-tool 在新增使用者時, 可以直接設定一些 attribute , 例如:


samba-tool user create $user $passwd --mail-address "$email" --department "$depart" --description "$name"

2. samba-tool 本身不提供 "修改" 使用者資訊的功能, 除了密碼以外.
也就是如果要修改使用者資訊, 要透過其他方式.
如果刪除使用者重新新增, 實際上會是不一樣的使用者 (ID). 這點從 Synology 同步過後的資料可以明顯看出.
如果在同步後刪除了某個使用者, 再新增名稱一樣的使用者, 從 Synology 同步後會發現該使用者的家目錄是一個新的位置, 原本的家目錄就只有 admin 可以看到了.

變更 AD DC 使用者資料的方法

要修改使用者資料 ( attribute , 例如 email ) , 要透過 samba 本身提供的 ldap 相關指令.
使用上和 openldap 的指令很像但又有些差異, 所以一開始我誤以為是 openldap 的指令, 試了半天才發現錯了.

例如 openldap 有 ldapsearch , samba 是 ldbsearch, openldap 有 ldapmodify, samba 是 ldbmodify . 指令看起來很像, 但參數不一樣, 而且 samba 的 ldb series 是不直接吃 stdin.

要用 ldbmodify 來修改 attribute, 預設是要先編寫一個 ldif file , 裡面定義好要 modify/add/delete 的參數和指令, 然後再把 ldif file 餵給 ldbmodify 指令來執行

如果要在 script 下指令, 會類似這樣的 command


echo -e "dn: CN=duan,CN=Users,DC=piip,DC=pro\nchangetype: modify\nreplace: department\ndepartment: 資訊室\n" | ldbmodify -H ldap://www2 -k yes -b CN=duan,CN=Users,DC=piip,DC=pro

在執行 ldbmodify 之前, 要先用 kinit 登入 administrator 以取得權限
所以在用 samba-tool 新增使用者之前, 一定要小心, 否則修改起來前會很麻煩的.

最後貼上當初設定 AD DC 做的簡易筆記, 從一些訊息可以大略看出當初設定遇到的小問題, 像是 password 預設要求的 policy 太嚴格之類的.


http://weiwenku.net/d/152352
https://www.tecmint.com/install-samba4-active-directory-ubuntu/

1. sudo apt-get install samba krb5-user krb5-config winbind libpam-winbind libnss-winbind smbldap-tools ldb-tools
   kerb5 server : www2.piip.pro
2. cd /etc/samba; mv smb.conf /tmp
3. samba-tool domain provision --use-rfc2307 --interactive
   "ERROR(ldb): uncaught exception - 0000052D: Constraint violation - check_password_restrictions: the password does not meet the complexity criteria!"  :  password too weak , re-run command
4. systemctl start samba-ad-dc.service
   "Failed to start samba-ad-dc.service: Unit samba-ad-dc.service is masked."  : systemctl unmask samba-ad-dc , systemctl enable samba-ad-dc

5. verify
   a. samba-tool domain level show
   b. kinit administrator@PIIP.PRO 
      "kinit: Cannot find KDC for realm "PIIP.PRO" while getting initial credentials"  :  edit /etc/kerb5.conf 

6 extra
  a. sudo samba-tool domain passwordsettings set --complexity=off  ,  no complex password needed
  b. sudo samba-tool domain passwordsettings show , show policy of password
  c. sudo samba-tool domain passwordsettings set --min-pwd-age=0
     sudo samba-tool domain passwordsettings set --max-pwd-age=0
     sudo samba-tool domain passwordsettings set --min-pwd-length=6
     https://lists.samba.org/archive/samba/2013-August/174949.html



http://weiwenku.net/d/157028

1. sudo samba-tool user create duan  // add samba user
2. samba-tool user list
3. samba-tool user delete [username]
4. samba-tool user setpassword [username]
5. samba-tool user enable/disable [username]
6. samba-tool gorup add/list/delete/listmembers/addmembers/removemembers

7. sudo systemctl disable winbind.service; sudo systemctl stop winbind.service ; sudo service samba-ad-dc restart
8. wbinfo -g
9. wbinfo -u
10. wbinfo -i [username]


https://linux.cn/article-8097-1.html

1. sudo apt-get install ntp ntpdate
   a. http://www.pool.ntp.org/zone/asia  , select ntp server
   b. edit /etc/ntp.conf
      change the pool server to "tw.pool.ntp.org"
      add config under 'driftfile',  "ntpsigndsocket /var/lib/samba/ntp_signd/"
      add config under 'restrict source', "restrict default kod nomodify notrap nopeer mssntp"
   c. sudo chown root:ntp /var/lib/samba/ntp_signd/
   d. sudo chmod 750 /var/lib/samba/ntp_signd/
   e. sudo systemctl restart ntp
   f. verify
      sudo netstat -tulpn | grep ntp
      ntpq -p
   g. force sync,  ntpdate -qu www2

AWS EC2 - cloud watch , load balance , auto scaling

AWS EC2 的 ELB ( load balance ) 設定前, 要先設定好其他一些相關的項目.
因為是大約一年前設定的記憶, 自己之前筆記的也不是很完整, 只能列出設定的大略流程.

假設目前有個 instance , 需求是能在 CPU loading 80% 時, 自動再開一個一模一樣的 instance 做 load balance , 然後在原本 instance CPU loading 30% 時, 自動把新開的 instance 清掉. 那需要相關的設定如下:

1. 將目標 instance 製作 image (在 instance 介面的 Action 選 create image )

2. Launch Configurations (在 EC2 menu 的 Auto Scaling 裡)
    create launch configuration 時, 選擇 "My AMIs" 然後選擇前一步所產生的 image
後續的設定和設定 instance 差不多.

3. 新增一個 Auto Scaling 設定, 選擇前一步設定好的 Launch Configure Name

4. 設定 Cloud Watch: 這設定不在 EC2 選單內, 而是 AWS 的服務之一.
   設定兩個 policy, 對目標 instance 的 CPU loading, 超過 80% 或低於 30% 時發出 Alarm .

   Alarm 要設定 "AutoScaling Action" , 然後設定為前一步設定好的 Auto Scaling Name.
   然後 Action 分別設定為 "Add 1 instance" 或 "Remove 1 instance"

   到目前為止, 已經可以透過 Auto Scaling 和 Cloud Watch 在目標 instance CPU loading 變化時, 來自動增減 instance . 但是要做到分流, 也就是 load balance , 還要設定下一步. 如果在這階段就測試的話, 因為沒有分流, 所以目標 instance CPU loading 不會因為增加 instance 而降低, 不小心可能就會帶起很多 instance 了.

5. 設定 Load Balance (ELB), 在設定前要先瞭解一下 AWS 的 load balance 的運作方式.
    在做 load balance 時, AWS 會提供一個 ip (AWS 也有提供 FQDN) 做為實際流量的入口, 因此服務的入口要透過 AWS 的 ip/FQDN , 才會有 load balance 的效果.

    每個 load balance policy 大約會設定以下項目

instance : 那些 instance 會加入 load balance , 選目標 instance 即可. 之後透過 AutoScaling 增加的 instance 會自動加入 load balance 裡.
Security Group : 這邊值得注意一下. 因為這邊會套用這個 firewall policy 的是 AWS 的 ip/FQDN , 所以可以只要開 service 需要的 port 就好, 不需要開 ssh 之類的 (也連不上).
Listeners : 要讓 ELB 做 load balance 的 port (即實際上需要 load balance 的 port )
Tag : 這個 ELB policy 取名, 會影響之後產生的 FQDN

到目前為止, 大致上算設定完成, 只要將流量導入的點設定到 AWS ELB 所提供的 FQDN 即可.
如果自己有 DNS 要設定的話, 只要將原本設定的 FQDN 設定一筆 CNAME 到 ELB 的 FQDN 就好.

接下來是一些測試的方式或工具

ELB 的 Log

aws 的 elb ( ec2 load balance) 預設是沒有 log 的, 可以在設定中打開, 它會丟到指定的 s3 Buckets

而 s3 那邊要設定 permission 才能收 elb 丟來的 log, 可是那個設定的方式很機車, 可以參考這個網頁 , 其中欄位設定上比較讓人困擾的可能是 s3 Bucket 要如何填.

假設我的 buckets 名稱是 duan, 裡面有個目錄叫 elb , 於是應該要填 arn:aws:s3:::duan/elb/*
比較機車的是, 都填寫好後, 它只是把你填寫的資料變成設定檔, 還要自己把設定檔加到 policy 中 (現在不知道介面改的友善了點沒).

至於 elb 那邊就比較簡單了, s3 Butkets 的路徑就填寫 duan/elb 就好
elb 設定完成時會檢查 s3 的permission, 檢查過的話應該就沒問題, 會建立好相關的路徑並丟一份 test log , 可以馬上檢查設定正確與否

壓力測試

對 instance 做壓力測試, 可以很容易確認 Auto Scaling 和 Load Balance 有沒有生效
我在 Cloud Watch 設定是監控 memory 使用量, 所以我用這個網頁介紹的工具來做測試.

這個網頁有對這個工具 stress 做更完整的介紹, 可以測試相當多種類的壓力測試.

關於 CloudWatch monitor 的項目

CloudWatch 內建對 EC2 的系統資源只包含 cpu network-inbound/outbound 及 disk-read/wrtie 的統計, 如果要自己監控其他資源如 memory 的話, 就要自己送資料給 CloudWatch.

而最快的方法就是用 AWS 提供的 script , 這個 script 可以取得 memory 和 storage 使用量送給 CloudWatch , 不用自己寫 script 就簡單多了.

可以參考這個網頁 , 不過有地方沒寫很清楚, 就是如果要使用 awscreds.template 設定 key, 就要指定這個檔案的路徑, 而不是放在同個目錄下就好. 至於如何使用這個 script ( argument 等等) , 如何設定 cron 以及安裝方式等等, 這個網頁算寫的很清楚了.

如果還要取得其它資訊送到 cloudwatch 監測 (例如資料庫的資訊) , 可能就要自己寫 script 或找別人寫好的來用了.

2017年9月17日星期日

AWS EC2 - 基本設定

AWS 本身的文件算非常完整了, 網路上也有很多文件, 兩個交互參考的話, 常用的功能應該設定上不會有什麼問題.

AWS 上的設定介面和方式很多都有在更新, 我是半年多前使用的, 可能有些已經不太一樣, 不過概念上應該都差不多.

首先還是來簡單說明 aws ec2 web 介面上的名詞

Instance : 即虛擬機器, 可以視為一台電腦 (硬體).
AMI : 給 Instance 開機用的作業系統 image (OS)
Volume : 儲存空間, 可以視為硬碟 (Storage)
Security Group : 簡易的防火牆規則
Key Pair : 加密金鑰, EC2 預設的 image 都是用金鑰而非密碼登入的.
Elastic IPs: instance 每次開機取得的 public IP 可能不一樣, 因此可以透過 Elastic IPs 申請固定的 public IP , 然後 assign 到指定的 instance 來使用.

使用 ec2 , 首先是設定 instance , 大致上是決定以下事項

決定 intance 所在的區域, 選擇上的主要考量是網路速度及價格
決定硬體等級 , 選擇上的主要考量是硬體速度及價格
AMI : ec2 預設的 linux image 有 AWS 自己的 linux, centos, SuSE 和 ubuntu.
Security Group , Key Pair 等. 這些之後都可以再變更.

有一點要注意的是, 預設的 root devise 只有 8G, 要記得在設定過程中先變更好, 否則之後要調整會比較麻煩.

在選擇預設的 AMI 時, 不同版本的 linux, 預設登入的帳號不一樣. 例如 AWS 自己的 linux 預設登入帳號是 ec2-user, Ubuntu 預設登入的帳號是 ubuntu .

接下來就是 ssh 進去, 和一般 linux 幾乎是一樣的操作環境了.

2017年9月15日星期五

Elasticsearch / Kibana 操作

Kibana 的操作介面, 大致上只要清楚幾個名詞的定義就可以大概知道要怎麼運用

index pattern : elasticsearch 的 index , 類似 database 裡的 table name, 也就是 logstash 在 output 裡設定的 index 值. 可以透過以下指令取得 elasticsearch 的 index list
```
curl 'http://localhost:9200/_cat/indices?v'
```
而 index pattern 則是可以透過萬用字元, 來設定要從那些 index 找資料, 例如 filebeat-* 就是從所有名稱開頭為 filebeat- 的 index 裡找資料
filter : 從選定的 index pattern 所符合的資料中, 設定過濾條件.
在選單上的 Discover 裡, 可以設定多組 filter (從上方的 add a filter).
每組 filter 裡可以設定多個過濾條件.
visualize : 從選定的 index pattern 所符合的資料中, 產生統計圖.
在 visualize 的設定裡, 可以自行設定 filter, 或套用已設定好的 filter.
可以從設定好的 visualize , 再增加額外的 filter 來觀察統計結果的變化.
dashboard : 可以在 dashboard 中, 指定一個以上的 visualize .
目的是在於可以將相關的統計資料 (visualize) 放在同一個 dashboard 來觀看.

field list

在設定完 index pattern 後, 會列出符合的 index 資料裡的所有欄位資料.
可以先確認是否符合自己設定的 grok parse 的結果.

filter 的設定

kibana 的介面提供的預設篩選條件有限, 若需要自定義篩選條件時, 可以點選 "Edit Query DSL" 來自行編輯語法.
可以從這個網站查詢合適的語法, 例如我要設定查詢條件是
欄位(field) "source" 的內容包含有 finance 這個字串, 設定的查詢語法是


{
  "query": {
    "wildcard": {
      "source": "*finance*"
    }
  }
}

visualize 的設定

visualize 設定裡, 選擇圖表種累的部份還蠻容易懂的, 視需要選擇即可.
比較需要說明的, 可能是設定 aggregation (X 軸) 的選項, 例如

Date Histogram :依設定的日期/時間 field 來做統計
Terms : 選擇需要的 field 來統計
Filters : 可以設定 filter 來先對選取的資料過濾後再進行統計

另外就是在右上角可以設定資料篩選的時間範圍, 我一開始時沒注意到這邊, 結果時間範圍是錯的, 一直顯示沒有符合的資料, 浪費了不少時間除錯.

其他

Kibana 的 menu 裡有個選項 Dev Tools, 可以用來測試篩選資料的方法, 會比自己用 curl 對 elasticsearch 測試來得方便.

另外就是 menu 裡的 Timelion 選項, 可以看到資料匯入的統計圖, 可以用來確認資料是否有持續正常匯入.

大致上知道這些就可以簡單入手操作 kibana/elasticsearch , 其他的功能可能就要遇到才有機會瞭解了.

2017年9月14日星期四

ELK 設定與除錯

關於 Elasticsearch , 一開始是沒有打算使用這麼複雜的解決方案的.

前一陣子用 php + monolog 將公司內的系統操作記錄以文字方式存成 log file, 原本是打算自己寫程式來處理. 但一來是考慮效能問題, 再者也想說這種東西應該有現成的工具可以處理, 所以就找了一些資料.

結果先是看到 logstash , 然後發現這東西似乎不是單獨運作的, 最後就變成嘗試 Elasticsearch + Kibana + Logstash + Filebear 這種複雜架構了.

安裝環境是 ubuntu 17.04 , 如果處理的目標是常見的 log format (e.g. apache), 那照這篇文章幾乎不會遇到問題就安裝設定完成了.

我照著做遇到的問題, 大概只有以下地方

我偷懶, 沒設定 filebear 和 logstash 透過 ssl , 結果不透過 ssl 的話, 從 filebear 的 log 來看, logstash 會拒絕 filebeat 傳來的資料.
還是我偷懶, 文章沒看完. 在 Kibana 的操作介面上, 要修改 index pattern 的名稱.
我漏了這段, 所以一直看不到資料.
grok pattern 設定的問題, 基本上可以用文章的 logstash 設定方式, 只是會無法照自己意思去產生需要的欄位, 所以需要自訂 grok pattern .

其實一開始我還搞不清楚這幾個套件的關聯/架構 , 就照著文件硬幹下去. 後來遇到問題反覆查資料才弄清楚.

logstash : 依指定 pattern 來 parse log , 將結果轉到 elasticsearch
elasticsearch : 存放最後資料的地方 , 支援 RESTFul 的操作方式
kibana : elasticsearch 的 web 操作介面, 透過 RESTFul 和 Elasticsearch 溝通
filebear : 將 log file 內容透過 network 傳給 logstash .
filebeat 並非必要, 尤其如果 logstash 和 log file 在同一台機器上時.
grok : logstash parse log file 的工具, 透過 grok 來設定的 pattern 來 parse log file

grok 的部份

我的 log file format 大致上像這樣:


[2017-09-11 10:34:25] duan.INFO: user add {"id":"106","ip":"10.0.0.1","name":"test","group":"1","page":"adduser"} {"sql":"insert into user values(NULL, 'test', 'test', '334', '2', NULL, '1', 'test@example.com.tw')"}

各欄位描述大約如下:


["時間"]  
"操作者"."log level"
"user action"
"user infomation" (json format)  
"extra information" (json format, 是一些額外的資訊, 例如該 action 實際的 sql 語法)

我先查了一下網路上別人提供用來 parse monolog 的 pattern , 然後依照自己的 format 修改. 這個測試 grok pattern 的網站很有幫助.
這介面可以設定 log format sample , parse patterns , custom patterns

log format sample 就是上面貼的 log 內容, 後面兩個要用實際例子說明一下.


grok {
  patterns_dir => ["/etc/logstash/patterns"]
  match => { "message" "\[%{TIMESTAMP_ISO8601:timestamp}\] %{DATA:logger}.%{LOGLEVEL:level}: %{MYWORD:action} %{MYJSON:userinfo} %{GREEDYDATA:extra}" }
}

message 後面的那串就是用來 parse log 的 pattern , 而 TIMESTAMP_ISO8601 DATA LOGLEVEL 等等, 是 grok 內建定義好的 pattern

而 MYWORD MYJSON 這些則是我自己定義的 pattern , 設定的檔案放在 /etc/logstash/patterns/ 下, 內容是


MYWORD [a-zA-Z ]*    #連續的英文字或空白
MYJSON {[^}].*}    # 以  { } 包圍的連續字串

一般來說, 大部份情況可以直接透過 grok 內建定義好的 pattern 來 parse log file
但因為我是先自己寫程式用 monolog 去產生 log file, 才來找工具 parse , 所以沒有事先規劃好就變成要自己寫 pattern 了.

設定 custom pattern 的方法
grok 內建的 pattern

debug 的方式

filebeat 和 logstash 雖然都有自己的 log file, 不過我這邊 logstash 似乎沒設定好, log 的內容很簡略

1. 如果要看 logstash 是否有正確 parse 資料, 可以在 output 設定裡加上


stdout { codec => rubydebug }

然後以手動方式執行 logstash (而不是 service logstash start 這種方式)


/usr/share/logstash/bin/logstash --path.settings /etc/logstash --debug

如果 filebeat 有送資料來且有正確處理的話, 就會看到資料 parse 的結果

2. 有時候 log 成長的速度很慢, 但為了測試 filebeat 和 logstash 之間的運作, 會希望把整個 log file 重新送出
單純重啟 filebeat 是沒用的, 因為它會記得前一次處理到那邊 ( file point offset) , 所以要清掉它記錄相關資料的檔案


a. service filebeat stop
b. rm /var/lib/filebeat/registry   (該檔案路徑可以在  filebeat 本身的 log file 看到, 或者從設定檔也可找到)
c. service filebeat start

3. 清掉 elasticsearch 的資料
因為 elasticsearch 是 RESTFul 架構, 所以很多操作可以透過 curl 進行


curl -X DELETE 'http://localhost:9200/_all'

訂閱：文章 (Atom)

2017年9月18日 星期一